Facebook研究人員已經(jīng)開(kāi)發(fā)了一個(gè)通用的AI框架

2020-07-31 08:42:42 編輯：來(lái)源：國(guó)際品牌資訊

導(dǎo)讀 Facebook研究人員已經(jīng)開(kāi)發(fā)了一個(gè)通用的AI框架，稱為遞歸基于信念的學(xué)習(xí)(ReBeL)，他們說(shuō)單挑，無(wú)限制的德州撲克游戲在單挑，無(wú)限制德州撲克

Facebook研究人員已經(jīng)開(kāi)發(fā)了一個(gè)通用的AI框架，稱為遞歸基于信念的學(xué)習(xí)(ReBeL)，他們說(shuō)單挑，無(wú)限制的德州撲克游戲在單挑，無(wú)限制德州撲克中的表現(xiàn)要好于人類，同時(shí)使用的領(lǐng)域知識(shí)也比以前任何撲克AI都要少。他們斷言，ReBeL是朝著開(kāi)發(fā)用于多主體交互的通用技術(shù)邁出的一步，換句話說(shuō)，就是可以在大規(guī)模多主體設(shè)置中部署的通用算法。從拍賣，談判和網(wǎng)絡(luò)安全到自動(dòng)駕駛汽車和卡車，潛在的應(yīng)用范圍廣泛。

將強(qiáng)化學(xué)習(xí)與AI模型訓(xùn)練和測(cè)試時(shí)間的搜索相結(jié)合，帶來(lái)了許多進(jìn)步。強(qiáng)化學(xué)習(xí)是代理商通過(guò)最大化獎(jiǎng)勵(lì)來(lái)學(xué)習(xí)實(shí)現(xiàn)目標(biāo)的過(guò)程，而搜索是從開(kāi)始到目標(biāo)狀態(tài)的導(dǎo)航過(guò)程。例如，DeepMind的AlphaZero運(yùn)用強(qiáng)化學(xué)習(xí)和搜索功能，在棋類，將棋和圍棋等棋盤游戲中獲得最先進(jìn)的表現(xiàn)。但是，將組合方法應(yīng)用于諸如撲克(或剪刀石頭布)之類的信息不完善的游戲時(shí)，性能會(huì)受到影響，因?yàn)樗鼤?huì)做出許多在這些情況下不成立的假設(shè)。任何給定動(dòng)作的價(jià)值取決于其被選擇的可能性，并且更普遍地取決于整個(gè)游戲策略。

Facebook研究人員建議ReBeL提供修復(fù)程序。ReBeL建立在工作的基礎(chǔ)上，其中“博弈狀態(tài)”的概念得到了擴(kuò)展，以包括代理商根據(jù)常識(shí)和其他代理商的政策對(duì)他們可能處于何種狀態(tài)的信念。ReBeL通過(guò)自我強(qiáng)化學(xué)習(xí)為州訓(xùn)練了兩個(gè)AI模型-一個(gè)價(jià)值網(wǎng)絡(luò)和一個(gè)政策網(wǎng)絡(luò)。它在自播放期間使用兩種模型進(jìn)行搜索。結(jié)果是一種簡(jiǎn)單，靈活的算法，研究人員聲稱該算法能夠在大規(guī)模的兩人不完全信息游戲中擊敗頂尖的人類玩家。

在較高的級(jí)別上，ReBeL在公眾信仰狀態(tài)而非世界狀態(tài)(即游戲狀態(tài))上運(yùn)行。公眾信仰國(guó)家(PBS)將“國(guó)家價(jià)值”的概念推廣到不完全信息的游戲中，例如撲克。PBS是在有限的可能動(dòng)作和狀態(tài)序列(也稱為歷史記錄)上的常見(jiàn)知識(shí)概率分布。(概率分布是一種特殊的函數(shù)，可提供發(fā)生不同可能結(jié)果的可能性。)在完美信息游戲中，PBS可以提取到歷史記錄，而在兩人零和游戲中，PBS可以有效地提取到世界狀態(tài)。撲克中的PBS是玩家可以做出的一系列決定，以及特定手牌，底池和籌碼時(shí)他們的結(jié)果。

ReBeL在每個(gè)游戲開(kāi)始時(shí)都會(huì)生成一個(gè)與原始游戲相同的“子游戲”，只是它起源于最初的PBS。該算法通過(guò)運(yùn)行“均衡查找”算法的迭代并使用訓(xùn)練后的值網(wǎng)絡(luò)在每次迭代中近似值來(lái)贏得勝利。通過(guò)強(qiáng)化學(xué)習(xí)，發(fā)現(xiàn)值并將其添加為價(jià)值網(wǎng)絡(luò)的訓(xùn)練示例，并且子游戲中的策略可選地添加為策略網(wǎng)絡(luò)的示例。然后重復(fù)該過(guò)程，使PBS成為新的子游戲根，直到準(zhǔn)確性達(dá)到某個(gè)閾值。

在實(shí)驗(yàn)中，研究人員對(duì)ReBeL進(jìn)行了單挑德州撲克無(wú)限

標(biāo)簽： Facebook