2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
Facebook研究人員已經(jīng)開發(fā)了一個通用的AI框架,稱為遞歸基于信念的學(xué)習(xí)(ReBeL),他們說單挑,無限制的德州撲克游戲在單挑,無限制德州撲克中的表現(xiàn)要好于人類,同時使用的領(lǐng)域知識也比以前任何撲克AI都要少。他們斷言,ReBeL是朝著開發(fā)用于多主體交互的通用技術(shù)邁出的一步,換句話說,就是可以在大規(guī)模多主體設(shè)置中部署的通用算法。從拍賣,談判和網(wǎng)絡(luò)安全到自動駕駛汽車和卡車,潛在的應(yīng)用范圍廣泛。
將強(qiáng)化學(xué)習(xí)與AI模型訓(xùn)練和測試時間的搜索相結(jié)合,帶來了許多進(jìn)步。強(qiáng)化學(xué)習(xí)是代理商通過最大化獎勵來學(xué)習(xí)實現(xiàn)目標(biāo)的過程,而搜索是從開始到目標(biāo)狀態(tài)的導(dǎo)航過程。例如,DeepMind的AlphaZero運用強(qiáng)化學(xué)習(xí)和搜索功能,在棋類,將棋和圍棋等棋盤游戲中獲得最先進(jìn)的表現(xiàn)。但是,將組合方法應(yīng)用于諸如撲克(或剪刀石頭布)之類的信息不完善的游戲時,性能會受到影響,因為它會做出許多在這些情況下不成立的假設(shè)。任何給定動作的價值取決于其被選擇的可能性,并且更普遍地取決于整個游戲策略。
Facebook研究人員建議ReBeL提供修復(fù)程序。ReBeL建立在工作的基礎(chǔ)上,其中“博弈狀態(tài)”的概念得到了擴(kuò)展,以包括代理商根據(jù)常識和其他代理商的政策對他們可能處于何種狀態(tài)的信念。ReBeL通過自我強(qiáng)化學(xué)習(xí)為州訓(xùn)練了兩個AI模型-一個價值網(wǎng)絡(luò)和一個政策網(wǎng)絡(luò)。它在自播放期間使用兩種模型進(jìn)行搜索。結(jié)果是一種簡單,靈活的算法,研究人員聲稱該算法能夠在大規(guī)模的兩人不完全信息游戲中擊敗頂尖的人類玩家。
在較高的級別上,ReBeL在公眾信仰狀態(tài)而非世界狀態(tài)(即游戲狀態(tài))上運行。公眾信仰國家(PBS)將“國家價值”的概念推廣到不完全信息的游戲中,例如撲克。PBS是在有限的可能動作和狀態(tài)序列(也稱為歷史記錄)上的常見知識概率分布。(概率分布是一種特殊的函數(shù),可提供發(fā)生不同可能結(jié)果的可能性。)在完美信息游戲中,PBS可以提取到歷史記錄,而在兩人零和游戲中,PBS可以有效地提取到世界狀態(tài)。撲克中的PBS是玩家可以做出的一系列決定,以及特定手牌,底池和籌碼時他們的結(jié)果。
ReBeL在每個游戲開始時都會生成一個與原始游戲相同的“子游戲”,只是它起源于最初的PBS。該算法通過運行“均衡查找”算法的迭代并使用訓(xùn)練后的值網(wǎng)絡(luò)在每次迭代中近似值來贏得勝利。通過強(qiáng)化學(xué)習(xí),發(fā)現(xiàn)值并將其添加為價值網(wǎng)絡(luò)的訓(xùn)練示例,并且子游戲中的策略可選地添加為策略網(wǎng)絡(luò)的示例。然后重復(fù)該過程,使PBS成為新的子游戲根,直到準(zhǔn)確性達(dá)到某個閾值。
在實驗中,研究人員對ReBeL進(jìn)行了單挑德州撲克無限
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。