您的位置: 首頁(yè) >科技 >

如何通過(guò)Facebook建立一個(gè)ace-hole AI機(jī)器人

2022-06-26 16:16:21 編輯:胥朗保 來(lái)源:
導(dǎo)讀 人工智能軟件可以在一對(duì)一的比賽中輕松勝過(guò)人類撲克職業(yè)選手和業(yè)余選手,這是眾所周知的?,F(xiàn)在,有史以來(lái)第一次建立了一個(gè)人工智能機(jī)器人

人工智能軟件可以在一對(duì)一的比賽中輕松勝過(guò)人類撲克職業(yè)選手和業(yè)余選手,這是眾所周知的。

現(xiàn)在,有史以來(lái)第一次建立了一個(gè)人工智能機(jī)器人,可以在六人無(wú)限制德州撲克牌桌上擊敗人類專業(yè)人士,并且已經(jīng)在周四發(fā)表在“科學(xué)” 雜志上的一篇學(xué)術(shù)論文中有所描述。

被稱為Pluribus的網(wǎng)絡(luò)鯊魚通過(guò)在八天內(nèi)反復(fù)播放數(shù)萬(wàn)億的游戲來(lái)學(xué)習(xí)如何玩流行的紙牌游戲。當(dāng)它與五位精英撲克職業(yè)玩家(包括世界撲克系列錦標(biāo)賽冠軍克里斯弗格森和邁克爾加利亞諾)共同打出10,000手牌時(shí),它果斷地獲勝。

根據(jù)該論文的第一作者諾姆·布朗(Noam Brown)的說(shuō)法,如果人工智能機(jī)器人一直在玩真錢游戲,而不是玩籌碼,那么平均每小時(shí)可以獲得1000美元玩六人無(wú)限制德州撲克。Facebook AI Research的研究科學(xué)家。據(jù)我們所知,該軟件以10,000美元的買入價(jià)玩了50美元/ 100美元無(wú)限注德州撲克現(xiàn)金游戲。

Pluribus的核心是一種稱為反事實(shí)后悔最小化(CFM)的自我發(fā)揮算法,其他撲克機(jī)器人也使用它。

該軟件基本上反對(duì)自身的多個(gè)副本,以逐步提高其技能。創(chuàng)建虛擬玩家表并給出隨機(jī)策略。對(duì)于算法的每次迭代,選擇一個(gè)玩家作為所謂的遍歷者。

在迭代之間的每個(gè)模擬手之后,代碼會(huì)回顧遍歷者的表現(xiàn),以及它是否可以針對(duì)其虛擬對(duì)手做得更好,因?yàn)樗麄円阎膫€(gè)人策略。該算法計(jì)算了遍歷者的反事實(shí)后悔,或者換句話說(shuō),遍歷者后悔沒(méi)有做出一個(gè)本來(lái)有益的舉動(dòng)。在迭代結(jié)束時(shí),這個(gè)反事實(shí)后悔被用來(lái)更新遍歷者的策略,以便在將來(lái)做出之前后悔沒(méi)有做出的動(dòng)作時(shí)有更高的概率。然后它進(jìn)入下一次迭代并選擇另一個(gè)遍歷器。

它非常聰明,因?yàn)樗馕吨浖谋容^好的時(shí)候開(kāi)始學(xué)習(xí),當(dāng)它有好手時(shí)應(yīng)該調(diào)用,或者在需要強(qiáng)制推出其他播放器時(shí)提高,或者在調(diào)用的價(jià)格不是時(shí)折疊值得冒風(fēng)險(xiǎn)。

在桌子上

在Pluribus按照描述進(jìn)行訓(xùn)練之后,它吸引了人類撲克專家。該軟件的決定在游戲過(guò)程中得到了改善,通過(guò)監(jiān)控其有血有肉的對(duì)手如何發(fā)揮作用。它會(huì)在游戲過(guò)程中考慮四種策略:一種是堅(jiān)持一種稱為“藍(lán)圖”的預(yù)先計(jì)算的策略,一種是傾向于積極地提升而不是一種策略,一種是像尼特一樣經(jīng)常折疊并且更頻繁地折疊的策略。一個(gè)傾向于成為呼叫站的地方。

當(dāng)它看到桌子上已經(jīng)處理了哪些牌時(shí),它忽略了它私下持有的兩張牌 - 它的底牌 - 而是考慮到牌桌上的社區(qū)牌,它可以通過(guò)它可能持有的所有可能的牌組合,并確定它們將采取哪些行動(dòng)。

至關(guān)重要的是,它被編程為平衡其動(dòng)作,以便它并不總是放棄其手的力量或弱點(diǎn)(例如總是用ac??es提升,或者總是折疊三種以下的任何東西)。

然后它查看了它的實(shí)際底牌,然后選擇了分配給該組合的動(dòng)作。這確保了它的虛張聲勢(shì),攻擊性,陷阱等等,以一種不明顯或不可預(yù)測(cè)的平衡方式。無(wú)論P(yáng)luribus是在一場(chǎng)比賽中對(duì)抗五個(gè)人類玩家還是五個(gè)機(jī)器人和一個(gè)人類,這種方法似乎運(yùn)作良好。當(dāng)它與其他四個(gè)機(jī)器人和超過(guò)5000手的人類對(duì)戰(zhàn)時(shí),它仍然令人信服地獲勝。

“與撲克機(jī)器人對(duì)戰(zhàn)并看到它選擇的一些策略令人難以置信,” 2016年贏得世界撲克錦標(biāo)賽手鐲的邁克爾加利亞諾說(shuō)道。“有幾部戲劇人類根本就沒(méi)有制作,特別是與其下注大小有關(guān)。“

克里斯“耶穌”弗格森,一個(gè)眾所周知的緊身多手球運(yùn)動(dòng)員,補(bǔ)充說(shuō):“Pluribus是一個(gè)非常努力的對(duì)手。很難用任何一手牌將他擊倒。他也很擅長(zhǎng)做出薄弱的賭注。這條河。他非常擅長(zhǎng)從好人手中榨取價(jià)值。“

現(xiàn)在,讓我們做一些事情:一,是的,這不是真正的錢,這意味著人類沒(méi)有什么可失去的,因此可能有不同的表現(xiàn),盡管對(duì)這些家伙來(lái)說(shuō)10,000美元并不是很多,真實(shí)與否。此外,盡管人類在絕大多數(shù)撲克玩家之上都是首屈一指的,并且已經(jīng)贏得了數(shù)百萬(wàn)美元,但卻不是世界上最好的。我們正在考慮Phil Ivey,Daniel Negreanu,F(xiàn)edor Holz,Erik Seidel,Justin Bonomo等等。我們的意思是,這個(gè)軟件并沒(méi)有完全擊敗人類。

除此之外,這是非??岬募夹g(shù):它可以看到激烈的專業(yè)人士。

不需要GPU

Pluribus在具有64個(gè)CPU內(nèi)核的服務(wù)器上進(jìn)行了培訓(xùn),并在8天內(nèi)共運(yùn)行了12,400個(gè)CPU核心小時(shí)。它需要不到512GB的內(nèi)存。它在Facebook和卡內(nèi)基梅隆大學(xué)(CMU)的主謀認(rèn)為,如果他們通過(guò)公共云實(shí)例租用計(jì)算資源,那么它的成本將低于150美元。

訓(xùn)練結(jié)束后,Pluribus在一個(gè)擁有兩個(gè)CPU并且需要不到128GB內(nèi)存的系統(tǒng)上運(yùn)行人類對(duì)手。對(duì)于游戲中的每個(gè)動(dòng)作,通常需要1到33秒的時(shí)間來(lái)執(zhí)行搜索操作。

“該領(lǐng)域的一些專家擔(dān)心未來(lái)的人工智能研究將由擁有數(shù)百萬(wàn)美元計(jì)算資源的大型團(tuán)隊(duì)主導(dǎo)。我們相信Pluribus是強(qiáng)有力的證據(jù),表明只需要適度資源的新方法可以推動(dòng)前沿的AI研究,“布朗說(shuō)。

降低撲克的復(fù)雜性

Pluribus與其前輩DeepStack和Libratus并沒(méi)有太大的不同。它仍然使用CFM算法,但不再依賴于計(jì)算納什均衡,這是一種在博弈論中提出的解決方案,它找到了最優(yōu)穩(wěn)定的策略,如果其他對(duì)手都沒(méi)有,則沒(méi)有動(dòng)力偏離均衡。例如,搖滾剪刀游戲中的納什均衡是在三個(gè)選項(xiàng)之間隨機(jī)選擇,假設(shè)這也是你的對(duì)手所做的事情。

如果只有另外一個(gè)人可以對(duì)抗,那么計(jì)算納什均衡就沒(méi)那問(wèn)題了。但是一旦游戲包含三個(gè)或更多玩家,計(jì)算機(jī)就會(huì)變得太多了。相反,Pluribus結(jié)合了從自我游戲中獲得的撲克知識(shí),并將其與搜索算法相結(jié)合,該搜索算法只需考慮前面的幾個(gè)步驟而不是整個(gè)游戲。

進(jìn)一步簡(jiǎn)化搜索過(guò)程以降低復(fù)雜性。不是每個(gè)動(dòng)作都需要考慮,游戲中的類似決策點(diǎn)被拼湊在一起并被視為相同。研究人員將此描述為抽象,Pluribus在考慮應(yīng)采取的行動(dòng)以及可獲得的信息時(shí)使用它。

“行動(dòng)抽象減少了AI需要考慮的不同行動(dòng)的數(shù)量。無(wú)限制德州撲克通常允許在100美元到10,000美元之間進(jìn)行任何全價(jià)。然而,在實(shí)踐中,200美元和201美元之間幾乎沒(méi)有區(qū)別。為了降低形成策略的復(fù)雜性,Pluribus在任何給定的決策點(diǎn)只考慮幾種不同的下注大小,“他們?cè)谡撐闹袑懙馈?/p>

當(dāng)涉及信息抽象時(shí),雖然十個(gè)高直和九高直是一組不同的卡,但它們會(huì)產(chǎn)生類似的策略。AI機(jī)器人將這些組合在一起并將它們視為相同,因此不必為每個(gè)場(chǎng)景計(jì)算兩種不同的策略。

撲克是一個(gè)復(fù)雜的問(wèn)題需要解決,因?yàn)槊總€(gè)玩家都無(wú)法看到其他玩家手中的牌,這使得它成為一個(gè)不完美的信息游戲。通過(guò)使用抽象,游戲的復(fù)雜性降低,并且可以有效地對(duì)抗多個(gè)對(duì)手。

在線撲克可能不會(huì)毀了?

代碼將不公開(kāi),謝天謝地,所以撲克愛(ài)好者將無(wú)法啟動(dòng)他們自己的AI主機(jī)器人試圖在網(wǎng)上快速降壓。實(shí)際上,由于代碼的主要部分是由CMU在由計(jì)算機(jī)科學(xué)教授Tuomas Sandholm領(lǐng)導(dǎo)的實(shí)驗(yàn)室中編寫的,因此該軟件的許可實(shí)際上屬于他創(chuàng)立的兩家公司:Strategic Machines和Strategy Robot。

為了研究目的,F(xiàn)acebook幫助建立在代碼之上。Sandholm告訴The Register,盡管Pluribus用于撲克,但它適用于具有不完全信息的類似場(chǎng)景。

Strategic Machine正在考慮將該技術(shù)應(yīng)用于一系列行業(yè),包括游戲,金融和醫(yī)療保健。Strategy Robot以為重點(diǎn),以智能和安全為目標(biāo)。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。