Libratus AI在20天的撲克游戲中擊敗了頂級(jí)職業(yè)選手

2019-06-21 16:59:41 編輯：來源：

導(dǎo)讀卡內(nèi)基梅隆大學(xué)的研究人員報(bào)告稱，今年早些時(shí)候在無限制德州撲克中擊敗四位頂級(jí)職業(yè)撲克玩家的人工智能，使用三管齊下的方法來掌握比宇宙中

卡內(nèi)基梅隆大學(xué)的研究人員報(bào)告稱，今年早些時(shí)候在無限制德州撲克中擊敗四位頂級(jí)職業(yè)撲克玩家的人工智能，使用三管齊下的方法來掌握比宇宙中原子更多決策點(diǎn)的游戲。。

在今天由科學(xué)雜志在線發(fā)表的論文中，計(jì)算機(jī)科學(xué)教授Tuomas Sandholm和博士Noam Brown博士。計(jì)算機(jī)科學(xué)系的學(xué)生，詳細(xì)說明他們的AI如何通過將游戲分解為計(jì)算可管理的部分來實(shí)現(xiàn)超人的表現(xiàn)，并且基于其對(duì)手的游戲玩法，在比賽期間修復(fù)其策略中的潛在弱點(diǎn)。

人工智能程序在跳棋，國(guó)際象棋和Go-all挑戰(zhàn)性游戲中擊敗了頂級(jí)人類，但兩個(gè)玩家在任何時(shí)候都知道游戲的確切狀態(tài)。相比之下，撲克玩家應(yīng)對(duì)隱藏的信息 - 他們的對(duì)手持有什么牌以及對(duì)手是否虛張聲勢(shì)。

2017年1月，在匹茲堡里弗斯河賭場(chǎng)舉行的為期20天的競(jìng)賽中，有12萬人參賽，Libratus成為第一個(gè)在頭頂無限制德州撲克中擊敗頂級(jí)人類玩家的人工智能 - 這是不完美的主要基準(zhǔn)和長(zhǎng)期挑戰(zhàn)問題AIs的信息游戲解決方案。

Libratus在雙人游戲中單獨(dú)擊敗每個(gè)玩家，共籌集超過180萬美元的籌碼。用不完全信息游戲人工智能研究人員使用的標(biāo)準(zhǔn)，以每手毫米百葉窗(mbb /手)來衡量，Libratus決定性地以147萬桶/手擊敗人類。在撲克術(shù)語中，這是每場(chǎng)比賽14.7個(gè)大盲注

“Libratus中的技術(shù)不使用專家領(lǐng)域知識(shí)或人類數(shù)據(jù)，也不是撲克專用的，”Sandholm和Brown在論文中說。“因此，他們適用于一系列不完善的信息游戲。” 他們指出，這些隱藏的信息在現(xiàn)實(shí)世界的戰(zhàn)略互動(dòng)中無處不在，包括商業(yè)談判，網(wǎng)絡(luò)安全，金融，戰(zhàn)略定價(jià)和軍事應(yīng)用。

Libratus包括三個(gè)主要模塊，第一個(gè)模塊計(jì)算游戲的抽象，比游戲中的所有10161(數(shù)字1后跟161個(gè)零)可能的決策點(diǎn)更小，更容易解決。然后它為德州撲克的早期輪次制定了自己的詳細(xì)策略，并為后續(xù)輪次制定了粗略策略。這種策略稱為藍(lán)圖策略。

撲克中這些抽象的一個(gè)例子是將類似的手放在一起并對(duì)它們進(jìn)行相同的處理。

“直覺上，King-high flush和Queen-high flush之間幾乎沒有區(qū)別，”Brown說。“將這些牌視為相同的牌會(huì)降低游戲的復(fù)雜性，從而使計(jì)算更容易。” 同樣，類似的投注大小也可以組合在一起。

但是在游戲的最后幾輪中，第二個(gè)模塊根據(jù)游戲狀態(tài)構(gòu)建一個(gè)新的，更細(xì)粒度的抽象。它還實(shí)時(shí)計(jì)算了這個(gè)子博弈的策略，使用藍(lán)圖策略來指導(dǎo)不同子游戲中的策略 - 需要采取一些措施來實(shí)現(xiàn)安全的子游戲解決。在1月份的比賽中，Libratus使用匹茲堡超級(jí)計(jì)算中心的Bridges計(jì)算機(jī)進(jìn)行了這項(xiàng)計(jì)算。

每當(dāng)對(duì)手進(jìn)行不在抽象中的移動(dòng)時(shí)，模塊計(jì)算該子游戲的解決方案，包括對(duì)手的移動(dòng)。桑德霍爾姆和布朗稱這個(gè)嵌套的子游戲解決了。

DeepStack是由阿爾伯塔大學(xué)創(chuàng)建的用于單挑，無限制德州撲克的人工智能，也包括一個(gè)類似的算法，稱為持續(xù)重新解決; 然而，DeepStack尚未針對(duì)頂級(jí)職業(yè)選手進(jìn)行測(cè)試。

第三個(gè)模塊旨在隨著競(jìng)爭(zhēng)的進(jìn)行改進(jìn)藍(lán)圖策略。通常，Sandholm說，AI使用機(jī)器學(xué)習(xí)來找到對(duì)手戰(zhàn)略中的錯(cuò)誤并利用它們。但如果對(duì)手改變策略，這也會(huì)使人工智能受到剝削。

相反，Libratus的自我改進(jìn)模塊分析了對(duì)手的賭注大小，以發(fā)現(xiàn)Libratus藍(lán)圖策略中的潛在漏洞。然后Libratus添加這些缺失的決策分支，為它們計(jì)算策略，并將它們添加到藍(lán)圖中。

除了擊敗人類專業(yè)人士之外，Libratus還被評(píng)估為最佳撲克AI。其中包括Baby Tartanian8，這是由Sandholm和Brown開發(fā)的機(jī)器人，贏得了與人工智能促進(jìn)協(xié)會(huì)年會(huì)一起舉辦的2016年度計(jì)算機(jī)撲克比賽。

嬰兒Tartanian8在比賽中以12(加/減10)mbb /手和24(加/減20)mbb /手擊敗接下來兩個(gè)最強(qiáng)的AI，Libratus以63(加/減28)mbb /手擊敗Baby Tartanian8 。作者指出，DeepStack尚未針對(duì)其他AI進(jìn)行測(cè)試。

“我們開發(fā)的技術(shù)在很大程度上與領(lǐng)域無關(guān)，因此可以應(yīng)用于其他戰(zhàn)略不完美信息交互，包括非娛樂應(yīng)用，”Sandholm和Brown總結(jié)道。“由于隱藏信息在現(xiàn)實(shí)世界的戰(zhàn)略互動(dòng)中無處不在，我們相信Libratus中引入的范例對(duì)于AI的未來發(fā)展和廣泛應(yīng)用至關(guān)重要。”

該技術(shù)已獲得由Sandholm成立的公司Strategic Machine，Inc。獨(dú)家授權(quán)，將戰(zhàn)略推理技術(shù)應(yīng)用于許多不同的應(yīng)用。

Brown和Sandholm關(guān)于嵌套子博弈解決方案的論文最近在神經(jīng)信息處理系統(tǒng)(NIPS 2017)會(huì)議上獲得了最佳論文獎(jiǎng)。Libratus在2017年高性能計(jì)算，網(wǎng)絡(luò)，存儲(chǔ)和分析國(guó)際會(huì)議(SC17)上獲得了HPCwire讀者選擇最佳AI使用獎(jiǎng)。

標(biāo)簽：頂級(jí)職業(yè)選手