AI擊敗了六人撲克中的專業(yè)人士

2022-05-15 05:12:02 編輯：鄭瀅維來源：

導(dǎo)讀由卡內(nèi)基梅隆大學(xué)與Facebook AI合作開發(fā)的人工智能程序擊敗了世界上最受歡迎的撲克形式的六人無限制德州撲克中的領(lǐng)先專業(yè)人士。名為Plurib

由卡內(nèi)基梅隆大學(xué)與Facebook AI合作開發(fā)的人工智能程序擊敗了世界上最受歡迎的撲克形式的六人無限制德州撲克中的領(lǐng)先專業(yè)人士。名為Pluribus的AI擊敗了撲克職業(yè)選手Darren Elias，他贏得了大多數(shù)世界撲克巡回賽冠軍的記錄，以及Chris“Jesus”Ferguson，六次世界撲克錦標(biāo)賽的冠軍。每個(gè)職業(yè)玩家分別玩了5000手撲克牌對(duì)抗五份Pluribus。在另一項(xiàng)涉及13名職業(yè)選手的實(shí)驗(yàn)中，所有人都贏得了超過100萬美元的撲克游戲，Pluribus一次共有5名職業(yè)玩家，共有10,000手牌，并再次取得勝利。

“Pluribus在多人撲克中取得了超人的表現(xiàn)，這是人工智能和博弈理論中公認(rèn)的里程碑，已經(jīng)開放了數(shù)十年，”天使喬丹計(jì)算機(jī)科學(xué)教授Tuomas Sandholm說道，他與Noam Brown一起開發(fā)了Pluribus，正在完成他的博士學(xué)位在卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)系擔(dān)任Facebook AI的研究科學(xué)家。“到目前為止，戰(zhàn)略推理中的超人AI里程碑僅限于兩方競爭。在如此復(fù)雜的游戲中擊敗其他五名玩家的能力為使用AI解決各種各樣的現(xiàn)實(shí)問題開辟了新的機(jī)會(huì)。”

去年加入Facebook AI的布朗表示，“玩六人游戲而不是直接面對(duì)，需要對(duì)人工智能如何制定其游戲策略進(jìn)行根本改變。”“我們對(duì)其表現(xiàn)感到高興，并相信一些Pluribus的比賽策略甚至可能會(huì)改變職業(yè)選手的比賽方式。”

Pluribus的算法在其策略中創(chuàng)造了一些令人驚訝的特征。例如，大多數(shù)人類玩家避免“下注” - 也就是說，通過一個(gè)電話結(jié)束一輪，然后通過下注開始下一輪。它被視為一種通常沒有戰(zhàn)略意義的弱勢舉動(dòng)。但是Pluribus比其擊敗的專業(yè)人士更頻繁地下注。

“它的主要優(yōu)勢在于它能夠運(yùn)用混合策略，”Elias上周為2019年世界撲克錦標(biāo)賽主賽事做準(zhǔn)備時(shí)表示。“這與人類試圖做的事情是一樣的。這是人類的執(zhí)行問題 - 以完全隨機(jī)的方式做到這一點(diǎn)并且始終這樣做。大多數(shù)人都做不到。”

埃利亞斯表示，Pluribus在具有統(tǒng)計(jì)意義的情況下取得了穩(wěn)固的勝利，尤其令人印象深刻。“機(jī)器人不僅僅是在對(duì)抗一些中間道路的職業(yè)選手。它正在扮演一些世界上最好的球員。”

Michael“Gags”Gagliano在職業(yè)生涯中獲得了近200萬美元的收入，他還與Pluribus競爭。

Gagliano說：“與撲克機(jī)器人對(duì)戰(zhàn)并看到它選擇的一些策略令人難以置信。”“人類根本沒有制作過幾部戲劇，特別是與它的賭注大小有關(guān).Bots / AI是撲克演變的重要組成部分，在邁向這一大步的第一手經(jīng)驗(yàn)真是太棒了。未來。”

Sandholm領(lǐng)導(dǎo)了一個(gè)研究計(jì)算機(jī)撲克的研究團(tuán)隊(duì)超過16年。他和布朗早些時(shí)候開發(fā)了Libratus，兩年前果斷地?fù)魯×怂拿麚淇寺殬I(yè)玩家，共同參加了120,000手單挑無限制德州撲克，這是一款雙人版本的游戲。

國際象棋和圍棋等游戲長期以來一直是人工智能研究的里程碑。在那些游戲中，所有玩家都知道游戲板和所有棋子的狀態(tài)。但撲克是一個(gè)更大的挑戰(zhàn)，因?yàn)樗且粋€(gè)不完整的信息游戲;玩家無法確定哪些牌在玩，而對(duì)手可以并且會(huì)詐唬。這使得它既是一個(gè)更嚴(yán)峻的AI挑戰(zhàn)，也與涉及多方和缺少信息的許多現(xiàn)實(shí)問題更加相關(guān)。

所有在雙人游戲中表現(xiàn)出超人技能的AI都是通過近似所謂的納什均衡來實(shí)現(xiàn)的。以已故的卡內(nèi)基梅隆校友和諾貝爾獎(jiǎng)獲得者約翰福布斯納什小命名，納什均衡是一對(duì)戰(zhàn)略(每個(gè)球員一個(gè))，只要其他球員的策略保持不變，任何球員都不能從改變策略中受益。雖然人工智能的策略只能保證結(jié)果不比平局更差，但如果AI的對(duì)手犯了錯(cuò)誤的計(jì)算且無法維持均衡，那么AI就會(huì)取得勝利。

在有兩個(gè)以上球員的比賽中，打納什均衡可能是一種失敗的策略。因此，Pluribus摒棄了成功的理論保證，并制定了戰(zhàn)略，使其能夠始終如一地?fù)魯?duì)手。

Pluribus首先通過打出六個(gè)副本來計(jì)算“藍(lán)圖”策略，這足以進(jìn)行第一輪下注。從那時(shí)起，Pluribus對(duì)游戲的細(xì)粒度抽象中的可能移動(dòng)進(jìn)行了更詳細(xì)的搜索。它會(huì)向前看幾個(gè)動(dòng)作，但不要一直向前看到游戲結(jié)束，這在計(jì)算上是令人望而卻步的。有限前瞻搜索是完美信息游戲中的標(biāo)準(zhǔn)方法，但在不完美信息游戲中極具挑戰(zhàn)性。一種新的有限前瞻搜索算法是使Pluribus實(shí)現(xiàn)超人多玩家撲克的主要突破。

具體來說，搜索是有限前瞻子博弈的不完美信息游戲解決方案。在那個(gè)子博弈的葉子上，AI考慮了五個(gè)可能的延續(xù)策略，每個(gè)對(duì)手和自己可能會(huì)在剩下的比賽中采用。可能的延續(xù)策略的數(shù)量要大得多，但研究人員發(fā)現(xiàn)他們的算法只需要考慮每個(gè)葉子的每個(gè)玩家的五個(gè)延續(xù)策略來計(jì)算強(qiáng)大，平衡的整體策略。

Pluribus也試圖變得不可預(yù)測。例如，如果AI擁有最好的牌，投注將是有意義的，但如果AI只有在擁有最好的牌時(shí)下注，對(duì)手才會(huì)很快接受。因此，Pluribus會(huì)計(jì)算它如何在它可能擁有的每一只可能的牌中動(dòng)作，然后計(jì)算一種在所有這些可能性之間取得平衡的策略。

雖然撲克是一個(gè)非常復(fù)雜的游戲，但Pluribus有效地利用了計(jì)算。已經(jīng)在游戲中實(shí)現(xiàn)最近里程碑的AI已經(jīng)使用了大量的GPU服務(wù)器和/或農(nóng)場;Libratus使用了大約1500萬個(gè)核心小時(shí)來制定策略，并且在實(shí)時(shí)游戲中使用了1,400個(gè)CPU核心。Pluribus在8天內(nèi)僅使用12,400個(gè)核心小時(shí)計(jì)算了其藍(lán)圖策略，并且在實(shí)時(shí)播放期間僅使用了28個(gè)核心。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！