2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權歸原作者所有。
由卡內(nèi)基梅隆大學與Facebook AI合作開發(fā)的人工智能程序擊敗了世界上最受歡迎的撲克形式的六人無限制德州撲克中的領先專業(yè)人士。名為Pluribus的AI擊敗了撲克職業(yè)選手Darren Elias,他贏得了大多數(shù)世界撲克巡回賽冠軍的記錄,以及Chris“Jesus”Ferguson,六次世界撲克錦標賽的冠軍。每個職業(yè)玩家分別玩了5000手撲克牌對抗五份Pluribus。在另一項涉及13名職業(yè)選手的實驗中,所有人都贏得了超過100萬美元的撲克游戲,Pluribus一次共有5名職業(yè)玩家,共有10,000手牌,并再次取得勝利。
“Pluribus在多人撲克中取得了超人的表現(xiàn),這是人工智能和博弈理論中公認的里程碑,已經(jīng)開放了數(shù)十年,”天使喬丹計算機科學教授Tuomas Sandholm說道,他與Noam Brown一起開發(fā)了Pluribus,正在完成他的博士學位在卡內(nèi)基梅隆大學計算機科學系擔任Facebook AI的研究科學家。“到目前為止,戰(zhàn)略推理中的超人AI里程碑僅限于兩方競爭。在如此復雜的游戲中擊敗其他五名玩家的能力為使用AI解決各種各樣的現(xiàn)實問題開辟了新的機會。”
去年加入Facebook AI的布朗表示,“玩六人游戲而不是直接面對,需要對人工智能如何制定其游戲策略進行根本改變。”“我們對其表現(xiàn)感到高興,并相信一些Pluribus的比賽策略甚至可能會改變職業(yè)選手的比賽方式。”
Pluribus的算法在其策略中創(chuàng)造了一些令人驚訝的特征。例如,大多數(shù)人類玩家避免“下注” - 也就是說,通過一個電話結束一輪,然后通過下注開始下一輪。它被視為一種通常沒有戰(zhàn)略意義的弱勢舉動。但是Pluribus比其擊敗的專業(yè)人士更頻繁地下注。
“它的主要優(yōu)勢在于它能夠運用混合策略,”Elias上周為2019年世界撲克錦標賽主賽事做準備時表示。“這與人類試圖做的事情是一樣的。這是人類的執(zhí)行問題 - 以完全隨機的方式做到這一點并且始終這樣做。大多數(shù)人都做不到。”
埃利亞斯表示,Pluribus在具有統(tǒng)計意義的情況下取得了穩(wěn)固的勝利,尤其令人印象深刻。“機器人不僅僅是在對抗一些中間道路的職業(yè)選手。它正在扮演一些世界上最好的球員。”
Michael“Gags”Gagliano在職業(yè)生涯中獲得了近200萬美元的收入,他還與Pluribus競爭。
Gagliano說:“與撲克機器人對戰(zhàn)并看到它選擇的一些策略令人難以置信。”“人類根本沒有制作過幾部戲劇,特別是與它的賭注大小有關.Bots / AI是撲克演變的重要組成部分,在邁向這一大步的第一手經(jīng)驗真是太棒了。未來。”
Sandholm領導了一個研究計算機撲克的研究團隊超過16年。他和布朗早些時候開發(fā)了Libratus,兩年前果斷地擊敗了四名撲克職業(yè)玩家,共同參加了120,000手單挑無限制德州撲克,這是一款雙人版本的游戲。
國際象棋和圍棋等游戲長期以來一直是人工智能研究的里程碑。在那些游戲中,所有玩家都知道游戲板和所有棋子的狀態(tài)。但撲克是一個更大的挑戰(zhàn),因為它是一個不完整的信息游戲;玩家無法確定哪些牌在玩,而對手可以并且會詐唬。這使得它既是一個更嚴峻的AI挑戰(zhàn),也與涉及多方和缺少信息的許多現(xiàn)實問題更加相關。
所有在雙人游戲中表現(xiàn)出超人技能的AI都是通過近似所謂的納什均衡來實現(xiàn)的。以已故的卡內(nèi)基梅隆校友和諾貝爾獎獲得者約翰福布斯納什小命名,納什均衡是一對戰(zhàn)略(每個球員一個),只要其他球員的策略保持不變,任何球員都不能從改變策略中受益。雖然人工智能的策略只能保證結果不比平局更差,但如果AI的對手犯了錯誤的計算且無法維持均衡,那么AI就會取得勝利。
在有兩個以上球員的比賽中,打納什均衡可能是一種失敗的策略。因此,Pluribus摒棄了成功的理論保證,并制定了戰(zhàn)略,使其能夠始終如一地擊敗對手。
Pluribus首先通過打出六個副本來計算“藍圖”策略,這足以進行第一輪下注。從那時起,Pluribus對游戲的細粒度抽象中的可能移動進行了更詳細的搜索。它會向前看幾個動作,但不要一直向前看到游戲結束,這在計算上是令人望而卻步的。有限前瞻搜索是完美信息游戲中的標準方法,但在不完美信息游戲中極具挑戰(zhàn)性。一種新的有限前瞻搜索算法是使Pluribus實現(xiàn)超人多玩家撲克的主要突破。
具體來說,搜索是有限前瞻子博弈的不完美信息游戲解決方案。在那個子博弈的葉子上,AI考慮了五個可能的延續(xù)策略,每個對手和自己可能會在剩下的比賽中采用??赡艿难永m(xù)策略的數(shù)量要大得多,但研究人員發(fā)現(xiàn)他們的算法只需要考慮每個葉子的每個玩家的五個延續(xù)策略來計算強大,平衡的整體策略。
Pluribus也試圖變得不可預測。例如,如果AI擁有最好的牌,投注將是有意義的,但如果AI只有在擁有最好的牌時下注,對手才會很快接受。因此,Pluribus會計算它如何在它可能擁有的每一只可能的牌中動作,然后計算一種在所有這些可能性之間取得平衡的策略。
雖然撲克是一個非常復雜的游戲,但Pluribus有效地利用了計算。已經(jīng)在游戲中實現(xiàn)最近里程碑的AI已經(jīng)使用了大量的GPU服務器和/或農(nóng)場;Libratus使用了大約1500萬個核心小時來制定策略,并且在實時游戲中使用了1,400個CPU核心。Pluribus在8天內(nèi)僅使用12,400個核心小時計算了其藍圖策略,并且在實時播放期間僅使用了28個核心。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權歸原作者所有。