2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號(hào):
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請(qǐng)將#換成@)
由卡內(nèi)基梅隆大學(xué)與Facebook AI合作開(kāi)發(fā)的人工智能程序擊敗了世界上最受歡迎的撲克形式的六人無(wú)限制德州撲克中的領(lǐng)先專業(yè)人士。名為Pluribus的AI擊敗了撲克職業(yè)選手Darren Elias,他贏得了大多數(shù)世界撲克巡回賽冠軍的記錄,以及Chris“Jesus”Ferguson,六次世界撲克錦標(biāo)賽的冠軍。每個(gè)職業(yè)玩家分別玩了5000手撲克牌對(duì)抗五份Pluribus。在另一項(xiàng)涉及13名職業(yè)選手的實(shí)驗(yàn)中,所有人都贏得了超過(guò)100萬(wàn)美元的撲克游戲,Pluribus一次共有5名職業(yè)玩家,共有10,000手牌,并再次取得勝利。
“Pluribus在多人撲克中取得了超人的表現(xiàn),這是人工智能和博弈理論中公認(rèn)的里程碑,已經(jīng)開(kāi)放了數(shù)十年,”天使喬丹計(jì)算機(jī)科學(xué)教授Tuomas Sandholm說(shuō)道,他與Noam Brown一起開(kāi)發(fā)了Pluribus,正在完成他的博士學(xué)位在卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)系擔(dān)任Facebook AI的研究科學(xué)家。“到目前為止,戰(zhàn)略推理中的超人AI里程碑僅限于兩方競(jìng)爭(zhēng)。在如此復(fù)雜的游戲中擊敗其他五名玩家的能力為使用AI解決各種各樣的現(xiàn)實(shí)問(wèn)題開(kāi)辟了新的機(jī)會(huì)。”
去年加入Facebook AI的布朗表示,“玩六人游戲而不是直接面對(duì),需要對(duì)人工智能如何制定其游戲策略進(jìn)行根本改變。”“我們對(duì)其表現(xiàn)感到高興,并相信一些Pluribus的比賽策略甚至可能會(huì)改變職業(yè)選手的比賽方式。”
Pluribus的算法在其策略中創(chuàng)造了一些令人驚訝的特征。例如,大多數(shù)人類玩家避免“下注” - 也就是說(shuō),通過(guò)一個(gè)電話結(jié)束一輪,然后通過(guò)下注開(kāi)始下一輪。它被視為一種通常沒(méi)有戰(zhàn)略意義的弱勢(shì)舉動(dòng)。但是Pluribus比其擊敗的專業(yè)人士更頻繁地下注。
“它的主要優(yōu)勢(shì)在于它能夠運(yùn)用混合策略,”Elias上周為2019年世界撲克錦標(biāo)賽主賽事做準(zhǔn)備時(shí)表示。“這與人類試圖做的事情是一樣的。這是人類的執(zhí)行問(wèn)題 - 以完全隨機(jī)的方式做到這一點(diǎn)并且始終這樣做。大多數(shù)人都做不到。”
埃利亞斯表示,Pluribus在具有統(tǒng)計(jì)意義的情況下取得了穩(wěn)固的勝利,尤其令人印象深刻。“機(jī)器人不僅僅是在對(duì)抗一些中間道路的職業(yè)選手。它正在扮演一些世界上最好的球員。”
Michael“Gags”Gagliano在職業(yè)生涯中獲得了近200萬(wàn)美元的收入,他還與Pluribus競(jìng)爭(zhēng)。
Gagliano說(shuō):“與撲克機(jī)器人對(duì)戰(zhàn)并看到它選擇的一些策略令人難以置信。”“人類根本沒(méi)有制作過(guò)幾部戲劇,特別是與它的賭注大小有關(guān).Bots / AI是撲克演變的重要組成部分,在邁向這一大步的第一手經(jīng)驗(yàn)真是太棒了。未來(lái)。”
Sandholm領(lǐng)導(dǎo)了一個(gè)研究計(jì)算機(jī)撲克的研究團(tuán)隊(duì)超過(guò)16年。他和布朗早些時(shí)候開(kāi)發(fā)了Libratus,兩年前果斷地?fù)魯×怂拿麚淇寺殬I(yè)玩家,共同參加了120,000手單挑無(wú)限制德州撲克,這是一款雙人版本的游戲。
國(guó)際象棋和圍棋等游戲長(zhǎng)期以來(lái)一直是人工智能研究的里程碑。在那些游戲中,所有玩家都知道游戲板和所有棋子的狀態(tài)。但撲克是一個(gè)更大的挑戰(zhàn),因?yàn)樗且粋€(gè)不完整的信息游戲;玩家無(wú)法確定哪些牌在玩,而對(duì)手可以并且會(huì)詐唬。這使得它既是一個(gè)更嚴(yán)峻的AI挑戰(zhàn),也與涉及多方和缺少信息的許多現(xiàn)實(shí)問(wèn)題更加相關(guān)。
所有在雙人游戲中表現(xiàn)出超人技能的AI都是通過(guò)近似所謂的納什均衡來(lái)實(shí)現(xiàn)的。以已故的卡內(nèi)基梅隆校友和諾貝爾獎(jiǎng)獲得者約翰福布斯納什小命名,納什均衡是一對(duì)戰(zhàn)略(每個(gè)球員一個(gè)),只要其他球員的策略保持不變,任何球員都不能從改變策略中受益。雖然人工智能的策略只能保證結(jié)果不比平局更差,但如果AI的對(duì)手犯了錯(cuò)誤的計(jì)算且無(wú)法維持均衡,那么AI就會(huì)取得勝利。
在有兩個(gè)以上球員的比賽中,打納什均衡可能是一種失敗的策略。因此,Pluribus摒棄了成功的理論保證,并制定了戰(zhàn)略,使其能夠始終如一地?fù)魯?duì)手。
Pluribus首先通過(guò)打出六個(gè)副本來(lái)計(jì)算“藍(lán)圖”策略,這足以進(jìn)行第一輪下注。從那時(shí)起,Pluribus對(duì)游戲的細(xì)粒度抽象中的可能移動(dòng)進(jìn)行了更詳細(xì)的搜索。它會(huì)向前看幾個(gè)動(dòng)作,但不要一直向前看到游戲結(jié)束,這在計(jì)算上是令人望而卻步的。有限前瞻搜索是完美信息游戲中的標(biāo)準(zhǔn)方法,但在不完美信息游戲中極具挑戰(zhàn)性。一種新的有限前瞻搜索算法是使Pluribus實(shí)現(xiàn)超人多玩家撲克的主要突破。
具體來(lái)說(shuō),搜索是有限前瞻子博弈的不完美信息游戲解決方案。在那個(gè)子博弈的葉子上,AI考慮了五個(gè)可能的延續(xù)策略,每個(gè)對(duì)手和自己可能會(huì)在剩下的比賽中采用。可能的延續(xù)策略的數(shù)量要大得多,但研究人員發(fā)現(xiàn)他們的算法只需要考慮每個(gè)葉子的每個(gè)玩家的五個(gè)延續(xù)策略來(lái)計(jì)算強(qiáng)大,平衡的整體策略。
Pluribus也試圖變得不可預(yù)測(cè)。例如,如果AI擁有最好的牌,投注將是有意義的,但如果AI只有在擁有最好的牌時(shí)下注,對(duì)手才會(huì)很快接受。因此,Pluribus會(huì)計(jì)算它如何在它可能擁有的每一只可能的牌中動(dòng)作,然后計(jì)算一種在所有這些可能性之間取得平衡的策略。
雖然撲克是一個(gè)非常復(fù)雜的游戲,但Pluribus有效地利用了計(jì)算。已經(jīng)在游戲中實(shí)現(xiàn)最近里程碑的AI已經(jīng)使用了大量的GPU服務(wù)器和/或農(nóng)場(chǎng);Libratus使用了大約1500萬(wàn)個(gè)核心小時(shí)來(lái)制定策略,并且在實(shí)時(shí)游戲中使用了1,400個(gè)CPU核心。Pluribus在8天內(nèi)僅使用12,400個(gè)核心小時(shí)計(jì)算了其藍(lán)圖策略,并且在實(shí)時(shí)播放期間僅使用了28個(gè)核心。
中國(guó)經(jīng)濟(jì)展望2024(關(guān)于中國(guó)經(jīng)濟(jì)展望2024的簡(jiǎn)介)
暴發(fā)性心肌炎警示:感冒也可能引發(fā)致命疾病,注意預(yù)防和早期診治!
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號(hào):
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請(qǐng)將#換成@)