您的位置: 首頁 >快訊 >

Atari大師 新的AI在視頻游戲挑戰(zhàn)中摧毀了Google DeepMind

2022-05-18 12:08:02 編輯:榮和梁 來源:
導(dǎo)讀 一種新的算法使Atari視頻游戲的掌握速度比最先進(jìn)的AI快10倍,并且采用了突破性的解決問題的方法。一種新的算法使Atari視頻游戲的掌握速度比

一種新的算法使Atari視頻游戲的掌握速度比最先進(jìn)的AI快10倍,并且采用了突破性的解決問題的方法。一種新的算法使Atari視頻游戲的掌握速度比最先進(jìn)的AI快10倍,并且采用了突破性的解決問題的方法。設(shè)計(jì)可以協(xié)商規(guī)劃問題的人工智能,尤其是獎(jiǎng)勵(lì)不是很明顯的人工智能,是推動(dòng)該領(lǐng)域最重要的研究挑戰(zhàn)之一。一項(xiàng)著名的2015年研究顯示,Google DeepMind AI學(xué)會(huì)了將視頻彈球等Atari視頻游戲發(fā)揮到人性化水平,但由于游戲的復(fù)雜性,臭名昭著的未能通過20世紀(jì)80年代電子游戲Montezuma's Revenge的第一把關(guān)鍵路徑。

在澳大利亞墨爾本皇家墨爾本理工大學(xué)開發(fā)的新方法中,計(jì)算機(jī)設(shè)置為自主玩蒙特祖瑪?shù)膹?fù)仇從錯(cuò)誤中學(xué)習(xí)并確定子目標(biāo)比谷歌DeepMind快10倍完成游戲。

來自皇家墨爾本理工大學(xué)的Fabio Zambetta副教授于本周五在美國第33屆AAAI人工智能會(huì)議上公布了這種新方法。

該方法是與RMIT的John Thangarajah教授和Michael Dann合作開發(fā)的,它將“胡蘿卜加大棒”強(qiáng)化學(xué)習(xí)與內(nèi)在激勵(lì)方法結(jié)合起來,獎(jiǎng)勵(lì)人工智能,使其好奇并探索其環(huán)境。

“真正智能的AI需要能夠?qū)W會(huì)在模糊的環(huán)境中自主完成任務(wù),”Zambetta說。

“我們已經(jīng)證明,正確的算法可以使用更智能的方法來改善結(jié)果,而不是純粹粗暴地在非常強(qiáng)大的計(jì)算機(jī)上端到端地解決問題。

“我們的研究結(jié)果表明,如果我們希望在這一領(lǐng)域取得實(shí)質(zhì)性進(jìn)展,我們能夠更加接近自主AI,并且可能成為一個(gè)重要的調(diào)查線。”

Zambetta的方法獎(jiǎng)勵(lì)系統(tǒng)自主探索有用的子目標(biāo),例如“攀爬那個(gè)階梯”或“跳過那個(gè)坑”,這對(duì)于計(jì)算機(jī)而言,在完成更大任務(wù)的背景下可能并不明顯。

其他最先進(jìn)的系統(tǒng)需要人工輸入來識(shí)別這些子目標(biāo),否則決定下一步隨機(jī)做什么。

“不僅我們的算法在玩Montezuma's Revenge時(shí)自動(dòng)識(shí)別相關(guān)任務(wù)的速度比Google DeepMind大約快10倍,他們還表現(xiàn)出相對(duì)類似人類的行為,”Zambetta說。

“例如,在你可以進(jìn)入游戲的第二個(gè)屏幕之前,你需要確定一些子任務(wù),例如爬梯子,跳過一個(gè)敵人,然后最終拿起鑰匙,大致按照這個(gè)順序。

“這最終會(huì)在很長一段時(shí)間后隨機(jī)發(fā)生,但在我們的測(cè)試中如此自然地發(fā)生了某種意圖。

“這使我們成為第一個(gè)完全自主的面向目標(biāo)的代理商,與這些游戲中最先進(jìn)的代理商真正競爭。”

Zambetta表示,當(dāng)提供原始視覺輸入時(shí),該系統(tǒng)可以在視頻游戲之外的各種任務(wù)中工作。

“創(chuàng)建一個(gè)可以完成視頻游戲的算法可能聽起來微不足道,但我們?cè)O(shè)計(jì)的一個(gè)可以應(yīng)對(duì)歧義的事實(shí),同時(shí)從任意數(shù)量的可能行??動(dòng)中選擇是一個(gè)關(guān)鍵的進(jìn)步。

“這意味著,隨著時(shí)間的推移,這項(xiàng)技術(shù)對(duì)于實(shí)現(xiàn)現(xiàn)實(shí)世界的目標(biāo)將是有價(jià)值的,無論是在自動(dòng)駕駛汽車中還是在自然語言識(shí)別中作為有用的機(jī)器人助手,”他說。

將于2019年2月1日在夏威夷檀香山舉行的第33屆AAAI人工智能會(huì)議上,自主推導(dǎo)子目標(biāo)以加速稀疏獎(jiǎng)勵(lì)領(lǐng)域的學(xué)習(xí)(附件)。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。