Atari大師新的AI在視頻游戲挑戰(zhàn)中摧毀了Google DeepMind

2022-05-18 12:08:02 編輯：榮和梁來(lái)源：

導(dǎo)讀一種新的算法使Atari視頻游戲的掌握速度比最先進(jìn)的AI快10倍，并且采用了突破性的解決問(wèn)題的方法。一種新的算法使Atari視頻游戲的掌握速度比

一種新的算法使Atari視頻游戲的掌握速度比最先進(jìn)的AI快10倍，并且采用了突破性的解決問(wèn)題的方法。一種新的算法使Atari視頻游戲的掌握速度比最先進(jìn)的AI快10倍，并且采用了突破性的解決問(wèn)題的方法。設(shè)計(jì)可以協(xié)商規(guī)劃問(wèn)題的人工智能，尤其是獎(jiǎng)勵(lì)不是很明顯的人工智能，是推動(dòng)該領(lǐng)域最重要的研究挑戰(zhàn)之一。一項(xiàng)著名的2015年研究顯示，Google DeepMind AI學(xué)會(huì)了將視頻彈球等Atari視頻游戲發(fā)揮到人性化水平，但由于游戲的復(fù)雜性，臭名昭著的未能通過(guò)20世紀(jì)80年代電子游戲Montezuma's Revenge的第一把關(guān)鍵路徑。

在澳大利亞墨爾本皇家墨爾本理工大學(xué)開(kāi)發(fā)的新方法中，計(jì)算機(jī)設(shè)置為自主玩蒙特祖瑪?shù)膹?fù)仇從錯(cuò)誤中學(xué)習(xí)并確定子目標(biāo)比谷歌DeepMind快10倍完成游戲。

來(lái)自皇家墨爾本理工大學(xué)的Fabio Zambetta副教授于本周五在美國(guó)第33屆AAAI人工智能會(huì)議上公布了這種新方法。

該方法是與RMIT的John Thangarajah教授和Michael Dann合作開(kāi)發(fā)的，它將“胡蘿卜加大棒”強(qiáng)化學(xué)習(xí)與內(nèi)在激勵(lì)方法結(jié)合起來(lái)，獎(jiǎng)勵(lì)人工智能，使其好奇并探索其環(huán)境。

“真正智能的AI需要能夠?qū)W會(huì)在模糊的環(huán)境中自主完成任務(wù)，”Zambetta說(shuō)。

“我們已經(jīng)證明，正確的算法可以使用更智能的方法來(lái)改善結(jié)果，而不是純粹粗暴地在非常強(qiáng)大的計(jì)算機(jī)上端到端地解決問(wèn)題。

“我們的研究結(jié)果表明，如果我們希望在這一領(lǐng)域取得實(shí)質(zhì)性進(jìn)展，我們能夠更加接近自主AI，并且可能成為一個(gè)重要的調(diào)查線。”

Zambetta的方法獎(jiǎng)勵(lì)系統(tǒng)自主探索有用的子目標(biāo)，例如“攀爬那個(gè)階梯”或“跳過(guò)那個(gè)坑”，這對(duì)于計(jì)算機(jī)而言，在完成更大任務(wù)的背景下可能并不明顯。

其他最先進(jìn)的系統(tǒng)需要人工輸入來(lái)識(shí)別這些子目標(biāo)，否則決定下一步隨機(jī)做什么。

“不僅我們的算法在玩Montezuma's Revenge時(shí)自動(dòng)識(shí)別相關(guān)任務(wù)的速度比Google DeepMind大約快10倍，他們還表現(xiàn)出相對(duì)類似人類的行為，”Zambetta說(shuō)。

“例如，在你可以進(jìn)入游戲的第二個(gè)屏幕之前，你需要確定一些子任務(wù)，例如爬梯子，跳過(guò)一個(gè)敵人，然后最終拿起鑰匙，大致按照這個(gè)順序。

“這最終會(huì)在很長(zhǎng)一段時(shí)間后隨機(jī)發(fā)生，但在我們的測(cè)試中如此自然地發(fā)生了某種意圖。

“這使我們成為第一個(gè)完全自主的面向目標(biāo)的代理商，與這些游戲中最先進(jìn)的代理商真正競(jìng)爭(zhēng)。”

Zambetta表示，當(dāng)提供原始視覺(jué)輸入時(shí)，該系統(tǒng)可以在視頻游戲之外的各種任務(wù)中工作。

“創(chuàng)建一個(gè)可以完成視頻游戲的算法可能聽(tīng)起來(lái)微不足道，但我們?cè)O(shè)計(jì)的一個(gè)可以應(yīng)對(duì)歧義的事實(shí)，同時(shí)從任意數(shù)量的可能行??動(dòng)中選擇是一個(gè)關(guān)鍵的進(jìn)步。

“這意味著，隨著時(shí)間的推移，這項(xiàng)技術(shù)對(duì)于實(shí)現(xiàn)現(xiàn)實(shí)世界的目標(biāo)將是有價(jià)值的，無(wú)論是在自動(dòng)駕駛汽車中還是在自然語(yǔ)言識(shí)別中作為有用的機(jī)器人助手，”他說(shuō)。

將于2019年2月1日在夏威夷檀香山舉行的第33屆AAAI人工智能會(huì)議上，自主推導(dǎo)子目標(biāo)以加速稀疏獎(jiǎng)勵(lì)領(lǐng)域的學(xué)習(xí)(附件)。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！