算法幫助AI在傳奇的Atari游戲中獲勝

2022-08-01 07:53:40 編輯：溫龍娣來源：

導(dǎo)讀 2015年，谷歌的DeepMind AI的任務(wù)是學(xué)習(xí)玩Atari視頻游戲。它也非常成功，在視頻彈球方面與人類玩家一樣出色。但由于游戲的復(fù)雜性，除了簡...

2015年，谷歌的DeepMind AI的任務(wù)是學(xué)習(xí)玩Atari視頻游戲。它也非常成功，在視頻彈球方面與人類玩家一樣出色。但由于游戲的復(fù)雜性，除了簡單的街機游戲之外，它開始掙扎，眾所周知甚至未能收集傳奇的20世紀(jì)80年代冒險游戲Montezuma's Revenge中的第一把鑰匙。

然而，一種新方法導(dǎo)致了一種AI算法，該算法從錯誤中學(xué)習(xí)，并確定中間步驟的速度提高了10倍，在Google失敗并成功自主玩Montezuma's Revenge之后取得了成功。

這項工作由Fabio Zambetta及其團隊在澳大利亞墨爾本的RMIT大學(xué)進行。Zambetta 于2月1日在夏威夷舉行的第33屆AAAI人工智能會議上介紹了這一發(fā)現(xiàn)。

設(shè)計可以克服計劃問題的人工智能，例如獎勵不是很明顯，是推動該領(lǐng)域最重要的挑戰(zhàn)之一。

人工智能在冒險游戲中掙扎的原因是，在發(fā)現(xiàn)一些獎勵之前，它認(rèn)為沒有動力選擇一種行動方式而不是其他任何一種方式，例如實現(xiàn)爬梯或跳過坑到達(dá)更大目標(biāo)的子目標(biāo)水平。

他們感到困惑并無法確定前進的道路，而只是隨意開始行動。

對于某些游戲，例如彈球，獎勵在附近，算法獲得所需的外部輸入。

然而，在一個冒險游戲中，獎勵更加分散，雞和蛋的情況發(fā)展。該程序發(fā)現(xiàn)自己無法改善其游戲玩法，直到獲得一些獎勵，但在改進其游戲玩法之前不會找到獎勵。

為了解決這個問題，Zambetta從其他電腦游戲中汲取靈感，如超級馬里奧和Pacman，并引入了顆粒獎勵，提供了小的中間獎勵，并鼓勵它探索和完成子目標(biāo)。

“真正聰明的人工智能需要能夠?qū)W會在模糊的環(huán)境中自主完成任務(wù)，”他說。

“我們已經(jīng)證明，正確的算法可以使用更智能的方法改善結(jié)果，而不是純粹粗暴地在非常強大的計算機上端到端地解決問題。”

這種方法意味著算法將更自然地行動，并且完成子目標(biāo)的速度比其他AI方法快10倍。

“不僅我們的算法在玩Montezuma's Revenge時自動識別相關(guān)任務(wù)的速度比Google DeepMind快10倍，他們還表現(xiàn)出相對類似人類的行為，”Zambetta聲稱。

“例如，在你可以進入游戲的第二個屏幕之前，你需要確定一些子任務(wù)，例如爬梯子，跳過一個敵人，然后最終拿起鑰匙，大致按照這個順序。

“這最終會在很長一段時間后隨機發(fā)生，但在我們的測試中如此自然地發(fā)生了某種意圖。

“這使我們成為第一個完全自主的面向目標(biāo)的代理商，與這些游戲中最先進的代理商真正競爭。”

雖然聽起來微不足道，但這項工作在游戲之外可能很重要。根據(jù)Zambetta的說法，激勵子目標(biāo)可能有利于控制自動駕駛汽車的算法以及需要機器人助手在現(xiàn)實世界中實現(xiàn)目標(biāo)的其他情況。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

精彩推薦

圖文推薦

點擊排行

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

算法幫助AI在傳奇的Atari游戲中獲勝

猜你喜歡

最新文章

精彩推薦

圖文推薦

點擊排行