DeepMind思想家在益智游戲和宇宙飛船導(dǎo)航游戲上測試架構(gòu)

2019-06-27 11:20:58 編輯：來源：

導(dǎo)讀想象和計(jì)劃的代表：這是本月早些時(shí)候六個(gè)DeepMind團(tuán)隊(duì)成員的DeepMind討論的標(biāo)題。他們在兩個(gè)論文上完成了DeepMind研究工作的方向，現(xiàn)在正在

想象和計(jì)劃的代表：這是本月早些時(shí)候六個(gè)DeepMind團(tuán)隊(duì)成員的DeepMind討論的標(biāo)題。

他們在兩個(gè)論文上完成了DeepMind研究工作的方向，現(xiàn)在正在arXiv上。

他們說，在你采取行動(dòng)之前想象你行為的后果是人類認(rèn)知的有力工具。(我們每天都這樣做。就像那個(gè)筆在你桌面的邊緣搖搖晃晃。你可以“想象”它落下，所以你把它移到一個(gè)更安全的位置。)

“如果我們的算法要發(fā)展同樣復(fù)雜的行為，他們也必須具備'想象'和推理未來的能力。”

正如Thomas Claburn在The Register中指出的那樣，DeepMind“已經(jīng)發(fā)現(xiàn)，用想象力灌輸其軟件代理可以幫助他們更好地學(xué)習(xí)。”

什么樣的想象。

如果你研究報(bào)道這項(xiàng)研究的新聞網(wǎng)站，你會(huì)發(fā)現(xiàn)他們會(huì)仔細(xì)地說出它是什么以及它不是什么，而是使用諸如想象力 - “喜歡”和想象力 - “基于”這樣的短語。

他們從根本上研究了改進(jìn)深層強(qiáng)化學(xué)習(xí)的新技術(shù)。

克拉本用非常清晰的語言翻譯了他們正在做的事情：

“強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種形式。它涉及一種軟件代理，通過與特定環(huán)境的交互來學(xué)習(xí)，通常是通過反復(fù)試驗(yàn)。深度學(xué)習(xí)是一種機(jī)器形式，涉及受人類大腦啟發(fā)的算法，稱為神經(jīng)網(wǎng)絡(luò)。這兩種技術(shù)可以一起使用。“ 他說，DeepMind的工作試圖提供兩全其美的優(yōu)勢。

代理人從像素表示中播放Sokoban，而不知道游戲規(guī)則。在特定的時(shí)間點(diǎn)，我們想象代理人對五種可能未來的想象。根據(jù)該信息，代理商決定采取什么行動(dòng)。突出顯示相應(yīng)的軌跡。閱讀DeepMind博客：想象和計(jì)劃的代理商

在現(xiàn)實(shí)世界中，復(fù)雜性規(guī)則。說到規(guī)則，在現(xiàn)實(shí)生活中，它們并沒有如此清晰地定義。事情發(fā)生你無法輕易預(yù)測。至于規(guī)劃策略，我們非常清楚，一個(gè)通用的答案并不總是適用于真實(shí)的環(huán)境。

代理商如何處理復(fù)雜問題?團(tuán)隊(duì)成員有兩篇論文涉及這一切。他們描述了一系列基于想象力的計(jì)劃方法。引入了體系結(jié)構(gòu)，以便代理商學(xué)習(xí)和構(gòu)建計(jì)劃以最大化任務(wù)效率的新方法。

關(guān)于這些代理人的一個(gè)更有趣的特征描述是“他們可以學(xué)習(xí)不同的策略來構(gòu)建計(jì)劃。他們通過在繼續(xù)當(dāng)前的想象軌跡或從頭開始重新選擇之間做出選擇。”

他們還可以使用不同的想象模型，“具有不同的精度和計(jì)算成本。”

研究人員測試了任務(wù)的架構(gòu)，包括益智游戲推箱子和宇宙飛船導(dǎo)航游戲。

推箱子視頻說明：一名經(jīng)紀(jì)人從像素表示中扮演推箱子，不知道游戲規(guī)則。

宇宙飛船任務(wù)的注意事項(xiàng)：DeepMind的帖子帶有一個(gè)“代理人玩太空飛船任務(wù)的視覺效果。紅線表示在環(huán)境中執(zhí)行的軌跡，而藍(lán)色和綠色表示想象的軌跡。”

結(jié)果?

“對于這兩項(xiàng)任務(wù)，想象力增強(qiáng)的特工大大優(yōu)于無想象力的基線：他們以較少的經(jīng)驗(yàn)學(xué)習(xí)，能夠應(yīng)對環(huán)境建模的不完美之處。”

正如TNW的亞歷杭德羅·陶伯所說，“這些論文中描述的想象力類型遠(yuǎn)不及人類所能達(dá)到的那種，但它確實(shí)表明，人工智能可以并且能夠在行動(dòng)之前有效地想象不同的場景。”

關(guān)于論文：“想象力增強(qiáng)的深層強(qiáng)化學(xué)習(xí)代理”本月在arXiv上提交。

他們表示，這些代理人通過“學(xué)習(xí)解釋”他們的不完美預(yù)測來使用近似環(huán)境模型，并且他們的算法可以直接在低級別的觀察上進(jìn)行訓(xùn)練，只需很少的領(lǐng)域知識(shí)。

“在不對環(huán)境模型的結(jié)構(gòu)及其可能的不完善性做出任何假設(shè)的情況下，我們的方法以端到端的方式學(xué)習(xí)，從模型模擬中提取有用的知識(shí) - 特別是不依賴于模擬的回報(bào)。”

另一篇論文是“從零開始學(xué)習(xí)基于模型的規(guī)劃”，本月也提交了arXiv。“我們表明，我們的架構(gòu)可以學(xué)習(xí)解決具有挑戰(zhàn)性的連續(xù)控制問題，并在離散的迷宮解決任務(wù)中學(xué)習(xí)精心策劃的策略。”

標(biāo)簽：宇宙飛船

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

精彩推薦

圖文推薦

點(diǎn)擊排行

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

郵箱：toplearningteam#gmail.com (請將#換成@)

DeepMind思想家在益智游戲和宇宙飛船導(dǎo)航游戲上測試架構(gòu)

猜你喜歡

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行