2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
幾個(gè)真實(shí)世界的任務(wù)都有稀疏的獎(jiǎng)勵(lì),這對(duì)強(qiáng)化學(xué)習(xí)(RL)算法的發(fā)展提出了挑戰(zhàn)。該問(wèn)題的解決方案是允許代理人自主地為自己創(chuàng)造獎(jiǎng)勵(lì),使得獎(jiǎng)勵(lì)更加密集并且更適合于學(xué)習(xí)。
例如,受到動(dòng)物探索環(huán)境的奇怪行為的啟發(fā),RL算法對(duì)新事物的觀察可以獎(jiǎng)勵(lì)獎(jiǎng)勵(lì)。這個(gè)獎(jiǎng)勵(lì)總結(jié)了真實(shí)的任務(wù)獎(jiǎng)勵(lì),然后允許RL算法從綜合獎(jiǎng)勵(lì)中學(xué)習(xí)。
DeepMind,谷歌大腦和蘇黎世聯(lián)邦理工學(xué)院的研究人員最近設(shè)計(jì)了一種新的好奇心方法,使用情景記憶來(lái)形成這種新奇的獎(jiǎng)勵(lì)。通過(guò)比較存儲(chǔ)在存儲(chǔ)器中的當(dāng)前觀察和觀察來(lái)確定該獎(jiǎng)勵(lì)。
“我們工作的主要目的是調(diào)查新的基于記憶的強(qiáng)化學(xué)習(xí)(RL)代理人的”好奇心“,即使在完全沒(méi)有獎(jiǎng)勵(lì)的情況下我們也意味著探索環(huán)境,”Tim Lillicrap at Google Brain的DeepMind和Nikolay Savinov在一封電子郵件中告訴TechXplore。“研究界已經(jīng)以各種方式對(duì)好奇心進(jìn)行了探討,但我們覺(jué)得有些想法可以從進(jìn)一步的探索中受益。”
最近這篇論文探討的關(guān)鍵思想是基于Savinov先前進(jìn)行的一項(xiàng)研究,該研究提出了一種受哺乳動(dòng)物導(dǎo)航啟發(fā)的新記憶體系結(jié)構(gòu)。此體系結(jié)構(gòu)允許代理僅使用可視演練重復(fù)通過(guò)環(huán)境的路由。研究人員開(kāi)發(fā)的新方法更進(jìn)一步,試圖通過(guò)好奇心實(shí)現(xiàn)良好的探索。
“在表演時(shí),代理人將觀察表征的實(shí)例存儲(chǔ)在其情景記憶中,”Lillicrap和Savinov說(shuō)。“為了確定當(dāng)前的觀察是否新穎,將其與記憶中的觀察結(jié)果進(jìn)行比較。如果沒(méi)有發(fā)現(xiàn)任何相似之處,則當(dāng)前的觀察被認(rèn)為是新穎的并且代理人會(huì)得到獎(jiǎng)勵(lì),否則會(huì)得到負(fù)面的獎(jiǎng)勵(lì)。這會(huì)鼓勵(lì)代理人探索陌生的領(lǐng)域,類似于好奇。“
研究人員發(fā)現(xiàn),比較成對(duì)的觀察結(jié)果可能很棘手,因?yàn)樵诂F(xiàn)實(shí)環(huán)境中檢查精確匹配最終是毫無(wú)意義的。這是因?yàn)樵诂F(xiàn)實(shí)世界中,代理人很少會(huì)兩次觀察同一件事。
“相反,我們訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)代理人是否可以通過(guò)采取比固定閾值更少的動(dòng)作來(lái)從記憶中的那些人那里獲得當(dāng)前的觀察結(jié)果;比如,五個(gè)動(dòng)作,”Lillicrap和Savinov解釋說(shuō)。“這五項(xiàng)行動(dòng)中的觀察結(jié)果被認(rèn)為是相似的,而需要采取更多行動(dòng)才能進(jìn)行過(guò)渡的觀察結(jié)果被視為不同。”
Lillicrap,Savinov和他們的同事在VizDoom和DMLab中測(cè)試了他們的方法,這兩個(gè)視覺(jué)豐富的3D環(huán)境。在VizDoom中,代理人學(xué)會(huì)了成功導(dǎo)航到遠(yuǎn)處的目標(biāo),至少比最先進(jìn)的好奇心方法ICM快兩倍。在DMLab中,該算法很好地推廣到新的,程序上生成的游戲級(jí)別,在具有非常稀疏獎(jiǎng)勵(lì)的測(cè)試迷宮上比ICM至少兩倍地達(dá)到其期望目標(biāo)。
基于驚喜的方法(ICM)持久地用類似激光的科幻小說(shuō)標(biāo)記墻壁而不是探索迷宮。這種行為類似于前面描述的通道切換:即使標(biāo)記的結(jié)果在理論上是可預(yù)測(cè)的,但這并不容易,并且顯然需要深入了解物理學(xué)知識(shí),這對(duì)于一般代理來(lái)說(shuō)并不是直接的。圖片來(lái)源:Savinov等。
Lillicrap和Savinov說(shuō):“我們注意到一種最受歡迎??的方法有一個(gè)有趣的缺點(diǎn),可以讓代理人充滿好奇心。” “我們發(fā)現(xiàn)這種方法,基于由緩慢變化的模型計(jì)算的驚喜,該模型試圖預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么,可以導(dǎo)致代理的即時(shí)滿足響應(yīng):而不是解決手頭的任務(wù),它將利用導(dǎo)致不可預(yù)測(cè)后果的行動(dòng),以獲得即時(shí)獎(jiǎng)勵(lì)。“
這種奇特的事件,也被稱為“沙發(fā) - 土豆”問(wèn)題,需要代理人找到通過(guò)利用導(dǎo)致不可預(yù)測(cè)后果的行動(dòng)立即滿足自己的方法。例如,當(dāng)給定電視遙控器時(shí),代理可能除了改變頻道之外什么都不做,即使其原始任務(wù)完全不同,例如在迷宮中搜索目標(biāo)。
“這種缺點(diǎn)可以通過(guò)情景記憶和合理的觀察相似度來(lái)緩解,這是我們的貢獻(xiàn),”Lillicrap和Savinov說(shuō)。“這為更智能的探索開(kāi)辟了道路。”
由Lillicrap,Savinov和他們的同事設(shè)計(jì)的新好奇心方法可以幫助復(fù)制RL算法中的好奇心技能,使他們能夠自主地為自己創(chuàng)造獎(jiǎng)勵(lì)。在未來(lái),研究人員希望使用情景記憶不僅可以用于獎(jiǎng)勵(lì),還可以用于計(jì)劃行動(dòng)。
“例如,可以使用從內(nèi)存中檢索到的內(nèi)容來(lái)考慮下一步的去向嗎?” 莉莉拉普和薩維諾夫說(shuō)。“這是一項(xiàng)重大的科學(xué)挑戰(zhàn):如果解決了問(wèn)題,代理商將能夠迅速將探索策略適應(yīng)新環(huán)境,從而使學(xué)習(xí)速度更快。”
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。