一種向強化學(xué)習(xí)者灌輸好奇心的新方法

2019-06-10 11:08:01 編輯：來源：

導(dǎo)讀幾個真實世界的任務(wù)都有稀疏的獎勵，這對強化學(xué)習(xí)(RL)算法的發(fā)展提出了挑戰(zhàn)。該問題的解決方案是允許代理人自主地為自己創(chuàng)造獎勵，使得獎勵

幾個真實世界的任務(wù)都有稀疏的獎勵，這對強化學(xué)習(xí)(RL)算法的發(fā)展提出了挑戰(zhàn)。該問題的解決方案是允許代理人自主地為自己創(chuàng)造獎勵，使得獎勵更加密集并且更適合于學(xué)習(xí)。

例如，受到動物探索環(huán)境的奇怪行為的啟發(fā)，RL算法對新事物的觀察可以獎勵獎勵。這個獎勵總結(jié)了真實的任務(wù)獎勵，然后允許RL算法從綜合獎勵中學(xué)習(xí)。

DeepMind，谷歌大腦和蘇黎世聯(lián)邦理工學(xué)院的研究人員最近設(shè)計了一種新的好奇心方法，使用情景記憶來形成這種新奇的獎勵。通過比較存儲在存儲器中的當(dāng)前觀察和觀察來確定該獎勵。

“我們工作的主要目的是調(diào)查新的基于記憶的強化學(xué)習(xí)(RL)代理人的”好奇心“，即使在完全沒有獎勵的情況下我們也意味著探索環(huán)境，”Tim Lillicrap at Google Brain的DeepMind和Nikolay Savinov在一封電子郵件中告訴TechXplore。“研究界已經(jīng)以各種方式對好奇心進(jìn)行了探討，但我們覺得有些想法可以從進(jìn)一步的探索中受益。”

最近這篇論文探討的關(guān)鍵思想是基于Savinov先前進(jìn)行的一項研究，該研究提出了一種受哺乳動物導(dǎo)航啟發(fā)的新記憶體系結(jié)構(gòu)。此體系結(jié)構(gòu)允許代理僅使用可視演練重復(fù)通過環(huán)境的路由。研究人員開發(fā)的新方法更進(jìn)一步，試圖通過好奇心實現(xiàn)良好的探索。

“在表演時，代理人將觀察表征的實例存儲在其情景記憶中，”Lillicrap和Savinov說。“為了確定當(dāng)前的觀察是否新穎，將其與記憶中的觀察結(jié)果進(jìn)行比較。如果沒有發(fā)現(xiàn)任何相似之處，則當(dāng)前的觀察被認(rèn)為是新穎的并且代理人會得到獎勵，否則會得到負(fù)面的獎勵。這會鼓勵代理人探索陌生的領(lǐng)域，類似于好奇。“

研究人員發(fā)現(xiàn)，比較成對的觀察結(jié)果可能很棘手，因為在現(xiàn)實環(huán)境中檢查精確匹配最終是毫無意義的。這是因為在現(xiàn)實世界中，代理人很少會兩次觀察同一件事。

“相反，我們訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)來預(yù)測代理人是否可以通過采取比固定閾值更少的動作來從記憶中的那些人那里獲得當(dāng)前的觀察結(jié)果;比如，五個動作，”Lillicrap和Savinov解釋說。“這五項行動中的觀察結(jié)果被認(rèn)為是相似的，而需要采取更多行動才能進(jìn)行過渡的觀察結(jié)果被視為不同。”

Lillicrap，Savinov和他們的同事在VizDoom和DMLab中測試了他們的方法，這兩個視覺豐富的3D環(huán)境。在VizDoom中，代理人學(xué)會了成功導(dǎo)航到遠(yuǎn)處的目標(biāo)，至少比最先進(jìn)的好奇心方法ICM快兩倍。在DMLab中，該算法很好地推廣到新的，程序上生成的游戲級別，在具有非常稀疏獎勵的測試迷宮上比ICM至少兩倍地達(dá)到其期望目標(biāo)。

基于驚喜的方法(ICM)持久地用類似激光的科幻小說標(biāo)記墻壁而不是探索迷宮。這種行為類似于前面描述的通道切換：即使標(biāo)記的結(jié)果在理論上是可預(yù)測的，但這并不容易，并且顯然需要深入了解物理學(xué)知識，這對于一般代理來說并不是直接的。圖片來源：Savinov等。

Lillicrap和Savinov說：“我們注意到一種最受歡迎??的方法有一個有趣的缺點，可以讓代理人充滿好奇心。” “我們發(fā)現(xiàn)這種方法，基于由緩慢變化的模型計算的驚喜，該模型試圖預(yù)測接下來會發(fā)生什么，可以導(dǎo)致代理的即時滿足響應(yīng)：而不是解決手頭的任務(wù)，它將利用導(dǎo)致不可預(yù)測后果的行動，以獲得即時獎勵。“

這種奇特的事件，也被稱為“沙發(fā) - 土豆”問題，需要代理人找到通過利用導(dǎo)致不可預(yù)測后果的行動立即滿足自己的方法。例如，當(dāng)給定電視遙控器時，代理可能除了改變頻道之外什么都不做，即使其原始任務(wù)完全不同，例如在迷宮中搜索目標(biāo)。

“這種缺點可以通過情景記憶和合理的觀察相似度來緩解，這是我們的貢獻(xiàn)，”Lillicrap和Savinov說。“這為更智能的探索開辟了道路。”

由Lillicrap，Savinov和他們的同事設(shè)計的新好奇心方法可以幫助復(fù)制RL算法中的好奇心技能，使他們能夠自主地為自己創(chuàng)造獎勵。在未來，研究人員希望使用情景記憶不僅可以用于獎勵，還可以用于計劃行動。

“例如，可以使用從內(nèi)存中檢索到的內(nèi)容來考慮下一步的去向嗎?” 莉莉拉普和薩維諾夫說。“這是一項重大的科學(xué)挑戰(zhàn)：如果解決了問題，代理商將能夠迅速將探索策略適應(yīng)新環(huán)境，從而使學(xué)習(xí)速度更快。”

標(biāo)簽：灌輸好奇心