一種生成記憶方法可實(shí)現(xiàn)終身強(qiáng)化學(xué)習(xí)

2019-06-03 10:46:29 編輯：來(lái)源：

導(dǎo)讀現(xiàn)有人工智能(AI)系統(tǒng)的一個(gè)關(guān)鍵限制是它們無(wú)法處理未經(jīng)過(guò)培訓(xùn)的任務(wù)。事實(shí)上，即使他們接受了再培訓(xùn)，大多數(shù)這些系統(tǒng)都容易發(fā)生災(zāi)難性遺忘

現(xiàn)有人工智能(AI)系統(tǒng)的一個(gè)關(guān)鍵限制是它們無(wú)法處理未經(jīng)過(guò)培訓(xùn)的任務(wù)。事實(shí)上，即使他們接受了再培訓(xùn)，大多數(shù)這些系統(tǒng)都容易發(fā)生“災(zāi)難性遺忘”，這實(shí)際上意味著新項(xiàng)目可能會(huì)破壞他們以前獲得的知識(shí)。

例如，如果最初訓(xùn)練模型以完成任務(wù) A然后隨后在任務(wù)B上重新訓(xùn)練，則其在任務(wù)A上的表現(xiàn)可能會(huì)顯著下降。一個(gè)天真的解決方案是無(wú)限添加更多的神經(jīng)層來(lái)支持正在訓(xùn)練的其他任務(wù)或項(xiàng)目，但這種方法效率不高，甚至功能可擴(kuò)展。

SRI國(guó)際的研究人員最近嘗試將生物記憶傳遞機(jī)制應(yīng)用于AI系統(tǒng)，因?yàn)樗麄冋J(rèn)為這可以提高他們的表現(xiàn)并使他們更具適應(yīng)性。他們的研究預(yù)先發(fā)表在arXiv上，從人類記憶轉(zhuǎn)移機(jī)制中汲取靈感，如長(zhǎng)期和短期記憶。

“我們正在構(gòu)建可以從經(jīng)驗(yàn)中學(xué)習(xí)的新一代人工智能系統(tǒng)，” DARPA終身學(xué)習(xí)機(jī)(L2M)項(xiàng)目的聯(lián)合PI的Sek Chai 告訴TechXplore。“這意味著他們可以根據(jù)自己的經(jīng)驗(yàn)適應(yīng)新的情景。今天，AI系統(tǒng)因?yàn)椴贿m應(yīng)而失敗。由Hava Siegelmann博士領(lǐng)導(dǎo)的DARPA L2M項(xiàng)目旨在實(shí)現(xiàn)人工智能能力的范式轉(zhuǎn)變。”

記憶轉(zhuǎn)移需要一系列復(fù)雜的動(dòng)態(tài)過(guò)程，使人們?cè)谒伎?，?jì)劃，創(chuàng)建或預(yù)測(cè)未來(lái)事件時(shí)能夠輕松訪問(wèn)顯著或相關(guān)的記憶。睡眠被認(rèn)為在鞏固記憶方面起著至關(guān)重要的作用，特別是REM睡眠，即最常發(fā)生夢(mèng)的階段。

在他們的研究中，Chai和他的SRI同事開(kāi)發(fā)了一種生成記憶機(jī)制，可用于以偽排練的方式訓(xùn)練AI系統(tǒng)。使用重放和強(qiáng)化學(xué)習(xí)(RL)，該機(jī)制允許AI系統(tǒng)在其整個(gè)生命周期中從顯著記憶中學(xué)習(xí)，并且可以使用大量訓(xùn)練任務(wù)或項(xiàng)目進(jìn)行擴(kuò)展。Chai及其同事開(kāi)發(fā)的生成記憶方法使用編碼方法來(lái)分離潛在空間。這允許AI系統(tǒng)即使在任務(wù)沒(méi)有明確定義或任務(wù)數(shù)量未知時(shí)也能學(xué)習(xí)。

“我們的AI系統(tǒng)不會(huì)直接存儲(chǔ)原始數(shù)據(jù)，例如視頻，音頻等，”Chai解釋道。“相反，我們使用生成記憶來(lái)生成或想象它以前經(jīng)歷過(guò)的東西。生成AI系統(tǒng)已被用于創(chuàng)造藝術(shù)，音樂(lè)等。在我們的研究中，我們使用它們來(lái)編碼生成體驗(yàn)，以后可以用于強(qiáng)化學(xué)習(xí)這種方法的靈感來(lái)自睡眠和夢(mèng)境中的生物機(jī)制，在這里，我們回想起或想象在我們的長(zhǎng)期記憶中得到強(qiáng)化的經(jīng)驗(yàn)碎片。“

將來(lái)，Chai及其同事介紹的新的生成記憶方法可以幫助解決基于神經(jīng)網(wǎng)絡(luò)的模型中的災(zāi)難性遺忘問(wèn)題，從而實(shí)現(xiàn)AI系統(tǒng)中的終身學(xué)習(xí)。研究人員現(xiàn)在正在測(cè)試他們?cè)诨谟?jì)算機(jī)的策略游戲上的方法，這些游戲通常用于訓(xùn)練和評(píng)估AI系統(tǒng)。

“我們正在使用像星際爭(zhēng)霸2這樣的即時(shí)戰(zhàn)略游戲來(lái)培訓(xùn)和研究我們的AI代理人的終身學(xué)習(xí)指標(biāo)，如適應(yīng)性，穩(wěn)健性和安全性，”Chai說(shuō)。“我們的AI代理人在游戲中注入了驚喜(例如地形和單位能力的變化)。”

標(biāo)簽：終身強(qiáng)化學(xué)習(xí)