專注于可以從失敗中學(xué)習(xí)的強(qiáng)化學(xué)習(xí)算法

2019-06-19 16:43:16 編輯：來源：

導(dǎo)讀來自O(shè)penAI人員的最新消息都是獎金三人組。他們正在發(fā)布新的健身房環(huán)境 - 一套基于真實機(jī)器人平臺的模擬機(jī)器人環(huán)境 - 包括Shadow手和Fe

來自O(shè)penAI人員的最新消息都是獎金三人組。他們正在發(fā)布新的健身房環(huán)境 - 一套基于真實機(jī)器人平臺的模擬機(jī)器人環(huán)境 - 包括Shadow手和Fetch研究機(jī)器人，IEEE Spectrum表示。

除了該工具包，他們還發(fā)布了Hindsight Experience Replay(HER)的開源版本。顧名思義，它可以幫助機(jī)器人從后見之明中學(xué)習(xí)基于目標(biāo)的機(jī)器人任務(wù)。

最后但同樣重要的是，他們發(fā)布了一系列機(jī)器人研究請求。“如果你是一個雄心勃勃的人，” IEEE Spectrum的 Evan Ackerman表示，“OpenAI還發(fā)布了一系列與HER相關(guān)研究的請求。”

“雖然HER是一種很有前途的方法，可以用像我們在這里提出的機(jī)器人環(huán)境這樣的稀疏獎勵來學(xué)習(xí)復(fù)雜的基于目標(biāo)的任務(wù)，但仍然有很大的改進(jìn)空間，”他們在博客中寫道。“與我們最近發(fā)表的研究報告2.0類似，我們對如何具體改善HER以及強(qiáng)化學(xué)習(xí)提出了一些想法。”

OpenAI是一家人工智能研究公司。他們在機(jī)器學(xué)習(xí)會議上發(fā)布，他們的博客文章傳達(dá)他們的研究。

Elon Musk是聯(lián)合創(chuàng)始人。它由個人和公司贊助，他們的目標(biāo)是發(fā)現(xiàn)并制定“安全的人工智能通路”。

他們展示了完成的不同任務(wù)。ShadowHand 機(jī)器人操縱一個物體(顯示一個手操縱，包括彎曲手指，一個孩子的字母塊，一個蛋形物體，并將手指穿過一根小棍子)。他們還推出了一個機(jī)器人“輕推”機(jī)器人機(jī)制，可以滑動冰球以及抓住一個小球并提起它

具體來說，這些是展示的各種專長：ShadowHand必須用拇指和選定的手指到達(dá)，直到它們在手掌上方的目標(biāo)位置相遇。ShadowHand必須操縱一個塊，直到它達(dá)到所需的目標(biāo)位置和旋轉(zhuǎn)。ShadowHand必須操縱一個蛋，直到它達(dá)到所需的目標(biāo)位置和旋轉(zhuǎn)。ShadowHand必須操縱筆直到它達(dá)到所需的目標(biāo)位置和旋轉(zhuǎn)。

總而言之，“最新的環(huán)境模擬了一個Fetch機(jī)器人手臂來推動周圍的東西，以及一個ShadowHand用機(jī)器人的手指抓住和操縱東西，”Katyanna Quach在The Register中說。

OpenAI HER產(chǎn)品特別有趣; 訓(xùn)練和強(qiáng)化得到重新思考。HER允許代理人從失敗中吸取教訓(xùn)。正如阿克曼所寫的那樣，她“將失敗重新定義為成功，以幫助機(jī)器人更像人類學(xué)習(xí)。”

麻省理工學(xué)院技術(shù)評論中的 Jackie Snow 觀察到“通過研究如何將一項任務(wù)的每次嘗試都應(yīng)用于其他任務(wù)來實現(xiàn)這一目標(biāo)。”

斯諾添加說：“她不會給機(jī)器人帶來任何正確的任務(wù)獎勵 - 如果整個事情做得恰到好處，它只會把它們交出去。”

重塑失敗是否成功?阿克曼提出了這樣的解釋：“為了理解她是如何工作的，想象一下你是在棒球比賽中擊球。你的目標(biāo)是擊出本壘打。在第一個球場上，你擊中一個犯規(guī)的球。你還學(xué)會了如何擊中一個犯規(guī)球......憑借后見之明的經(jīng)驗重播，你決定學(xué)習(xí)你剛剛做了什么，主要是說，'你知道，如果我想打一個犯規(guī)球，那本來是完美的!'“

HER的實施有多好?“我們的研究結(jié)果表明，她可以從稀疏的獎勵中學(xué)習(xí)大多數(shù)新機(jī)器人問題的成功政策。”

玩盲人游戲的孩子經(jīng)常告訴玩家，“你變得溫暖，溫暖。” 欣賞他們的研究的關(guān)鍵詞是稀疏和密集的獎勵。

“大多數(shù)強(qiáng)化學(xué)習(xí)算法使用'密集獎勵'，Ackerman解釋說，”機(jī)器人根據(jù)完成任務(wù)的距離來獲取不同大小的cookie ...稀疏獎勵意味著機(jī)器人只有在成功時才獲得一個cookie ，就是這樣：更容易測量，更容易編程，更容易實現(xiàn)。“

標(biāo)簽：強(qiáng)化學(xué)習(xí)算法