您的位置: 首頁 >科技 >

專注于可以從失敗中學習的強化學習算法

2019-06-19 16:43:16 編輯: 來源:
導讀 來自O(shè)penAI人員的最新消息都是獎金三人組。他們正在發(fā)布新的健身房環(huán)境 - 一套基于真實機器人平臺的模擬機器人環(huán)境 - 包括Shadow手和Fe

來自O(shè)penAI人員的最新消息都是獎金三人組。他們正在發(fā)布新的健身房環(huán)境 - 一套基于真實機器人平臺的模擬機器人環(huán)境 - 包括Shadow手和Fetch研究機器人,IEEE Spectrum表示。

除了該工具包,他們還發(fā)布了Hindsight Experience Replay(HER)的開源版本。顧名思義,它可以幫助機器人從后見之明中學習基于目標的機器人任務(wù)。

最后但同樣重要的是,他們發(fā)布了一系列機器人研究請求。“如果你是一個雄心勃勃的人,” IEEE Spectrum的 Evan Ackerman表示,“OpenAI還發(fā)布了一系列與HER相關(guān)研究的請求。”

“雖然HER是一種很有前途的方法,可以用像我們在這里提出的機器人環(huán)境這樣的稀疏獎勵來學習復雜的基于目標的任務(wù),但仍然有很大的改進空間,”他們在博客中寫道。“與我們最近發(fā)表的研究報告2.0類似,我們對如何具體改善HER以及強化學習提出了一些想法。”

OpenAI是一家人工智能研究公司。他們在機器學習會議上發(fā)布,他們的博客文章傳達他們的研究。

Elon Musk是聯(lián)合創(chuàng)始人。它由個人和公司贊助,他們的目標是發(fā)現(xiàn)并制定“安全的人工智能通路”。

他們展示了完成的不同任務(wù)。ShadowHand 機器人操縱一個物體(顯示一個手操縱,包括彎曲手指,一個孩子的字母塊,一個蛋形物體,并將手指穿過一根小棍子)。他們還推出了一個機器人“輕推”機器人機制,可以滑動冰球以及抓住一個小球并提起它

具體來說,這些是展示的各種專長:ShadowHand必須用拇指和選定的手指到達,直到它們在手掌上方的目標位置相遇。ShadowHand必須操縱一個塊,直到它達到所需的目標位置和旋轉(zhuǎn)。ShadowHand必須操縱一個蛋,直到它達到所需的目標位置和旋轉(zhuǎn)。ShadowHand必須操縱筆直到它達到所需的目標位置和旋轉(zhuǎn)。

總而言之,“最新的環(huán)境模擬了一個Fetch機器人手臂來推動周圍的東西,以及一個ShadowHand用機器人的手指抓住和操縱東西,”Katyanna Quach在The Register中說。

OpenAI HER產(chǎn)品特別有趣; 訓練和強化得到重新思考。HER允許代理人從失敗中吸取教訓。正如阿克曼所寫的那樣,她“將失敗重新定義為成功,以幫助機器人更像人類學習。”

麻省理工學院技術(shù)評論中的 Jackie Snow 觀察到“通過研究如何將一項任務(wù)的每次嘗試都應用于其他任務(wù)來實現(xiàn)這一目標。”

斯諾添加說:“她不會給機器人帶來任何正確的任務(wù)獎勵 - 如果整個事情做得恰到好處,它只會把它們交出去。”

重塑失敗是否成功?阿克曼提出了這樣的解釋:“為了理解她是如何工作的,想象一下你是在棒球比賽中擊球。你的目標是擊出本壘打。在第一個球場上,你擊中一個犯規(guī)的球。你還學會了如何擊中一個犯規(guī)球......憑借后見之明的經(jīng)驗重播,你決定學習你剛剛做了什么,主要是說,'你知道,如果我想打一個犯規(guī)球,那本來是完美的!'“

HER的實施有多好?“我們的研究結(jié)果表明,她可以從稀疏的獎勵中學習大多數(shù)新機器人問題的成功政策。”

玩盲人游戲的孩子經(jīng)常告訴玩家,“你變得溫暖,溫暖。” 欣賞他們的研究的關(guān)鍵詞是稀疏和密集的獎勵。

“大多數(shù)強化學習算法使用'密集獎勵',Ackerman解釋說,”機器人根據(jù)完成任務(wù)的距離來獲取不同大小的cookie ...稀疏獎勵意味著機器人只有在成功時才獲得一個cookie ,就是這樣:更容易測量,更容易編程,更容易實現(xiàn)。“


免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。