您的位置: 首頁(yè) >科技 >

專注于可以從失敗中學(xué)習(xí)的強(qiáng)化學(xué)習(xí)算法

2019-06-19 16:43:16 編輯: 來(lái)源:
導(dǎo)讀 來(lái)自O(shè)penAI人員的最新消息都是獎(jiǎng)金三人組。他們正在發(fā)布新的健身房環(huán)境 - 一套基于真實(shí)機(jī)器人平臺(tái)的模擬機(jī)器人環(huán)境 - 包括Shadow手和Fe

來(lái)自O(shè)penAI人員的最新消息都是獎(jiǎng)金三人組。他們正在發(fā)布新的健身房環(huán)境 - 一套基于真實(shí)機(jī)器人平臺(tái)的模擬機(jī)器人環(huán)境 - 包括Shadow手和Fetch研究機(jī)器人,IEEE Spectrum表示。

除了該工具包,他們還發(fā)布了Hindsight Experience Replay(HER)的開源版本。顧名思義,它可以幫助機(jī)器人從后見之明中學(xué)習(xí)基于目標(biāo)的機(jī)器人任務(wù)。

最后但同樣重要的是,他們發(fā)布了一系列機(jī)器人研究請(qǐng)求。“如果你是一個(gè)雄心勃勃的人,” IEEE Spectrum的 Evan Ackerman表示,“OpenAI還發(fā)布了一系列與HER相關(guān)研究的請(qǐng)求。”

“雖然HER是一種很有前途的方法,可以用像我們?cè)谶@里提出的機(jī)器人環(huán)境這樣的稀疏獎(jiǎng)勵(lì)來(lái)學(xué)習(xí)復(fù)雜的基于目標(biāo)的任務(wù),但仍然有很大的改進(jìn)空間,”他們?cè)诓┛椭袑懙馈?ldquo;與我們最近發(fā)表的研究報(bào)告2.0類似,我們對(duì)如何具體改善HER以及強(qiáng)化學(xué)習(xí)提出了一些想法。”

OpenAI是一家人工智能研究公司。他們?cè)跈C(jī)器學(xué)習(xí)會(huì)議上發(fā)布,他們的博客文章傳達(dá)他們的研究。

Elon Musk是聯(lián)合創(chuàng)始人。它由個(gè)人和公司贊助,他們的目標(biāo)是發(fā)現(xiàn)并制定“安全的人工智能通路”。

他們展示了完成的不同任務(wù)。ShadowHand 機(jī)器人操縱一個(gè)物體(顯示一個(gè)手操縱,包括彎曲手指,一個(gè)孩子的字母塊,一個(gè)蛋形物體,并將手指穿過(guò)一根小棍子)。他們還推出了一個(gè)機(jī)器人“輕推”機(jī)器人機(jī)制,可以滑動(dòng)冰球以及抓住一個(gè)小球并提起它

具體來(lái)說(shuō),這些是展示的各種專長(zhǎng):ShadowHand必須用拇指和選定的手指到達(dá),直到它們?cè)谑终粕戏降哪繕?biāo)位置相遇。ShadowHand必須操縱一個(gè)塊,直到它達(dá)到所需的目標(biāo)位置和旋轉(zhuǎn)。ShadowHand必須操縱一個(gè)蛋,直到它達(dá)到所需的目標(biāo)位置和旋轉(zhuǎn)。ShadowHand必須操縱筆直到它達(dá)到所需的目標(biāo)位置和旋轉(zhuǎn)。

總而言之,“最新的環(huán)境模擬了一個(gè)Fetch機(jī)器人手臂來(lái)推動(dòng)周圍的東西,以及一個(gè)ShadowHand用機(jī)器人的手指抓住和操縱東西,”Katyanna Quach在The Register中說(shuō)。

OpenAI HER產(chǎn)品特別有趣; 訓(xùn)練和強(qiáng)化得到重新思考。HER允許代理人從失敗中吸取教訓(xùn)。正如阿克曼所寫的那樣,她“將失敗重新定義為成功,以幫助機(jī)器人更像人類學(xué)習(xí)。”

麻省理工學(xué)院技術(shù)評(píng)論中的 Jackie Snow 觀察到“通過(guò)研究如何將一項(xiàng)任務(wù)的每次嘗試都應(yīng)用于其他任務(wù)來(lái)實(shí)現(xiàn)這一目標(biāo)。”

斯諾添加說(shuō):“她不會(huì)給機(jī)器人帶來(lái)任何正確的任務(wù)獎(jiǎng)勵(lì) - 如果整個(gè)事情做得恰到好處,它只會(huì)把它們交出去。”

重塑失敗是否成功?阿克曼提出了這樣的解釋:“為了理解她是如何工作的,想象一下你是在棒球比賽中擊球。你的目標(biāo)是擊出本壘打。在第一個(gè)球場(chǎng)上,你擊中一個(gè)犯規(guī)的球。你還學(xué)會(huì)了如何擊中一個(gè)犯規(guī)球......憑借后見之明的經(jīng)驗(yàn)重播,你決定學(xué)習(xí)你剛剛做了什么,主要是說(shuō),'你知道,如果我想打一個(gè)犯規(guī)球,那本來(lái)是完美的!'“

HER的實(shí)施有多好?“我們的研究結(jié)果表明,她可以從稀疏的獎(jiǎng)勵(lì)中學(xué)習(xí)大多數(shù)新機(jī)器人問(wèn)題的成功政策。”

玩盲人游戲的孩子經(jīng)常告訴玩家,“你變得溫暖,溫暖。” 欣賞他們的研究的關(guān)鍵詞是稀疏和密集的獎(jiǎng)勵(lì)。

“大多數(shù)強(qiáng)化學(xué)習(xí)算法使用'密集獎(jiǎng)勵(lì)',Ackerman解釋說(shuō),”機(jī)器人根據(jù)完成任務(wù)的距離來(lái)獲取不同大小的cookie ...稀疏獎(jiǎng)勵(lì)意味著機(jī)器人只有在成功時(shí)才獲得一個(gè)cookie ,就是這樣:更容易測(cè)量,更容易編程,更容易實(shí)現(xiàn)。“


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。