您的位置: 首頁 >科技 >

一個用于機器人模仿學(xué)習(xí)的眾包平臺

2019-06-06 16:25:15 編輯: 來源:
導(dǎo)讀 模仿學(xué)習(xí)是機器學(xué)習(xí)的一個分支,它訓(xùn)練機器模仿人類行為,同時完成特定任務(wù)。這些技術(shù)在機器人技術(shù)領(lǐng)域顯示出巨大的希望,因為它們解決了強

模仿學(xué)習(xí)是機器學(xué)習(xí)的一個分支,它訓(xùn)練機器模仿人類行為,同時完成特定任務(wù)。這些技術(shù)在機器人技術(shù)領(lǐng)域顯示出巨大的希望,因為它們解決了強化學(xué)習(xí)的一些缺點,例如探索和獎勵規(guī)范。

盡管取得了令人鼓舞的結(jié)果,但由于難以使用現(xiàn)有方法收集大量任務(wù)演示,模擬學(xué)習(xí)研究迄今僅限于適度規(guī)模的數(shù)據(jù)集。為了解決這些局限性,由斯坦福大學(xué)的Silvio Savarese博士和Fei-Fei Li博士監(jiān)督的研究小組開發(fā)了RoboTurk,這是一個眾包平臺,使用廣泛使用的智能手機設(shè)備進行高質(zhì)量的6-DoF軌跡遙操作。

“我們希望為Robotics創(chuàng)建像ImageNet這樣的東西,”進行這項研究的研究人員之一Ajay Mandlekar告訴TechXplore。“我們認為數(shù)據(jù)是機器人學(xué)習(xí)領(lǐng)域的一個關(guān)鍵限制。雖然有很多方法可以從數(shù)據(jù)中學(xué)習(xí),例如數(shù)據(jù)驅(qū)動控制和強化學(xué)習(xí),但大多數(shù)方法都會收集自己的數(shù)據(jù)。因此,數(shù)據(jù)通常是低質(zhì)量的,例如導(dǎo)致機器人隨意移動它的手臂。這種類型的探索可能是困難和不安全的,但我們相信人類可以提供幫助。

ImageNet是李博士創(chuàng)建的著名圖像數(shù)據(jù)庫,常用于計算機視覺和物體識別研究。斯坦福遠景和學(xué)習(xí)實驗室開發(fā)的眾包平臺旨在作為機器人和模仿學(xué)習(xí)研究的類似資源。

“與ImageNet不同,這樣的數(shù)據(jù)收集系統(tǒng)需要是動態(tài)的,允許我們反復(fù)收集數(shù)據(jù),通常是按需收集,甚至可能使用協(xié)作學(xué)習(xí),”同時參與Roboturk開發(fā)的Yuke Zhu告訴TechXplore。“這是因為收集的數(shù)據(jù)取決于機器人在環(huán)境中采取的操作類型。”

ROBOTURK系統(tǒng)圖。新用戶連接到網(wǎng)站以加入系統(tǒng),協(xié)調(diào)服務(wù)器為用戶啟動專用遠程操作服務(wù)器,如(a)所示。然后,協(xié)調(diào)服務(wù)器在用戶的網(wǎng)絡(luò)瀏覽器和iPhone以及遠程操作服務(wù)器之間建立直接通信信道以啟動遠程操作會話。用戶通過移動他們的電話來控制模擬機器人,并在他們的網(wǎng)絡(luò)瀏覽器中接收視頻流作為反饋,如(b)所示。在每次成功演示之后,遠程操作服務(wù)器將收集的數(shù)據(jù)推送到云存儲系統(tǒng)。圖片來源:Mandlekar等。

研究人員的最終目標(biāo)是培訓(xùn)機器人掌握先進的操作技能,使他們能夠在包裝或裝配等工業(yè)環(huán)境中完成任務(wù)。他們發(fā)現(xiàn)雖然模仿學(xué)習(xí)在這種情況下顯示出巨大的潛力,但由于難以收集大量任務(wù)演示,現(xiàn)有數(shù)據(jù)集非常有限。

“在其他領(lǐng)域,如計算機視覺和自然語言處理,數(shù)據(jù)集的大規(guī)模監(jiān)督通常是在眾包的幫助下收集的,”Mandlekar說。“這為一系列廣泛的問題實例提供了一種可擴展的機制,可用于不同的人員監(jiān)督。然而,收集大量數(shù)據(jù)對機器人任務(wù)來說是一項挑戰(zhàn),因為它們需要實時交互和來自注釋器的反饋,給遠程設(shè)置了困難的限制。遙操作平臺。“

斯坦福視覺和學(xué)習(xí)實驗室的小組因此開發(fā)了RoboTurk,這是一個眾包平臺,允許研究人員通過使用可擴展的人工監(jiān)督來擴大機器人可以自主執(zhí)行的技能和任務(wù)。通過RoboTurk,遠程工作人員可以使用他們的智能手機作為運動控制器登錄網(wǎng)站并收集任務(wù)演示。

“RoboTurk受到基于云的模擬后端的支持,后端使用低延遲通信協(xié)議將視頻流式傳輸?shù)娇蛻舳说腤eb瀏覽器,”Mandlekar解釋道。“無論客戶的計算機資源如何,這都可以確保服務(wù)質(zhì)量的統(tǒng)一,從而形成一個直觀易用且入門門檻低的平臺,這是眾包任務(wù)的核心要求.RoburTurk支持多種機器人,任務(wù)和模擬器,并且可以很容易地擴展到支持他人。“

研究人員對三個不同持續(xù)時間的操作任務(wù)評估了他們的平臺,范圍從15到120秒不等。他們發(fā)現(xiàn)RoboTurk與特殊用途硬件(如虛擬現(xiàn)實控制器)共享統(tǒng)計相似性。他們還觀察到,糟糕的網(wǎng)絡(luò)狀況并未顯著影響用戶在平臺上成功執(zhí)行任務(wù)的能力。使用RoboTurk,他們從遠程工作人員那里收集了137.5小時的操作數(shù)據(jù),在22小時的系統(tǒng)總使用中成功完成了2200次任務(wù)演示。

圖片來源:Mandlekar等。

“我認為平臺最有意義的部分是如何讓人類和機器人進行互動,”領(lǐng)導(dǎo)該項目的博士后學(xué)生Animesh Garg告訴TechXplore。“機器人是未來的智能工具。我們不應(yīng)該將它們視為人類的替代品,而應(yīng)該將其視為擴展我們能力的一種方式。這使人類能夠更高效地專注于更高層次的智力問題,同時也是如此。”計算機的出現(xiàn)使人們更容易使用數(shù)學(xué)作為解決問題的工具。“

RoboTurk通過稀疏獎勵有效地實現(xiàn)了對多步驟操作任務(wù)的策略學(xué)習(xí)。此外,Mandlekar和他的同事們發(fā)現(xiàn),在政策學(xué)習(xí)期間使用大量示范會帶來顯著的好處,從而帶來更好的表現(xiàn)和更高的學(xué)習(xí)一致性。

未來,RoboTurk可以成為機器人領(lǐng)域的關(guān)鍵資源,幫助開發(fā)更先進,性能更好的機器人。研究人員現(xiàn)在正在將RoboTurk應(yīng)用于真實機器人,同時還開發(fā)可以使用他們收集的數(shù)據(jù)來教授機器人低級技能的算法。

“機器人是一項非常令人興奮的技術(shù),可以使人們在人類活動的各個方面更有效率和獨立,例如在廚房提供幫助,為老年人提供護理人員,以及更好地照顧病人,”Garg說。“令我們興奮的事情之一就是制造業(yè)的民主化。這項技術(shù)可以讓人們在不需要專用設(shè)備的情況下制作和銷售定制產(chǎn)品,就像YouTube將內(nèi)容創(chuàng)建和分發(fā)民主化一樣,允許任何人創(chuàng)建和分享視頻“。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。