2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
模仿學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它訓(xùn)練機(jī)器模仿人類行為,同時(shí)完成特定任務(wù)。這些技術(shù)在機(jī)器人技術(shù)領(lǐng)域顯示出巨大的希望,因?yàn)樗鼈兘鉀Q了強(qiáng)化學(xué)習(xí)的一些缺點(diǎn),例如探索和獎(jiǎng)勵(lì)規(guī)范。
盡管取得了令人鼓舞的結(jié)果,但由于難以使用現(xiàn)有方法收集大量任務(wù)演示,模擬學(xué)習(xí)研究迄今僅限于適度規(guī)模的數(shù)據(jù)集。為了解決這些局限性,由斯坦福大學(xué)的Silvio Savarese博士和Fei-Fei Li博士監(jiān)督的研究小組開發(fā)了RoboTurk,這是一個(gè)眾包平臺(tái),使用廣泛使用的智能手機(jī)設(shè)備進(jìn)行高質(zhì)量的6-DoF軌跡遙操作。
“我們希望為Robotics創(chuàng)建像ImageNet這樣的東西,”進(jìn)行這項(xiàng)研究的研究人員之一Ajay Mandlekar告訴TechXplore。“我們認(rèn)為數(shù)據(jù)是機(jī)器人學(xué)習(xí)領(lǐng)域的一個(gè)關(guān)鍵限制。雖然有很多方法可以從數(shù)據(jù)中學(xué)習(xí),例如數(shù)據(jù)驅(qū)動(dòng)控制和強(qiáng)化學(xué)習(xí),但大多數(shù)方法都會(huì)收集自己的數(shù)據(jù)。因此,數(shù)據(jù)通常是低質(zhì)量的,例如導(dǎo)致機(jī)器人隨意移動(dòng)它的手臂。這種類型的探索可能是困難和不安全的,但我們相信人類可以提供幫助。
ImageNet是李博士創(chuàng)建的著名圖像數(shù)據(jù)庫,常用于計(jì)算機(jī)視覺和物體識(shí)別研究。斯坦福遠(yuǎn)景和學(xué)習(xí)實(shí)驗(yàn)室開發(fā)的眾包平臺(tái)旨在作為機(jī)器人和模仿學(xué)習(xí)研究的類似資源。
“與ImageNet不同,這樣的數(shù)據(jù)收集系統(tǒng)需要是動(dòng)態(tài)的,允許我們反復(fù)收集數(shù)據(jù),通常是按需收集,甚至可能使用協(xié)作學(xué)習(xí),”同時(shí)參與Roboturk開發(fā)的Yuke Zhu告訴TechXplore。“這是因?yàn)槭占臄?shù)據(jù)取決于機(jī)器人在環(huán)境中采取的操作類型。”
ROBOTURK系統(tǒng)圖。新用戶連接到網(wǎng)站以加入系統(tǒng),協(xié)調(diào)服務(wù)器為用戶啟動(dòng)專用遠(yuǎn)程操作服務(wù)器,如(a)所示。然后,協(xié)調(diào)服務(wù)器在用戶的網(wǎng)絡(luò)瀏覽器和iPhone以及遠(yuǎn)程操作服務(wù)器之間建立直接通信信道以啟動(dòng)遠(yuǎn)程操作會(huì)話。用戶通過移動(dòng)他們的電話來控制模擬機(jī)器人,并在他們的網(wǎng)絡(luò)瀏覽器中接收視頻流作為反饋,如(b)所示。在每次成功演示之后,遠(yuǎn)程操作服務(wù)器將收集的數(shù)據(jù)推送到云存儲(chǔ)系統(tǒng)。圖片來源:Mandlekar等。
研究人員的最終目標(biāo)是培訓(xùn)機(jī)器人掌握先進(jìn)的操作技能,使他們能夠在包裝或裝配等工業(yè)環(huán)境中完成任務(wù)。他們發(fā)現(xiàn)雖然模仿學(xué)習(xí)在這種情況下顯示出巨大的潛力,但由于難以收集大量任務(wù)演示,現(xiàn)有數(shù)據(jù)集非常有限。
“在其他領(lǐng)域,如計(jì)算機(jī)視覺和自然語言處理,數(shù)據(jù)集的大規(guī)模監(jiān)督通常是在眾包的幫助下收集的,”Mandlekar說。“這為一系列廣泛的問題實(shí)例提供了一種可擴(kuò)展的機(jī)制,可用于不同的人員監(jiān)督。然而,收集大量數(shù)據(jù)對(duì)機(jī)器人任務(wù)來說是一項(xiàng)挑戰(zhàn),因?yàn)樗鼈冃枰獙?shí)時(shí)交互和來自注釋器的反饋,給遠(yuǎn)程設(shè)置了困難的限制。遙操作平臺(tái)。“
斯坦福視覺和學(xué)習(xí)實(shí)驗(yàn)室的小組因此開發(fā)了RoboTurk,這是一個(gè)眾包平臺(tái),允許研究人員通過使用可擴(kuò)展的人工監(jiān)督來擴(kuò)大機(jī)器人可以自主執(zhí)行的技能和任務(wù)。通過RoboTurk,遠(yuǎn)程工作人員可以使用他們的智能手機(jī)作為運(yùn)動(dòng)控制器登錄網(wǎng)站并收集任務(wù)演示。
“RoboTurk受到基于云的模擬后端的支持,后端使用低延遲通信協(xié)議將視頻流式傳輸?shù)娇蛻舳说腤eb瀏覽器,”Mandlekar解釋道。“無論客戶的計(jì)算機(jī)資源如何,這都可以確保服務(wù)質(zhì)量的統(tǒng)一,從而形成一個(gè)直觀易用且入門門檻低的平臺(tái),這是眾包任務(wù)的核心要求.RoburTurk支持多種機(jī)器人,任務(wù)和模擬器,并且可以很容易地?cái)U(kuò)展到支持他人。“
研究人員對(duì)三個(gè)不同持續(xù)時(shí)間的操作任務(wù)評(píng)估了他們的平臺(tái),范圍從15到120秒不等。他們發(fā)現(xiàn)RoboTurk與特殊用途硬件(如虛擬現(xiàn)實(shí)控制器)共享統(tǒng)計(jì)相似性。他們還觀察到,糟糕的網(wǎng)絡(luò)狀況并未顯著影響用戶在平臺(tái)上成功執(zhí)行任務(wù)的能力。使用RoboTurk,他們從遠(yuǎn)程工作人員那里收集了137.5小時(shí)的操作數(shù)據(jù),在22小時(shí)的系統(tǒng)總使用中成功完成了2200次任務(wù)演示。
圖片來源:Mandlekar等。
“我認(rèn)為平臺(tái)最有意義的部分是如何讓人類和機(jī)器人進(jìn)行互動(dòng),”領(lǐng)導(dǎo)該項(xiàng)目的博士后學(xué)生Animesh Garg告訴TechXplore。“機(jī)器人是未來的智能工具。我們不應(yīng)該將它們視為人類的替代品,而應(yīng)該將其視為擴(kuò)展我們能力的一種方式。這使人類能夠更高效地專注于更高層次的智力問題,同時(shí)也是如此。”計(jì)算機(jī)的出現(xiàn)使人們更容易使用數(shù)學(xué)作為解決問題的工具。“
RoboTurk通過稀疏獎(jiǎng)勵(lì)有效地實(shí)現(xiàn)了對(duì)多步驟操作任務(wù)的策略學(xué)習(xí)。此外,Mandlekar和他的同事們發(fā)現(xiàn),在政策學(xué)習(xí)期間使用大量示范會(huì)帶來顯著的好處,從而帶來更好的表現(xiàn)和更高的學(xué)習(xí)一致性。
未來,RoboTurk可以成為機(jī)器人領(lǐng)域的關(guān)鍵資源,幫助開發(fā)更先進(jìn),性能更好的機(jī)器人。研究人員現(xiàn)在正在將RoboTurk應(yīng)用于真實(shí)機(jī)器人,同時(shí)還開發(fā)可以使用他們收集的數(shù)據(jù)來教授機(jī)器人低級(jí)技能的算法。
“機(jī)器人是一項(xiàng)非常令人興奮的技術(shù),可以使人們?cè)谌祟惢顒?dòng)的各個(gè)方面更有效率和獨(dú)立,例如在廚房提供幫助,為老年人提供護(hù)理人員,以及更好地照顧病人,”Garg說。“令我們興奮的事情之一就是制造業(yè)的民主化。這項(xiàng)技術(shù)可以讓人們?cè)诓恍枰獙S迷O(shè)備的情況下制作和銷售定制產(chǎn)品,就像YouTube將內(nèi)容創(chuàng)建和分發(fā)民主化一樣,允許任何人創(chuàng)建和分享視頻“。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。