2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
總部位于舊金山的非營利性研究實(shí)驗(yàn)室OpenAI,由Elon Musk支持,今天宣布其機(jī)器人工作的研究里程碑。該成就是一種新算法,它允許人類通過首先在虛擬現(xiàn)實(shí)中執(zhí)行任務(wù)來將任務(wù)傳達(dá)給AI。該方法基于所謂的一次性模仿學(xué)習(xí),這是一種OpenAI開發(fā)的技術(shù),允許軟件僅使用一個(gè)示例來指導(dǎo)機(jī)器人模仿物理動(dòng)作。
在這種情況下,OpenAI正試圖教一個(gè)機(jī)器人手臂如何堆疊一系列彩色立方體形狀的塊。佩戴VR耳機(jī)的人首先在虛擬環(huán)境中手動(dòng)執(zhí)行任務(wù)。OpenAI然后有它的視覺網(wǎng)絡(luò) - 一種在數(shù)十萬個(gè)模擬圖像上訓(xùn)練的神經(jīng)網(wǎng)絡(luò) - 觀察動(dòng)作。這部分過程基于之前的OpenAI研究,該研究側(cè)重于使用具有不斷變化的變量的模擬數(shù)據(jù)來訓(xùn)練AI。
因?yàn)槭占鎸?shí)世界的圖像是密集的,昂貴的和耗時(shí)的,所以與模擬數(shù)據(jù)實(shí)現(xiàn)類似的效果更快且更有效。在這種情況下,OpenAI選擇不使用其設(shè)置的真實(shí)照片,而是選擇為其算法提供大量的桌面虛擬圖像和具有不同風(fēng)格的背景,光照效果和紋理的塊。這樣做允許算法在分析來自機(jī)器人的攝像機(jī)饋送時(shí),在沒有看過它的情況下理解場景。
然后,OpenAI的算法從視覺網(wǎng)絡(luò)中收集信息,并將其提供給第二個(gè)神經(jīng)網(wǎng)絡(luò),稱為仿制網(wǎng)絡(luò),引導(dǎo)機(jī)器人手臂。它懷疑該行動(dòng)的意圖應(yīng)該是什么,然后通過預(yù)測(cè)人類演員在類似情況下會(huì)做什么來模仿它。當(dāng)然,棘手的部分是塊每次都有不同的顏色和排列,但軟件可以堆疊三個(gè)獨(dú)立的雙立方體堆棧,無論初始設(shè)置如何:
所有這一切都只使用模擬數(shù)據(jù)完成,而不是通過顯示機(jī)器人視頻或真實(shí)世界示例的照片。“我們的機(jī)器人現(xiàn)在已經(jīng)學(xué)會(huì)了執(zhí)行任務(wù),即使它的動(dòng)作必須與演示中的動(dòng)作不同,”OpenAI技術(shù)人員Josh Tobin在一個(gè)用于演示新算法的視頻中解釋道。“通過對(duì)任務(wù)的單一演示,我們可以在許多不同的初始條件下復(fù)制它。教導(dǎo)機(jī)器人如何構(gòu)建不同的塊安排只需要一次額外的演示。“
這里的長期目標(biāo)是讓AI能夠快速學(xué)習(xí)新的行為,并利用這些知識(shí)來適應(yīng)環(huán)境中不可預(yù)測(cè)的變化。托賓說:“嬰兒天生具有模仿其他人所做的事情的能力。” “模仿可以讓人類快速學(xué)習(xí)新的行為。我們希望我們的機(jī)器人能夠以這種方式學(xué)習(xí)。“
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。