2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
總部位于舊金山的非營(yíng)利性研究實(shí)驗(yàn)室OpenAI,由Elon Musk支持,今天宣布其機(jī)器人工作的研究里程碑。該成就是一種新算法,它允許人類通過(guò)首先在虛擬現(xiàn)實(shí)中執(zhí)行任務(wù)來(lái)將任務(wù)傳達(dá)給AI。該方法基于所謂的一次性模仿學(xué)習(xí),這是一種OpenAI開(kāi)發(fā)的技術(shù),允許軟件僅使用一個(gè)示例來(lái)指導(dǎo)機(jī)器人模仿物理動(dòng)作。
在這種情況下,OpenAI正試圖教一個(gè)機(jī)器人手臂如何堆疊一系列彩色立方體形狀的塊。佩戴VR耳機(jī)的人首先在虛擬環(huán)境中手動(dòng)執(zhí)行任務(wù)。OpenAI然后有它的視覺(jué)網(wǎng)絡(luò) - 一種在數(shù)十萬(wàn)個(gè)模擬圖像上訓(xùn)練的神經(jīng)網(wǎng)絡(luò) - 觀察動(dòng)作。這部分過(guò)程基于之前的OpenAI研究,該研究側(cè)重于使用具有不斷變化的變量的模擬數(shù)據(jù)來(lái)訓(xùn)練AI。
因?yàn)槭占鎸?shí)世界的圖像是密集的,昂貴的和耗時(shí)的,所以與模擬數(shù)據(jù)實(shí)現(xiàn)類似的效果更快且更有效。在這種情況下,OpenAI選擇不使用其設(shè)置的真實(shí)照片,而是選擇為其算法提供大量的桌面虛擬圖像和具有不同風(fēng)格的背景,光照效果和紋理的塊。這樣做允許算法在分析來(lái)自機(jī)器人的攝像機(jī)饋送時(shí),在沒(méi)有看過(guò)它的情況下理解場(chǎng)景。
然后,OpenAI的算法從視覺(jué)網(wǎng)絡(luò)中收集信息,并將其提供給第二個(gè)神經(jīng)網(wǎng)絡(luò),稱為仿制網(wǎng)絡(luò),引導(dǎo)機(jī)器人手臂。它懷疑該行動(dòng)的意圖應(yīng)該是什么,然后通過(guò)預(yù)測(cè)人類演員在類似情況下會(huì)做什么來(lái)模仿它。當(dāng)然,棘手的部分是塊每次都有不同的顏色和排列,但軟件可以堆疊三個(gè)獨(dú)立的雙立方體堆棧,無(wú)論初始設(shè)置如何:
所有這一切都只使用模擬數(shù)據(jù)完成,而不是通過(guò)顯示機(jī)器人視頻或真實(shí)世界示例的照片。“我們的機(jī)器人現(xiàn)在已經(jīng)學(xué)會(huì)了執(zhí)行任務(wù),即使它的動(dòng)作必須與演示中的動(dòng)作不同,”OpenAI技術(shù)人員Josh Tobin在一個(gè)用于演示新算法的視頻中解釋道。“通過(guò)對(duì)任務(wù)的單一演示,我們可以在許多不同的初始條件下復(fù)制它。教導(dǎo)機(jī)器人如何構(gòu)建不同的塊安排只需要一次額外的演示。“
這里的長(zhǎng)期目標(biāo)是讓AI能夠快速學(xué)習(xí)新的行為,并利用這些知識(shí)來(lái)適應(yīng)環(huán)境中不可預(yù)測(cè)的變化。托賓說(shuō):“嬰兒天生具有模仿其他人所做的事情的能力。” “模仿可以讓人類快速學(xué)習(xí)新的行為。我們希望我們的機(jī)器人能夠以這種方式學(xué)習(xí)。“
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。