當(dāng)你用VR訓(xùn)練機器人時你只需要教他們一次

2019-04-09 08:56:05 編輯：來源：

導(dǎo)讀如果你只需要向機器人展示一次任務(wù)怎么辦?OpenAI開發(fā)了一種人工智能系統(tǒng)，其中機器人可以從單個虛擬演示中學(xué)習(xí)，并在不同的設(shè)置中重復(fù)現(xiàn)實

如果你只需要向機器人展示一次任務(wù)怎么辦?OpenAI開發(fā)了一種人工智能系統(tǒng)，其中機器人可以從單個虛擬演示中學(xué)習(xí)，并在不同的設(shè)置中重復(fù)現(xiàn)實世界中的任務(wù)。最好的工人是你可以展示一次任務(wù)的人，然后讓他們從那時起完美地完成任務(wù)。雖然像Rethink Robotics的Baxter這樣的協(xié)作機器人能夠在真實世界的演練之后模仿裝配任務(wù)，但教授機器人可能是一項耗時的物理任務(wù)。甚至一旦機器人被教導(dǎo)，它就不一定能夠動態(tài)地適應(yīng)這種情況。例如，在箱子中放置一個錯位的部件可能會破壞機器人的整個過程。

OpenAI是一家非營利性人工智能研究公司，它圍繞此開發(fā)了一個解決方案 - 一個在虛擬現(xiàn)實(VR)環(huán)境中訓(xùn)練機器人的系統(tǒng)。成功部署后，此系統(tǒng)允許機器人僅在看到一次后才能學(xué)習(xí)任務(wù)。

OpenAI由特斯拉首席執(zhí)行官Elon Musk，PayPal創(chuàng)始人Peter Thiel和Y Combinator創(chuàng)始人Jessica Livingston等贊助商組成，他們創(chuàng)建了一個系統(tǒng)的工作原型，允許機器人學(xué)習(xí)并動態(tài)執(zhí)行塊堆疊任務(wù)。希望這將是創(chuàng)建機器人和合作機器人的踏腳石，可以學(xué)習(xí)和適應(yīng)未來更復(fù)雜的任務(wù)。

您或您的團隊每天都使用CAD和/或PLM軟件和工具。您習(xí)慣了工作流程，并學(xué)會了如何適應(yīng)限制。在本次網(wǎng)絡(luò)研討會中，您將了解可以無縫添加現(xiàn)有平臺的新工具，以改善工作流程并縮短工程時間。

“啟動使人類能夠迅速學(xué)習(xí)新的行為。我們也希望我們的機器人能夠這樣學(xué)習(xí)，“技術(shù)人員OpenAI的成員Josh Tobin在OpenAI發(fā)布的視頻中解釋道。

該系統(tǒng)通過結(jié)合兩個深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)來工作，一個用于視覺，一個用于模仿。視覺網(wǎng)絡(luò)處理機器人的相機所看到的內(nèi)容，然后模仿網(wǎng)絡(luò)根據(jù)所看到的內(nèi)容確定機器人需要采取什么行動來執(zhí)行其分配的任務(wù)。

使用稱為域隨機化的方法訓(xùn)練系統(tǒng)的視覺部分，其允許模擬圖像與真實圖像相關(guān)聯(lián)。“我們生成了數(shù)以千計的物體位置，光照設(shè)置和表面紋理，并向神經(jīng)網(wǎng)絡(luò)展示了它們，”托賓說。“經(jīng)過培訓(xùn)，網(wǎng)絡(luò)可以在物理世界中找到塊，即使它之前從未見過來自相機的真實圖像。”

使用一次性模仿訓(xùn)練模仿神經(jīng)網(wǎng)絡(luò)?；旧希?dāng)使用一次性模仿時，網(wǎng)絡(luò)學(xué)習(xí)任務(wù)(即將塊堆疊到塔中)，然后計算出如何實現(xiàn)其結(jié)果而不管其情況如何。將其與視覺神經(jīng)網(wǎng)絡(luò)相結(jié)合意味著機器人能夠在各種條件下找出如何自行堆疊塊。每次都不需要將塊放置在相同的布置中，因為機器可以將塊重新對齊，然后將它們放置在需要它們的位置。

OpenAI并不是唯一一個希望使用虛擬模擬訓(xùn)練機器人的團體。今年早些時候，GPU制造商Nvidia宣布推出Isaac，這是一個使用強化學(xué)習(xí)在虛擬環(huán)境中訓(xùn)練機器人的系統(tǒng)(讓機器人一遍又一遍地完成任務(wù)直到它正確完成)。Isaac系統(tǒng)部分利用OpenAI Gym，這是OpenAI發(fā)布的開源工具包，用于開發(fā)和比較AI算法。

標簽： VR訓(xùn)練機器人