2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
在麻省理工學(xué)院3號樓的地下室,機器人正在仔細考慮下一步行動。它輕輕地戳在一座街區(qū),在一個單獨的,緩慢移動但又令人驚訝的敏捷Jenga游戲中,尋找最好的塊來提取而不會倒塌塔。該機器人由麻省理工學(xué)院的工程師開發(fā),配備了軟指夾,力感腕腕和外部攝像頭,所有這些都用于觀察和感受塔及其各個塊。當(dāng)機器人小心地推動一個塊時,計算機會從其相機和袖帶中獲取視覺和觸覺反饋,并將這些測量結(jié)果與機器人之前制作的動作進行比較。它還考慮了這些舉措的結(jié)果 - 具體而言,是否成功提取了一個塊,在一定的配置中并以一定的力量推動。實時,機器人然后“學(xué)習(xí)”是否繼續(xù)推動或移動到新的區(qū)塊,以防止塔架掉落。
Jenga演奏機器人的細節(jié)發(fā)表在Science Robotics期刊上。麻省理工學(xué)院機械工程系的Walter Henry Gale職業(yè)發(fā)展助理教授Alberto Rodriguez說,機器人展示了以前系統(tǒng)中難以實現(xiàn)的東西:能夠快速學(xué)習(xí)執(zhí)行任務(wù)的最佳方式,而不僅僅是從視覺線索,如今通常研究,但也來自觸覺,物理互動。
“與更純粹的認知任務(wù)或象棋或圍棋等游戲不同,玩Jenga游戲還需要掌握物理技能,如探測,推動,拉動,放置和對齊棋子。它需要交互式感知和操控,你需要去接觸塔樓,了解如何以及何時移動街區(qū),“羅德里格茲說。“這很難模擬,所以機器人必須通過與真正的Jenga塔相互作用來在現(xiàn)實世界中學(xué)習(xí)。關(guān)鍵的挑戰(zhàn)是通過利用關(guān)于物體和物理的常識來從相對少量的實驗中學(xué)習(xí)。”
他說,研究人員開發(fā)的觸覺學(xué)習(xí)系統(tǒng)可用于Jenga以外的應(yīng)用,尤其是需要仔細物理交互的任務(wù),包括將可回收物體與垃圾填埋垃圾分離以及組裝消費品。
羅德里格斯說:“在手機組裝線上,幾乎每一步都有卡扣或螺紋螺絲的感覺來自力和觸摸而不是視覺。”“為這些行動學(xué)習(xí)模型是這種技術(shù)的主要動態(tài)。”
該論文的第一作者是麻省理工學(xué)院的研究生Nima Fazeli。該團隊還包括Miquel Oller,Jiajun Wu,Zheng Wu和麻省理工學(xué)院大腦和認知科學(xué)教授Joshua Tenenbaum。
在用于“建造”的Jenga - Swahili游戲中 - 54個矩形塊被堆疊成18層,每層三塊,每層中的塊垂直于下面的塊。游戲的目的是小心地提取一個塊并將其放置在塔頂,從而建立一個新的水平,而不是推翻整個結(jié)構(gòu)。
為了讓機器人編程來玩Jenga,傳統(tǒng)的機器學(xué)習(xí)方案可能需要捕獲塊,機器人和塔之間可能發(fā)生的所有事情 - 這是一項昂貴的計算任務(wù),需要數(shù)千甚至數(shù)萬塊的提取數(shù)據(jù)嘗試。
相反,Rodriguez和他的同事們尋找一種更有效的方法,讓機器人學(xué)會玩Jenga,靈感來自人類的認知以及我們自己可能接近游戲的方式。
該團隊定制了一個符合行業(yè)標準的ABB IRB 120機器人手臂,然后在機器人范圍內(nèi)設(shè)置了一個Jenga塔,并開始了一個訓(xùn)練期,其中機器人首先選擇一個隨機區(qū)塊和一個位于該區(qū)域上的位置以進行推動。然后它施加少量的力以試圖將塊推出塔外。
對于每次塊嘗試,計算機記錄相關(guān)的視覺和力測量,并標記每次嘗試是否成功。
該機器人不是進行數(shù)萬次這樣的嘗試(其中涉及重建塔幾乎一樣多次),而是在大約300次訓(xùn)練中進行訓(xùn)練,嘗試將類似的測量和結(jié)果分組成代表某些阻擋行為的簇。例如,一個可能的群集表示對難以移動的塊的嘗試,而不是移動的塊或者在移動時使塔倒塌的塊。對于每個數(shù)據(jù)集群,機器人開發(fā)了一個簡單的模型,以根據(jù)當(dāng)前的視覺和觸覺測量來預(yù)測塊的行為。
Fazeli說這種聚類技術(shù)大大提高了機器人學(xué)習(xí)玩游戲的效率,并且受到人類聚類相似行為的自然方式的啟發(fā):“機器人構(gòu)建聚類,然后為每個聚類學(xué)習(xí)模型,而不是學(xué)習(xí)一個模型,捕捉絕對可能發(fā)生的一切。“
研究人員使用模擬器MuJoCo在游戲的計算機模擬中測試了他們與其他最先進的機器學(xué)習(xí)算法的方法。在模擬器中學(xué)到的經(jīng)驗告訴研究人員機器人在現(xiàn)實世界中學(xué)習(xí)的方式。
“我們?yōu)檫@些算法提供了我們系統(tǒng)獲得的相同信息,以了解他們?nèi)绾螌W(xué)習(xí)如何在相似的水平上玩Jenga,”Oller說。“與我們的方法相比,這些算法需要探索數(shù)量級更多的塔來學(xué)習(xí)游戲。”
好奇的是,他們的機器學(xué)習(xí)方法如何與真正的人類玩家相媲美,團隊與幾名志愿者進行了一些非正式的試驗。
“我們看到人類在塔樓倒塌之前能夠提取多少塊,而且差別并不大,”Oller說。
但是,如果研究人員想要將他們的機器人與人類玩家競爭對手,那么還有一段路可走。除了物理交互之外,Jenga還需要策略,例如提取恰當(dāng)?shù)膲K,這將使對手難以在不翻倒塔的情況下拉出下一個塊。
目前,該團隊對開發(fā)機器人Jenga冠軍不太感興趣,而更專注于將機器人的新技能應(yīng)用于其他應(yīng)用領(lǐng)域。
羅德里格茲說:“我們用手做了許多任務(wù),用'正確的方式'來做這件事的感覺來自于力量和觸覺線索的語言。”“對于像這樣的任務(wù),我們的類似方法可以解決這個問題。”
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。