2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
愛丁堡大學的研究人員開發(fā)了一種基于深度強化學習(RL)的分層框架,可以獲得各種人形平衡控制策略。他們的框架在預(yù)先發(fā)布在arXiv上并在2017年人形機器人國際會議上發(fā)表的論文中概述,可以執(zhí)行比傳統(tǒng)控制器更像人類的平衡行為。
當站立或行走時,人類天生就能有效地使用許多技術(shù)來進行欠驅(qū)動控制,以幫助他們保持平衡。這些包括腳趾傾斜和腳跟滾動,從而創(chuàng)造更好的腳距離。復(fù)制類人機器人中的類似行為可以極大地改善其運動和運動能力。
“我們的研究重點是使用深度RL來解決人形機器人的動態(tài)運動,”負責該研究的愛丁堡大學機器人和控制講師Zhibin Li博士告訴TechXplore。“在過去,運動主要是使用傳統(tǒng)的分析方法 - 基于模型來完成的,因為它們需要人力和知識,并且需要高計算能力才能在線運行。”
需要較少的人力和手動調(diào)整,機器學習技術(shù)可以導致開發(fā)比傳統(tǒng)工程方法更有效和特定的控制器。使用RL的另一個優(yōu)點是這些工具的計算也可以離線外包,從而使高維控制系統(tǒng)(如人形機器人)的在線性能更快。
“鑒于越來越強大的深度RL算法,越來越多的研究開始使用深度RL來解決控制任務(wù),因為最近在為連續(xù)作用域設(shè)計的深度RL算法方面的進展提出了應(yīng)用強化學習連續(xù)控制任務(wù)的可能性這涉及復(fù)雜的動力學,“李博士解釋說。“我們研究的主要目的是探索使用深度強化學習來獲得與分析方法相當或更好的多樣化控制策略的可能性,同時減少人力。”
李博士與Taku Komura博士和博士合作開發(fā)的框架。學生Chuanyu Yang,使用深RL來達到高層控制政策。這些策略不斷接收機器人狀態(tài)的反饋,從而以較低的頻率實現(xiàn)所需的關(guān)節(jié)角度。
“在低級別,比例和微分(PD)控制器用于更高的控制頻率,以保證穩(wěn)定的關(guān)節(jié)運動,”博士。學生川宇說。“低水平PD控制器的輸入是高級神經(jīng)網(wǎng)絡(luò)產(chǎn)生的所需關(guān)節(jié)角度,輸出是關(guān)節(jié)電機所需的扭矩。”
研究人員測試了他們算法的性能并取得了非常有希望的結(jié)果。他們發(fā)現(xiàn),將人類知識從控制工程方法轉(zhuǎn)移到RL算法的獎勵設(shè)計,可以實現(xiàn)類似人類使用的平衡控制策略。此外,隨著RL算法通過反復(fù)試驗過程得到改善,自動適應(yīng)新情況,他們的框架幾乎不需要人工調(diào)整或人工工程師的其他干預(yù)。
兩足動物的狀態(tài)特征。Yang,Komura&Li
“我們的研究表明,深層強化學習可以成為一個強大的工具,可以產(chǎn)生與人工設(shè)計的控制器相當?shù)钠胶饨Y(jié)果,減少手動調(diào)整工作和縮短時間,”李博士說。“ 我們開發(fā)的深度強化學習算法甚至能夠?qū)W習類似于人類的行為,例如傾斜腳趾或腳跟,這是大多數(shù)工程方法無法執(zhí)行的。”
李博士和他的同事現(xiàn)在正致力于擴展他們的研究,在三維模擬中將RL應(yīng)用于全身Valkyrie機器人。在這項新的研究工作中,他們能夠?qū)㈩愃迫祟惖钠胶獠呗酝茝V到步行和其他運動任務(wù)。
“最終,我們希望應(yīng)用這種將機器學習和機器人控制結(jié)合到真人形機器人以及其他機器人平臺的分層框架,”李博士說。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。