使用強(qiáng)化學(xué)習(xí)在機(jī)器人中實(shí)現(xiàn)類似人的平衡控制策略

2019-06-10 17:20:09 編輯：來源：

導(dǎo)讀愛丁堡大學(xué)的研究人員開發(fā)了一種基于深度強(qiáng)化學(xué)習(xí)(RL)的分層框架，可以獲得各種人形平衡控制策略。他們的框架在預(yù)先發(fā)布在arXiv上并在2017

愛丁堡大學(xué)的研究人員開發(fā)了一種基于深度強(qiáng)化學(xué)習(xí)(RL)的分層框架，可以獲得各種人形平衡控制策略。他們的框架在預(yù)先發(fā)布在arXiv上并在2017年人形機(jī)器人國(guó)際會(huì)議上發(fā)表的論文中概述，可以執(zhí)行比傳統(tǒng)控制器更像人類的平衡行為。

當(dāng)站立或行走時(shí)，人類天生就能有效地使用許多技術(shù)來進(jìn)行欠驅(qū)動(dòng)控制，以幫助他們保持平衡。這些包括腳趾傾斜和腳跟滾動(dòng)，從而創(chuàng)造更好的腳距離。復(fù)制類人機(jī)器人中的類似行為可以極大地改善其運(yùn)動(dòng)和運(yùn)動(dòng)能力。

“我們的研究重點(diǎn)是使用深度RL來解決人形機(jī)器人的動(dòng)態(tài)運(yùn)動(dòng)，”負(fù)責(zé)該研究的愛丁堡大學(xué)機(jī)器人和控制講師Zhibin Li博士告訴TechXplore。“在過去，運(yùn)動(dòng)主要是使用傳統(tǒng)的分析方法 - 基于模型來完成的，因?yàn)樗鼈冃枰肆椭R(shí)，并且需要高計(jì)算能力才能在線運(yùn)行。”

需要較少的人力和手動(dòng)調(diào)整，機(jī)器學(xué)習(xí)技術(shù)可以導(dǎo)致開發(fā)比傳統(tǒng)工程方法更有效和特定的控制器。使用RL的另一個(gè)優(yōu)點(diǎn)是這些工具的計(jì)算也可以離線外包，從而使高維控制系統(tǒng)(如人形機(jī)器人)的在線性能更快。

“鑒于越來越強(qiáng)大的深度RL算法，越來越多的研究開始使用深度RL來解決控制任務(wù)，因?yàn)樽罱跒檫B續(xù)作用域設(shè)計(jì)的深度RL算法方面的進(jìn)展提出了應(yīng)用強(qiáng)化學(xué)習(xí)連續(xù)控制任務(wù)的可能性這涉及復(fù)雜的動(dòng)力學(xué)，“李博士解釋說。“我們研究的主要目的是探索使用深度強(qiáng)化學(xué)習(xí)來獲得與分析方法相當(dāng)或更好的多樣化控制策略的可能性，同時(shí)減少人力。”

李博士與Taku Komura博士和博士合作開發(fā)的框架。學(xué)生Chuanyu Yang，使用深RL來達(dá)到高層控制政策。這些策略不斷接收機(jī)器人狀態(tài)的反饋，從而以較低的頻率實(shí)現(xiàn)所需的關(guān)節(jié)角度。

“在低級(jí)別，比例和微分(PD)控制器用于更高的控制頻率，以保證穩(wěn)定的關(guān)節(jié)運(yùn)動(dòng)，”博士。學(xué)生川宇說。“低水平PD控制器的輸入是高級(jí)神經(jīng)網(wǎng)絡(luò)產(chǎn)生的所需關(guān)節(jié)角度，輸出是關(guān)節(jié)電機(jī)所需的扭矩。”

研究人員測(cè)試了他們算法的性能并取得了非常有希望的結(jié)果。他們發(fā)現(xiàn)，將人類知識(shí)從控制工程方法轉(zhuǎn)移到RL算法的獎(jiǎng)勵(lì)設(shè)計(jì)，可以實(shí)現(xiàn)類似人類使用的平衡控制策略。此外，隨著RL算法通過反復(fù)試驗(yàn)過程得到改善，自動(dòng)適應(yīng)新情況，他們的框架幾乎不需要人工調(diào)整或人工工程師的其他干預(yù)。

兩足動(dòng)物的狀態(tài)特征。Yang，Komura&Li

“我們的研究表明，深層強(qiáng)化學(xué)習(xí)可以成為一個(gè)強(qiáng)大的工具，可以產(chǎn)生與人工設(shè)計(jì)的控制器相當(dāng)?shù)钠胶饨Y(jié)果，減少手動(dòng)調(diào)整工作和縮短時(shí)間，”李博士說。“ 我們開發(fā)的深度強(qiáng)化學(xué)習(xí)算法甚至能夠?qū)W習(xí)類似于人類的行為，例如傾斜腳趾或腳跟，這是大多數(shù)工程方法無法執(zhí)行的。”

李博士和他的同事現(xiàn)在正致力于擴(kuò)展他們的研究，在三維模擬中將RL應(yīng)用于全身Valkyrie機(jī)器人。在這項(xiàng)新的研究工作中，他們能夠?qū)㈩愃迫祟惖钠胶獠呗酝茝V到步行和其他運(yùn)動(dòng)任務(wù)。

“最終，我們希望應(yīng)用這種將機(jī)器學(xué)習(xí)和機(jī)器人控制結(jié)合到真人形機(jī)器人以及其他機(jī)器人平臺(tái)的分層框架，”李博士說。

標(biāo)簽：平衡控制策略