該系統(tǒng)在無(wú)人駕駛汽車(chē)上路前對(duì)其進(jìn)行模擬訓(xùn)練

2020-04-04 10:59:36 編輯：來(lái)源：

導(dǎo)讀麻省理工學(xué)院發(fā)明了一種模擬系統(tǒng)來(lái)訓(xùn)練無(wú)人駕駛汽車(chē)，創(chuàng)造了一個(gè)具有無(wú)限轉(zhuǎn)向可能性的真實(shí)世界，幫助汽車(chē)在巡航到真正的街道之前學(xué)會(huì)導(dǎo)航一系列更糟糕的場(chǎng)景。自動(dòng)駕駛車(chē)輛的控制系統(tǒng)或“控制器”在很大程度上依賴(lài)于來(lái)自人類(lèi)駕駛員的駕駛軌跡的真實(shí)世界數(shù)據(jù)集。從這些數(shù)據(jù)中，他們學(xué)習(xí)如何在各種情況下模擬安全轉(zhuǎn)向控制。但不幸的是，來(lái)自危險(xiǎn)的“邊緣案例”的真實(shí)數(shù)據(jù)，如幾乎崩潰或被迫離開(kāi)道路或進(jìn)入其他車(chē)道，都是真實(shí)的

麻省理工學(xué)院發(fā)明了一種模擬系統(tǒng)來(lái)訓(xùn)練無(wú)人駕駛汽車(chē)，創(chuàng)造了一個(gè)具有無(wú)限轉(zhuǎn)向可能性的真實(shí)世界，幫助汽車(chē)在巡航到真正的街道之前學(xué)會(huì)導(dǎo)航一系列更糟糕的場(chǎng)景。

自動(dòng)駕駛車(chē)輛的控制系統(tǒng)或“控制器”在很大程度上依賴(lài)于來(lái)自人類(lèi)駕駛員的駕駛軌跡的真實(shí)世界數(shù)據(jù)集。從這些數(shù)據(jù)中，他們學(xué)習(xí)如何在各種情況下模擬安全轉(zhuǎn)向控制。但不幸的是，來(lái)自危險(xiǎn)的“邊緣案例”的真實(shí)數(shù)據(jù)，如幾乎崩潰或被迫離開(kāi)道路或進(jìn)入其他車(chē)道，都是真實(shí)的。

一些計(jì)算機(jī)程序，稱(chēng)為“模擬引擎”，旨在通過(guò)繪制詳細(xì)的虛擬道路來(lái)模擬這些情況，以幫助訓(xùn)練控制器恢復(fù)。但是，從模擬中學(xué)到的控制從來(lái)沒(méi)有被證明是在一輛全面的車(chē)輛上轉(zhuǎn)移到現(xiàn)實(shí)中的。

麻省理工學(xué)院的研究人員用他們的真實(shí)感模擬器來(lái)解決這個(gè)問(wèn)題，稱(chēng)為虛擬圖像合成和自治轉(zhuǎn)換(VISTA)。它只使用一個(gè)小數(shù)據(jù)集，由駕駛在道路上的人捕獲，從車(chē)輛在現(xiàn)實(shí)世界中可以接受的軌跡合成幾乎無(wú)限多的新觀點(diǎn)。控制器是獎(jiǎng)勵(lì)它旅行的距離而不崩潰，所以它必須自己學(xué)習(xí)如何安全到達(dá)目的地。在這樣做的過(guò)程中，車(chē)輛學(xué)會(huì)安全地駕駛它遇到的任何情況，包括在車(chē)道之間轉(zhuǎn)彎或從近車(chē)中恢復(fù)控制。

在測(cè)試中，在VISTA模擬器中訓(xùn)練的控制器能夠安全地部署到一輛全面的無(wú)人駕駛汽車(chē)上，并在以前看不見(jiàn)的街道上導(dǎo)航。在將汽車(chē)定位在模擬各種近碰撞情況的越野方向時(shí)，控制器還能夠在幾秒鐘內(nèi)成功地將汽車(chē)恢復(fù)到安全的駕駛軌跡。一篇描述該系統(tǒng)的論文已發(fā)表在IEEE機(jī)器人和自動(dòng)化信函中，并將在即將于5月舉行的ICRA會(huì)議上發(fā)表。

第一作者亞歷山大·阿米尼(AlexanderAmini)說(shuō)：“在這些邊緣情況下，很難收集到人類(lèi)在這條路上沒(méi)有經(jīng)歷過(guò)的數(shù)據(jù)。計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSA IL)的D.名學(xué)生。 “然而，在我們的模擬中，控制系統(tǒng)可以經(jīng)歷這些情況，學(xué)會(huì)從這些情況中恢復(fù)過(guò)來(lái)，并在部署到現(xiàn)實(shí)世界中的車(chē)輛時(shí)保持強(qiáng)勁。

這項(xiàng)工作是與豐田研究所合作完成的。參加論文的有：CSAIL博士后Igor Gilitschenski；CSAIL和電氣工程和計(jì)算機(jī)科學(xué)系的所有本科生Jacob Phillips、Julia Moseyko和Rohan Banerjee；航空和航天副教授Sertac Karaman；CSAIL主任Daniela Rus以及電氣工程和計(jì)算機(jī)科學(xué)Andrew和Erna Viterbi教授。

數(shù)據(jù)驅(qū)動(dòng)的模擬

從歷史上看，建造用于訓(xùn)練和測(cè)試自動(dòng)駕駛汽車(chē)的模擬引擎在很大程度上是一項(xiàng)手工任務(wù)。公司和大學(xué)經(jīng)常雇用藝術(shù)家和工程師團(tuán)隊(duì)來(lái)描繪虛擬環(huán)境，在樹(shù)上有準(zhǔn)確的道路標(biāo)記、車(chē)道，甚至詳細(xì)的樹(shù)葉。一些發(fā)動(dòng)機(jī)還可以結(jié)合汽車(chē)與環(huán)境相互作用的物理，基于復(fù)雜的數(shù)學(xué)模型。

但是，由于在復(fù)雜的現(xiàn)實(shí)世界環(huán)境中有許多不同的東西需要考慮，所以實(shí)際上不可能將所有東西都集成到模擬器中。由于這個(gè)原因，控制器在模擬中學(xué)到的東西和它們?cè)诂F(xiàn)實(shí)世界中的操作方式之間通常是不匹配的。

相反，麻省理工學(xué)院的研究人員創(chuàng)造了一個(gè)他們稱(chēng)之為“數(shù)據(jù)驅(qū)動(dòng)”的模擬引擎，它從真實(shí)數(shù)據(jù)中綜合出與道路外觀一致的新軌跡，以及場(chǎng)景中所有物體的距離和運(yùn)動(dòng)。

他們首先從一個(gè)開(kāi)車(chē)沿著幾條路行駛的人那里收集視頻數(shù)據(jù)，并將其輸入發(fā)動(dòng)機(jī)。對(duì)于每個(gè)幀，引擎將每個(gè)像素投影成一種三維點(diǎn)云。然后，他們?cè)谀莻€(gè)世界里放置了一輛虛擬車(chē)輛。當(dāng)車(chē)輛發(fā)出轉(zhuǎn)向命令時(shí)，發(fā)動(dòng)機(jī)通過(guò)點(diǎn)云合成一個(gè)新的軌跡，基于轉(zhuǎn)向曲線和車(chē)輛的方向和速度。

然后，引擎使用新的軌跡來(lái)渲染一個(gè)真實(shí)的場(chǎng)景。為此，它使用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)-通常用于圖像處理任務(wù)-來(lái)估計(jì)深度地圖，其中包含與控制器觀點(diǎn)的對(duì)象距離有關(guān)的信息。然后，它結(jié)合深度圖與一種技術(shù)，估計(jì)相機(jī)的方向在三維場(chǎng)景。這一切都有助于確定車(chē)輛的位置和相對(duì)距離的一切虛擬模擬器。

基于這些信息，它重新調(diào)整原始像素，從車(chē)輛的新觀點(diǎn)重新創(chuàng)建世界的三維表示。它還跟蹤像素的運(yùn)動(dòng)，以捕捉汽車(chē)和人的運(yùn)動(dòng)，以及其他運(yùn)動(dòng)物體，在場(chǎng)景中。 Rus說(shuō)：“這相當(dāng)于為車(chē)輛提供無(wú)限數(shù)量的可能軌跡。” 因?yàn)楫?dāng)我們收集物理數(shù)據(jù)時(shí)，我們從汽車(chē)將遵循的特定軌跡中得到數(shù)據(jù)。但我們可以修改這個(gè)軌跡來(lái)涵蓋所有可能的駕駛方式和環(huán)境。這真的很強(qiáng)大。“

從零開(kāi)始強(qiáng)化學(xué)習(xí)

傳統(tǒng)上，研究人員一直在通過(guò)遵循人類(lèi)定義的駕駛規(guī)則或試圖模仿人類(lèi)司機(jī)來(lái)訓(xùn)練自主車(chē)輛。但是，研究人員使他們的控制器在一個(gè)“端到端”的框架下從零開(kāi)始學(xué)習(xí)，這意味著它只作為原始傳感器數(shù)據(jù)的輸入-比如道路的視覺(jué)觀察-并且從這些數(shù)據(jù)中預(yù)測(cè)輸出時(shí)的轉(zhuǎn)向命令。

“我們基本上說(shuō)，”這是一個(gè)環(huán)境。你想做什么就做什么。阿米尼說(shuō)：“別撞在車(chē)上，呆在車(chē)道里?！?/p>

這就需要“強(qiáng)化學(xué)習(xí)”(RL)，這是一種試錯(cuò)機(jī)器學(xué)習(xí)技術(shù)，在汽車(chē)出錯(cuò)時(shí)提供反饋信號(hào)。在研究人員的模擬引擎中，控制器從不知道如何駕駛、車(chē)道標(biāo)記是什么，甚至其他車(chē)輛看起來(lái)是什么開(kāi)始，所以它開(kāi)始執(zhí)行隨機(jī)轉(zhuǎn)向角。只有當(dāng)它崩潰時(shí)，它才會(huì)得到反饋信號(hào)。此時(shí)，它被傳送到一個(gè)新的模擬位置，并必須執(zhí)行一組更好的轉(zhuǎn)向角度，以避免再次崩潰。超過(guò)10到15個(gè)小時(shí)的訓(xùn)練，它使用這些稀疏反饋信號(hào)來(lái)學(xué)習(xí)旅行更大和更大的距離而不崩潰。

在模擬成功駕駛10000公里后，作者將學(xué)習(xí)控制器應(yīng)用于現(xiàn)實(shí)世界中的全尺寸自主車(chē)輛上。研究人員說(shuō)，這是第一次在模擬中使用端到端強(qiáng)化學(xué)習(xí)訓(xùn)練的控制器成功地部署到一輛全面的自動(dòng)駕駛汽車(chē)上。 ”“這讓我們很驚訝。阿米尼說(shuō)：“不僅控制器以前從未在真正的汽車(chē)上使用過(guò)，而且它以前也從未見(jiàn)過(guò)道路，對(duì)人類(lèi)如何駕駛也一無(wú)所知。”

迫使控制器在所有類(lèi)型的駕駛場(chǎng)景中運(yùn)行，使它能夠從迷失的位置重新獲得控制-例如半離路或進(jìn)入另一條車(chē)道-并在幾秒鐘內(nèi)轉(zhuǎn)向正確的車(chē)道。阿米尼說(shuō)：“其他最先進(jìn)的控制器都不幸地失敗了，因?yàn)樗麄冊(cè)谟?xùn)練中從來(lái)沒(méi)有看到過(guò)這樣的數(shù)據(jù)?！?/p>

接下來(lái)，研究人員希望從一個(gè)單一的駕駛軌跡模擬所有類(lèi)型的道路條件，如夜間和白天，以及晴天和雨天。他們還希望模擬與道路上其他車(chē)輛更復(fù)雜的相互作用。 “如果其他汽車(chē)開(kāi)始在車(chē)輛前面移動(dòng)和跳躍呢？” 拉斯說(shuō)。 “這些是我們想要開(kāi)始測(cè)試的復(fù)雜的、真實(shí)的交互?！?/p>