2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
中國(guó)跨國(guó)科技公司百度的研究人員最近開(kāi)發(fā)了一種基于Apollo自動(dòng)駕駛平臺(tái)的自動(dòng)駕駛車輛數(shù)據(jù)驅(qū)動(dòng)自動(dòng)調(diào)整框架。該框架在預(yù)先發(fā)布在arXiv上的論文中提出,包括一種新的強(qiáng)化學(xué)習(xí)算法和一種離線培訓(xùn)策略,以及一種收集和標(biāo)記數(shù)據(jù)的自動(dòng)方法。
用于自動(dòng)駕駛的運(yùn)動(dòng)規(guī)劃器是一種旨在產(chǎn)生安全且舒適的軌跡以到達(dá)期望目的地的系統(tǒng)。設(shè)計(jì)和調(diào)整這些系統(tǒng)以確保它們?cè)诓煌鸟{駛條件下表現(xiàn)良好是一項(xiàng)艱巨的任務(wù),全球有幾家公司和研究人員正在努力解決這些問(wèn)題。
“自動(dòng)駕駛汽車的運(yùn)動(dòng)規(guī)劃存在許多具有挑戰(zhàn)性的問(wèn)題,”進(jìn)行這項(xiàng)研究的研究人員之一范浩陽(yáng)告訴Tech Xplore。“一個(gè)主要的挑戰(zhàn)是它必須處理成千上萬(wàn)的差異情景。通常,我們定義一個(gè)獎(jiǎng)勵(lì)/成本功能調(diào)整,可以調(diào)整情景中的這些差異。但是,我們發(fā)現(xiàn)這是一項(xiàng)艱巨的任務(wù)。”
通常,獎(jiǎng)勵(lì)成本功能調(diào)整需要代表研究人員進(jìn)行大量工作,以及在模擬和道路測(cè)試中花費(fèi)的資源和時(shí)間。此外,隨著時(shí)間的推移環(huán)境會(huì)發(fā)生顯著變化,并且隨著駕駛條件變得更加復(fù)雜,調(diào)整運(yùn)動(dòng)規(guī)劃器的性能變得越來(lái)越困難。
“為了系統(tǒng)地解決這個(gè)問(wèn)題,我們開(kāi)發(fā)了一個(gè)基于Apollo自動(dòng)駕駛框架的數(shù)據(jù)驅(qū)動(dòng)自動(dòng)調(diào)整框架,”范說(shuō)。“自動(dòng)調(diào)整的想法是從人類展示的駕駛數(shù)據(jù)中學(xué)習(xí)參數(shù)。例如,我們希望從數(shù)據(jù)中了解人類駕駛員如何平衡速度和駕駛便利性與障礙物距離。但在更復(fù)雜的情況下,例如,擁擠城市,我們可以從人類司機(jī)那里學(xué)到什么?“
百度開(kāi)發(fā)的自動(dòng)調(diào)整框架包括一種新的強(qiáng)化學(xué)習(xí)算法,可以從數(shù)據(jù)中學(xué)習(xí)并隨著時(shí)間的推移改善其性能。與大多數(shù)逆強(qiáng)化學(xué)習(xí)算法相比,它可以有效地應(yīng)用于不同的駕駛場(chǎng)景。
該框架還包括離線培訓(xùn)策略,為研究人員在公路上測(cè)試自動(dòng)駕駛汽車之前調(diào)整參數(shù)提供了一種安全的方法。它還從專家驅(qū)動(dòng)程序和環(huán)境信息中收集數(shù)據(jù),自動(dòng)標(biāo)記這些數(shù)據(jù),以便通過(guò)強(qiáng)化學(xué)習(xí)算法對(duì)其進(jìn)行分析。
“我認(rèn)為我們開(kāi)發(fā)了一條安全的管道,通過(guò)使用人類演示數(shù)據(jù),使機(jī)器學(xué)習(xí)可擴(kuò)展系統(tǒng),”范說(shuō)。“收集開(kāi)環(huán)人體演示數(shù)據(jù),不需要額外的標(biāo)簽。由于培訓(xùn)過(guò)程也是離線的,我們的方法適用于自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃,保持公路測(cè)試安全。”
研究人員評(píng)估了一個(gè)運(yùn)動(dòng)規(guī)劃師,他們使用他們的框架在模擬和公共道路測(cè)試中進(jìn)行了調(diào)整。與現(xiàn)有方法相比,它們的數(shù)據(jù)驅(qū)動(dòng)方法能夠更好地適應(yīng)不同的駕駛場(chǎng)景,在各種條件下始終如一地表現(xiàn)良好。
暹羅模型內(nèi)的價(jià)值網(wǎng)絡(luò)用于捕捉基于編碼特征的駕駛行為。網(wǎng)絡(luò)是在不同時(shí)間t = t0,...,t17的編碼獎(jiǎng)勵(lì)的可訓(xùn)練線性組合。編碼獎(jiǎng)勵(lì)的權(quán)重是可學(xué)習(xí)的時(shí)間衰減因子。編碼的獎(jiǎng)勵(lì)包括具有21個(gè)原始特征的輸入層和具有15個(gè)節(jié)點(diǎn)的隱藏層以覆蓋可能的交互。不同時(shí)間的獎(jiǎng)勵(lì)參數(shù)共享相同的θ以保持一致性。圖片來(lái)源:Fan等。
“我們的研究基于百度Apollo開(kāi)源自動(dòng)駕駛平臺(tái),”范說(shuō)。“我們希望來(lái)自學(xué)術(shù)界和工業(yè)界的越來(lái)越多的人能夠通過(guò)Apollo為自動(dòng)駕駛生態(tài)系統(tǒng)做出貢獻(xiàn)。未來(lái),我們計(jì)劃將百度Apollo 的當(dāng)前框架改進(jìn)為機(jī)器學(xué)習(xí)可擴(kuò)展系統(tǒng),可以系統(tǒng)地改善自動(dòng)駕駛的情景覆蓋范圍。汽車。”
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。