百度研究人員為自動駕駛汽車開發(fā)了一種新的自動調(diào)整框架

2019-06-11 17:20:18 編輯：來源：

導(dǎo)讀中國跨國科技公司百度的研究人員最近開發(fā)了一種基于Apollo自動駕駛平臺的自動駕駛車輛數(shù)據(jù)驅(qū)動自動調(diào)整框架。該框架在預(yù)先發(fā)布在arXiv上的

中國跨國科技公司百度的研究人員最近開發(fā)了一種基于Apollo自動駕駛平臺的自動駕駛車輛數(shù)據(jù)驅(qū)動自動調(diào)整框架。該框架在預(yù)先發(fā)布在arXiv上的論文中提出，包括一種新的強(qiáng)化學(xué)習(xí)算法和一種離線培訓(xùn)策略，以及一種收集和標(biāo)記數(shù)據(jù)的自動方法。

用于自動駕駛的運(yùn)動規(guī)劃器是一種旨在產(chǎn)生安全且舒適的軌跡以到達(dá)期望目的地的系統(tǒng)。設(shè)計和調(diào)整這些系統(tǒng)以確保它們在不同的駕駛條件下表現(xiàn)良好是一項艱巨的任務(wù)，全球有幾家公司和研究人員正在努力解決這些問題。

“自動駕駛汽車的運(yùn)動規(guī)劃存在許多具有挑戰(zhàn)性的問題，”進(jìn)行這項研究的研究人員之一范浩陽告訴Tech Xplore。“一個主要的挑戰(zhàn)是它必須處理成千上萬的差異情景。通常，我們定義一個獎勵/成本功能調(diào)整，可以調(diào)整情景中的這些差異。但是，我們發(fā)現(xiàn)這是一項艱巨的任務(wù)。”

通常，獎勵成本功能調(diào)整需要代表研究人員進(jìn)行大量工作，以及在模擬和道路測試中花費(fèi)的資源和時間。此外，隨著時間的推移環(huán)境會發(fā)生顯著變化，并且隨著駕駛條件變得更加復(fù)雜，調(diào)整運(yùn)動規(guī)劃器的性能變得越來越困難。

“為了系統(tǒng)地解決這個問題，我們開發(fā)了一個基于Apollo自動駕駛框架的數(shù)據(jù)驅(qū)動自動調(diào)整框架，”范說。“自動調(diào)整的想法是從人類展示的駕駛數(shù)據(jù)中學(xué)習(xí)參數(shù)。例如，我們希望從數(shù)據(jù)中了解人類駕駛員如何平衡速度和駕駛便利性與障礙物距離。但在更復(fù)雜的情況下，例如，擁擠城市，我們可以從人類司機(jī)那里學(xué)到什么?“

百度開發(fā)的自動調(diào)整框架包括一種新的強(qiáng)化學(xué)習(xí)算法，可以從數(shù)據(jù)中學(xué)習(xí)并隨著時間的推移改善其性能。與大多數(shù)逆強(qiáng)化學(xué)習(xí)算法相比，它可以有效地應(yīng)用于不同的駕駛場景。

該框架還包括離線培訓(xùn)策略，為研究人員在公路上測試自動駕駛汽車之前調(diào)整參數(shù)提供了一種安全的方法。它還從專家驅(qū)動程序和環(huán)境信息中收集數(shù)據(jù)，自動標(biāo)記這些數(shù)據(jù)，以便通過強(qiáng)化學(xué)習(xí)算法對其進(jìn)行分析。

“我認(rèn)為我們開發(fā)了一條安全的管道，通過使用人類演示數(shù)據(jù)，使機(jī)器學(xué)習(xí)可擴(kuò)展系統(tǒng)，”范說。“收集開環(huán)人體演示數(shù)據(jù)，不需要額外的標(biāo)簽。由于培訓(xùn)過程也是離線的，我們的方法適用于自動駕駛運(yùn)動規(guī)劃，保持公路測試安全。”

研究人員評估了一個運(yùn)動規(guī)劃師，他們使用他們的框架在模擬和公共道路測試中進(jìn)行了調(diào)整。與現(xiàn)有方法相比，它們的數(shù)據(jù)驅(qū)動方法能夠更好地適應(yīng)不同的駕駛場景，在各種條件下始終如一地表現(xiàn)良好。

暹羅模型內(nèi)的價值網(wǎng)絡(luò)用于捕捉基于編碼特征的駕駛行為。網(wǎng)絡(luò)是在不同時間t = t0，...，t17的編碼獎勵的可訓(xùn)練線性組合。編碼獎勵的權(quán)重是可學(xué)習(xí)的時間衰減因子。編碼的獎勵包括具有21個原始特征的輸入層和具有15個節(jié)點(diǎn)的隱藏層以覆蓋可能的交互。不同時間的獎勵參數(shù)共享相同的θ以保持一致性。圖片來源：Fan等。

“我們的研究基于百度Apollo開源自動駕駛平臺，”范說。“我們希望來自學(xué)術(shù)界和工業(yè)界的越來越多的人能夠通過Apollo為自動駕駛生態(tài)系統(tǒng)做出貢獻(xiàn)。未來，我們計劃將百度Apollo 的當(dāng)前框架改進(jìn)為機(jī)器學(xué)習(xí)可擴(kuò)展系統(tǒng)，可以系統(tǒng)地改善自動駕駛的情景覆蓋范圍。汽車。”

標(biāo)簽：自動駕駛汽車