您的位置: 首頁 >汽車 >

百度研究人員為自動駕駛汽車開發(fā)了一種新的自動調整框架

2019-06-11 17:20:18 編輯: 來源:
導讀 中國跨國科技公司百度的研究人員最近開發(fā)了一種基于Apollo自動駕駛平臺的自動駕駛車輛數據驅動自動調整框架。該框架在預先發(fā)布在arXiv上的

中國跨國科技公司百度的研究人員最近開發(fā)了一種基于Apollo自動駕駛平臺的自動駕駛車輛數據驅動自動調整框架。該框架在預先發(fā)布在arXiv上的論文中提出,包括一種新的強化學習算法和一種離線培訓策略,以及一種收集和標記數據的自動方法。

用于自動駕駛的運動規(guī)劃器是一種旨在產生安全且舒適的軌跡以到達期望目的地的系統(tǒng)。設計和調整這些系統(tǒng)以確保它們在不同的駕駛條件下表現良好是一項艱巨的任務,全球有幾家公司和研究人員正在努力解決這些問題。

“自動駕駛汽車的運動規(guī)劃存在許多具有挑戰(zhàn)性的問題,”進行這項研究的研究人員之一范浩陽告訴Tech Xplore。“一個主要的挑戰(zhàn)是它必須處理成千上萬的差異情景。通常,我們定義一個獎勵/成本功能調整,可以調整情景中的這些差異。但是,我們發(fā)現這是一項艱巨的任務。”

通常,獎勵成本功能調整需要代表研究人員進行大量工作,以及在模擬和道路測試中花費的資源和時間。此外,隨著時間的推移環(huán)境會發(fā)生顯著變化,并且隨著駕駛條件變得更加復雜,調整運動規(guī)劃器的性能變得越來越困難。

“為了系統(tǒng)地解決這個問題,我們開發(fā)了一個基于Apollo自動駕駛框架的數據驅動自動調整框架,”范說。“自動調整的想法是從人類展示的駕駛數據中學習參數。例如,我們希望從數據中了解人類駕駛員如何平衡速度和駕駛便利性與障礙物距離。但在更復雜的情況下,例如,擁擠城市,我們可以從人類司機那里學到什么?“

百度開發(fā)的自動調整框架包括一種新的強化學習算法,可以從數據中學習并隨著時間的推移改善其性能。與大多數逆強化學習算法相比,它可以有效地應用于不同的駕駛場景。

該框架還包括離線培訓策略,為研究人員在公路上測試自動駕駛汽車之前調整參數提供了一種安全的方法。它還從專家驅動程序和環(huán)境信息中收集數據,自動標記這些數據,以便通過強化學習算法對其進行分析。

“我認為我們開發(fā)了一條安全的管道,通過使用人類演示數據,使機器學習可擴展系統(tǒng),”范說。“收集開環(huán)人體演示數據,不需要額外的標簽。由于培訓過程也是離線的,我們的方法適用于自動駕駛運動規(guī)劃,保持公路測試安全。”

研究人員評估了一個運動規(guī)劃師,他們使用他們的框架在模擬和公共道路測試中進行了調整。與現有方法相比,它們的數據驅動方法能夠更好地適應不同的駕駛場景,在各種條件下始終如一地表現良好。

暹羅模型內的價值網絡用于捕捉基于編碼特征的駕駛行為。網絡是在不同時間t = t0,...,t17的編碼獎勵的可訓練線性組合。編碼獎勵的權重是可學習的時間衰減因子。編碼的獎勵包括具有21個原始特征的輸入層和具有15個節(jié)點的隱藏層以覆蓋可能的交互。不同時間的獎勵參數共享相同的θ以保持一致性。圖片來源:Fan等。

“我們的研究基于百度Apollo開源自動駕駛平臺,”范說。“我們希望來自學術界和工業(yè)界的越來越多的人能夠通過Apollo為自動駕駛生態(tài)系統(tǒng)做出貢獻。未來,我們計劃將百度Apollo 的當前框架改進為機器學習可擴展系統(tǒng),可以系統(tǒng)地改善自動駕駛的情景覆蓋范圍。汽車。”


免責聲明:本文由用戶上傳,如有侵權請聯系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ   備案號:

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。

郵箱:toplearningteam#gmail.com (請將#換成@)