2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
中國跨國科技公司百度的研究人員最近開發(fā)了一種基于Apollo自動駕駛平臺的自動駕駛車輛數(shù)據(jù)驅(qū)動自動調(diào)整框架。該框架在預(yù)先發(fā)布在arXiv上的論文中提出,包括一種新的強化學習算法和一種離線培訓策略,以及一種收集和標記數(shù)據(jù)的自動方法。
用于自動駕駛的運動規(guī)劃器是一種旨在產(chǎn)生安全且舒適的軌跡以到達期望目的地的系統(tǒng)。設(shè)計和調(diào)整這些系統(tǒng)以確保它們在不同的駕駛條件下表現(xiàn)良好是一項艱巨的任務(wù),全球有幾家公司和研究人員正在努力解決這些問題。
“自動駕駛汽車的運動規(guī)劃存在許多具有挑戰(zhàn)性的問題,”進行這項研究的研究人員之一范浩陽告訴Tech Xplore。“一個主要的挑戰(zhàn)是它必須處理成千上萬的差異情景。通常,我們定義一個獎勵/成本功能調(diào)整,可以調(diào)整情景中的這些差異。但是,我們發(fā)現(xiàn)這是一項艱巨的任務(wù)。”
通常,獎勵成本功能調(diào)整需要代表研究人員進行大量工作,以及在模擬和道路測試中花費的資源和時間。此外,隨著時間的推移環(huán)境會發(fā)生顯著變化,并且隨著駕駛條件變得更加復雜,調(diào)整運動規(guī)劃器的性能變得越來越困難。
“為了系統(tǒng)地解決這個問題,我們開發(fā)了一個基于Apollo自動駕駛框架的數(shù)據(jù)驅(qū)動自動調(diào)整框架,”范說。“自動調(diào)整的想法是從人類展示的駕駛數(shù)據(jù)中學習參數(shù)。例如,我們希望從數(shù)據(jù)中了解人類駕駛員如何平衡速度和駕駛便利性與障礙物距離。但在更復雜的情況下,例如,擁擠城市,我們可以從人類司機那里學到什么?“
百度開發(fā)的自動調(diào)整框架包括一種新的強化學習算法,可以從數(shù)據(jù)中學習并隨著時間的推移改善其性能。與大多數(shù)逆強化學習算法相比,它可以有效地應(yīng)用于不同的駕駛場景。
該框架還包括離線培訓策略,為研究人員在公路上測試自動駕駛汽車之前調(diào)整參數(shù)提供了一種安全的方法。它還從專家驅(qū)動程序和環(huán)境信息中收集數(shù)據(jù),自動標記這些數(shù)據(jù),以便通過強化學習算法對其進行分析。
“我認為我們開發(fā)了一條安全的管道,通過使用人類演示數(shù)據(jù),使機器學習可擴展系統(tǒng),”范說。“收集開環(huán)人體演示數(shù)據(jù),不需要額外的標簽。由于培訓過程也是離線的,我們的方法適用于自動駕駛運動規(guī)劃,保持公路測試安全。”
研究人員評估了一個運動規(guī)劃師,他們使用他們的框架在模擬和公共道路測試中進行了調(diào)整。與現(xiàn)有方法相比,它們的數(shù)據(jù)驅(qū)動方法能夠更好地適應(yīng)不同的駕駛場景,在各種條件下始終如一地表現(xiàn)良好。
暹羅模型內(nèi)的價值網(wǎng)絡(luò)用于捕捉基于編碼特征的駕駛行為。網(wǎng)絡(luò)是在不同時間t = t0,...,t17的編碼獎勵的可訓練線性組合。編碼獎勵的權(quán)重是可學習的時間衰減因子。編碼的獎勵包括具有21個原始特征的輸入層和具有15個節(jié)點的隱藏層以覆蓋可能的交互。不同時間的獎勵參數(shù)共享相同的θ以保持一致性。圖片來源:Fan等。
“我們的研究基于百度Apollo開源自動駕駛平臺,”范說。“我們希望來自學術(shù)界和工業(yè)界的越來越多的人能夠通過Apollo為自動駕駛生態(tài)系統(tǒng)做出貢獻。未來,我們計劃將百度Apollo 的當前框架改進為機器學習可擴展系統(tǒng),可以系統(tǒng)地改善自動駕駛的情景覆蓋范圍。汽車。”
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。