您的位置: 首頁 >汽車 >

第一個白盒測試模型在自動駕駛汽車中發(fā)現(xiàn)了數(shù)千個錯誤

2019-06-24 15:34:13 編輯: 來源:
導(dǎo)讀 如何在黑匣子中找到系統(tǒng)中的錯誤?這是完善深度學(xué)習(xí)系統(tǒng)(如自動駕駛汽車)背后的挑戰(zhàn)之一。深度學(xué)習(xí)系統(tǒng)基于以人腦為模型的人工神經(jīng)網(wǎng)絡(luò),神

如何在黑匣子中找到系統(tǒng)中的錯誤?這是完善深度學(xué)習(xí)系統(tǒng)(如自動駕駛汽車)背后的挑戰(zhàn)之一。深度學(xué)習(xí)系統(tǒng)基于以人腦為模型的人工神經(jīng)網(wǎng)絡(luò),神經(jīng)元像網(wǎng)狀物一樣連接在一起。這種類似網(wǎng)絡(luò)的神經(jīng)結(jié)構(gòu)使機器能夠以非線性方法處理數(shù)據(jù) - 基本上是通過所謂的訓(xùn)練數(shù)據(jù)來教導(dǎo)自己分析信息。

當(dāng)輸入在被“訓(xùn)練”之后呈現(xiàn)給系統(tǒng)時 - 就像呈現(xiàn)給自動駕駛汽車平臺的典型雙車道公路的圖像 - 系統(tǒng)通過其復(fù)雜邏輯系統(tǒng)運行分析來識別它。這個過程主要發(fā)生在一個黑盒子里,并沒有被包括系統(tǒng)創(chuàng)建者在內(nèi)的任何人完全理解。

任何錯誤也會出現(xiàn)在黑匣子中,因此難以識別并修復(fù)它們。這種不透明性對識別角落案例行為提出了特殊挑戰(zhàn)。拐角情況是在正常操作參數(shù)之外發(fā)生的事件。角落案例:自動駕駛汽車系統(tǒng)可能被編程為在大多數(shù)情況下識別雙車道高速公路中的曲線。但是,如果照明比正常情況更低或更亮,系統(tǒng)可能無法識別它并且可能發(fā)生錯誤。最近的一個例子是2016年特斯拉墜毀事故的部分原因......

Lehigh大學(xué)的Yinzhi Cao和哥倫比亞大學(xué)的Junfeng Yang和Suman Jana以及哥倫比亞大學(xué)的博士學(xué)位將光線投射到深度學(xué)習(xí)系統(tǒng)的黑匣子中。學(xué)生Kexin Pei已經(jīng)使用DeepXplore實現(xiàn)了這項系統(tǒng)的首次自動化白盒測試。在真實世界的數(shù)據(jù)集上評估DeepXplore,研究人員能夠揭示成千上萬個獨特的錯誤角落行為。他們將于10月29日在中國上海舉行的2017年兩年一次的ACM操作系統(tǒng)原理研討會(SOSP)會議上發(fā)表他們的研究成果:第一場:蟲狩獵。

“我們的DeepXplore工作提出了第一個稱為'神經(jīng)元覆蓋'的測試覆蓋率指標(biāo),以經(jīng)驗性地了解測試輸入集是否提供了對深度神經(jīng)網(wǎng)絡(luò)的決策邏輯和行為的良好覆蓋與良好覆蓋,”Cao,計算機科學(xué)助理教授說。和工程。

除了將神經(jīng)元覆蓋作為指標(biāo)引入外,研究人員還演示了在更傳統(tǒng)的系統(tǒng)中檢測邏輯錯誤的技術(shù) - 稱為差分測試 - 如何應(yīng)用于深度學(xué)習(xí)系統(tǒng)。

“DeepXplore解決了另一個需要許多手動標(biāo)記的測試輸入的困難挑戰(zhàn)。它通過交叉檢查多個DNN并巧妙地搜索導(dǎo)致深度神經(jīng)網(wǎng)絡(luò)不一致結(jié)果的輸入來實現(xiàn),”計算機科學(xué)副教授楊說。“例如,考慮到自動駕駛汽車攝像頭拍攝的圖像,如果兩個網(wǎng)絡(luò)認(rèn)為汽車應(yīng)該向左轉(zhuǎn),第三個認(rèn)為汽車應(yīng)該向右轉(zhuǎn),那么角落情況可能在第三個深度神經(jīng)網(wǎng)絡(luò)中。不需要手動標(biāo)記來檢測這種不一致。“

該團(tuán)隊評估了DeepXplore的真實數(shù)據(jù)集,包括Udacity自駕車挑戰(zhàn)數(shù)據(jù),ImageNet和MNIST的圖像數(shù)據(jù),Drebin的Android惡意軟件數(shù)據(jù),Contagio / VirusTotal的PDF惡意軟件數(shù)據(jù),以及在這些數(shù)據(jù)集上培訓(xùn)的生產(chǎn)質(zhì)量深度神經(jīng)網(wǎng)絡(luò),如這些在Udacity自駕車挑戰(zhàn)中名列前茅。

他們的研究結(jié)果顯示,DeepXplore 在15個最先進(jìn)的深度學(xué)習(xí)模型中發(fā)現(xiàn)了成千上萬個不正確的角落案例行為(例如,自動駕駛汽車撞到護(hù)欄),共有132個,057個神經(jīng)元在五個流行的數(shù)據(jù)集上訓(xùn)練大約162 GB的數(shù)據(jù)。

該團(tuán)隊已將其開源軟件公開供其他研究人員使用,并推出了一個網(wǎng)站DeepXplore,讓人們上傳自己的數(shù)據(jù),以了解測試過程的工作原理。

更神經(jīng)元的覆蓋范圍

根據(jù)會議后發(fā)表的論文(參見此處的初步版本),DeepXplore旨在生成最大化深度學(xué)習(xí)(DL)系統(tǒng)神經(jīng)元覆蓋范圍的輸入。

作者寫道:“在高層次上,DL系統(tǒng)的神經(jīng)元覆蓋與傳統(tǒng)系統(tǒng)的代碼覆蓋類似,這是衡量傳統(tǒng)軟件中輸入所執(zhí)行代碼量的標(biāo)準(zhǔn)指標(biāo)。但是,代碼覆蓋本身并不是估算DL系統(tǒng)覆蓋范圍的良好指標(biāo),因為與傳統(tǒng)軟件不同,DL系統(tǒng)中的大多數(shù)規(guī)則不是由程序員手動編寫,而是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。

“我們發(fā)現(xiàn),對于我們測試的大多數(shù)深度學(xué)習(xí)系統(tǒng),即使是一個隨機選擇的測試輸入也能夠?qū)崿F(xiàn)100%的代碼覆蓋率 - 但是,神經(jīng)元的覆蓋率不到10%,”計算機科學(xué)助理教授Jana補充說。 。

DeepXplore生成的輸入平均比相同數(shù)量的隨機選擇的輸入和對抗輸入(攻擊者有意設(shè)計導(dǎo)致模型犯錯的機器學(xué)習(xí)模型的輸入)平均高出34.4%和33.2%的神經(jīng)元覆蓋率。

差分測試應(yīng)用于深度學(xué)習(xí)

Cao和Yang展示了具有相似功能的多個深度學(xué)習(xí)系統(tǒng)(例如Google,Tesla和Uber的自動駕駛汽車)如何用作交叉引用的神諭,以識別錯誤的角落情況而無需人工檢查。例如,如果一輛自動駕駛汽車決定向左轉(zhuǎn),而另一輛則為同一輸入向右轉(zhuǎn),則其中一輛可能不正確。這種差分測試技術(shù)過去已成功應(yīng)用于檢測邏輯錯誤,而無需各種傳統(tǒng)軟件中的手??動規(guī)范。

在他們的論文中,他們展示了如何將差異測試應(yīng)用于深度學(xué)習(xí)系統(tǒng)。

最后,研究人員的新穎測試方法可用于重新訓(xùn)練系統(tǒng)以提高分類準(zhǔn)確性。在測試過程中,通過對DeepXplore生成的輸入重新訓(xùn)練深度學(xué)習(xí)模型與在相同數(shù)量的隨機選擇或?qū)馆斎肷线M(jìn)行重新訓(xùn)練相比,他們實現(xiàn)了分類準(zhǔn)確度提高了3%。

“DeepXplore能夠生成大量輸入,自動高效地導(dǎo)致深層神經(jīng)網(wǎng)絡(luò)錯誤分類,”Yang補充說。“這些輸入可以反饋到培訓(xùn)過程中,以提高準(zhǔn)確性。”

Cao補充說:“我們的最終目標(biāo)是能夠測試一個系統(tǒng),比如自動駕駛汽車,并告訴創(chuàng)作者它是否真正安全,在什么條件下。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。