您的位置: 首頁 >科技 >

為什么要識別人工智能盲點呢

2022-07-03 02:54:01 編輯:黎海炎 來源:
導(dǎo)讀 麻省理工學(xué)院和微軟研究人員開發(fā)的一種新型模型確定了自主系統(tǒng)從訓(xùn)練樣本中學(xué)習(xí)的實例,這些實例與現(xiàn)實世界中實際發(fā)生的事實不符。工程師

麻省理工學(xué)院和微軟研究人員開發(fā)的一種新型模型確定了自主系統(tǒng)從訓(xùn)練樣本中“學(xué)習(xí)”的實例,這些實例與現(xiàn)實世界中實際發(fā)生的事實不符。工程師可以使用該模型來提高人工智能系統(tǒng)的安全性,例如無人駕駛車輛和自動機器人。

例如,為無人駕駛汽車提供動力的AI系統(tǒng)在虛擬模擬中被廣泛訓(xùn)練,以便為幾乎所有在路上的事件準(zhǔn)備車輛。但有時汽車會在現(xiàn)實世界中出現(xiàn)意外錯誤,因為事件發(fā)生應(yīng)該但不會改變汽車的行為。

考慮一輛未經(jīng)過培訓(xùn)的無人駕駛汽車,更重要的是沒有必要的傳感器,以區(qū)分截然不同的場景,例如大型白色轎車和道路上帶有紅色閃光燈的救護(hù)車。如果汽車在高速公路上行駛,救護(hù)車在警報器上輕彈,那么汽車可能不會知道減速和停車,因為它并不認(rèn)為救護(hù)車與大型白色轎車不同。

在去年的Autonomous Agents和Multiagent Systems會議以及即將召開的人工智能促進(jìn)會議上發(fā)表的一篇論文中,研究人員描述了一個利用人類輸入來揭示這些訓(xùn)練“盲點”的模型。

與傳統(tǒng)方法一樣,研究人員通過模擬訓(xùn)練設(shè)置了AI系統(tǒng)。但是,當(dāng)人們在現(xiàn)實世界中行動時,人類密切監(jiān)視系統(tǒng)的行為,在系統(tǒng)制造或即將發(fā)生任何錯誤時提供反饋。然后,研究人員將訓(xùn)練數(shù)據(jù)與人體反饋數(shù)據(jù)相結(jié)合,并使用機器學(xué)習(xí)技術(shù)生成一個模型,該模型可以精確定位系統(tǒng)最有可能需要更多關(guān)于如何正確行動的信息。

研究人員使用視頻游戲驗證了他們的方法,模擬人員校正了屏幕角色的學(xué)習(xí)路徑。但下一步是將該模型與傳統(tǒng)的自動駕駛汽車和機器人培訓(xùn)和測試方法相結(jié)合,并提供人工反饋。

“這個模型幫助自治系統(tǒng)更好地了解他們不知道的東西,”第一作者Ramya Ramakrishnan說,他是計算機科學(xué)和人工智能實驗室的研究生。“很多時候,當(dāng)部署這些系統(tǒng)時,他們訓(xùn)練有素的模擬與現(xiàn)實環(huán)境不匹配[并且]他們可能會犯錯誤,例如發(fā)生事故。我們的想法是利用人類以安全的方式彌合模擬與現(xiàn)實世界之間的差距,這樣我們就可以減少其中的一些錯誤。“

這兩篇論文的共同作者是:Julie Shah,航空航天系副教授,CSAIL交互式機器人小組負(fù)責(zé)人; 來自微軟研究院的Ece Kamar,Debadeepta Dey和Eric Horvitz。Besmira Nushi是即將發(fā)表的論文的另一位合著者。

一些傳統(tǒng)的訓(xùn)練方法確實在實際測試運行期間提供人工反饋,但僅用于更新系統(tǒng)的操作。這些方法不能識別盲點,這對于在現(xiàn)實世界中更安全的執(zhí)行可能是有用的。

研究人員的方法首先通過模擬訓(xùn)練建立人工智能系統(tǒng),在那里它將產(chǎn)生一個“政策”,基本上將每種情況都映射到模擬中可以采取的最佳行動。然后,系統(tǒng)將部署在現(xiàn)實世界中,人類在系統(tǒng)行為不可接受的區(qū)域提供錯誤信號。

人類可以通過多種方式提供數(shù)據(jù),例如通過“示范”和“修正”。在示威中,人類在現(xiàn)實世界中行動,而系統(tǒng)則觀察并比較人類的行為與在那種情況下所做的事情。例如,對于無人駕駛汽車,如果計劃行為偏離人的行為,人類將手動控制汽車,同時系統(tǒng)產(chǎn)生信號。與人類行為的匹配和不匹配提供了系統(tǒng)可能以可接受或不可接受的方式行動的嘈雜指示。

或者,人類可以提供校正,人類監(jiān)視系統(tǒng)在現(xiàn)實世界中的行為。當(dāng)自動駕駛汽車沿著其計劃的路線行駛時,人可以坐在駕駛座上。如果汽車的行為是正確的,人類什么都不做。然而,如果汽車的動作是不正確的,那么人可能會接收到車輪,該車輪發(fā)出一個信號,表明系統(tǒng)在該特定情況下沒有采取不可接受的行為。

一旦編譯了來自人的反饋數(shù)據(jù),系統(tǒng)基本上具有情況列表,并且對于每種情況,多個標(biāo)簽說明其行為是可接受的或不可接受的。單一情況可以接收許多不同的信號,因為系統(tǒng)將許多情況視為相同。例如,自動駕駛汽車可能會在大型汽車旁邊多次巡航而不會減速和拉動。但是,在一個例子中,一輛救護(hù)車,與系統(tǒng)看起來完全相同,巡航。自動駕駛汽車不會停車并接收反饋信號,系統(tǒng)采取了不可接受的行動。

“在這一點上,系統(tǒng)已經(jīng)被人類發(fā)出了多個相互矛盾的信號:一些人旁邊有一輛大型汽車,而且一切都很好,還有一輛救護(hù)車在同一個位置,但那不是很好。系統(tǒng)稍微注意到它做錯了什么,但它不知道為什么,“Ramakrishnan說。“因為代理人正在獲得所有這些矛盾的信號,下一步就是匯編信息,問我'在這種情況下,我收到這些混合信號時,我有多大可能犯錯?'”

最終目標(biāo)是將這些模棱兩可的情況標(biāo)記為盲點。但這不僅僅是為每種情況簡單地計算可接受和不可接受的行動。例如,如果系統(tǒng)在救護(hù)車情況下執(zhí)行了9次中的9次正確動作,那么簡單的多數(shù)投票就會將這種情況標(biāo)記為安全。

“但由于不可接受的行為遠(yuǎn)比可接受的行動少得多,該系統(tǒng)最終會學(xué)會將所有情況預(yù)測為安全,這可能非常危險,”Ramakrishnan說。

為此,研究人員使用了Dawid-Skene算法,這是一種通常用于眾包處理標(biāo)簽噪聲的機器學(xué)習(xí)方法。該算法將一系列情況作為輸入,每個情況都有一組嘈雜的“可接受”和“不可接受”的標(biāo)簽。然后,它聚合所有數(shù)據(jù),并使用一些概率計算來識別預(yù)測盲點標(biāo)簽中的模式和預(yù)測安全情況的模式。使用該信息,它為每種情況輸出單個聚合的“安全”或“盲點”標(biāo)簽以及該標(biāo)簽中的置信水平。值得注意的是,該算法可以在例如90%的時間內(nèi)可接受地執(zhí)行的情況下學(xué)習(xí),這種情況仍然模糊不清以至于值得“盲點”。

最后,該算法產(chǎn)生一種“熱圖”,其中來自系統(tǒng)原始訓(xùn)練的每種情況被指定為從低到高的概率,成為系統(tǒng)的盲點。

“當(dāng)系統(tǒng)部署到現(xiàn)實世界中時,它可以使用這種學(xué)習(xí)模型更謹(jǐn)慎,更智能地行動。如果學(xué)習(xí)模型預(yù)測狀態(tài)是一個具有高概率的盲點,系統(tǒng)可以向人類查詢可接受的動作,從而允許更安全的執(zhí)行,“Ramakrishnan說。

計算機與信息科學(xué)教授埃里克·伊頓(Eric Eaton)的研究重點是:“這項研究很好地發(fā)現(xiàn)了模擬器和現(xiàn)實世界之間何時存在不匹配,直接從專家對行為者行為的反饋中推動發(fā)現(xiàn)。”在賓夕法尼亞大學(xué)的機器人學(xué)。他補充說,該研究“具有很好的潛力,可以讓機器人預(yù)測何時可能會在新的情況下采取不正確的行動,而不是專家(人)操作員。接下來的挑戰(zhàn)將是利用這些發(fā)現(xiàn)的盲點并利用它們來改善機器人的內(nèi)部表現(xiàn),以更好地匹配現(xiàn)實世界。“


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。