在不可預(yù)知的世界中保持AI安全：Thomas G Dietterich訪談錄

2022-09-09 16:55:02 編輯：路翔振來(lái)源：

導(dǎo)讀我們的AI系統(tǒng)在封閉的世界中運(yùn)行得非常好。那是因?yàn)檫@些環(huán)境包含一定數(shù)量的變量，使得世界完全為人所知并且完全可預(yù)測(cè)。在這些微環(huán)境中，機(jī)...

我們的AI系統(tǒng)在封閉的世界中運(yùn)行得非常好。那是因?yàn)檫@些環(huán)境包含一定數(shù)量的變量，使得世界完全為人所知并且完全可預(yù)測(cè)。在這些微環(huán)境中，機(jī)器只會(huì)遇到他們熟悉的對(duì)象。結(jié)果，他們總是知道應(yīng)該如何行動(dòng)和回應(yīng)。不幸的是，這些系統(tǒng)在現(xiàn)實(shí)世界中部署時(shí)很快就會(huì)變得混亂，因?yàn)樵S多對(duì)象并不熟悉。這是一個(gè)問(wèn)題，因?yàn)楫?dāng)AI系統(tǒng)變得混亂時(shí)，結(jié)果可能是致命的。

例如，考慮一輛遇到新物體的自動(dòng)駕駛汽車。它應(yīng)該加速，還是應(yīng)該減速?或者考慮一個(gè)看到異常的自主武器系統(tǒng)。它應(yīng)該攻擊還是應(yīng)該關(guān)閉?這些例子中的每一個(gè)都涉及生死攸關(guān)的決定，它們揭示了為什么，如果我們要在現(xiàn)實(shí)環(huán)境中部署先進(jìn)的AI系統(tǒng)，我們必須確信它們?cè)谟龅讲皇煜さ膶?duì)象時(shí)會(huì)表現(xiàn)得正確。

Thomas G. Dietterich俄勒岡州立大學(xué)計(jì)算機(jī)科學(xué)榮譽(yù)教授解釋說(shuō)，解決這一識(shí)別問(wèn)題的第一步是確保我們的人工智能系統(tǒng)不太自信 - 他們?cè)谟龅疆愇飼r(shí)會(huì)認(rèn)出來(lái)并且不會(huì)將其誤認(rèn)為是他們熟悉的東西。為實(shí)現(xiàn)這一目標(biāo)，Dietterich斷言我們必須遠(yuǎn)離(或至少，大大改變)目前主導(dǎo)AI研究的歧視性訓(xùn)練方法。

但是，要做到這一點(diǎn)，我們必須首先解決“開(kāi)放類別問(wèn)題”。

了解開(kāi)放類別問(wèn)題

在開(kāi)車的路上，我們可以遇到幾乎無(wú)限的異常。也許會(huì)出現(xiàn)暴風(fēng)雨，冰雹會(huì)開(kāi)始下降。也許我們的愿景會(huì)受到煙霧或過(guò)度霧氣的阻礙。雖然這些遭遇可能是意料之外的，但人類的大腦能夠輕松地分析新信息并決定適當(dāng)?shù)男袆?dòng)方案 - 我們將認(rèn)識(shí)到一條漂浮在馬路上的報(bào)紙，而不是突然抨擊休息，繼續(xù)前進(jìn)。

由于它們的編程方式，我們的計(jì)算機(jī)系統(tǒng)無(wú)法做到這一點(diǎn)。

“現(xiàn)在我們使用機(jī)器學(xué)習(xí)來(lái)創(chuàng)建人工智能系統(tǒng)和軟件的方式通常使用一種叫做”歧視性訓(xùn)練“的東西，”Dietterich解釋說(shuō)，“這隱含地假設(shè)世界只包含千種不同的物體。”意味著，如果一臺(tái)機(jī)器遇到一個(gè)新的物體，它將認(rèn)為它必須是它訓(xùn)練過(guò)的一千件事物之一。結(jié)果，這樣的系統(tǒng)錯(cuò)誤地分類了所有外來(lái)物體。

這是Dietterich和他的團(tuán)隊(duì)試圖解決的“公開(kāi)類別問(wèn)題”。具體來(lái)說(shuō)，他們?cè)噲D確保我們的機(jī)器不會(huì)假設(shè)他們遇到了所有可能的對(duì)象，而是能夠可靠地檢測(cè) - 并最終響應(yīng) - 新的外來(lái)物體類別。

Dietterich指出，從實(shí)際角度來(lái)看，這意味著創(chuàng)建一種異常檢測(cè)算法，為AI系統(tǒng)檢測(cè)到的每個(gè)對(duì)象分配一個(gè)異常分?jǐn)?shù)。必須將該分?jǐn)?shù)與設(shè)定的閾值進(jìn)行比較，如果異常分?jǐn)?shù)超過(guò)閾值，系統(tǒng)將需要發(fā)出警報(bào)。Dietterich指出，為響應(yīng)此警報(bào)，AI系統(tǒng)應(yīng)采取預(yù)先確定的安全措施。例如，檢測(cè)異常的自動(dòng)駕駛汽車可能會(huì)減速并駛向道路一側(cè)。

創(chuàng)造安全理論保障

使這種方法有效有兩個(gè)挑戰(zhàn)。首先，Dietterich斷言我們需要良好的異常檢測(cè)算法。以前，為了確定哪些算法運(yùn)行良好，該團(tuán)隊(duì)將八種最先進(jìn)的異常檢測(cè)算法的性能與大量基準(zhǔn)問(wèn)題進(jìn)行了比較。

第二個(gè)挑戰(zhàn)是設(shè)置警報(bào)閾值，以便保證AI系統(tǒng)檢測(cè)到外來(lái)物體的所需部分，例如99%。Dietterich說(shuō)，為這個(gè)閾值制定一個(gè)可靠的設(shè)置是最具挑戰(zhàn)性的研究問(wèn)題之一，因?yàn)橛锌赡艽嬖跓o(wú)限種類的外來(lái)物體。“問(wèn)題在于我們無(wú)法為所有人提供標(biāo)記的訓(xùn)練數(shù)據(jù)外星人。如果我們有這樣的數(shù)據(jù)，我們只需在標(biāo)記數(shù)據(jù)上訓(xùn)練判別分類器，“Dietterich說(shuō)。

為了規(guī)避這一標(biāo)簽問(wèn)題，該團(tuán)隊(duì)假定判別分類器可以訪問(wèn)反映較大統(tǒng)計(jì)人口的“查詢對(duì)象”的代表性樣本。例如，可以通過(guò)從在世界各地的高速公路上行駛的汽車收集數(shù)據(jù)來(lái)獲得這樣的樣本。此示例將包含一些未知對(duì)象，其余對(duì)象屬于已知對(duì)象類別。

值得注意的是，樣本中的數(shù)據(jù)未標(biāo)記。相反，AI系統(tǒng)可以估算出樣本中外星人的比例。通過(guò)將樣本中的信息與用于訓(xùn)練判別分類器的標(biāo)記訓(xùn)練數(shù)據(jù)相結(jié)合，該團(tuán)隊(duì)的新算法可以選擇一個(gè)良好的警報(bào)閾值。如果已知估計(jì)的外星人分?jǐn)?shù)是對(duì)真實(shí)分?jǐn)?shù)的高估，則保證所選擇的閾值能夠檢測(cè)外星人的目標(biāo)百分比(即99%)。

最終，上述第一種方法可以為檢測(cè)外來(lái)物體提供安全性的理論保證，報(bào)告結(jié)果的論文在ICML 2018中提出。“我們能夠很有可能保證我們能找到99%所有這些新對(duì)象，“Dietterich說(shuō)。

在他們研究的下一階段，Dietterich和他的團(tuán)隊(duì)計(jì)劃在更復(fù)雜的環(huán)境中開(kāi)始測(cè)試他們的算法。到目前為止，他們一直主要關(guān)注分類，系統(tǒng)會(huì)查看圖像并對(duì)其進(jìn)行分類。接下來(lái)，他們計(jì)劃轉(zhuǎn)向控制代理商，如自動(dòng)駕駛汽車的機(jī)器人。“在每個(gè)時(shí)間點(diǎn)，為了決定選擇什么行動(dòng)，我們的系統(tǒng)將根據(jù)代理及其環(huán)境行為的學(xué)習(xí)模型進(jìn)行'向前搜索'。如果通過(guò)我們的方法向前看到一個(gè)被評(píng)為“外星人”的狀態(tài)，那么這表明代理人即將進(jìn)入狀態(tài)空間的一部分而無(wú)法選擇正確的行為，“Dietterich說(shuō)。作為回應(yīng)，如前所述，代理應(yīng)執(zhí)行一系列安全措施并請(qǐng)求人工協(xié)助。

但這種安全行動(dòng)實(shí)際上包括什么?

回應(yīng)外星人

Dietterich注意到，一旦某些東西被識(shí)別為異常且警報(bào)響起，這種后退系統(tǒng)的性質(zhì)將取決于所討論的機(jī)器，例如AI系統(tǒng)是在自動(dòng)駕駛汽車還是自動(dòng)武器中。

為了解釋這些二次系統(tǒng)如何運(yùn)作，Dietterich轉(zhuǎn)向自動(dòng)駕駛汽車。“在谷歌汽車中，如果計(jì)算機(jī)失去動(dòng)力，那么就會(huì)有一個(gè)備用系統(tǒng)會(huì)自動(dòng)減慢汽車速度并將其拉到路邊。”然而，Dietterich澄清說(shuō)停車并不總是最好的行動(dòng)方案。人們可能會(huì)認(rèn)為，如果一個(gè)身份不明的物體穿過(guò)它的路徑，汽車應(yīng)該停下來(lái);然而，如果在一個(gè)特別冰冷的日子里，身份不明的物體恰好是一層雪，那么打破休息會(huì)變得更加復(fù)雜。該系統(tǒng)需要考慮冰冷的道路，可能在后面行駛的任何車輛，以及這些車輛是否能夠及時(shí)折斷以避免后端碰撞。

但是，如果我們無(wú)法預(yù)測(cè)每一種可能性，我們?cè)趺茨芷谕麑?duì)AI系統(tǒng)進(jìn)行編程，使其行為正確且安全?

不幸的是，沒(méi)有簡(jiǎn)單的答案;但是，Dietterich澄清了一些一般的最佳實(shí)踐;“安全問(wèn)題沒(méi)有普遍解決方案，但顯然有一些行動(dòng)比其他行動(dòng)更安全。一般來(lái)說(shuō)，從系統(tǒng)中消除能量是一個(gè)好主意，“他說(shuō)。最終，Dietterich聲稱所有與編程安全AI相關(guān)的工作實(shí)際上歸結(jié)為確定我們希望我們的機(jī)器在特定情況下的行為方式，并且他認(rèn)為我們需要重新闡述我們?nèi)绾蚊枋鲞@個(gè)問(wèn)題，并專注于所有的因素，如果我們要制定一個(gè)合理的方法。

Dietterich指出，“當(dāng)我們看到這些問(wèn)題時(shí)，他們往往會(huì)被歸入”道德決策“的分類中，但他們真正的問(wèn)題是難以置信的復(fù)雜問(wèn)題。它們極大地依賴于它們運(yùn)行的??環(huán)境，人類，其他創(chuàng)新，其他自動(dòng)化系統(tǒng)等等。挑戰(zhàn)是正確描述我們希望系統(tǒng)如何表現(xiàn)，然后確保我們的實(shí)施實(shí)際符合這些要求。“他總結(jié)道，”AI未來(lái)的巨大風(fēng)險(xiǎn)與任何軟件系統(tǒng)中的大風(fēng)險(xiǎn)相同，這是我們構(gòu)建錯(cuò)誤的系統(tǒng)，所以它做錯(cuò)了。亞瑟克拉克在2001年：太空漫游完全正確。Hal 9000并沒(méi)有“流氓”;它只是做了它的編程工作。“

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！