我們?nèi)绾谓虒?dǎo)人工智能系統(tǒng)按照人類目標(biāo)和價(jià)值觀行事

2022-09-09 17:04:41 編輯：詹杰固來(lái)源：

導(dǎo)讀人工智能安全的核心在于價(jià)值對(duì)齊問(wèn)題，許多研究人員使用逆強(qiáng)化學(xué)習(xí)(IRL)等技術(shù)與人工智能系統(tǒng)進(jìn)行交互，以教授人類價(jià)值觀。從理論上講，通...

人工智能安全的核心在于價(jià)值對(duì)齊問(wèn)題，許多研究人員使用逆強(qiáng)化學(xué)習(xí)(IRL)等技術(shù)與人工智能系統(tǒng)進(jìn)行交互，以教授人類價(jià)值觀。從理論上講，通過(guò)IRL，人工智能系統(tǒng)可以通過(guò)觀察人類行為和接收人類反饋來(lái)了解人類的價(jià)值以及如何最好地幫助他們。

但人類行為并不總是反映人類的價(jià)值觀，而人的反饋往往是有偏見(jiàn)的。我們說(shuō)當(dāng)我們放松時(shí)我們想要健康的食物，但是當(dāng)我們感到壓力時(shí)我們需要油膩的食物。我們不僅經(jīng)常無(wú)法按照我們的價(jià)值觀生活，而且我們的許多價(jià)值觀相互矛盾。例如，我們重視睡眠時(shí)間為8小時(shí)，但我們經(jīng)常睡得少，因?yàn)槲覀円卜浅Ｖ匾暸ぷ鳎疹櫤⒆?，保持健康的人際關(guān)系。

AI系統(tǒng)可以通過(guò)觀察人類來(lái)學(xué)習(xí)很多東西，但由于我們的不一致，一些研究人員擔(dān)心使用IRL訓(xùn)練的系統(tǒng)將從根本上無(wú)法區(qū)分值對(duì)齊和未對(duì)齊的行為。隨著人工智能系統(tǒng)變得越來(lái)越強(qiáng)大，這可能變得特別危險(xiǎn)：通過(guò)觀察人類來(lái)推斷錯(cuò)誤的價(jià)值觀或目標(biāo)可能導(dǎo)致這些系統(tǒng)采取有害行為。

區(qū)分偏見(jiàn)和價(jià)值觀

人類未來(lái)研究所的研究員Owain Evans和研究非盈利組織Ought的總裁AndreasStuhlmüller探討了IRL在人工智能系統(tǒng)教學(xué)中的局限性。特別是，他們的研究揭示了認(rèn)知偏差如何使AI難以通過(guò)互動(dòng)學(xué)習(xí)來(lái)學(xué)習(xí)人類偏好。

埃文斯詳細(xì)說(shuō)明：“我們希望代理人追求一些目標(biāo)，我們希望這套目標(biāo)與人類目標(biāo)相吻合。那么問(wèn)題是，如果代理人只是觀察人類并試圖從他們的行為中找出目標(biāo)，那么有多少偏見(jiàn)是一個(gè)問(wèn)題?“

在某些情況下，AIs將能夠理解常見(jiàn)偏差的模式。埃文斯和Stuhlmüller討論偏見(jiàn)的心理文學(xué)在他們的論文，學(xué)習(xí)無(wú)知，不一致代理的首選項(xiàng)，并在他們的上網(wǎng)本，agentmodels.org。在agentmodels.org中討論的常見(jiàn)模式的一個(gè)例子是“時(shí)間不一致。”時(shí)間不一致是指人們的價(jià)值觀和目標(biāo)根據(jù)您提出要求而改變的想法。換句話說(shuō)，“你更喜歡未來(lái)的自我與未來(lái)的自我喜歡的事情之間存在著不一致。”

時(shí)間不一致的例子無(wú)處不在。例如，如果你在睡覺(jué)前問(wèn)他們，大多數(shù)人都重視早起和鍛煉。但到了早上，當(dāng)天氣寒冷而且黑暗，他們沒(méi)有得到那8小時(shí)的睡眠時(shí)，他們常常重視床單的舒適性和放松的美德。從早起，到避免酗酒，吃得健康，省錢(qián)，人們往往對(duì)未來(lái)的自我期望更多，而不是未來(lái)的自我愿意。

通過(guò)系統(tǒng)的，可預(yù)測(cè)的模式，如時(shí)間不一致，IRL可以在AI系統(tǒng)中取得進(jìn)展。但通常我們的偏見(jiàn)并不那么清楚。根據(jù)埃文斯的說(shuō)法，破譯哪些行為與某人的價(jià)值觀相吻合，以及哪些行為源于偏見(jiàn)是困難的，甚至是不可能的。

“假設(shè)你承諾打掃房子，但你得到最后一分鐘與朋友聚會(huì)，你無(wú)法抗拒，”他建議道。“這是偏見(jiàn)，還是你現(xiàn)在的生活價(jià)值?這是僅使用逆強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練AI的問(wèn)題 - 它將如何決定什么是偏差和價(jià)值?“

學(xué)習(xí)“正確”的價(jià)值觀

盡管存在這個(gè)難題，但理解人類價(jià)值觀和偏好對(duì)于人工智能系統(tǒng)至關(guān)重要，開(kāi)發(fā)人員對(duì)培訓(xùn)他們的機(jī)器以了解這些偏好非常有實(shí)際意義。

今天，流行的網(wǎng)站已經(jīng)使用人工智能來(lái)學(xué)習(xí)人類的偏好。例如，通過(guò)YouTube和亞馬遜，機(jī)器學(xué)習(xí)算法會(huì)觀察您的行為并預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。但是，雖然這些建議通常很有用，但卻會(huì)產(chǎn)生意想不到的后果。

以北卡羅來(lái)納大學(xué)信息與圖書(shū)館學(xué)院副教授Zeynep Tufekci為例。在觀看了集會(huì)的視頻以了解更多關(guān)于他的選民的吸引力之后，Tufekci開(kāi)始在她的“自動(dòng)播放”隊(duì)列中看到民族主義宣傳和大屠殺否認(rèn)視頻。她很快意識(shí)到Y(jié)ouTube的算法經(jīng)過(guò)優(yōu)化以保持用戶的參與度，可以預(yù)見(jiàn)的是，當(dāng)用戶觀看更多視頻時(shí)，會(huì)有更多極端內(nèi)容。這導(dǎo)致她稱之為“偉大的激進(jìn)者”。

YouTube算法中的這種價(jià)值錯(cuò)位預(yù)示著使用更先進(jìn)的AI系統(tǒng)進(jìn)行交互式學(xué)習(xí)的危險(xiǎn)。設(shè)計(jì)師必須能夠優(yōu)化它們以理解我們更深層次的價(jià)值觀并改善我們的生活，而不是優(yōu)化先進(jìn)的人工智能系統(tǒng)以吸引我們的短期愿望和我們對(duì)極端的吸引力。

埃文斯建議我們希望人工智能系統(tǒng)可以比人類更好地推理我們的決策，了解我們何時(shí)做出有偏見(jiàn)的決策，并“幫助我們更好地追求我們的長(zhǎng)期偏好。”然而，這將需要AI提出的建議第一次臉紅對(duì)人類來(lái)說(shuō)似乎很糟糕。

人們可以想象一個(gè)人工智能系統(tǒng)對(duì)商業(yè)計(jì)劃提出了明智的，違反直覺(jué)的修改，而人類只是覺(jué)得它很荒謬。或者也許人工智能建議稍微長(zhǎng)一點(diǎn)，無(wú)壓力的駕駛路線到第一次約會(huì)，但焦慮的駕駛員無(wú)論如何都采取更快的路線，不相信。

為了幫助人們?cè)谶@些場(chǎng)景中理解AI，Evans和Stuhlmüller研究了AI系統(tǒng)如何以人類可理解的方式進(jìn)行推理，并最終可以改進(jìn)人類推理。

一種方法(由Paul Christiano發(fā)明)被稱為“放大”，人類使用AI來(lái)幫助他們更深入地思考決策。埃文斯解釋說(shuō)：“你想要一個(gè)與我們完全一樣的思維系統(tǒng)，但它能夠更快，更高效，更可靠地完成。但它應(yīng)該是一種思維，如果你把它分解成小步驟，人類就能理解并遵循。“

第二個(gè)概念被稱為“因素認(rèn)知” - 將復(fù)雜任務(wù)分解為小的，可理解的步驟的想法。根據(jù)埃文斯的說(shuō)法，目前尚不清楚一般因素的認(rèn)知能否成功。有時(shí)人類可以將他們的推理分解為小步驟，但通常我們依賴直覺(jué)，這更難分解。

指定問(wèn)題

Evans和Stuhlmüller已經(jīng)開(kāi)始了一項(xiàng)關(guān)于擴(kuò)增和因子認(rèn)知的研究項(xiàng)目，但他們還沒(méi)有解決交互式學(xué)習(xí)中人類偏見(jiàn)的問(wèn)題 - 相反，他們已經(jīng)著手為其他研究人員精確地解決這些復(fù)雜問(wèn)題。

“這更像是以比以前人們更精確的方式展示這個(gè)問(wèn)題，”埃文斯說(shuō)。“我們最終獲得了有趣的結(jié)果，但從某種意義上說(shuō)，我們的結(jié)果之一就是意識(shí)到這很困難，并且理解為什么這很困難。”

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！