您的位置: 首頁 >科技 >

我們?nèi)绾谓虒?dǎo)人工智能系統(tǒng)按照人類目標(biāo)和價值觀行事

2022-09-09 17:04:41 編輯:詹杰固 來源:
導(dǎo)讀 人工智能安全的核心在于價值對齊問題,許多研究人員使用逆強(qiáng)化學(xué)習(xí)(IRL)等技術(shù)與人工智能系統(tǒng)進(jìn)行交互,以教授人類價值觀。從理論上講,通...

人工智能安全的核心在于價值對齊問題,許多研究人員使用逆強(qiáng)化學(xué)習(xí)(IRL)等技術(shù)與人工智能系統(tǒng)進(jìn)行交互,以教授人類價值觀。從理論上講,通過IRL,人工智能系統(tǒng)可以通過觀察人類行為和接收人類反饋來了解人類的價值以及如何最好地幫助他們。

但人類行為并不總是反映人類的價值觀,而人的反饋往往是有偏見的。我們說當(dāng)我們放松時我們想要健康的食物,但是當(dāng)我們感到壓力時我們需要油膩的食物。我們不僅經(jīng)常無法按照我們的價值觀生活,而且我們的許多價值觀相互矛盾。例如,我們重視睡眠時間為8小時,但我們經(jīng)常睡得少,因?yàn)槲覀円卜浅V匾暸ぷ?,照顧孩子,保持健康的人際關(guān)系。

AI系統(tǒng)可以通過觀察人類來學(xué)習(xí)很多東西,但由于我們的不一致,一些研究人員擔(dān)心使用IRL訓(xùn)練的系統(tǒng)將從根本上無法區(qū)分值對齊和未對齊的行為。隨著人工智能系統(tǒng)變得越來越強(qiáng)大,這可能變得特別危險:通過觀察人類來推斷錯誤的價值觀或目標(biāo)可能導(dǎo)致這些系統(tǒng)采取有害行為。

區(qū)分偏見和價值觀

人類未來研究所的研究員Owain Evans和研究非盈利組織Ought的總裁AndreasStuhlmüller探討了IRL在人工智能系統(tǒng)教學(xué)中的局限性。特別是,他們的研究揭示了認(rèn)知偏差如何使AI難以通過互動學(xué)習(xí)來學(xué)習(xí)人類偏好。

埃文斯詳細(xì)說明:“我們希望代理人追求一些目標(biāo),我們希望這套目標(biāo)與人類目標(biāo)相吻合。那么問題是,如果代理人只是觀察人類并試圖從他們的行為中找出目標(biāo),那么有多少偏見是一個問題?“

在某些情況下,AIs將能夠理解常見偏差的模式。埃文斯和Stuhlmüller討論偏見的心理文學(xué)在他們的論文,學(xué)習(xí)無知,不一致代理的首選項(xiàng),并在他們的上網(wǎng)本,agentmodels.org。在agentmodels.org中討論的常見模式的一個例子是“時間不一致。”時間不一致是指人們的價值觀和目標(biāo)根據(jù)您提出要求而改變的想法。換句話說,“你更喜歡未來的自我與未來的自我喜歡的事情之間存在著不一致。”

時間不一致的例子無處不在。例如,如果你在睡覺前問他們,大多數(shù)人都重視早起和鍛煉。但到了早上,當(dāng)天氣寒冷而且黑暗,他們沒有得到那8小時的睡眠時,他們常常重視床單的舒適性和放松的美德。從早起,到避免酗酒,吃得健康,省錢,人們往往對未來的自我期望更多,而不是未來的自我愿意。

通過系統(tǒng)的,可預(yù)測的模式,如時間不一致,IRL可以在AI系統(tǒng)中取得進(jìn)展。但通常我們的偏見并不那么清楚。根據(jù)埃文斯的說法,破譯哪些行為與某人的價值觀相吻合,以及哪些行為源于偏見是困難的,甚至是不可能的。

“假設(shè)你承諾打掃房子,但你得到最后一分鐘與朋友聚會,你無法抗拒,”他建議道。“這是偏見,還是你現(xiàn)在的生活價值?這是僅使用逆強(qiáng)化學(xué)習(xí)來訓(xùn)練AI的問題 - 它將如何決定什么是偏差和價值?“

學(xué)習(xí)“正確”的價值觀

盡管存在這個難題,但理解人類價值觀和偏好對于人工智能系統(tǒng)至關(guān)重要,開發(fā)人員對培訓(xùn)他們的機(jī)器以了解這些偏好非常有實(shí)際意義。

今天,流行的網(wǎng)站已經(jīng)使用人工智能來學(xué)習(xí)人類的偏好。例如,通過YouTube和亞馬遜,機(jī)器學(xué)習(xí)算法會觀察您的行為并預(yù)測接下來會發(fā)生什么。但是,雖然這些建議通常很有用,但卻會產(chǎn)生意想不到的后果。

以北卡羅來納大學(xué)信息與圖書館學(xué)院副教授Zeynep Tufekci為例。在觀看了集會的視頻以了解更多關(guān)于他的選民的吸引力之后,Tufekci開始在她的“自動播放”隊列中看到民族主義宣傳和大屠殺否認(rèn)視頻。她很快意識到Y(jié)ouTube的算法經(jīng)過優(yōu)化以保持用戶的參與度,可以預(yù)見的是,當(dāng)用戶觀看更多視頻時,會有更多極端內(nèi)容。這導(dǎo)致她稱之為“偉大的激進(jìn)者”。

YouTube算法中的這種價值錯位預(yù)示著使用更先進(jìn)的AI系統(tǒng)進(jìn)行交互式學(xué)習(xí)的危險。設(shè)計師必須能夠優(yōu)化它們以理解我們更深層次的價值觀并改善我們的生活,而不是優(yōu)化先進(jìn)的人工智能系統(tǒng)以吸引我們的短期愿望和我們對極端的吸引力。

埃文斯建議我們希望人工智能系統(tǒng)可以比人類更好地推理我們的決策,了解我們何時做出有偏見的決策,并“幫助我們更好地追求我們的長期偏好。”然而,這將需要AI提出的建議第一次臉紅對人類來說似乎很糟糕。

人們可以想象一個人工智能系統(tǒng)對商業(yè)計劃提出了明智的,違反直覺的修改,而人類只是覺得它很荒謬?;蛘咭苍S人工智能建議稍微長一點(diǎn),無壓力的駕駛路線到第一次約會,但焦慮的駕駛員無論如何都采取更快的路線,不相信。

為了幫助人們在這些場景中理解AI,Evans和Stuhlmüller研究了AI系統(tǒng)如何以人類可理解的方式進(jìn)行推理,并最終可以改進(jìn)人類推理。

一種方法(由Paul Christiano發(fā)明)被稱為“放大”,人類使用AI來幫助他們更深入地思考決策。埃文斯解釋說:“你想要一個與我們完全一樣的思維系統(tǒng),但它能夠更快,更高效,更可靠地完成。但它應(yīng)該是一種思維,如果你把它分解成小步驟,人類就能理解并遵循。“

第二個概念被稱為“因素認(rèn)知” - 將復(fù)雜任務(wù)分解為小的,可理解的步驟的想法。根據(jù)埃文斯的說法,目前尚不清楚一般因素的認(rèn)知能否成功。有時人類可以將他們的推理分解為小步驟,但通常我們依賴直覺,這更難分解。

指定問題

Evans和Stuhlmüller已經(jīng)開始了一項(xiàng)關(guān)于擴(kuò)增和因子認(rèn)知的研究項(xiàng)目,但他們還沒有解決交互式學(xué)習(xí)中人類偏見的問題 - 相反,他們已經(jīng)著手為其他研究人員精確地解決這些復(fù)雜問題。

“這更像是以比以前人們更精確的方式展示這個問題,”埃文斯說。“我們最終獲得了有趣的結(jié)果,但從某種意義上說,我們的結(jié)果之一就是意識到這很困難,并且理解為什么這很困難。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。