您的位置: 首頁 >產(chǎn)經(jīng) >

人工智能學(xué)習(xí)技術(shù)可以說明大腦中獎(jiǎng)賞通路的功能

2020-01-19 17:10:30 編輯: 來源:
導(dǎo)讀 來自DeepMind、大學(xué)學(xué)院和哈佛大學(xué)的一組研究人員發(fā)現(xiàn),將學(xué)習(xí)技術(shù)應(yīng)用于人工智能系統(tǒng)的經(jīng)驗(yàn)教訓(xùn)可能有助于解釋獎(jiǎng)勵(lì)途徑在大腦中是如何工作

來自DeepMind、大學(xué)學(xué)院和哈佛大學(xué)的一組研究人員發(fā)現(xiàn),將學(xué)習(xí)技術(shù)應(yīng)用于人工智能系統(tǒng)的經(jīng)驗(yàn)教訓(xùn)可能有助于解釋獎(jiǎng)勵(lì)途徑在大腦中是如何工作的。在他們發(fā)表在《自然》雜志上的論文中,該小組描述了將計(jì)算機(jī)中的分布強(qiáng)化學(xué)習(xí)與小鼠大腦中的多巴胺處理進(jìn)行比較,以及他們從中學(xué)到了什么。

先前的研究表明,大腦中產(chǎn)生的多巴胺參與了獎(jiǎng)勵(lì)過程-當(dāng)好事發(fā)生時(shí),它就會產(chǎn)生,它的表達(dá)會產(chǎn)生愉悅的感覺。一些研究還表明,大腦中對多巴胺的存在作出反應(yīng)的神經(jīng)元都以同樣的方式作出反應(yīng)-一個(gè)事件會導(dǎo)致一個(gè)人或一只老鼠感覺好或壞。其他研究表明,神經(jīng)元的反應(yīng)更多的是一個(gè)梯度。在這一新的努力中,研究人員發(fā)現(xiàn)了支持后者理論的證據(jù)。

分布強(qiáng)化學(xué)習(xí)是一種基于強(qiáng)化的機(jī)器學(xué)習(xí)。它經(jīng)常用于設(shè)計(jì)游戲,如星際爭霸II或圍棋。它跟蹤好的動(dòng)作和壞的動(dòng)作,并學(xué)會減少壞的動(dòng)作的數(shù)量,提高它的性能越多。但是,這樣的系統(tǒng)并不是把所有好的和壞的移動(dòng)都處理在一起-每個(gè)移動(dòng)都是加權(quán)的,因?yàn)樗怯涗浀?,?quán)重是在作出未來移動(dòng)選擇時(shí)使用的計(jì)算的一部分。

研究人員指出,人類似乎也使用類似的策略來提高他們的游戲水平。倫敦的研究人員懷疑人工智能系統(tǒng)和大腦進(jìn)行獎(jiǎng)勵(lì)處理的方式之間的相似之處可能也是相似的。為了找出他們是否正確,他們對老鼠進(jìn)行了實(shí)驗(yàn)。他們將能夠記錄單個(gè)多巴胺神經(jīng)元反應(yīng)的裝置插入他們的大腦。然后,老鼠被訓(xùn)練來執(zhí)行一項(xiàng)任務(wù),在這項(xiàng)任務(wù)中,他們得到了以期望的方式作出反應(yīng)的獎(jiǎng)勵(lì)。

小鼠神經(jīng)元的反應(yīng)表明,它們的反應(yīng)并不像先前的理論所預(yù)測的那樣。相反,他們以不同的方式做出了可靠的反應(yīng)-這表明,正如研究小組所預(yù)測的那樣,老鼠所體驗(yàn)的快樂程度更像是一個(gè)梯度。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ   備案號:

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

郵箱:toplearningteam#gmail.com (請將#換成@)