您的位置: 首頁(yè) >互聯(lián)網(wǎng) >

研究人員使用視頻游戲解鎖新的AI水平

2019-06-06 17:10:27 編輯: 來(lái)源:
導(dǎo)讀 對(duì)人工智能的期望是非常真實(shí)和非常高的。福布斯項(xiàng)目的收入分析將從2018年的16 2億美元飆升至2025年的312億美元。報(bào)告還包括一項(xiàng)調(diào)查顯示,8

對(duì)人工智能的期望是非常真實(shí)和非常高的。“福布斯”項(xiàng)目的收入分析將從2018年的16.2億美元飆升至2025年的312億美元。報(bào)告還包括一項(xiàng)調(diào)查顯示,84%的企業(yè)認(rèn)為投資人工智能將帶來(lái)競(jìng)爭(zhēng)優(yōu)勢(shì)。

“看到近年來(lái)取得的巨大成功和進(jìn)步令人興奮,”匹茲堡斯旺森工程學(xué)院工業(yè)工程助理教授Daniel Jiang說(shuō)。“為了延續(xù)這一趨勢(shì),我們正在尋求開發(fā)更復(fù)雜的算法方法,以學(xué)習(xí)最優(yōu)決策的策略。”

Jiang博士設(shè)計(jì)了在復(fù)雜和不確定環(huán)境中學(xué)習(xí)決策策略的算法。通過(guò)在模擬環(huán)境中測(cè)試算法,他們可以從錯(cuò)誤中吸取教訓(xùn),同時(shí)發(fā)現(xiàn)和加強(qiáng)成功策略。為了完善這一過(guò)程,蔣博士和他所在領(lǐng)域的許多研究人員需要模擬現(xiàn)實(shí)世界。

“作為工業(yè)工程師,我們通常會(huì)處理以運(yùn)營(yíng)為重點(diǎn)的問(wèn)題。例如,運(yùn)輸,物流和供應(yīng)鏈,能源系統(tǒng)和醫(yī)療保健是幾個(gè)重要領(lǐng)域,”他說(shuō)。“所有這些問(wèn)題都是具有現(xiàn)實(shí)后果的高風(fēng)險(xiǎn)操作。它們沒(méi)有為嘗試實(shí)驗(yàn)技術(shù)創(chuàng)造最佳環(huán)境,特別是當(dāng)我們的許多算法被認(rèn)為是重復(fù)'試錯(cuò)'的巧妙方法時(shí)所有可能的行動(dòng)。“

準(zhǔn)備高級(jí)AI以應(yīng)對(duì)現(xiàn)實(shí)場(chǎng)景和復(fù)雜性的一種策略是使用歷史數(shù)據(jù)。例如,算法可以運(yùn)行數(shù)十年的數(shù)據(jù),以確定哪些決策有效,哪些決策導(dǎo)致效果不佳。然而,研究人員發(fā)現(xiàn)很難測(cè)試僅使用過(guò)去數(shù)據(jù)來(lái)學(xué)習(xí)自適應(yīng)行為的算法。

蔣博士解釋說(shuō):“歷史數(shù)據(jù)可能是一個(gè)問(wèn)題,因?yàn)槿藗兊男袨榭梢越鉀Q后果,也不會(huì)提出其他可能性。換句話說(shuō),算法很難提出問(wèn)題'如果我選擇門會(huì)有什么不同的事情B代替門A?' 在歷史數(shù)據(jù)中,我們只能看到門A的后果。“

視頻游戲作為替代方案,提供了豐富的測(cè)試環(huán)境,充滿了復(fù)雜的決策制定,而沒(méi)有讓不成熟的AI充分掌控的危險(xiǎn)。與現(xiàn)實(shí)世界不同,它們?yōu)樗惴ㄌ峁┝艘环N安全的方法來(lái)從錯(cuò)誤中吸取教訓(xùn)。

“視頻游戲設(shè)計(jì)師并不打算以測(cè)試模型或模擬為目標(biāo)來(lái)構(gòu)建游戲,”江博士說(shuō)。“他們經(jīng)常設(shè)計(jì)具有雙重任務(wù)的游戲:創(chuàng)造模仿現(xiàn)實(shí)世界的環(huán)境,并挑戰(zhàn)玩家做出艱難的決定。這些目標(biāo)恰好與我們正在尋找的東西保持一致。此外,游戲也很多在幾個(gè)小時(shí)的實(shí)時(shí)中,我們可以評(píng)估數(shù)十萬(wàn)個(gè)游戲玩法決策的結(jié)果。“

為了測(cè)試他的算法,江博士使用了一種名為Multiplayer Online Battle Arena或MOBA的視頻游戲。諸如英雄聯(lián)盟或風(fēng)暴英雄等游戲是流行的MOBA,其中玩家控制幾個(gè)“英雄”角色中的一個(gè),并試圖在保護(hù)自己的同時(shí)摧毀對(duì)手的基地。

用于訓(xùn)練游戲玩法AI的成功算法必須克服幾個(gè)挑戰(zhàn),例如實(shí)時(shí)決策和長(zhǎng)決策視野 - 一個(gè)數(shù)學(xué)術(shù)語(yǔ),用于何時(shí)直到很久以后才能知道某些決策的后果。

“我們?cè)O(shè)計(jì)的算法用于評(píng)估41條信息,然后輸出22種不同動(dòng)作中的一種,包括移動(dòng),攻擊和特殊動(dòng)作,”江博士說(shuō)。“我們將不同的訓(xùn)練方法相互比較。最成功的玩家使用一種稱為蒙特卡羅樹搜索的方法來(lái)生成數(shù)據(jù),然后將其輸入神經(jīng)網(wǎng)絡(luò)。”

蒙特卡羅樹搜索是一種決策制定策略,其中玩家通過(guò)模擬或視頻游戲隨機(jī)移動(dòng)。然后,該算法分析游戲結(jié)果,以便為更成功的動(dòng)作賦予更多權(quán)重。隨著時(shí)間的推移和游戲的多次迭代,更成功的動(dòng)作持續(xù)存在,并且玩家在贏得游戲方面變得更好。

“我們的研究也給出了一些理論結(jié)果,表明蒙特卡洛樹搜索是一種有效的策略,可以訓(xùn)練代理人成功地做出艱難的決策,即使在不確定的世界中進(jìn)行操作,”江博士解釋說(shuō)。

江博士發(fā)表了他的研究成果 與Emmanuel Ekwedike和Han Liu共同撰寫的一篇論文,并于今年夏天在瑞典斯德哥爾摩舉行的2018年機(jī)器學(xué)習(xí)國(guó)際會(huì)議上公布了結(jié)果。

在匹茲堡大學(xué),他繼續(xù)在博士學(xué)位的連續(xù)決策領(lǐng)域工作。學(xué)生Yijia Wang和Ibrahim El-Shar。該團(tuán)隊(duì)專注于與乘車共享,能源市場(chǎng)和公共健康相關(guān)的問(wèn)題。隨著行業(yè)準(zhǔn)備讓AI負(fù)責(zé)關(guān)鍵職責(zé),蔣博士確?;A(chǔ)算法始終處于游戲的頂端。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。