您的位置: 首頁 >互聯(lián)網(wǎng) >

研究人員使用視頻游戲解鎖新的AI水平

2019-06-06 17:10:27 編輯: 來源:
導(dǎo)讀 對人工智能的期望是非常真實和非常高的。福布斯項目的收入分析將從2018年的16 2億美元飆升至2025年的312億美元。報告還包括一項調(diào)查顯示,8

對人工智能的期望是非常真實和非常高的。“福布斯”項目的收入分析將從2018年的16.2億美元飆升至2025年的312億美元。報告還包括一項調(diào)查顯示,84%的企業(yè)認(rèn)為投資人工智能將帶來競爭優(yōu)勢。

“看到近年來取得的巨大成功和進(jìn)步令人興奮,”匹茲堡斯旺森工程學(xué)院工業(yè)工程助理教授Daniel Jiang說。“為了延續(xù)這一趨勢,我們正在尋求開發(fā)更復(fù)雜的算法方法,以學(xué)習(xí)最優(yōu)決策的策略。”

Jiang博士設(shè)計了在復(fù)雜和不確定環(huán)境中學(xué)習(xí)決策策略的算法。通過在模擬環(huán)境中測試算法,他們可以從錯誤中吸取教訓(xùn),同時發(fā)現(xiàn)和加強成功策略。為了完善這一過程,蔣博士和他所在領(lǐng)域的許多研究人員需要模擬現(xiàn)實世界。

“作為工業(yè)工程師,我們通常會處理以運營為重點的問題。例如,運輸,物流和供應(yīng)鏈,能源系統(tǒng)和醫(yī)療保健是幾個重要領(lǐng)域,”他說。“所有這些問題都是具有現(xiàn)實后果的高風(fēng)險操作。它們沒有為嘗試實驗技術(shù)創(chuàng)造最佳環(huán)境,特別是當(dāng)我們的許多算法被認(rèn)為是重復(fù)'試錯'的巧妙方法時所有可能的行動。“

準(zhǔn)備高級AI以應(yīng)對現(xiàn)實場景和復(fù)雜性的一種策略是使用歷史數(shù)據(jù)。例如,算法可以運行數(shù)十年的數(shù)據(jù),以確定哪些決策有效,哪些決策導(dǎo)致效果不佳。然而,研究人員發(fā)現(xiàn)很難測試僅使用過去數(shù)據(jù)來學(xué)習(xí)自適應(yīng)行為的算法。

蔣博士解釋說:“歷史數(shù)據(jù)可能是一個問題,因為人們的行為可以解決后果,也不會提出其他可能性。換句話說,算法很難提出問題'如果我選擇門會有什么不同的事情B代替門A?' 在歷史數(shù)據(jù)中,我們只能看到門A的后果。“

視頻游戲作為替代方案,提供了豐富的測試環(huán)境,充滿了復(fù)雜的決策制定,而沒有讓不成熟的AI充分掌控的危險。與現(xiàn)實世界不同,它們?yōu)樗惴ㄌ峁┝艘环N安全的方法來從錯誤中吸取教訓(xùn)。

“視頻游戲設(shè)計師并不打算以測試模型或模擬為目標(biāo)來構(gòu)建游戲,”江博士說。“他們經(jīng)常設(shè)計具有雙重任務(wù)的游戲:創(chuàng)造模仿現(xiàn)實世界的環(huán)境,并挑戰(zhàn)玩家做出艱難的決定。這些目標(biāo)恰好與我們正在尋找的東西保持一致。此外,游戲也很多在幾個小時的實時中,我們可以評估數(shù)十萬個游戲玩法決策的結(jié)果。“

為了測試他的算法,江博士使用了一種名為Multiplayer Online Battle Arena或MOBA的視頻游戲。諸如英雄聯(lián)盟或風(fēng)暴英雄等游戲是流行的MOBA,其中玩家控制幾個“英雄”角色中的一個,并試圖在保護(hù)自己的同時摧毀對手的基地。

用于訓(xùn)練游戲玩法AI的成功算法必須克服幾個挑戰(zhàn),例如實時決策和長決策視野 - 一個數(shù)學(xué)術(shù)語,用于何時直到很久以后才能知道某些決策的后果。

“我們設(shè)計的算法用于評估41條信息,然后輸出22種不同動作中的一種,包括移動,攻擊和特殊動作,”江博士說。“我們將不同的訓(xùn)練方法相互比較。最成功的玩家使用一種稱為蒙特卡羅樹搜索的方法來生成數(shù)據(jù),然后將其輸入神經(jīng)網(wǎng)絡(luò)。”

蒙特卡羅樹搜索是一種決策制定策略,其中玩家通過模擬或視頻游戲隨機移動。然后,該算法分析游戲結(jié)果,以便為更成功的動作賦予更多權(quán)重。隨著時間的推移和游戲的多次迭代,更成功的動作持續(xù)存在,并且玩家在贏得游戲方面變得更好。

“我們的研究也給出了一些理論結(jié)果,表明蒙特卡洛樹搜索是一種有效的策略,可以訓(xùn)練代理人成功地做出艱難的決策,即使在不確定的世界中進(jìn)行操作,”江博士解釋說。

江博士發(fā)表了他的研究成果 與Emmanuel Ekwedike和Han Liu共同撰寫的一篇論文,并于今年夏天在瑞典斯德哥爾摩舉行的2018年機器學(xué)習(xí)國際會議上公布了結(jié)果。

在匹茲堡大學(xué),他繼續(xù)在博士學(xué)位的連續(xù)決策領(lǐng)域工作。學(xué)生Yijia Wang和Ibrahim El-Shar。該團隊專注于與乘車共享,能源市場和公共健康相關(guān)的問題。隨著行業(yè)準(zhǔn)備讓AI負(fù)責(zé)關(guān)鍵職責(zé),蔣博士確保基礎(chǔ)算法始終處于游戲的頂端。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。