2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
在棋盤游戲中擊敗人類在AI世界中是過時(shí)的?,F(xiàn)在,頂尖的學(xué)者和科技公司希望在視頻游戲中挑戰(zhàn)我們。今天,由Elon Musk和Sam Altman創(chuàng)立的研究實(shí)驗(yàn)室OpenAI宣布了其最新的里程碑:一個(gè)AI代理團(tuán)隊(duì),可以在流行的戰(zhàn)斗競技場游戲Dota 2中擊敗業(yè)余愛好者的前1%。
你可能還記得OpenAI 去年8月首次進(jìn)入Dota 2 的世界,推出了一個(gè)可以在1v1比賽中擊敗頂級球員的系統(tǒng)。然而,這種游戲類型大大減少了Dota 2的挑戰(zhàn).OpenAI現(xiàn)在已經(jīng)升級其機(jī)器人在5v5對戰(zhàn)中扮演人類,這需要更多的協(xié)調(diào)和長期規(guī)劃。雖然OpenAI尚未挑戰(zhàn)該游戲最優(yōu)秀的玩家,但它將在今年晚些時(shí)候在The International舉行,這是Dota 2錦標(biāo)賽,這是電子競技日歷上最大的年度賽事。
像這樣的研究動(dòng)機(jī)很簡單:如果我們能夠教授人工智能系統(tǒng)玩視頻游戲所需的技能,我們可以用它們來解決復(fù)雜的現(xiàn)實(shí)挑戰(zhàn),這些挑戰(zhàn)在某些方面類似于視頻游戲 - 例如,管理城市的交通基礎(chǔ)設(shè)施。
“這是一個(gè)令人興奮的里程碑,它真的是因?yàn)樗顷P(guān)于過渡到真實(shí)應(yīng)用程序,”OpenAI的聯(lián)合創(chuàng)始人兼首席技術(shù)官Greg Brockman告訴The Verge。“如果你有一個(gè)問題的模擬,并且你可以運(yùn)行它足夠大的規(guī)模,那么你可以用它做什么就沒有障礙。”
從根本上說,視頻游戲提供了像國際象棋或Go這樣的棋盤游戲所面臨的挑戰(zhàn)。他們隱藏了玩家的信息,這意味著AI無法感知整個(gè)比賽場地并計(jì)算出最佳的下一步動(dòng)作。還有更多要處理的信息和大量可能的動(dòng)作。OpenAI表示,在任何時(shí)候,它的Dota 2機(jī)器人必須在1,000個(gè)不同的動(dòng)作之間進(jìn)行選擇,同時(shí)處理代表游戲中發(fā)生的事件的20,000個(gè)數(shù)據(jù)點(diǎn)。
為了創(chuàng)建他們的機(jī)器人,實(shí)驗(yàn)室轉(zhuǎn)向了一種稱為強(qiáng)化學(xué)習(xí)的機(jī)器學(xué)習(xí)方法。這是一種看似簡單的技術(shù),可以產(chǎn)生復(fù)雜的行為。AI代理人被投入到虛擬環(huán)境中,在那里他們自學(xué)如何通過反復(fù)試驗(yàn)來實(shí)現(xiàn)目標(biāo)。程序員設(shè)置所謂的獎(jiǎng)勵(lì)功能(為諸如殺死敵人之類的東西授予機(jī)器人點(diǎn)數(shù)),然后他們讓AI代理人一遍又一遍地玩。
對于這批新的Dota機(jī)器人來說,自我玩耍的數(shù)量是驚人的。每天,機(jī)器人以加速的速度玩了180 年的游戲時(shí)間。他們在幾個(gè)月的時(shí)間里以這種速度接受訓(xùn)練。“它開始時(shí)是完全隨機(jī)的,在地圖上游蕩。然后,經(jīng)過幾個(gè)小時(shí),它開始學(xué)習(xí)基本技能,“布羅克曼說。他說,如果需要12,000到20,000小時(shí)的人力來學(xué)習(xí)成為一名專業(yè)人士,那就意味著OpenAI的代理人“每天都會(huì)玩100次人類生活。”
一方面,這證明了當(dāng)代機(jī)器學(xué)習(xí)方法和處理大量數(shù)據(jù)的最新計(jì)算機(jī)芯片的強(qiáng)大功能。另一方面,它提醒人們?nèi)绾螐母旧嫌薮赖腁I代理人。如果人類花費(fèi)數(shù)千年的時(shí)間來學(xué)習(xí)如何玩單個(gè)視頻游戲,那么我們就不會(huì)是一個(gè)物種。
OpenAI的機(jī)器人仍然受到限制。例如,他們只玩了115個(gè)英雄中的5個(gè),包括Necrophos(如圖)。 圖片:閥門
雖然OpenAI的機(jī)器人現(xiàn)在正在玩5v5比賽,但他們?nèi)匀粵]有接觸到Dota 2的全部復(fù)雜性。存在許多限制。他們只使用了115位英雄中的5位,每位都有自己的打法。(他們的選擇:Necrophos,Sniper,Viper,Crystal Maiden和Lich。)他們的決策過程中的某些元素是硬編碼的,比如他們從供應(yīng)商處購買的物品以及他們使用游戲中體驗(yàn)點(diǎn)升級的技能。游戲的其他棘手部分已被完全禁用,包括隱身,召喚和病房的放置,這些物品充當(dāng)遠(yuǎn)程攝像機(jī),在高級游戲中至關(guān)重要。(正如一位游戲指南警告的那樣,“如果有任何話題讓新人感到困惑,那就太過分了。”)
OpenAI的代理商還擁有您對計(jì)算機(jī)的所有優(yōu)勢。他們的反應(yīng)時(shí)間比人類快,他們不會(huì)錯(cuò)過點(diǎn)擊,他們可以即時(shí),準(zhǔn)確地訪問數(shù)據(jù),如項(xiàng)目庫存,英雄的健康狀況,以及地圖上物體之間的距離,這對正確使用某些物品至關(guān)重要。法術(shù)。這是人類玩家必須手動(dòng)檢查或本能判斷的所有信息。
所有這些似乎都是對機(jī)器人能力的起訴,但布羅克曼認(rèn)為這是一種分心。他表示,在Dota 2中玩平均持續(xù)45分鐘的整個(gè)游戲的能力確實(shí)使OpenAI的代理商與眾不同。這種長期規(guī)劃被認(rèn)為很難甚至不可能通過強(qiáng)化學(xué)習(xí)來教授,但OpenAI的工作表明不然。布羅克曼說,他們成功的主要原因只是他們帶來了更多的計(jì)算機(jī)能力來解決這個(gè)問題。“這真的與規(guī)模有關(guān),”他說。
巴斯大學(xué)人工智能研究員安德烈亞斯·西奧多羅(Andreas Theodorou)表示,對5v5游戲的最新研究向前邁出了一大步,盡管他指出,最重要的成就可能是OpenAI使用可視化來調(diào)試他們的經(jīng)紀(jì)人 (這些交互式可視化可以在這里看到。)“這些技術(shù)顯示,一般來說,強(qiáng)化學(xué)習(xí)和機(jī)器學(xué)習(xí)系統(tǒng)一般都是透明的,”Theodorou告訴The Verge。這些附加組件“增加了系統(tǒng)的價(jià)值”,他說,特別是出于教育目的。
Theodorou說,研究人員使用單獨(dú)的獎(jiǎng)勵(lì)功能來鼓勵(lì)機(jī)器人一起工作也是值得注意的。這個(gè)獎(jiǎng)勵(lì)功能被標(biāo)記為“團(tuán)隊(duì)精神”,并且在每場比賽的過程中都有所增加。機(jī)器人開始每個(gè)游戲追求個(gè)人目標(biāo),比如摧毀殺戮,但隨著時(shí)間的推移,他們更多地關(guān)注共同的目標(biāo)。
布羅克曼說,與人類玩家不同,這意味著絕對“沒有自我”。他告訴The Verge,“機(jī)器人完全愿意為了更大的利益而犧牲一條車道或放棄英雄。” “為了好玩,我們有一個(gè)人來幫助更換其中一個(gè)機(jī)器人。我們沒有訓(xùn)練他們做任何特別的事,但他說他感覺得到了如此好的支持。他想要的任何東西,機(jī)器人都得到了他。“
OpenAI的機(jī)器人團(tuán)隊(duì)目前已經(jīng)與業(yè)余和半游戲團(tuán)隊(duì)進(jìn)行了五場多場比賽,贏得了四場比賽并贏得了一場比賽。但是他們最大的挑戰(zhàn)將在今年晚些時(shí)候在國際上展出。具有完美時(shí)間和沒有自我的機(jī)器能否與人類專業(yè)人士的流暢和直觀的游戲相匹配?在這一點(diǎn)上,這是任何人的游戲。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。