2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權歸原作者所有。
在棋盤游戲中擊敗人類在AI世界中是過時的。現(xiàn)在,頂尖的學者和科技公司希望在視頻游戲中挑戰(zhàn)我們。今天,由Elon Musk和Sam Altman創(chuàng)立的研究實驗室OpenAI宣布了其最新的里程碑:一個AI代理團隊,可以在流行的戰(zhàn)斗競技場游戲Dota 2中擊敗業(yè)余愛好者的前1%。
你可能還記得OpenAI 去年8月首次進入Dota 2 的世界,推出了一個可以在1v1比賽中擊敗頂級球員的系統(tǒng)。然而,這種游戲類型大大減少了Dota 2的挑戰(zhàn).OpenAI現(xiàn)在已經(jīng)升級其機器人在5v5對戰(zhàn)中扮演人類,這需要更多的協(xié)調(diào)和長期規(guī)劃。雖然OpenAI尚未挑戰(zhàn)該游戲最優(yōu)秀的玩家,但它將在今年晚些時候在The International舉行,這是Dota 2錦標賽,這是電子競技日歷上最大的年度賽事。
像這樣的研究動機很簡單:如果我們能夠教授人工智能系統(tǒng)玩視頻游戲所需的技能,我們可以用它們來解決復雜的現(xiàn)實挑戰(zhàn),這些挑戰(zhàn)在某些方面類似于視頻游戲 - 例如,管理城市的交通基礎設施。
“這是一個令人興奮的里程碑,它真的是因為它是關于過渡到真實應用程序,”OpenAI的聯(lián)合創(chuàng)始人兼首席技術官Greg Brockman告訴The Verge。“如果你有一個問題的模擬,并且你可以運行它足夠大的規(guī)模,那么你可以用它做什么就沒有障礙。”
從根本上說,視頻游戲提供了像國際象棋或Go這樣的棋盤游戲所面臨的挑戰(zhàn)。他們隱藏了玩家的信息,這意味著AI無法感知整個比賽場地并計算出最佳的下一步動作。還有更多要處理的信息和大量可能的動作。OpenAI表示,在任何時候,它的Dota 2機器人必須在1,000個不同的動作之間進行選擇,同時處理代表游戲中發(fā)生的事件的20,000個數(shù)據(jù)點。
為了創(chuàng)建他們的機器人,實驗室轉(zhuǎn)向了一種稱為強化學習的機器學習方法。這是一種看似簡單的技術,可以產(chǎn)生復雜的行為。AI代理人被投入到虛擬環(huán)境中,在那里他們自學如何通過反復試驗來實現(xiàn)目標。程序員設置所謂的獎勵功能(為諸如殺死敵人之類的東西授予機器人點數(shù)),然后他們讓AI代理人一遍又一遍地玩。
對于這批新的Dota機器人來說,自我玩耍的數(shù)量是驚人的。每天,機器人以加速的速度玩了180 年的游戲時間。他們在幾個月的時間里以這種速度接受訓練。“它開始時是完全隨機的,在地圖上游蕩。然后,經(jīng)過幾個小時,它開始學習基本技能,“布羅克曼說。他說,如果需要12,000到20,000小時的人力來學習成為一名專業(yè)人士,那就意味著OpenAI的代理人“每天都會玩100次人類生活。”
一方面,這證明了當代機器學習方法和處理大量數(shù)據(jù)的最新計算機芯片的強大功能。另一方面,它提醒人們?nèi)绾螐母旧嫌薮赖腁I代理人。如果人類花費數(shù)千年的時間來學習如何玩單個視頻游戲,那么我們就不會是一個物種。
OpenAI的機器人仍然受到限制。例如,他們只玩了115個英雄中的5個,包括Necrophos(如圖)。 圖片:閥門
雖然OpenAI的機器人現(xiàn)在正在玩5v5比賽,但他們?nèi)匀粵]有接觸到Dota 2的全部復雜性。存在許多限制。他們只使用了115位英雄中的5位,每位都有自己的打法。(他們的選擇:Necrophos,Sniper,Viper,Crystal Maiden和Lich。)他們的決策過程中的某些元素是硬編碼的,比如他們從供應商處購買的物品以及他們使用游戲中體驗點升級的技能。游戲的其他棘手部分已被完全禁用,包括隱身,召喚和病房的放置,這些物品充當遠程攝像機,在高級游戲中至關重要。(正如一位游戲指南警告的那樣,“如果有任何話題讓新人感到困惑,那就太過分了。”)
OpenAI的代理商還擁有您對計算機的所有優(yōu)勢。他們的反應時間比人類快,他們不會錯過點擊,他們可以即時,準確地訪問數(shù)據(jù),如項目庫存,英雄的健康狀況,以及地圖上物體之間的距離,這對正確使用某些物品至關重要。法術。這是人類玩家必須手動檢查或本能判斷的所有信息。
所有這些似乎都是對機器人能力的起訴,但布羅克曼認為這是一種分心。他表示,在Dota 2中玩平均持續(xù)45分鐘的整個游戲的能力確實使OpenAI的代理商與眾不同。這種長期規(guī)劃被認為很難甚至不可能通過強化學習來教授,但OpenAI的工作表明不然。布羅克曼說,他們成功的主要原因只是他們帶來了更多的計算機能力來解決這個問題。“這真的與規(guī)模有關,”他說。
巴斯大學人工智能研究員安德烈亞斯·西奧多羅(Andreas Theodorou)表示,對5v5游戲的最新研究向前邁出了一大步,盡管他指出,最重要的成就可能是OpenAI使用可視化來調(diào)試他們的經(jīng)紀人 (這些交互式可視化可以在這里看到。)“這些技術顯示,一般來說,強化學習和機器學習系統(tǒng)一般都是透明的,”Theodorou告訴The Verge。這些附加組件“增加了系統(tǒng)的價值”,他說,特別是出于教育目的。
Theodorou說,研究人員使用單獨的獎勵功能來鼓勵機器人一起工作也是值得注意的。這個獎勵功能被標記為“團隊精神”,并且在每場比賽的過程中都有所增加。機器人開始每個游戲追求個人目標,比如摧毀殺戮,但隨著時間的推移,他們更多地關注共同的目標。
布羅克曼說,與人類玩家不同,這意味著絕對“沒有自我”。他告訴The Verge,“機器人完全愿意為了更大的利益而犧牲一條車道或放棄英雄。” “為了好玩,我們有一個人來幫助更換其中一個機器人。我們沒有訓練他們做任何特別的事,但他說他感覺得到了如此好的支持。他想要的任何東西,機器人都得到了他。“
OpenAI的機器人團隊目前已經(jīng)與業(yè)余和半游戲團隊進行了五場多場比賽,贏得了四場比賽并贏得了一場比賽。但是他們最大的挑戰(zhàn)將在今年晚些時候在國際上展出。具有完美時間和沒有自我的機器能否與人類專業(yè)人士的流暢和直觀的游戲相匹配?在這一點上,這是任何人的游戲。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權歸原作者所有。