您的位置: 首頁 >科技 >

谷歌DeepMind重新定義了它的AlphaGo AI

2022-09-01 12:53:21 編輯:路翠婷 來源:
導(dǎo)讀 谷歌(google)旗下的DeepMind發(fā)表了一篇新論文,概述了團隊如何利用創(chuàng)造了AlphaGo的機器學(xué)習(xí)系統(tǒng),建立了一個處理國際象棋和圍棋的新系統(tǒng),...

谷歌(google)旗下的DeepMind發(fā)表了一篇新論文,概述了團隊如何利用創(chuàng)造了AlphaGo的機器學(xué)習(xí)系統(tǒng),建立了一個處理國際象棋和圍棋的新系統(tǒng),并在每一場比賽中擊敗頂級程序。這個名為AlphaZero的程序也擊敗了它的前身AlphaGo Zero。

對于DeepMind來說,這是一個合乎邏輯的下一步行動。國際象棋和圍棋(起源于的一種類似于國際象棋的棋盤游戲)都是電腦程序的游戲,已經(jīng)打敗了人類頂級棋手。AlphaZero擊敗了斯托克菲什和埃爾莫,前者在國際象棋中處于領(lǐng)先地位,后者是與shogi對弈的最佳程序。

這個程序被訓(xùn)練成只玩它自己,通過一個被稱為強化學(xué)習(xí)的過程,除了關(guān)于每個游戲規(guī)則的某些關(guān)鍵信息外,沒有任何預(yù)先知識,比如每個棋子如何移動。AlphaGo(包括AlphaGo Zero,它依賴于自我游戲強化學(xué)習(xí)來進行訓(xùn)練)是專門為圍棋開發(fā)的,而AlphaZero的設(shè)計則要靈活得多。

這種通用架構(gòu)可以為開發(fā)未來的AI系統(tǒng)提供藍圖,既可以用來玩游戲,也可以用來解決其他有明確規(guī)則和目標(biāo)的問題,比如設(shè)計藥物。

DeepMind訓(xùn)練了三個AlphaZero的獨立實例,分別用于圍棋、圍棋和國際象棋。國際象棋系統(tǒng)對自己下了4400萬盤,而shogi系統(tǒng)下了2400萬盤,圍棋系統(tǒng)下了2100萬盤。

AlphaZero的統(tǒng)治地位并不確定。圍棋和DeepMind選擇的另外兩款游戲之間有一些關(guān)鍵的區(qū)別。國際象棋和shogi都對不同棋子的移動方式有限制,而且棋盤也不像圍棋那樣是獨立旋轉(zhuǎn)的。更重要的是,在shogi中捕獲的棋子可以被對手放置在棋盤上。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。