您的位置: 首頁 >互聯(lián)網(wǎng) >

Google的第四代張量處理單元公開發(fā)布

2020-07-31 08:44:35 編輯: 來源:國際品牌資訊
導(dǎo)讀 Google的第四代張量處理單元(TPU)直到今天才公開發(fā)布,它可以在接近記錄的壁鐘時間內(nèi)完成AI和機器學(xué)習(xí)訓(xùn)練工作量。這是根據(jù)MLPerf發(fā)布的最

Google的第四代張量處理單元(TPU)直到今天才公開發(fā)布,它可以在接近記錄的壁鐘時間內(nèi)完成AI和機器學(xué)習(xí)訓(xùn)練工作量。這是根據(jù)MLPerf發(fā)布的最新一組指標得出的。該指標是MLPerf套件背后的70多家公司和學(xué)術(shù)機構(gòu)組成的聯(lián)盟,用于AI性能基準測試。它顯示了第四代TPU的集群在對象檢測,圖像分類,自然語言處理,機器翻譯和推薦基準方面超過了第三代TPU(甚至是Nvidia最近發(fā)布的A100的集群)的功能。

谷歌表示,其第四代TPU提供的矩陣乘法TFLOP是第三代TPU的兩倍以上,其中單個TFLOP相當于每秒1萬億個浮點運算。(矩陣通常用于表示輸入到AI模型中的數(shù)據(jù)。)它還提供了“顯著”的內(nèi)存帶寬提升,同時受益于互連技術(shù)的未指定進步。谷歌表示,總體而言,在相同的64芯片規(guī)模上,并且不考慮軟件帶來的改進,在去年的MLPerf基準測試中,第四代TPU的性能平均比第三代TPU提升了2.7倍。

Google的TPU是專用于加速AI的專用集成電路(ASIC)。它們是液冷的,旨在插入服務(wù)器機架中。交付多達100 petaflops的計算;并增強Google產(chǎn)品的功能,例如Google搜索,Google相冊,Google翻譯,Google助手,Gmail和Google Cloud AI API。谷歌在其年度I / O開發(fā)人員大會上宣布了2018年的第三代產(chǎn)品,今天早晨揭開了繼任者的序幕,后者處于研究階段。

Google AI軟件工程師Naveen Kumar在博客中寫道:“這表明了我們致力于大規(guī)模開展機器學(xué)習(xí)研究和工程,并通過開源軟件,Google產(chǎn)品和Google Cloud向用戶提供這些進步的承諾。”“機器學(xué)習(xí)模型的快速培訓(xùn)對于提供以前無法實現(xiàn)的新產(chǎn)品,服務(wù)和研究突破的研究和工程團隊至關(guān)重要。”

今年的MLPerf結(jié)果表明,谷歌的第四代TPU不容小at。在涉及使用ImageNet數(shù)據(jù)集對算法(ResNet-50 v1.5)進行至少75.90%的準確度訓(xùn)練的圖像分類任務(wù)中,在1.82分鐘內(nèi)完成了256個第四代TPU。這幾乎與768個Nvidia A100圖形卡,192個AMD Epyc 7742 CPU內(nèi)核(1.06分鐘)以及512個華為AI優(yōu)化的Ascend910芯片與128個Intel Xeon Platinum 8168內(nèi)核(1.56分鐘)組合在一起的速度一樣快。第三代TPU在0.48分鐘的訓(xùn)練中獲得了第四代跳動,但這也許僅是因為串聯(lián)使用了4,096個第三代TPU。

在MLPerf的“重量級”對象檢測類別中,第四代TPU稍稍領(lǐng)先一點。一個參考模型(Mask R-CNN)在9.95分鐘內(nèi)用256個第四代TPU進行了COCO語料庫的訓(xùn)練,達到了512個第三代TPU的驚人距離(8.13分鐘)。在自然語言處理工作量上,需要在WMT英語-德語數(shù)據(jù)集上訓(xùn)練Transformer模型,因此在0.78分鐘內(nèi)完成了256個第四代TPU。4,096個第三代TPU需要0.35分鐘,而480個Nvidia A100卡(加上256個AMD Epyc 7742 CPU內(nèi)核)需要0.62分鐘。

當負責在大型維基百科語料庫上訓(xùn)練BERT


免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。