Google的第四代張量處理單元公開發(fā)布

2020-07-31 08:44:35 編輯：來源：國際品牌資訊

導(dǎo)讀 Google的第四代張量處理單元(TPU)直到今天才公開發(fā)布，它可以在接近記錄的壁鐘時(shí)間內(nèi)完成AI和機(jī)器學(xué)習(xí)訓(xùn)練工作量。這是根據(jù)MLPerf發(fā)布的最

Google的第四代張量處理單元(TPU)直到今天才公開發(fā)布，它可以在接近記錄的壁鐘時(shí)間內(nèi)完成AI和機(jī)器學(xué)習(xí)訓(xùn)練工作量。這是根據(jù)MLPerf發(fā)布的最新一組指標(biāo)得出的。該指標(biāo)是MLPerf套件背后的70多家公司和學(xué)術(shù)機(jī)構(gòu)組成的聯(lián)盟，用于AI性能基準(zhǔn)測試。它顯示了第四代TPU的集群在對象檢測，圖像分類，自然語言處理，機(jī)器翻譯和推薦基準(zhǔn)方面超過了第三代TPU(甚至是Nvidia最近發(fā)布的A100的集群)的功能。

谷歌表示，其第四代TPU提供的矩陣乘法TFLOP是第三代TPU的兩倍以上，其中單個(gè)TFLOP相當(dāng)于每秒1萬億個(gè)浮點(diǎn)運(yùn)算。(矩陣通常用于表示輸入到AI模型中的數(shù)據(jù)。)它還提供了“顯著”的內(nèi)存帶寬提升，同時(shí)受益于互連技術(shù)的未指定進(jìn)步。谷歌表示，總體而言，在相同的64芯片規(guī)模上，并且不考慮軟件帶來的改進(jìn)，在去年的MLPerf基準(zhǔn)測試中，第四代TPU的性能平均比第三代TPU提升了2.7倍。

Google的TPU是專用于加速AI的專用集成電路(ASIC)。它們是液冷的，旨在插入服務(wù)器機(jī)架中。交付多達(dá)100 petaflops的計(jì)算;并增強(qiáng)Google產(chǎn)品的功能，例如Google搜索，Google相冊，Google翻譯，Google助手，Gmail和Google Cloud AI API。谷歌在其年度I / O開發(fā)人員大會(huì)上宣布了2018年的第三代產(chǎn)品，今天早晨揭開了繼任者的序幕，后者處于研究階段。

Google AI軟件工程師Naveen Kumar在博客中寫道：“這表明了我們致力于大規(guī)模開展機(jī)器學(xué)習(xí)研究和工程，并通過開源軟件，Google產(chǎn)品和Google Cloud向用戶提供這些進(jìn)步的承諾。”“機(jī)器學(xué)習(xí)模型的快速培訓(xùn)對于提供以前無法實(shí)現(xiàn)的新產(chǎn)品，服務(wù)和研究突破的研究和工程團(tuán)隊(duì)至關(guān)重要。”

今年的MLPerf結(jié)果表明，谷歌的第四代TPU不容小at。在涉及使用ImageNet數(shù)據(jù)集對算法(ResNet-50 v1.5)進(jìn)行至少75.90%的準(zhǔn)確度訓(xùn)練的圖像分類任務(wù)中，在1.82分鐘內(nèi)完成了256個(gè)第四代TPU。這幾乎與768個(gè)Nvidia A100圖形卡，192個(gè)AMD Epyc 7742 CPU內(nèi)核(1.06分鐘)以及512個(gè)華為AI優(yōu)化的Ascend910芯片與128個(gè)Intel Xeon Platinum 8168內(nèi)核(1.56分鐘)組合在一起的速度一樣快。第三代TPU在0.48分鐘的訓(xùn)練中獲得了第四代跳動(dòng)，但這也許僅是因?yàn)榇?lián)使用了4,096個(gè)第三代TPU。

在MLPerf的“重量級(jí)”對象檢測類別中，第四代TPU稍稍領(lǐng)先一點(diǎn)。一個(gè)參考模型(Mask R-CNN)在9.95分鐘內(nèi)用256個(gè)第四代TPU進(jìn)行了COCO語料庫的訓(xùn)練，達(dá)到了512個(gè)第三代TPU的驚人距離(8.13分鐘)。在自然語言處理工作量上，需要在WMT英語-德語數(shù)據(jù)集上訓(xùn)練Transformer模型，因此在0.78分鐘內(nèi)完成了256個(gè)第四代TPU。4,096個(gè)第三代TPU需要0.35分鐘，而480個(gè)Nvidia A100卡(加上256個(gè)AMD Epyc 7742 CPU內(nèi)核)需要0.62分鐘。

當(dāng)負(fù)責(zé)在大型維基百科語料庫上訓(xùn)練BERT

標(biāo)簽： Google