您的位置: 首頁(yè) >科技 >

英偉達(dá)護(hù)城河細(xì)節(jié)曝光 世界最快超算訓(xùn)完超萬(wàn)億參數(shù)LLM

2024-01-15 16:05:06 編輯:榮成蓓 來(lái)源:
導(dǎo)讀 近日超算集群Frontier研究人員在AMD硬件平臺(tái)上集合了37888個(gè)MI250X GPU和9472個(gè)Epyc 7A53 CPU的環(huán)境,并且僅使用其中8%左右的GPU,訓(xùn)練...

近日超算集群Frontier研究人員在AMD硬件平臺(tái)上集合了37888個(gè)MI250X GPU9472個(gè)Epyc 7A53 CPU的環(huán)境,并且僅使用其中8%左右的GPU,訓(xùn)練了一個(gè)GPT-3.5規(guī)模的模型,展示了如何用非英偉達(dá)生態(tài)完成大規(guī)模訓(xùn)練的技術(shù)框架和細(xì)節(jié),披露了英偉達(dá)的技術(shù)護(hù)城河。

研究人員使用ROCM軟件平臺(tái)在AMD硬件上成功突破了分布式訓(xùn)練模型的難點(diǎn)。在研究人員看來(lái),訓(xùn)練一萬(wàn)億參數(shù)規(guī)模的LLM最棘手的挑戰(zhàn)是對(duì)內(nèi)存的需求,至少需要14TB的內(nèi)存才可以滿足這樣的需求。單塊GPU最大的內(nèi)存只有64GB,這意味著需要并行使用多個(gè)AMD MI250X GPU才可以滿足要求,多塊GPU并行對(duì)GPU的通信要求非常高,如果不能利用GPU之間的帶寬通信,將會(huì)浪費(fèi)大部分的GPU計(jì)算資源。研究人員將基于CUDA的代碼轉(zhuǎn)換為HIP代碼,預(yù)構(gòu)建DeepSpeed ops,將縮放效率做到87%,完成很多工作之后,終于訓(xùn)練出了超萬(wàn)億參數(shù)LLM規(guī)模的成果。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ   備案號(hào):

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

郵箱:toplearningteam#gmail.com (請(qǐng)將#換成@)