英偉達護城河細節(jié)曝光世界最快超算訓(xùn)完超萬億參數(shù)LLM

2024-01-15 16:05:06 編輯：榮成蓓來源：

導(dǎo)讀近日超算集群Frontier研究人員在AMD硬件平臺上集合了37888個MI250X GPU和9472個Epyc 7A53 CPU的環(huán)境，并且僅使用其中8%左右的GPU，訓(xùn)練...

近日超算集群Frontier研究人員在AMD硬件平臺上集合了37888個MI250X GPU和9472個Epyc 7A53 CPU的環(huán)境，并且僅使用其中8%左右的GPU，訓(xùn)練了一個GPT-3.5規(guī)模的模型，展示了如何用非英偉達生態(tài)完成大規(guī)模訓(xùn)練的技術(shù)框架和細節(jié)，披露了英偉達的技術(shù)護城河。

研究人員使用ROCM軟件平臺在AMD硬件上成功突破了分布式訓(xùn)練模型的難點。在研究人員看來，訓(xùn)練一萬億參數(shù)規(guī)模的LLM最棘手的挑戰(zhàn)是對內(nèi)存的需求，至少需要14TB的內(nèi)存才可以滿足這樣的需求。單塊GPU最大的內(nèi)存只有64GB，這意味著需要并行使用多個AMD MI250X GPU才可以滿足要求，多塊GPU并行對GPU的通信要求非常高，如果不能利用GPU之間的帶寬通信，將會浪費大部分的GPU計算資源。研究人員將基于CUDA的代碼轉(zhuǎn)換為HIP代碼，預(yù)構(gòu)建DeepSpeed ops，將縮放效率做到87%，完成很多工作之后，終于訓(xùn)練出了超萬億參數(shù)LLM規(guī)模的成果。