您的位置: 首頁(yè) >互聯(lián)網(wǎng) >

微軟的ZeRO-2與深度速度訓(xùn)練神經(jīng)網(wǎng)絡(luò)高達(dá)1700億個(gè)參數(shù)

2022-09-13 05:22:04 編輯:水希興 來(lái)源:
導(dǎo)讀 微軟今天升級(jí)了它的DeepSpeed庫(kù),用ZeRO-2訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)。微軟表示,內(nèi)存優(yōu)化技術(shù)能夠訓(xùn)練1700億個(gè)參數(shù)的機(jī)器學(xué)習(xí)模型。就背景而言,英...

微軟今天升級(jí)了它的DeepSpeed庫(kù),用ZeRO-2訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)。微軟表示,內(nèi)存優(yōu)化技術(shù)能夠訓(xùn)練1700億個(gè)參數(shù)的機(jī)器學(xué)習(xí)模型。就背景而言,英偉達(dá)龐大的威震天語(yǔ)言模型是當(dāng)今世界上最大的語(yǔ)言模型之一,擁有110億個(gè)參數(shù)。

今天的聲明是在DeepSpeed庫(kù)2月份的開(kāi)源發(fā)布之后發(fā)布的,該庫(kù)用于創(chuàng)建Turing-NLG。Turing-NLG擁有170億個(gè)參數(shù),是目前世界上已知的最大的語(yǔ)言模型。微軟在2月份推出了零冗余優(yōu)化器(Zero)和DeepSpeed。

ZeRO通過(guò)減少數(shù)據(jù)并行中的內(nèi)存冗余來(lái)實(shí)現(xiàn)其結(jié)果,這是另一種將大型模型放入內(nèi)存的技術(shù)。ZeRO-1包含一些模型狀態(tài)內(nèi)存優(yōu)化,而ZeRO-2提供了激活內(nèi)存和片段內(nèi)存的優(yōu)化。

DeepSpeed是為跨多臺(tái)服務(wù)器的分布式模型訓(xùn)練而設(shè)計(jì)的,但ZeRO-2也在單GPU上對(duì)訓(xùn)練模型進(jìn)行了改進(jìn),據(jù)報(bào)道,訓(xùn)練模型如谷歌的BERT提高了30%。

更多細(xì)節(jié)將在周三由微軟首席技術(shù)官凱文·斯科特(Kevin Scott)發(fā)表的主題演講中宣布。

這一消息是在微軟全數(shù)字構(gòu)建開(kāi)發(fā)者大會(huì)開(kāi)幕之際發(fā)布的,會(huì)上宣布了多項(xiàng)人工智能開(kāi)發(fā)成果,包括用于機(jī)器學(xué)習(xí)中的差異隱私的WhiteNoise工具包,以及用于人工智能工業(yè)應(yīng)用的盆栽項(xiàng)目。

上周,英偉達(dá)CEO黃延森發(fā)布了Ampere GPU架構(gòu)和A100 GPU。新的GPU芯片——以及多模態(tài)模型和大規(guī)模推薦系統(tǒng)等趨勢(shì)——將在未來(lái)幾年引領(lǐng)更大的機(jī)器學(xué)習(xí)模型。


免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。