您的位置: 首頁 >互聯(lián)網(wǎng) >

超級計算加速了深度學(xué)習(xí)培訓(xùn)

2019-06-24 11:26:11 編輯: 來源:
導(dǎo)讀 來自加州大學(xué)伯克利分校,加州大學(xué)戴維斯分校和德克薩斯高級計算中心(TACC)的一組研究人員發(fā)表了一項研究結(jié)果,旨在利用超級計算機(jī)的力量訓(xùn)

來自加州大學(xué)伯克利分校,加州大學(xué)戴維斯分校和德克薩斯高級計算中心(TACC)的一組研究人員發(fā)表了一項研究結(jié)果,旨在利用超級計算機(jī)的力量訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(DNN)的圖像迅速認(rèn)識。

研究人員在TACC 的Stampede2超級計算機(jī)上有效地使用了1024個Skylake處理器,在11分鐘內(nèi)完成了與AlexNet的100-epoch ImageNet培訓(xùn) - 這是迄今為止記錄的最快時間。使用1600個Skylake處理器,他們還在32分鐘內(nèi)完成了使用ResNet-50的90年代ImageNet培訓(xùn),擊敗了Facebook的先前結(jié)果,對于批量超過20,000的批次,他們的準(zhǔn)確性遠(yuǎn)高于Facebook的。(近年來,ImageNet基準(zhǔn)測試 - 一種專為圖像識別研究而設(shè)計的可視化數(shù)據(jù)庫 - 在評估DNN培訓(xùn)的不同方法方面發(fā)揮了重要作用。)

在Stampede2上使用512個Intel Xeon Phi芯片,他們在24分鐘內(nèi)完成了100個紀(jì)元的AlexNet,并在60分鐘內(nèi)完成了90個紀(jì)元的ResNet-50。

“這些結(jié)果表明,使用先進(jìn)的計算資源,如TACC,以及大型小批量啟用算法,以交互方式和分布式方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的潛力,”TACC研究科學(xué)家趙章說。領(lǐng)先的超級計算中心。“鑒于我們龐大的用戶群和巨大的容量,這將對科學(xué)產(chǎn)生重大影響。”

他們于2017年11月在Arxiv上公布了他們的結(jié)果。

DNN培訓(xùn)系統(tǒng)實現(xiàn)了最先進(jìn)的“前1”測試準(zhǔn)確度,這意味著模型應(yīng)答(概率最高的那個)的情況的百分比恰好是預(yù)期的答案。使用ResNet-50(微軟開發(fā)的卷積神經(jīng)網(wǎng)絡(luò)贏得了2015年ImageNet大規(guī)模視覺識別競賽并超越了ImageNet數(shù)據(jù)集中的人類表現(xiàn)),他們實現(xiàn)了超過75%的準(zhǔn)確率 - 與Facebook和亞馬遜的批量培訓(xùn)水平相當(dāng)。在這項工作中,將數(shù)據(jù)的批量大小縮放到32,000只會損失0.6%的前1精度。

相對較慢的訓(xùn)練速度會影響科學(xué)的速度,以及研究人員愿意探索的那種科學(xué)。谷歌的研究人員指出,如果培訓(xùn)神經(jīng)網(wǎng)絡(luò)需要一到四天的時間,研究人員認(rèn)為這是可以容忍的。如果需要一到四周,該方法將僅用于高價值實驗。如果需要一個多月,科學(xué)家們甚至都不會嘗試。如果研究人員能夠在喝咖啡休息期間完成培訓(xùn)過程,那么它將顯著提高他們的生產(chǎn)力。

該小組的突破涉及層智能自適應(yīng)速率調(diào)整(LARS)算法的開發(fā),該算法能夠有效地將數(shù)據(jù)分發(fā)到多個處理器,以使用比批量大小更多的項目(最多32,000個項目)同時進(jìn)行計算。

LARS在一個前向/后向傳遞中包含更多訓(xùn)練示例,并根據(jù)從前一次迭代中收集的度量自適應(yīng)地調(diào)整神經(jīng)網(wǎng)絡(luò)的每一層之間的學(xué)習(xí)速率。

由于這些變化,他們能夠利用Stampede2上提供的大量Skylake和Intel Xeon Phi處理器,同時保持準(zhǔn)確性,而以前的大批量方法則不然。

“對于深度學(xué)習(xí)應(yīng)用程序,更大的數(shù)據(jù)集和更大的模型可以顯著提高準(zhǔn)確性,但代價是延長培訓(xùn)時間,”加州大學(xué)伯克利分校數(shù)學(xué)與計算機(jī)科學(xué)教授James Demmel說。“使用LARS算法,由Y. You與B. Ginsburg和I. Gitman在NVIDIA實習(xí)期間共同開發(fā),使我們能夠保持準(zhǔn)確度,即使批量為32K。這種大批量的尺寸使我們能夠有效地使用分布式系統(tǒng),并在1024 Skylake處理器上使用AlexNet在11分鐘內(nèi)完成ImageNet培訓(xùn),這是對先前結(jié)果的重大改進(jìn)。

這些發(fā)現(xiàn)顯示了使用專用硬件(GPU,Tensor Flow芯片,F(xiàn)PGA或其他新興架構(gòu))進(jìn)行深度學(xué)習(xí)的趨勢的替代方案。該團(tuán)隊編寫了基于Caffe的代碼,并使用了支持多節(jié)點培訓(xùn)的Intel-Caffe。

深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練階段通常是深度學(xué)習(xí)中最耗時的部分。直到最近,由加州大學(xué)伯克利分校領(lǐng)導(dǎo)的團(tuán)隊完成的過程將花費數(shù)小時或數(shù)天??焖俜植际脚嘤?xùn)的進(jìn)步將影響科學(xué)的速度,以及研究人員可以用這些新方法探索的科學(xué)類型。

該實驗是TACC更廣泛努力的一部分,用于測試CPU硬件在深度學(xué)習(xí)和機(jī)器學(xué)習(xí)應(yīng)用程序和框架(包括Caffe,MXNet和TensorFlow)中的適用性。

TACC的專家展示了在使用resNet-50處理器將Caffe擴(kuò)展到1024個Skylake處理器時,該框架的運行效率約為73%,比單個Skylake處理器快750倍。

“使用商用HPC服務(wù)器在大量數(shù)據(jù)集上快速訓(xùn)練深度學(xué)習(xí)算法是測量和模擬研究的強(qiáng)大新工具,”TACC數(shù)據(jù)密集計算總監(jiān)Niall Gaffney說。“通過不必在專用硬件系統(tǒng)之間遷移大型數(shù)據(jù)集,減少了數(shù)據(jù)驅(qū)動發(fā)現(xiàn)的時間,并且可以顯著提高整體效率。”

隨著研究人員和科學(xué)學(xué)科越來越多地使用機(jī)器和深度學(xué)習(xí)從大規(guī)模實驗和模擬數(shù)據(jù)集中提取見解,擁有能夠處理這種工作量的系統(tǒng)非常重要。

最近的研究結(jié)果表明,現(xiàn)在可以通過Stampede2等國家先進(jìn)的計算資源向開放科學(xué)界提供此類系統(tǒng)。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。