2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
萊斯大學(xué)的計(jì)算機(jī)科學(xué)家已經(jīng)克服了新興人工智能產(chǎn)業(yè)的一個(gè)主要障礙,表明如果沒(méi)有專(zhuān)門(mén)的加速硬件,如圖形處理單元(GPU),就有可能加快深度學(xué)習(xí)技術(shù)。
來(lái)自賴(lài)斯的計(jì)算機(jī)科學(xué)家,在英特爾的合作者的支持下,今天將在奧斯汀會(huì)議中心展示他們的結(jié)果,作為機(jī)器學(xué)習(xí)系統(tǒng)會(huì)議MLSys的一部分。
許多公司正在大量投資于GPU和其他專(zhuān)門(mén)硬件,以實(shí)現(xiàn)深度學(xué)習(xí),這是一種強(qiáng)大的人工智能形式,背后的數(shù)字助理,如Alexa和Siri,面部識(shí)別,產(chǎn)品推薦系統(tǒng)和其他技術(shù)。 例如,該行業(yè)金標(biāo)TeslaV100TensorCore GPU的制造商N(yùn)vidia最近報(bào)告說(shuō),其第四季度收入比上一年增加了41%。
賴(lài)斯的研究人員創(chuàng)造了一個(gè)節(jié)省成本的替代GPU,一種稱(chēng)為“次線性深度學(xué)習(xí)引擎”(SLIDE)的算法,它使用通用的中央處理單元(CPU),沒(méi)有專(zhuān)門(mén)的加速硬件。
賴(lài)斯布朗工程學(xué)院的助理教授Anshumali Shrivastava說(shuō):“我們的測(cè)試表明,SLIDE是在CPU上進(jìn)行深度學(xué)習(xí)的第一個(gè)智能算法實(shí)現(xiàn),在具有大型全連接架構(gòu)的行業(yè)規(guī)模推薦數(shù)據(jù)集上,它可以?xún)?yōu)于GPU硬件加速。
幻燈片不需要GPU,因?yàn)樗枰环N根本不同的深度學(xué)習(xí)方法。 深度神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)“反向傳播”訓(xùn)練技術(shù)需要矩陣乘法,這是GPU的理想工作負(fù)載。 使用SLIDE,Shrivastava,Chen和Medini將神經(jīng)網(wǎng)絡(luò)訓(xùn)練變成了一個(gè)搜索問(wèn)題,可以用哈希表來(lái)解決。
與反向傳播訓(xùn)練相比,這從根本上減少了SLIDE的計(jì)算開(kāi)銷(xiāo).. 例如,一個(gè)頂級(jí)的GPU平臺(tái),如亞馬遜、谷歌和其他為基于云的深度學(xué)習(xí)服務(wù)提供的平臺(tái),有八個(gè)特斯拉V100s,成本約$10萬(wàn)美元,Shrivastava說(shuō)。
我們?cè)趯?shí)驗(yàn)室里有一個(gè),在我們的測(cè)試用例中,我們使用了一個(gè)非常適合V100的工作負(fù)載,一個(gè)在適合GPU內(nèi)存的大型、完全連接的網(wǎng)絡(luò)中具有超過(guò)1億個(gè)參數(shù)的工作負(fù)載。 “我們用谷歌的TensorFlow這個(gè)最好的軟件包來(lái)訓(xùn)練它,花了3個(gè)半小時(shí)來(lái)訓(xùn)練。
Shrivastava說(shuō):“我們的新算法可以在一小時(shí)內(nèi)完成訓(xùn)練,而不是在GPU上,而是在44核Xeon級(jí)CPU上?!?/p>
深度學(xué)習(xí)網(wǎng)絡(luò)受到生物學(xué)的啟發(fā),它們的中心特征,人工神經(jīng)元,是可以學(xué)習(xí)執(zhí)行特定任務(wù)的小型計(jì)算機(jī)代碼。 一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)可以包含數(shù)百萬(wàn)甚至數(shù)十億的人工神經(jīng)元,它們可以一起工作,僅僅通過(guò)研究大量數(shù)據(jù)就可以學(xué)會(huì)做出人類(lèi)層面的專(zhuān)家決策。 例如,如果一個(gè)深度神經(jīng)網(wǎng)絡(luò)被訓(xùn)練來(lái)識(shí)別照片中的物體,它將使用不同的神經(jīng)元來(lái)識(shí)別貓的照片,而不是識(shí)別校車(chē)。
“你不需要在每個(gè)病例上訓(xùn)練所有的神經(jīng)元,”梅迪尼說(shuō)。 “我們想,‘如果我們只想選擇相關(guān)的神經(jīng)元,那就是一個(gè)搜索問(wèn)題?!?因此,在算法上,我們的想法是使用局部敏感散列來(lái)擺脫矩陣乘法。
哈希是20世紀(jì)90年代為互聯(lián)網(wǎng)搜索而發(fā)明的一種數(shù)據(jù)索引方法。 它使用數(shù)字方法來(lái)編碼大量的信息,比如整個(gè)網(wǎng)頁(yè)或一本書(shū)的章節(jié),作為一串?dāng)?shù)字,稱(chēng)為散列。 哈希表是可以很快搜索的哈希表。
陳說(shuō):“在TensorFlow或Py Torch上實(shí)現(xiàn)我們的算法是沒(méi)有意義的,因?yàn)樗麄兿胱龅牡谝患戮褪前涯阏谧龅娜魏问虑檗D(zhuǎn)換成矩陣乘法問(wèn)題。” “這正是我們想要擺脫的。 所以我們從頭開(kāi)始編寫(xiě)自己的C代碼。“
Shrivastava說(shuō),與反向傳播相比,SLIDE最大的優(yōu)勢(shì)在于它是數(shù)據(jù)并行的。
他說(shuō):“數(shù)據(jù)并行,我的意思是,如果我有兩個(gè)數(shù)據(jù)實(shí)例,我想訓(xùn)練,假設(shè)一個(gè)是貓的圖像,另一個(gè)是公共汽車(chē)的圖像,它們可能會(huì)激活不同的神經(jīng)元,而幻燈片可以獨(dú)立更新或訓(xùn)練這兩個(gè)?!?“這是對(duì)CPU并行性的更好利用。
與GPU相比,另一方面是我們需要很大的記憶力。 “主存儲(chǔ)器中有一個(gè)緩存層次結(jié)構(gòu),如果您不小心,您可能會(huì)遇到一個(gè)名為緩存重?fù)舻膯?wèn)題,在這個(gè)問(wèn)題中,您會(huì)得到很多緩存丟失?!?/p>
Shrivastava說(shuō),他的小組第一次使用SLIDE的實(shí)驗(yàn)產(chǎn)生了顯著的緩存沖擊,但他們的訓(xùn)練時(shí)間仍然與GPU訓(xùn)練時(shí)間相當(dāng)或比GPU訓(xùn)練時(shí)間更快。 因此,他、陳和梅迪尼在2019年3月在ar Xiv上發(fā)布了初步結(jié)果,并將他們的代碼上傳到GitHub。 幾周后,他們被英特爾聯(lián)系。
他說(shuō):“我們的英特爾合作者認(rèn)識(shí)到緩存問(wèn)題。 “他們告訴我們,他們可以和我們合作,使火車(chē)更快,他們是對(duì)的。 在他們的幫助下,我們的成績(jī)提高了大約50%?!?/p>
Shrivastava說(shuō),SLIDE尚未接近其潛力。
他說(shuō):“我們剛剛擦破了表面。 “我們還有很多事情要做。 例如,我們沒(méi)有在CPU中使用矢量化或內(nèi)置加速器,比如英特爾深度學(xué)習(xí)Boost。 我們還可以用很多其他的技巧來(lái)使這種速度更快?!?/p>
Shrivastava說(shuō),SLIDE很重要,因?yàn)樗@示了實(shí)現(xiàn)深度學(xué)習(xí)的其他方法。
陳說(shuō):“整個(gè)信息是,‘讓我們不要被乘法矩陣和GPU內(nèi)存所阻礙’。 “我們可能是第一個(gè)擊敗GPU的算法,但我希望這不是最后一個(gè)。 這個(gè)領(lǐng)域需要新的想法,這是MLSys的一大部分?!?/p>
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。