您的位置: 首頁 >科技 >

釋放用于芯片上AI加速的近似計(jì)算的希望

2022-08-25 02:49:11 編輯:杭朋秀 來源:
導(dǎo)讀 深度學(xué)習(xí)的最新進(jìn)展以及跨應(yīng)用程序域使用機(jī)器學(xué)習(xí)的指數(shù)增長(zhǎng)已使AI加速變得至關(guān)重要。IBM Research一直在構(gòu)建AI硬件加速器的管道來滿足這...

深度學(xué)習(xí)的最新進(jìn)展以及跨應(yīng)用程序域使用機(jī)器學(xué)習(xí)的指數(shù)增長(zhǎng)已使AI加速變得至關(guān)重要。IBM Research一直在構(gòu)建AI硬件加速器的管道來滿足這一需求。在2018年VLSI電路研討會(huì)上,我們展示了一個(gè)可跨多種AI硬件系統(tǒng)擴(kuò)展的Multi-TeraOPS加速器核心構(gòu)建塊。該數(shù)字AI內(nèi)核具有并行架構(gòu),可確保非常高的利用率和高效的計(jì)算引擎,可謹(jǐn)慎利用降低的精度。

近似計(jì)算是我們利用“人工智能的物理學(xué)”方法的中心原則,在該方法中,通過專門構(gòu)建的架構(gòu)實(shí)現(xiàn)了高能效的計(jì)算收益,最初使用數(shù)字計(jì)算,后來使用模擬和內(nèi)存計(jì)算。

從歷史上看,計(jì)算一直依賴于高精度的64位和32位浮點(diǎn)算法。這種方法可以將精確的計(jì)算精確到小數(shù)點(diǎn)后第n位,這對(duì)于科學(xué)計(jì)算任務(wù)(例如模擬人的心臟或計(jì)算航天飛機(jī)的軌跡)至關(guān)重要。但是,對(duì)于常見的深度學(xué)習(xí)任務(wù),我們是否需要這種準(zhǔn)確性?我們的大腦是否需要高分辨率圖像才能識(shí)別家庭成員或貓?當(dāng)我們輸入文本線程進(jìn)行搜索時(shí),我們是否需要精確地將第50,002個(gè)最有用答復(fù)與第500,003個(gè)相對(duì)答復(fù)進(jìn)行比較?答案是,包括這些示例在內(nèi)的許多任務(wù)都可以通過近似計(jì)算來完成。

由于普通的深度學(xué)習(xí)工作負(fù)載很少需要全精度,因此降低精度是自然的方向。具有16位精度引擎的計(jì)算構(gòu)件比具有32位精度的同類構(gòu)件小4倍。對(duì)于AI訓(xùn)練和推理工作負(fù)載而言,這種區(qū)域效率的提高成為性能和功率效率的提升。簡(jiǎn)而言之,在近似計(jì)算中,只要我們還開發(fā)了算法改進(jìn)來保持模型的準(zhǔn)確性,就可以用數(shù)值精度換取計(jì)算效率。這種方法還補(bǔ)充了其他近似計(jì)算技術(shù)-包括最近的工作,該工作描述了新穎的訓(xùn)練壓縮方法以減少通信開銷,從而使現(xiàn)有方法的速度提高了40-200倍。

我們?cè)?018年VLSI電路研討會(huì)上介紹了我們的數(shù)字AI內(nèi)核的實(shí)驗(yàn)結(jié)果。我們新核心的設(shè)計(jì)受四個(gè)目標(biāo)支配:

端到端性能:并行計(jì)算,高利用率,高數(shù)據(jù)帶寬

深度學(xué)習(xí)模型的準(zhǔn)確性:與高精度實(shí)現(xiàn)一樣精確

功率效率:應(yīng)用程序功率應(yīng)由計(jì)算元素主導(dǎo)

靈活性和可編程性:允許調(diào)整當(dāng)前算法以及開發(fā)未來的深度學(xué)習(xí)算法和模型

我們的新架構(gòu)不僅針對(duì)矩陣乘法和卷積內(nèi)核進(jìn)行了優(yōu)化,而矩陣乘法和卷積內(nèi)核往往主導(dǎo)著深度學(xué)習(xí)計(jì)算,還優(yōu)化了一系列激活函數(shù),這些函數(shù)是深度學(xué)習(xí)計(jì)算工作量的一部分。此外,我們的架構(gòu)為本地卷積運(yùn)算提供了支持,從而允許在圖像和語音數(shù)據(jù)上進(jìn)行深度學(xué)習(xí)訓(xùn)練和推理任務(wù),從而在內(nèi)核上以非凡的效率運(yùn)行。

為了說明如何針對(duì)各種深度學(xué)習(xí)功能優(yōu)化核心架構(gòu),圖1顯示了整個(gè)應(yīng)用程序域中深度學(xué)習(xí)算法中操作類型的細(xì)目分類。通過使用圖2和圖3中所示的處理元素的自定義數(shù)據(jù)流組織,可以在核心體系結(jié)構(gòu)中計(jì)算主導(dǎo)矩陣乘法分量,其中可以有效利用降低的精度計(jì)算,而其余向量函數(shù)(圖2中的所有非紅色條形)圖1)在圖3或4所示的處理元素或特殊功能單元中執(zhí)行,具體取決于特定功能的精度要求。

在研討會(huì)上,我們展示了硬件結(jié)果,證實(shí)了這種單一架構(gòu)方法既可以訓(xùn)練也可以進(jìn)行推理,并支持多個(gè)領(lǐng)域的模型(例如,語音,視覺,自然語言處理)。盡管其他小組指出了其專用AI芯片的“峰值性能”,但其持續(xù)的性能水平僅處于很小的峰值,但我們一直致力于最大化持續(xù)的性能和利用率,因?yàn)槌掷m(xù)的性能直接轉(zhuǎn)化為用戶體驗(yàn)和響應(yīng)時(shí)間。

我們的測(cè)試芯片如圖5所示。使用內(nèi)置14LPP技術(shù)的該測(cè)試芯片,我們已經(jīng)在廣泛的深度學(xué)習(xí)庫中成功演示了訓(xùn)練和推理,并練習(xí)了深度學(xué)習(xí)任務(wù)中常用的所有操作,包括矩陣乘法,卷積和各種非線性激活函數(shù)。

我們?cè)赩LSI論文中強(qiáng)調(diào)了數(shù)字AI核心的靈活性和多用途功能,以及對(duì)多個(gè)數(shù)據(jù)流的本地支持,但是這種方法是完全模塊化的。該AI內(nèi)核可以集成到SoC,CPU或微控制器中,并用于訓(xùn)練,推理或兩者。使用該內(nèi)核的芯片可以部署在數(shù)據(jù)中心或邊緣。

在對(duì)IBM Research 的深度學(xué)習(xí)算法有基本了解的推動(dòng)下,我們期望培訓(xùn)和推理的精度要求將繼續(xù)提高,這將推動(dòng)AI所需的硬件架構(gòu)中量子效率的提高。請(qǐng)繼續(xù)關(guān)注我們團(tuán)隊(duì)的更多研究。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。