釋放用于芯片上AI加速的近似計算的希望

2022-08-25 02:49:11 編輯：杭朋秀來源：

導(dǎo)讀深度學(xué)習(xí)的最新進(jìn)展以及跨應(yīng)用程序域使用機(jī)器學(xué)習(xí)的指數(shù)增長已使AI加速變得至關(guān)重要。IBM Research一直在構(gòu)建AI硬件加速器的管道來滿足這...

深度學(xué)習(xí)的最新進(jìn)展以及跨應(yīng)用程序域使用機(jī)器學(xué)習(xí)的指數(shù)增長已使AI加速變得至關(guān)重要。IBM Research一直在構(gòu)建AI硬件加速器的管道來滿足這一需求。在2018年VLSI電路研討會上，我們展示了一個可跨多種AI硬件系統(tǒng)擴(kuò)展的Multi-TeraOPS加速器核心構(gòu)建塊。該數(shù)字AI內(nèi)核具有并行架構(gòu)，可確保非常高的利用率和高效的計算引擎，可謹(jǐn)慎利用降低的精度。

近似計算是我們利用“人工智能的物理學(xué)”方法的中心原則，在該方法中，通過專門構(gòu)建的架構(gòu)實現(xiàn)了高能效的計算收益，最初使用數(shù)字計算，后來使用模擬和內(nèi)存計算。

從歷史上看，計算一直依賴于高精度的64位和32位浮點(diǎn)算法。這種方法可以將精確的計算精確到小數(shù)點(diǎn)后第n位，這對于科學(xué)計算任務(wù)(例如模擬人的心臟或計算航天飛機(jī)的軌跡)至關(guān)重要。但是，對于常見的深度學(xué)習(xí)任務(wù)，我們是否需要這種準(zhǔn)確性?我們的大腦是否需要高分辨率圖像才能識別家庭成員或貓?當(dāng)我們輸入文本線程進(jìn)行搜索時，我們是否需要精確地將第50,002個最有用答復(fù)與第500,003個相對答復(fù)進(jìn)行比較?答案是，包括這些示例在內(nèi)的許多任務(wù)都可以通過近似計算來完成。

由于普通的深度學(xué)習(xí)工作負(fù)載很少需要全精度，因此降低精度是自然的方向。具有16位精度引擎的計算構(gòu)件比具有32位精度的同類構(gòu)件小4倍。對于AI訓(xùn)練和推理工作負(fù)載而言，這種區(qū)域效率的提高成為性能和功率效率的提升。簡而言之，在近似計算中，只要我們還開發(fā)了算法改進(jìn)來保持模型的準(zhǔn)確性，就可以用數(shù)值精度換取計算效率。這種方法還補(bǔ)充了其他近似計算技術(shù)-包括最近的工作，該工作描述了新穎的訓(xùn)練壓縮方法以減少通信開銷，從而使現(xiàn)有方法的速度提高了40-200倍。

我們在2018年VLSI電路研討會上介紹了我們的數(shù)字AI內(nèi)核的實驗結(jié)果。我們新核心的設(shè)計受四個目標(biāo)支配：

端到端性能：并行計算，高利用率，高數(shù)據(jù)帶寬

深度學(xué)習(xí)模型的準(zhǔn)確性：與高精度實現(xiàn)一樣精確

功率效率：應(yīng)用程序功率應(yīng)由計算元素主導(dǎo)

靈活性和可編程性：允許調(diào)整當(dāng)前算法以及開發(fā)未來的深度學(xué)習(xí)算法和模型

我們的新架構(gòu)不僅針對矩陣乘法和卷積內(nèi)核進(jìn)行了優(yōu)化，而矩陣乘法和卷積內(nèi)核往往主導(dǎo)著深度學(xué)習(xí)計算，還優(yōu)化了一系列激活函數(shù)，這些函數(shù)是深度學(xué)習(xí)計算工作量的一部分。此外，我們的架構(gòu)為本地卷積運(yùn)算提供了支持，從而允許在圖像和語音數(shù)據(jù)上進(jìn)行深度學(xué)習(xí)訓(xùn)練和推理任務(wù)，從而在內(nèi)核上以非凡的效率運(yùn)行。

為了說明如何針對各種深度學(xué)習(xí)功能優(yōu)化核心架構(gòu)，圖1顯示了整個應(yīng)用程序域中深度學(xué)習(xí)算法中操作類型的細(xì)目分類。通過使用圖2和圖3中所示的處理元素的自定義數(shù)據(jù)流組織，可以在核心體系結(jié)構(gòu)中計算主導(dǎo)矩陣乘法分量，其中可以有效利用降低的精度計算，而其余向量函數(shù)(圖2中的所有非紅色條形)圖1)在圖3或4所示的處理元素或特殊功能單元中執(zhí)行，具體取決于特定功能的精度要求。

在研討會上，我們展示了硬件結(jié)果，證實了這種單一架構(gòu)方法既可以訓(xùn)練也可以進(jìn)行推理，并支持多個領(lǐng)域的模型(例如，語音，視覺，自然語言處理)。盡管其他小組指出了其專用AI芯片的“峰值性能”，但其持續(xù)的性能水平僅處于很小的峰值，但我們一直致力于最大化持續(xù)的性能和利用率，因為持續(xù)的性能直接轉(zhuǎn)化為用戶體驗和響應(yīng)時間。

我們的測試芯片如圖5所示。使用內(nèi)置14LPP技術(shù)的該測試芯片，我們已經(jīng)在廣泛的深度學(xué)習(xí)庫中成功演示了訓(xùn)練和推理，并練習(xí)了深度學(xué)習(xí)任務(wù)中常用的所有操作，包括矩陣乘法，卷積和各種非線性激活函數(shù)。

我們在VLSI論文中強(qiáng)調(diào)了數(shù)字AI核心的靈活性和多用途功能，以及對多個數(shù)據(jù)流的本地支持，但是這種方法是完全模塊化的。該AI內(nèi)核可以集成到SoC，CPU或微控制器中，并用于訓(xùn)練，推理或兩者。使用該內(nèi)核的芯片可以部署在數(shù)據(jù)中心或邊緣。

在對IBM Research 的深度學(xué)習(xí)算法有基本了解的推動下，我們期望培訓(xùn)和推理的精度要求將繼續(xù)提高，這將推動AI所需的硬件架構(gòu)中量子效率的提高。請繼續(xù)關(guān)注我們團(tuán)隊的更多研究。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！