您的位置: 首頁 >科技 >

釋放用于芯片上AI加速的近似計算的希望

2022-08-25 02:49:11 編輯:杭朋秀 來源:
導讀 深度學習的最新進展以及跨應用程序域使用機器學習的指數增長已使AI加速變得至關重要。IBM Research一直在構建AI硬件加速器的管道來滿足這...

深度學習的最新進展以及跨應用程序域使用機器學習的指數增長已使AI加速變得至關重要。IBM Research一直在構建AI硬件加速器的管道來滿足這一需求。在2018年VLSI電路研討會上,我們展示了一個可跨多種AI硬件系統擴展的Multi-TeraOPS加速器核心構建塊。該數字AI內核具有并行架構,可確保非常高的利用率和高效的計算引擎,可謹慎利用降低的精度。

近似計算是我們利用“人工智能的物理學”方法的中心原則,在該方法中,通過專門構建的架構實現了高能效的計算收益,最初使用數字計算,后來使用模擬和內存計算。

從歷史上看,計算一直依賴于高精度的64位和32位浮點算法。這種方法可以將精確的計算精確到小數點后第n位,這對于科學計算任務(例如模擬人的心臟或計算航天飛機的軌跡)至關重要。但是,對于常見的深度學習任務,我們是否需要這種準確性?我們的大腦是否需要高分辨率圖像才能識別家庭成員或貓?當我們輸入文本線程進行搜索時,我們是否需要精確地將第50,002個最有用答復與第500,003個相對答復進行比較?答案是,包括這些示例在內的許多任務都可以通過近似計算來完成。

由于普通的深度學習工作負載很少需要全精度,因此降低精度是自然的方向。具有16位精度引擎的計算構件比具有32位精度的同類構件小4倍。對于AI訓練和推理工作負載而言,這種區(qū)域效率的提高成為性能和功率效率的提升。簡而言之,在近似計算中,只要我們還開發(fā)了算法改進來保持模型的準確性,就可以用數值精度換取計算效率。這種方法還補充了其他近似計算技術-包括最近的工作,該工作描述了新穎的訓練壓縮方法以減少通信開銷,從而使現有方法的速度提高了40-200倍。

我們在2018年VLSI電路研討會上介紹了我們的數字AI內核的實驗結果。我們新核心的設計受四個目標支配:

端到端性能:并行計算,高利用率,高數據帶寬

深度學習模型的準確性:與高精度實現一樣精確

功率效率:應用程序功率應由計算元素主導

靈活性和可編程性:允許調整當前算法以及開發(fā)未來的深度學習算法和模型

我們的新架構不僅針對矩陣乘法和卷積內核進行了優(yōu)化,而矩陣乘法和卷積內核往往主導著深度學習計算,還優(yōu)化了一系列激活函數,這些函數是深度學習計算工作量的一部分。此外,我們的架構為本地卷積運算提供了支持,從而允許在圖像和語音數據上進行深度學習訓練和推理任務,從而在內核上以非凡的效率運行。

為了說明如何針對各種深度學習功能優(yōu)化核心架構,圖1顯示了整個應用程序域中深度學習算法中操作類型的細目分類。通過使用圖2和圖3中所示的處理元素的自定義數據流組織,可以在核心體系結構中計算主導矩陣乘法分量,其中可以有效利用降低的精度計算,而其余向量函數(圖2中的所有非紅色條形)圖1)在圖3或4所示的處理元素或特殊功能單元中執(zhí)行,具體取決于特定功能的精度要求。

在研討會上,我們展示了硬件結果,證實了這種單一架構方法既可以訓練也可以進行推理,并支持多個領域的模型(例如,語音,視覺,自然語言處理)。盡管其他小組指出了其專用AI芯片的“峰值性能”,但其持續(xù)的性能水平僅處于很小的峰值,但我們一直致力于最大化持續(xù)的性能和利用率,因為持續(xù)的性能直接轉化為用戶體驗和響應時間。

我們的測試芯片如圖5所示。使用內置14LPP技術的該測試芯片,我們已經在廣泛的深度學習庫中成功演示了訓練和推理,并練習了深度學習任務中常用的所有操作,包括矩陣乘法,卷積和各種非線性激活函數。

我們在VLSI論文中強調了數字AI核心的靈活性和多用途功能,以及對多個數據流的本地支持,但是這種方法是完全模塊化的。該AI內核可以集成到SoC,CPU或微控制器中,并用于訓練,推理或兩者。使用該內核的芯片可以部署在數據中心或邊緣。

在對IBM Research 的深度學習算法有基本了解的推動下,我們期望培訓和推理的精度要求將繼續(xù)提高,這將推動AI所需的硬件架構中量子效率的提高。請繼續(xù)關注我們團隊的更多研究。


免責聲明:本文由用戶上傳,如有侵權請聯系刪除!

2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。