實施用于機器學(xué)習(xí)的光子張量核心

2022-08-30 03:37:30 編輯：甘心群來源：

導(dǎo)讀喬治華盛頓大學(xué)的研究人員報告了一種構(gòu)建光子張量核心的方法，該方法利用相變光子存儲器來實現(xiàn)神經(jīng)網(wǎng)絡(luò)(NN)。他們的新穎架構(gòu)已于上周在《 ...

喬治華盛頓大學(xué)的研究人員報告了一種構(gòu)建光子張量核心的方法，該方法利用相變光子存儲器來實現(xiàn)神經(jīng)網(wǎng)絡(luò)(NN)。他們的新穎架構(gòu)已于上周在《 AIP應(yīng)用物理評論》(AIP Applied Physics Review)上在線報道，與傳統(tǒng)的GPU和其他張量核心設(shè)備相比，有望實現(xiàn)性能提升和功耗優(yōu)勢。雖然已經(jīng)探索了幾種光子神經(jīng)網(wǎng)絡(luò)設(shè)計，但用于執(zhí)行張量操作的光子張量核心尚未實現(xiàn)。

光子學(xué)[i]涵蓋了廣泛的光技術(shù)，涵蓋了通過混合光電技術(shù)跨越光纖的各種技術(shù)。例如，光學(xué)互連技術(shù)是提高內(nèi)存到處理器乃至處理器到處理器帶寬的重要研究領(lǐng)域。高帶寬和低功耗是光子學(xué)的吸引力。

在他們的論文中，用于機器學(xué)習(xí)的光子張量核心，Mario Miscuglio和Volker Sorger認(rèn)為，在異構(gòu)計算時代，基于光子的專用處理器具有增強電子系統(tǒng)的巨大潛力，并且可能在網(wǎng)絡(luò)邊緣設(shè)備以及其他設(shè)備中表現(xiàn)出色5G通信。例如，用于推理的預(yù)訓(xùn)練光子張量核心神經(jīng)網(wǎng)絡(luò)將消耗很少的功率。

Miscuglio告訴 HPCwire：“除了可以直接在光域中工作而增加的速度和帶寬之外，還可以利用光纖中傳輸?shù)男盘柕墓逃泄鈱W(xué)特性，使用光子架構(gòu)的優(yōu)勢是執(zhí)行推理的功耗更低這對于智能光學(xué)低功耗傳感器很有用。”

廣義上講，神經(jīng)網(wǎng)絡(luò)大量使用矩陣向量乘法。毫不奇怪，在這種計算方式下，最新的GPU和TPU比CPU更好。研究人員在論文中很好地總結(jié)了挑戰(zhàn)：

“對于提供高計算靈活性的通用處理器，這些矩陣運算是串行(即一次一次)進(jìn)行的，同時需要連續(xù)訪問高速緩存，因此產(chǎn)生了所謂的”馮·諾依曼瓶頸”。已經(jīng)設(shè)計出了用于神經(jīng)網(wǎng)絡(luò)的專用架構(gòu)，例如圖形處理單元(GPU)和張量處理單元(TPU)，以減少馮·諾依曼瓶頸的影響，從而實現(xiàn)尖端的機器學(xué)習(xí)模型。這些架構(gòu)的范例是提供域特定性，例如對卷積進(jìn)行優(yōu)化或與CPU不同的是執(zhí)行并行運算的矩陣向量乘法(MVM)，從而并行部署脈動算法。

“ GPU具有針對矩陣數(shù)學(xué)運算而優(yōu)化的數(shù)千個處理核心，可提供數(shù)十至數(shù)百個TFLOPS(層級浮點運算)的性能，這使GPU成為基于深度NN的AI和ML應(yīng)用程序的顯而易見的計算平臺。GPU和TPU相對于CPU尤其有利，但是當(dāng)用于對大型二維數(shù)據(jù)集(例如圖像)實施深度NN執(zhí)行推理時，它們非常耗電，并且需要更長的計算時間(>幾十毫秒)。此外，用于不太復(fù)雜的推理任務(wù)的較小矩陣乘法[例如，標(biāo)準(zhǔn)與技術(shù)研究院數(shù)據(jù)庫(MNIST)的手寫數(shù)字的分類]仍然受到不可忽略的延遲的挑戰(zhàn)，

他們提出了一種在光子學(xué)中實現(xiàn)的張量核心單元，它依賴于光子復(fù)用(WDM，波分復(fù)用)??信號，“經(jīng)過濾波后，使用基于在波導(dǎo)上構(gòu)圖的Ge 2 Sb 2 Se 5導(dǎo)線的工程化多態(tài)光子存儲器進(jìn)行加權(quán)后加權(quán)。通過使用鎢電極引起的焦耳熱的電熱切換，通過有選擇地改變導(dǎo)線的相(非晶/晶體)來對光子存儲器進(jìn)行重新編程。如果需要，可以并行(幾微秒)實現(xiàn)光子存儲器編程，或者，該光子張量核心可以作為具有預(yù)設(shè)置內(nèi)核矩陣的無源系統(tǒng)來運行。”

Miscuglio說，相變存儲技術(shù)是一項至關(guān)重要的進(jìn)步，“我們大腦中的每個神經(jīng)元同時存儲和處理數(shù)據(jù)。同樣，在我們的體系結(jié)構(gòu)中，我們使用的存儲單元可以通過電子方式寫入，并且可以存儲多位權(quán)重，并且可以通過簡單地讓光線與材料相互作用來光學(xué)讀取。我們的光子存儲器依賴寬帶透明相變材料，與其他基于更成熟的GST(鍺-銻-碲)的實現(xiàn)方式不同，其特點是在電信波長下的非晶態(tài)損耗可忽略不計。”

“這很重要，因為它支持更深的架構(gòu)，無需使用額外的激光源或放大器就可以解決更復(fù)雜的任務(wù)。我們還提出了一種多狀態(tài)光子存儲器(4位)架構(gòu)，該架構(gòu)可以使用電熱加熱器輕松擦除并寫在芯片上。與依賴于片上或片外的繁瑣的光學(xué)寫入/擦除的其他實現(xiàn)方式不同，所有存儲器均具有專用電路并可以并行寫入。

Miscuglio說，該體系結(jié)構(gòu)未映射特定的網(wǎng)絡(luò)體系結(jié)構(gòu)，而是神經(jīng)網(wǎng)絡(luò)的更通用的加速器。利用其模塊化架構(gòu)，可以“直接將光子TPU用于一系列操作，包括但不限于矩陣矩陣乘法，例如矢量矩陣乘法，卷積。這些代數(shù)運算是許多復(fù)雜的科學(xué)和社會問題的關(guān)鍵運算。”

“我們認(rèn)為，從長期來看，數(shù)據(jù)中心將從這種架構(gòu)中受益匪淺，因為它們處理的許多信息已經(jīng)在光域中。我們認(rèn)為它不會取代超級計算機，但可用作預(yù)處理單元，可與超級計算機協(xié)同工作，處理靠近網(wǎng)絡(luò)邊緣的數(shù)據(jù)，從而對信號進(jìn)行分類和關(guān)聯(lián)，以尋找特定的數(shù)據(jù)或模式塊，從而減少數(shù)據(jù)流量。”

在撰寫本文時，他們已經(jīng)測試了多態(tài)低損耗光子存儲設(shè)備，“顯示出的性能與仿真非常吻合”。Miscuglio說：“我們開發(fā)了執(zhí)行4×4矩陣乘法的單光子核心架構(gòu)，目前正在開發(fā)第一代光子張量核心。關(guān)于時間表，我們計劃在六個月至一年內(nèi)對單核進(jìn)行實驗演示，并在未來幾年內(nèi)對功能齊全的多核張量處理器進(jìn)行演示。”

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！