英特爾第三代至強(qiáng)可擴(kuò)展CPU提供16位FPU處理

2020-06-29 11:38:47 編輯：來源：

導(dǎo)讀英特爾今天宣布了其第三代至強(qiáng)可擴(kuò)展處理器(分別是金牌和白金牌)處理器以及新一代的Optane持久存儲器(閱讀：極低延遲，高耐久性SSD)和Strat

英特爾今天宣布了其第三代至強(qiáng)可擴(kuò)展處理器(分別是金牌和白金牌)處理器以及新一代的Optane持久存儲器(閱讀：極低延遲，高耐久性SSD)和Stratix AI FPGA產(chǎn)品。

除了硬件加速的AI 之外，AMD目前幾乎在所有可能的性能指標(biāo)上都擊敗了英特爾，這并不是新聞。對于英特爾而言，這顯然也不是什么新聞，因?yàn)樵摴緦χ翉?qiáng)可擴(kuò)展處理器的性能與競爭對手的Epyc Rome處理器沒有任何要求。更有趣的是，英特爾根本沒有提到通用計(jì)算工作負(fù)載。

要找到所示的唯一非AI代代改進(jìn)的解釋，需要跳過多個(gè)腳注。有了足夠的決心，我們最終發(fā)現(xiàn)概述幻燈片中提到的“ 1.9倍平均性能提升”是指“估計(jì)的或模擬的” SPECrate 2017基準(zhǔn)，將四路鉑金8380H系統(tǒng)與已有五年歷史的四路鉑金系統(tǒng)進(jìn)行了比較E7-8890 v3。

公平地說，英特爾似乎確實(shí)在AI領(lǐng)域引入了一些非同尋常的令人印象深刻的創(chuàng)新。以前只是為AVX-512指令集打上商標(biāo)的“深度學(xué)習(xí)增強(qiáng)”現(xiàn)在也包含了全新的16位浮點(diǎn)數(shù)據(jù)類型。

借助較早的Xeon可擴(kuò)展級處理器，英特爾率先并大力推動使用8位INT8整數(shù)(通過其OpenVINO庫進(jìn)行推理處理)。對于推理工作負(fù)載，英特爾認(rèn)為，INT8在大多數(shù)情況下，較低的精度是可以接受的，同時(shí)可以極大地加速推理流程。但是，對于培訓(xùn)而言，大多數(shù)應(yīng)用程序仍需要更高的FP3232位浮點(diǎn)處理精度。

新一代增加了16位浮點(diǎn)處理器支持，英特爾稱之為bfloat16。將FP32 模型的位寬減半可加快處理速度，但更重要的是，將模型保留在內(nèi)存中所需的RAM減少了一半。對于程序員和使用FP32 模型的代碼庫，利用新數(shù)據(jù)類型也比轉(zhuǎn)換為整數(shù)更簡單。

英特爾還深思熟慮地提供了一個(gè) 圍繞BF16數(shù)據(jù)類型的效率的游戲。我們不建議將它作為游戲或教育工具使用。

Optane儲存加速

英特爾還宣布了新一代的Optane“持久內(nèi)存” SSD，速度提高了25%，可用于大大加速AI和其他存儲管道。Optane SSD使用3D Xpoint技術(shù)而不是典型的SSD進(jìn)行NAND閃存操作。3D Xpoint具有比NAND更高的寫入耐久性和更低的延遲。較低的延遲和更大的寫入耐力使其成為一種快速緩存技術(shù)，尤其具有吸引力，該技術(shù)甚至可以加速所有固態(tài)陣列。

此處最大的收獲是，Optane極低的延遲可通過提供對大型而無法完全存儲在RAM中的模型的快速訪問來加速AI管道(這常常是存儲的瓶頸)的加速。對于涉及快速大量寫入的管線，Optane高速緩存層還可以通過減少實(shí)際必須執(zhí)行的寫入總數(shù)來顯著提高其下的NAND主存儲的預(yù)期壽命。

延遲與IOPS，讀/寫工作負(fù)載為70/30。橙色和綠色線是數(shù)據(jù)中心級的傳統(tǒng)NAND SSD。藍(lán)線是Optane。

放大 /延遲與IOPS的對比，讀/寫工

標(biāo)簽：英特爾