英偉達(dá)DPU這種類型的硬件，幾乎可以代表數(shù)據(jù)中心的某一個(gè)發(fā)展方向。這個(gè)議題甚至恰好能夠解答，英偉達(dá)為何要收購(gòu)Arm，以及AMD為何要收購(gòu)賽靈思。在近期英偉達(dá)GTC China首日主題演講之后的圓桌論壇上，英偉達(dá)全球業(yè)務(wù)運(yùn)營(yíng)執(zhí)行副總裁Jay Puri談到了有關(guān)英偉達(dá)收購(gòu)Arm的問(wèn)題……

2022-05-09 14:38:53創(chuàng)芯國(guó)際半導(dǎo)體(深圳)有限公司

在Aspencore全球分析師共同發(fā)布的《2021年全球半導(dǎo)體行業(yè)10大技術(shù)趨勢(shì)》一文中，有一項(xiàng)提到了，HPC數(shù)據(jù)中心專用加速的趨勢(shì)遞進(jìn)。其中特別提到英偉達(dá)的DPU，這種類型的硬件，幾乎可以代表數(shù)據(jù)中心的某一個(gè)發(fā)展方向。

這個(gè)議題甚至恰好能夠解答，英偉達(dá)為何要收購(gòu)Arm，以及AMD為何要收購(gòu)賽靈思。在近期英偉達(dá)GTC China首日主題演講之后的圓桌論壇上，英偉達(dá)全球業(yè)務(wù)運(yùn)營(yíng)執(zhí)行副總裁Jay Puri談到了有關(guān)英偉達(dá)收購(gòu)Arm的問(wèn)題。

Arm已經(jīng)取得了巨大成功，但他們獲得的成功大部分集中在移動(dòng)端，更多的機(jī)會(huì)在等待他們探索。Arm應(yīng)當(dāng)發(fā)揮顯著作用的地方，還包括數(shù)據(jù)中心與PC。但這個(gè)市場(chǎng)的涉足其實(shí)并不簡(jiǎn)單，數(shù)據(jù)中心、云和PC領(lǐng)域是另一回事。”Jay Puri提到，“從技術(shù)上來(lái)看，Arm在這一領(lǐng)域是完全沒(méi)問(wèn)題的。很多探索中的例子都表明，技術(shù)不是問(wèn)題?！?/span>

“在市場(chǎng)方面，數(shù)據(jù)中心未來(lái)的重要工作是圍繞人工智能、加速計(jì)算的。英偉達(dá)在這個(gè)平臺(tái)很成熟，我們有可用的完整堆棧，有所有必要的合作伙伴，生態(tài)系統(tǒng)龐大，有超過(guò)200萬(wàn)開(kāi)發(fā)者；很多初創(chuàng)企業(yè)、行業(yè)研究都在進(jìn)行中。”“一旦Arm成為英偉達(dá)的一部分，我們將能夠促進(jìn)Arm在數(shù)據(jù)中心取得成功。”

“這樣一來(lái)，市場(chǎng)就會(huì)有x86之外可行的替代方案，不只限于移動(dòng)領(lǐng)域，數(shù)據(jù)中心、PC等領(lǐng)域都如此。競(jìng)爭(zhēng)能夠促進(jìn)進(jìn)步、推動(dòng)創(chuàng)新?！边@番話實(shí)則已經(jīng)非常明晰地交代了，Arm對(duì)于英偉達(dá)的主要價(jià)值在哪里：數(shù)據(jù)中心（和可能的PC）。本文嘗試擴(kuò)展HPC數(shù)據(jù)中心的專用加速趨勢(shì)這一話題，亦可從中看看英偉達(dá)的野心有多大。

Arm對(duì)數(shù)據(jù)中心的作用有多大

2020年，HPC領(lǐng)域在相關(guān)芯片架構(gòu)層面發(fā)生過(guò)一件大事：富士通（Fujitsu）發(fā)布名為富岳（Fugaku）的超算，其中的芯片為A64FX。這顆芯片在微架構(gòu)層面其實(shí)是很有意思的。首先它整體上采用monolithic的設(shè)計(jì)，而不是現(xiàn)在流行的chiplet（比如AMD Epyc）。它既像CPU，又有點(diǎn)兒像GPU，而且片上還集成了HBM2存儲(chǔ)——這樣一來(lái)，A64FX的板卡就比較奇特：板卡上沒(méi)有RAM，因?yàn)橐呀?jīng)集成在了片上（chip level）。

我們來(lái)簡(jiǎn)單看看這顆芯片微架構(gòu)的獨(dú)特之處。從上面這張圖來(lái)看，核心周圍的4個(gè)die就是HBM2存儲(chǔ)，連接到四個(gè)HBM2 Interface之上，算是與核心靠得很近了，所以主內(nèi)存到L2 cache的帶寬就會(huì)比一般的HPC系統(tǒng)要明顯更大（1024GB/s），單芯片的容量也達(dá)到了32GiB。

核心部分，A64FX整體上是基于Arm v8.2A架構(gòu)的，擴(kuò)展了SVE（Scalable Vector Extensions）——這種擴(kuò)展是專門(mén)針對(duì)HPC科學(xué)負(fù)載矢量化準(zhǔn)備的，屬于NEON擴(kuò)展指令集的補(bǔ)充。A64FX具體采用的是512bit SVE。這一點(diǎn)其實(shí)并沒(méi)有什么。

這顆芯片真正有意思的地方是，它并沒(méi)有什么加速器，die上也沒(méi)有集成專門(mén)的GPU之類的處理器。其行為方式很像GPU，但卻是顆實(shí)實(shí)在在的通用CPU。A64FX內(nèi)部總共分成4組，分別是4個(gè)CMG（core memory group），每組13個(gè)核心（所以總共是52個(gè)核心，其中48個(gè)是活躍核心，其余4個(gè)為OS以及冗余策略預(yù)留）。CMG內(nèi)部每個(gè)核心依次連接，而不同CMG之間采用類似于Intel Skylake的那種Ring Bus環(huán)形總線連接。作為一顆通用處理器，A64FX就是可以跑常規(guī)操作系統(tǒng)的，雖然它內(nèi)部看起來(lái)還挺像英偉達(dá)的GPU。

Arm在數(shù)據(jù)中心的價(jià)值：黃氏定律背后，英偉達(dá)打的什么算盤(pán)？.jpg

這顆芯片在設(shè)計(jì)上就是為HPC負(fù)載準(zhǔn)備的，尤其是科學(xué)模擬、數(shù)據(jù)分析等?，F(xiàn)在比較主流的方案，是用GPU來(lái)加速這些活兒，主要是因?yàn)镚PU能夠灌入大量數(shù)據(jù)，并做高度并行計(jì)算，然后同時(shí)輸出大量結(jié)果。事實(shí)上，HPC的存儲(chǔ)帶寬需求一直很大，包括氣象模擬、各種流體力學(xué)、量子力學(xué)等研究，以及計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)一類數(shù)據(jù)分析工作，都要求大量數(shù)據(jù)的遷移，在大量核心之間通訊、共享。

A64FX從設(shè)計(jì)思路上，也能干這樣的工作：持續(xù)做SIMD計(jì)算，而且還有不小的片上存儲(chǔ)資源和相當(dāng)大的傳輸帶寬。另外富士通開(kāi)發(fā)了一種名為“Tofu”的互聯(lián)方案，據(jù)說(shuō)在能效、帶寬和延遲方面表現(xiàn)都非常好，宣傳上提到是顯著優(yōu)于AMD和Intel的方案的（據(jù)說(shuō)是比Xeon/Epic，有10倍的能效優(yōu)勢(shì)）。此外，SVE矢量擴(kuò)展，及其對(duì)FP16、FP32等數(shù)據(jù)類型計(jì)算的原生支持，都令其相當(dāng)適用于HPC負(fù)載。

從已公開(kāi)的數(shù)據(jù)來(lái)看，A64FX單芯片在性能上也遠(yuǎn)優(yōu)于Intel Xeon Platnium 8168、NEC SX-Aurora這類方案，以及部分測(cè)試優(yōu)于Nvidia上代的Tesla V100。其實(shí)相較傳統(tǒng)通用CPU的性能優(yōu)勢(shì)還是意料之中的。因?yàn)锳64FX從設(shè)計(jì)上來(lái)看，是明顯更偏向?qū)ｉT(mén)針對(duì)HPC做了"domain-specific"的優(yōu)化的，與此同時(shí)還保有了CPU的通用性。

Arm在數(shù)據(jù)中心的價(jià)值：黃氏定律背后，英偉達(dá)打的什么算盤(pán)？.jpg

用簡(jiǎn)單的話來(lái)概括A64FX的思路，它很像把HPC方案中CPU+GPU+RAM的傳統(tǒng)組合凝聚到一起，另外也有比較全面的大規(guī)模擴(kuò)展方案。這顆芯片預(yù)計(jì)2021年會(huì)出貨給亞馬遜、谷歌、微軟這些云供應(yīng)商。

當(dāng)然不能就性能、效率，以及其設(shè)計(jì)就簡(jiǎn)單認(rèn)定，A64FX就一定能夠在HPC領(lǐng)域掀起多大的浪，生態(tài)構(gòu)建也屬于重要的工作。但很顯然，Arm在HPC、數(shù)據(jù)中心之上發(fā)光發(fā)熱，至少就技術(shù)、性能層面來(lái)看，是沒(méi)有任何問(wèn)題的；而且Arm具備了相當(dāng)?shù)膹椥?，是x86平臺(tái)可能無(wú)法給予的；另一方面，Arm在端側(cè)正在對(duì)x86發(fā)起新一輪猛攻，這可能也將有助于Arm在數(shù)據(jù)中心的生態(tài)構(gòu)建。

GPU在數(shù)據(jù)中心的發(fā)展令人咂舌

富岳以及A64FX的發(fā)展思路未必就代表了數(shù)據(jù)中心的未來(lái)，電子科技及半導(dǎo)體領(lǐng)域從來(lái)不是效率、性能說(shuō)了算的，而且我個(gè)人也覺(jué)得A64FX在微架構(gòu)層面雖然有創(chuàng)新，但它作為一種通用芯片，在專用計(jì)算的"domain-specific"這一點(diǎn)上仍然可輕易被超過(guò)；比如幾個(gè)月前，Graphcore二代IPU的發(fā)布會(huì)就特別提到了，算力相較A64FX的超越。

老祖宗構(gòu)建起來(lái)的架構(gòu)，其實(shí)很難在短期內(nèi)被輕松推翻。只不過(guò)傳統(tǒng)CPU+GPU+RAM的發(fā)展方向，本身就在不停發(fā)生變化。就好像多年前應(yīng)該不會(huì)有太多人想到，GPU、FPGA加速卡這類硬件可以在數(shù)據(jù)中心活得這么滋潤(rùn)。

英偉達(dá)最偉大的發(fā)明，大概就是CUDA和GPGPU了。這將GPU擴(kuò)展到了更多市場(chǎng)。2016年黃仁勛在GeForce 1080 Ti發(fā)布會(huì)上提到最多的詞還是rendering和graphics；但在2020年GeForce 30系列GPU的發(fā)布會(huì)上，Graphics這個(gè)詞被提及的次數(shù)卻遠(yuǎn)遠(yuǎn)少于RT core、AI等。這表明英偉達(dá)的GPU市場(chǎng)，早就擴(kuò)展到了游戲、圖形計(jì)算之外。

即便AMD剛剛發(fā)布的Radeon GPU在性能上將近做到與Ampere架構(gòu)GeForce的齊頭并進(jìn)，AMD Radeon的市場(chǎng)與英偉達(dá)依然是不可同日而語(yǔ)的。

我在去年GTC China的報(bào)道中提到，2015-2019年英偉達(dá)的營(yíng)收增長(zhǎng)速度之快，令這家公司不像是個(gè)已經(jīng)步入成熟期的企業(yè)。這主要是源于GPU在數(shù)據(jù)中心業(yè)務(wù)上的風(fēng)光正盛。而且這個(gè)趨勢(shì)在2020年竟然還在持續(xù)，甚至可以用“飆車”來(lái)形容。

Arm在數(shù)據(jù)中心的價(jià)值：黃氏定律背后，英偉達(dá)打的什么算盤(pán)？.jpg

英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)云霄飛車般的營(yíng)收增長(zhǎng)

英偉達(dá)最新一季（FY2021Q3）的財(cái)報(bào)顯示，公司季度營(yíng)收47.3億美元，上漲57%。值得注意的是，其中數(shù)據(jù)中心業(yè)務(wù)的營(yíng)收同比增長(zhǎng)達(dá)到了162%——而且這還是在持續(xù)多年增長(zhǎng)之后的持續(xù)增長(zhǎng)。在谷歌云、微軟Azure之后，AWS、Oracle Cloud、阿里云都相繼宣布了Nvidia A100可用；選擇英偉達(dá)平臺(tái)針對(duì)AI相關(guān)服務(wù)做AI inference越來(lái)越多；當(dāng)然英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)的強(qiáng)勢(shì)，也離不開(kāi)Mellanox在InfiniBand等方面的增長(zhǎng)。

相較之下，英偉達(dá)游戲業(yè)務(wù)37%的增速雖然也很亮眼，卻在增長(zhǎng)性上相形見(jiàn)絀了。專業(yè)視覺(jué)以及汽車業(yè)務(wù)的營(yíng)收下滑，也就顯得沒(méi)那么重要了。去年的分析文章中，我曾大致估算數(shù)據(jù)中心業(yè)務(wù)占到英偉達(dá)整體營(yíng)收的1/4，只次于營(yíng)收占比過(guò)半的游戲業(yè)務(wù)。今年的情況預(yù)計(jì)又會(huì)發(fā)生較大變化。以這種成長(zhǎng)速度，數(shù)據(jù)中心很快就會(huì)成為可與其游戲業(yè)務(wù)相提并論、并駕齊驅(qū)的業(yè)務(wù)了。

這其實(shí)很大程度上代表了數(shù)據(jù)中心市場(chǎng)，GPU這類型的硬件已經(jīng)占據(jù)了多重要的地位?？梢?jiàn)市場(chǎng)對(duì)于性能和效率的渴求還是瘋狂的，何況數(shù)據(jù)中心市場(chǎng)客觀上還受到了新冠疫情的推動(dòng)。

那么這和Arm又有什么關(guān)系呢？

DPU是英偉達(dá)野心的承載

英偉達(dá)也在GTC China期間宣布，多家中國(guó)頂級(jí)云服務(wù)提供商及系統(tǒng)制造商采用其A100 Tensor Core GPU。阿里云、百度智能云、滴滴云、騰訊云等云服務(wù)提供商都推出了搭載A100的云服務(wù)及GPU實(shí)例。A100是英偉達(dá)這一代Ampere架構(gòu)，定位在數(shù)據(jù)中心平臺(tái)的GPU產(chǎn)品，被英偉達(dá)稱作“最強(qiáng)性能的端到端AI以及HPC數(shù)據(jù)中心平臺(tái)”。

Ampere架構(gòu)是英偉達(dá)在2020年年中正式官宣的。消費(fèi)端的GeForce 30系列，以及上述A100都可以說(shuō)是Ampere架構(gòu)產(chǎn)品。實(shí)際上英偉達(dá)如今在熱推的另一類產(chǎn)品，文首提到的DPU也有Ampere架構(gòu)GPU的身影：BlueField-2X DPU板卡上就加入了一枚Ampere架構(gòu)的GPU，用于AI加速。

這里的DPU是相當(dāng)值得一談的。拋開(kāi)Ampere架構(gòu)不談，在前兩個(gè)月的GTC大會(huì)上，英偉達(dá)正式宣布了BlueField-2/2X DPU（data processing units）的推出。DPU這個(gè)概念最早應(yīng)該是Mellanox提出的。英偉達(dá)在新聞稿中提到，DPU采用data-center-infrastructure-on-a-chip架構(gòu)，“突破性的網(wǎng)絡(luò)、存儲(chǔ)和安全性能”。直譯過(guò)來(lái)，就是芯片上的數(shù)據(jù)中心基礎(chǔ)設(shè)施。

本月GTC China期間，好幾篇來(lái)自英偉達(dá)的新聞稿都提到了DPU或相關(guān)信息：包括公有云廠商Ucloud基于英偉達(dá)的BlueField DPU研發(fā)，“并于上半年推出的裸金屬物理云1.0產(chǎn)品，通過(guò)DPU集成的多核Arm CPU快速將物理云基礎(chǔ)架構(gòu)軟件從x86遷移到DPU中”。而且“Ucloud進(jìn)一步于下半年研發(fā)并推出裸金屬物理云2.0產(chǎn)品”，其中也包含了BlueField DPU本身的更多特性。

在Mellanox被英偉達(dá)收購(gòu)之前，DPU實(shí)際上是Mellanox針對(duì)下一代SmartNIC的一個(gè)設(shè)想，將其networking的技術(shù)，和Arm做結(jié)合，分擔(dān)主系統(tǒng)的更多工作，包括軟件定義網(wǎng)絡(luò)、軟件定義存儲(chǔ)、專用加速引擎等。2019年BlueField產(chǎn)品很低調(diào)地發(fā)布了。英偉達(dá)后續(xù)對(duì)BlueField-2，也就是DPU二代產(chǎn)品的定位有了進(jìn)一步的延展。

Arm在數(shù)據(jù)中心的價(jià)值：黃氏定律背后，英偉達(dá)打的什么算盤(pán)？.jpg

所以今年發(fā)布的其實(shí)是二代DPU。BlueField 2芯片本身包含8個(gè)Arm Cortex-A72核心，以及兩個(gè)VLIW加速引擎；然后再加上Mellanox最拿手的針對(duì)網(wǎng)絡(luò)連接的ConnectX-6 DX NIC（網(wǎng)絡(luò)適配器）。

簡(jiǎn)單來(lái)說(shuō)，DPU是數(shù)據(jù)中心的另一個(gè)domain-specific加速器，從主CPU分擔(dān)networking、存儲(chǔ)和安全負(fù)載。這其實(shí)是英偉達(dá)在GPU產(chǎn)品于數(shù)據(jù)中心市場(chǎng)大獲成功后的又一步擴(kuò)張舉措。與此同時(shí)進(jìn)一步消除x86 CPU在數(shù)據(jù)中心的重要性。

用Mellanox的話來(lái)說(shuō)，DPU是將計(jì)算功能，與數(shù)據(jù)靠得更近了（data-centric architecture），取代以前還要把數(shù)據(jù)專門(mén)移到計(jì)算所在位置的那種模式（compute-centric architecture）。

更具體地說(shuō)，BlueField-2相對(duì)而言是達(dá)成了這個(gè)目標(biāo)的；而B(niǎo)lueField-2X則是在板卡上給DPU再加上了Ampere架構(gòu)的GPU（和EGX A100好像有點(diǎn)類似）——英偉達(dá)稱其為AI-powered DPU。此處多加的GPU價(jià)值主要是實(shí)時(shí)的安全分析，包括識(shí)別異常流量，加密流量分析，識(shí)別惡意行為，以及動(dòng)態(tài)安全組合、自動(dòng)響應(yīng)等。

至此，其實(shí)英偉達(dá)已經(jīng)有能力將整個(gè)系統(tǒng)，包括CPU、NIC、加速器、安全都放到一個(gè)SoC上，再搭配自家GPU，基本上是可以無(wú)視x86的存在的。從英偉達(dá)公布的DPU產(chǎn)品路線圖來(lái)看，后續(xù)還會(huì)有BlueField-3和4的問(wèn)世。

BlueField-3其實(shí)是加強(qiáng)版的BlueField-2。而B(niǎo)lueField-4則計(jì)劃在單芯片性能上就打敗現(xiàn)有DPU+GPU的組合。英偉達(dá)計(jì)劃BlueField-4應(yīng)可提供400 TOPS的AI算力。如此一來(lái)，從GPU在數(shù)據(jù)中心做AI、數(shù)據(jù)分析及HPC，到如今DPU接管網(wǎng)絡(luò)、存儲(chǔ)、安全等關(guān)鍵任務(wù)，以及將來(lái)DPU可能把這些加速的活兒都干了。

DSP應(yīng)用于網(wǎng)絡(luò)安全的一個(gè)例子：當(dāng)兩名開(kāi)發(fā)者使用Omnivers高吞吐流app進(jìn)行實(shí)時(shí)的工作時(shí)，一臺(tái)設(shè)備是Vmware Cloud Foundation + BlueField-2 DPU，另一臺(tái)則是傳統(tǒng)架構(gòu)，在遭遇DdoS攻擊時(shí)，兩種架構(gòu)的CPU占用率對(duì)比。右邊這臺(tái)服務(wù)器會(huì)因?yàn)閿?shù)據(jù)包泛紅，致工作被打斷；而左側(cè)服務(wù)器，DPU自己就能夠識(shí)別并丟棄這些惡意數(shù)據(jù)包

與此同時(shí)，英偉達(dá)也推出了配套的DOCA軟件棧，就類似于GPU世界的CUDA那樣。英偉達(dá)這兩年一直在宣稱自己是家軟件公司。那么當(dāng)為開(kāi)發(fā)者提供SDK，這片市場(chǎng)的空前增長(zhǎng)，就像現(xiàn)如今的GPU那樣，是為英偉達(dá)真正統(tǒng)領(lǐng)數(shù)據(jù)中心市場(chǎng)的野心所在。

而且英偉達(dá)現(xiàn)有的軟件開(kāi)發(fā)能力，還能持續(xù)為DOCA添磚加瓦，包括SDK擴(kuò)展支持、各種庫(kù)的增加：眼見(jiàn)CUDA如此的興盛即知DPU將來(lái)的潛力了。與此相較，媒體渲染的什么黃氏定律（Huang’s Law）都不過(guò)是為此服務(wù)的營(yíng)銷宣傳罷了。

Arm將在此間扮演什么樣的角色？回想文首Jay Puri在GTC China首日的圓桌論壇上的發(fā)言，是否變得明朗許多？在DPU的版圖上，Mellanox早已是英偉達(dá)麾下一員，就剩Arm了。想到此處，感覺(jué)英特爾在現(xiàn)如今的時(shí)代格局下，還真是有點(diǎn)兒“誰(shuí)都在針對(duì)我”的處境。

這或許也能一定程度解釋，為何AMD要收購(gòu)賽靈思。另外，Jay Puri發(fā)言中還提到了，Arm理應(yīng)在PC領(lǐng)域也發(fā)光發(fā)熱，這是否是在暗示，英偉達(dá)或許還有在消費(fèi)市場(chǎng)一搏的打算？