取消
清空記錄
歷史記錄
清空記錄
歷史記錄
英偉達(dá)DPU這種類型的硬件,幾乎可以代表數(shù)據(jù)中心的某一個(gè)發(fā)展方向。這個(gè)議題甚至恰好能夠解答,英偉達(dá)為何要收購(gòu)Arm,以及AMD為何要收購(gòu)賽靈思。在近期英偉達(dá)GTC China首日主題演講之后的圓桌論壇上,英偉達(dá)全球業(yè)務(wù)運(yùn)營(yíng)執(zhí)行副總裁Jay Puri談到了有關(guān)英偉達(dá)收購(gòu)Arm的問(wèn)題……
在Aspencore全球分析師共同發(fā)布的《2021年全球半導(dǎo)體行業(yè)10大技術(shù)趨勢(shì)》一文中,有一項(xiàng)提到了,HPC數(shù)據(jù)中心專用加速的趨勢(shì)遞進(jìn)。其中特別提到英偉達(dá)的DPU,這種類型的硬件,幾乎可以代表數(shù)據(jù)中心的某一個(gè)發(fā)展方向。
這個(gè)議題甚至恰好能夠解答,英偉達(dá)為何要收購(gòu)Arm,以及AMD為何要收購(gòu)賽靈思。在近期英偉達(dá)GTC China首日主題演講之后的圓桌論壇上,英偉達(dá)全球業(yè)務(wù)運(yùn)營(yíng)執(zhí)行副總裁Jay Puri談到了有關(guān)英偉達(dá)收購(gòu)Arm的問(wèn)題。
Arm已經(jīng)取得了巨大成功,但他們獲得的成功大部分集中在移動(dòng)端,更多的機(jī)會(huì)在等待他們探索。Arm應(yīng)當(dāng)發(fā)揮顯著作用的地方,還包括數(shù)據(jù)中心與PC。但這個(gè)市場(chǎng)的涉足其實(shí)并不簡(jiǎn)單,數(shù)據(jù)中心、云和PC領(lǐng)域是另一回事。”Jay Puri提到,“從技術(shù)上來(lái)看,Arm在這一領(lǐng)域是完全沒(méi)問(wèn)題的。很多探索中的例子都表明,技術(shù)不是問(wèn)題?!?/span>
“在市場(chǎng)方面,數(shù)據(jù)中心未來(lái)的重要工作是圍繞人工智能、加速計(jì)算的。英偉達(dá)在這個(gè)平臺(tái)很成熟,我們有可用的完整堆棧,有所有必要的合作伙伴,生態(tài)系統(tǒng)龐大,有超過(guò)200萬(wàn)開(kāi)發(fā)者;很多初創(chuàng)企業(yè)、行業(yè)研究都在進(jìn)行中。”“一旦Arm成為英偉達(dá)的一部分,我們將能夠促進(jìn)Arm在數(shù)據(jù)中心取得成功。”
“這樣一來(lái),市場(chǎng)就會(huì)有x86之外可行的替代方案,不只限于移動(dòng)領(lǐng)域,數(shù)據(jù)中心、PC等領(lǐng)域都如此。競(jìng)爭(zhēng)能夠促進(jìn)進(jìn)步、推動(dòng)創(chuàng)新?!边@番話實(shí)則已經(jīng)非常明晰地交代了,Arm對(duì)于英偉達(dá)的主要價(jià)值在哪里:數(shù)據(jù)中心(和可能的PC)。本文嘗試擴(kuò)展HPC數(shù)據(jù)中心的專用加速趨勢(shì)這一話題,亦可從中看看英偉達(dá)的野心有多大。
Arm對(duì)數(shù)據(jù)中心的作用有多大
2020年,HPC領(lǐng)域在相關(guān)芯片架構(gòu)層面發(fā)生過(guò)一件大事:富士通(Fujitsu)發(fā)布名為富岳(Fugaku)的超算,其中的芯片為A64FX。這顆芯片在微架構(gòu)層面其實(shí)是很有意思的。首先它整體上采用monolithic的設(shè)計(jì),而不是現(xiàn)在流行的chiplet(比如AMD Epyc)。它既像CPU,又有點(diǎn)兒像GPU,而且片上還集成了HBM2存儲(chǔ)——這樣一來(lái),A64FX的板卡就比較奇特:板卡上沒(méi)有RAM,因?yàn)橐呀?jīng)集成在了片上(chip level)。
我們來(lái)簡(jiǎn)單看看這顆芯片微架構(gòu)的獨(dú)特之處。從上面這張圖來(lái)看,核心周圍的4個(gè)die就是HBM2存儲(chǔ),連接到四個(gè)HBM2 Interface之上,算是與核心靠得很近了,所以主內(nèi)存到L2 cache的帶寬就會(huì)比一般的HPC系統(tǒng)要明顯更大(1024GB/s),單芯片的容量也達(dá)到了32GiB。
核心部分,A64FX整體上是基于Arm v8.2A架構(gòu)的,擴(kuò)展了SVE(Scalable Vector Extensions)——這種擴(kuò)展是專門(mén)針對(duì)HPC科學(xué)負(fù)載矢量化準(zhǔn)備的,屬于NEON擴(kuò)展指令集的補(bǔ)充。A64FX具體采用的是512bit SVE。這一點(diǎn)其實(shí)并沒(méi)有什么。
這顆芯片真正有意思的地方是,它并沒(méi)有什么加速器,die上也沒(méi)有集成專門(mén)的GPU之類的處理器。其行為方式很像GPU,但卻是顆實(shí)實(shí)在在的通用CPU。A64FX內(nèi)部總共分成4組,分別是4個(gè)CMG(core memory group),每組13個(gè)核心(所以總共是52個(gè)核心,其中48個(gè)是活躍核心,其余4個(gè)為OS以及冗余策略預(yù)留)。CMG內(nèi)部每個(gè)核心依次連接,而不同CMG之間采用類似于Intel Skylake的那種Ring Bus環(huán)形總線連接。作為一顆通用處理器,A64FX就是可以跑常規(guī)操作系統(tǒng)的,雖然它內(nèi)部看起來(lái)還挺像英偉達(dá)的GPU。
這顆芯片在設(shè)計(jì)上就是為HPC負(fù)載準(zhǔn)備的,尤其是科學(xué)模擬、數(shù)據(jù)分析等?,F(xiàn)在比較主流的方案,是用GPU來(lái)加速這些活兒,主要是因?yàn)镚PU能夠灌入大量數(shù)據(jù),并做高度并行計(jì)算,然后同時(shí)輸出大量結(jié)果。事實(shí)上,HPC的存儲(chǔ)帶寬需求一直很大,包括氣象模擬、各種流體力學(xué)、量子力學(xué)等研究,以及計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)一類數(shù)據(jù)分析工作,都要求大量數(shù)據(jù)的遷移,在大量核心之間通訊、共享。
A64FX從設(shè)計(jì)思路上,也能干這樣的工作:持續(xù)做SIMD計(jì)算,而且還有不小的片上存儲(chǔ)資源和相當(dāng)大的傳輸帶寬。另外富士通開(kāi)發(fā)了一種名為“Tofu”的互聯(lián)方案,據(jù)說(shuō)在能效、帶寬和延遲方面表現(xiàn)都非常好,宣傳上提到是顯著優(yōu)于AMD和Intel的方案的(據(jù)說(shuō)是比Xeon/Epic,有10倍的能效優(yōu)勢(shì))。此外,SVE矢量擴(kuò)展,及其對(duì)FP16、FP32等數(shù)據(jù)類型計(jì)算的原生支持,都令其相當(dāng)適用于HPC負(fù)載。
從已公開(kāi)的數(shù)據(jù)來(lái)看,A64FX單芯片在性能上也遠(yuǎn)優(yōu)于Intel Xeon Platnium 8168、NEC SX-Aurora這類方案,以及部分測(cè)試優(yōu)于Nvidia上代的Tesla V100。其實(shí)相較傳統(tǒng)通用CPU的性能優(yōu)勢(shì)還是意料之中的。因?yàn)锳64FX從設(shè)計(jì)上來(lái)看,是明顯更偏向?qū)iT(mén)針對(duì)HPC做了"domain-specific"的優(yōu)化的,與此同時(shí)還保有了CPU的通用性。
用簡(jiǎn)單的話來(lái)概括A64FX的思路,它很像把HPC方案中CPU+GPU+RAM的傳統(tǒng)組合凝聚到一起,另外也有比較全面的大規(guī)模擴(kuò)展方案。這顆芯片預(yù)計(jì)2021年會(huì)出貨給亞馬遜、谷歌、微軟這些云供應(yīng)商。
當(dāng)然不能就性能、效率,以及其設(shè)計(jì)就簡(jiǎn)單認(rèn)定,A64FX就一定能夠在HPC領(lǐng)域掀起多大的浪,生態(tài)構(gòu)建也屬于重要的工作。但很顯然,Arm在HPC、數(shù)據(jù)中心之上發(fā)光發(fā)熱,至少就技術(shù)、性能層面來(lái)看,是沒(méi)有任何問(wèn)題的;而且Arm具備了相當(dāng)?shù)膹椥?,是x86平臺(tái)可能無(wú)法給予的;另一方面,Arm在端側(cè)正在對(duì)x86發(fā)起新一輪猛攻,這可能也將有助于Arm在數(shù)據(jù)中心的生態(tài)構(gòu)建。
GPU在數(shù)據(jù)中心的發(fā)展令人咂舌
富岳以及A64FX的發(fā)展思路未必就代表了數(shù)據(jù)中心的未來(lái),電子科技及半導(dǎo)體領(lǐng)域從來(lái)不是效率、性能說(shuō)了算的,而且我個(gè)人也覺(jué)得A64FX在微架構(gòu)層面雖然有創(chuàng)新,但它作為一種通用芯片,在專用計(jì)算的"domain-specific"這一點(diǎn)上仍然可輕易被超過(guò);比如幾個(gè)月前,Graphcore二代IPU的發(fā)布會(huì)就特別提到了,算力相較A64FX的超越。
老祖宗構(gòu)建起來(lái)的架構(gòu),其實(shí)很難在短期內(nèi)被輕松推翻。只不過(guò)傳統(tǒng)CPU+GPU+RAM的發(fā)展方向,本身就在不停發(fā)生變化。就好像多年前應(yīng)該不會(huì)有太多人想到,GPU、FPGA加速卡這類硬件可以在數(shù)據(jù)中心活得這么滋潤(rùn)。
英偉達(dá)最偉大的發(fā)明,大概就是CUDA和GPGPU了。這將GPU擴(kuò)展到了更多市場(chǎng)。2016年黃仁勛在GeForce 1080 Ti發(fā)布會(huì)上提到最多的詞還是rendering和graphics;但在2020年GeForce 30系列GPU的發(fā)布會(huì)上,Graphics這個(gè)詞被提及的次數(shù)卻遠(yuǎn)遠(yuǎn)少于RT core、AI等。這表明英偉達(dá)的GPU市場(chǎng),早就擴(kuò)展到了游戲、圖形計(jì)算之外。
即便AMD剛剛發(fā)布的Radeon GPU在性能上將近做到與Ampere架構(gòu)GeForce的齊頭并進(jìn),AMD Radeon的市場(chǎng)與英偉達(dá)依然是不可同日而語(yǔ)的。
我在去年GTC China的報(bào)道中提到,2015-2019年英偉達(dá)的營(yíng)收增長(zhǎng)速度之快,令這家公司不像是個(gè)已經(jīng)步入成熟期的企業(yè)。這主要是源于GPU在數(shù)據(jù)中心業(yè)務(wù)上的風(fēng)光正盛。而且這個(gè)趨勢(shì)在2020年竟然還在持續(xù),甚至可以用“飆車”來(lái)形容。
英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)云霄飛車般的營(yíng)收增長(zhǎng)
英偉達(dá)最新一季(FY2021Q3)的財(cái)報(bào)顯示,公司季度營(yíng)收47.3億美元,上漲57%。值得注意的是,其中數(shù)據(jù)中心業(yè)務(wù)的營(yíng)收同比增長(zhǎng)達(dá)到了162%——而且這還是在持續(xù)多年增長(zhǎng)之后的持續(xù)增長(zhǎng)。在谷歌云、微軟Azure之后,AWS、Oracle Cloud、阿里云都相繼宣布了Nvidia A100可用;選擇英偉達(dá)平臺(tái)針對(duì)AI相關(guān)服務(wù)做AI inference越來(lái)越多;當(dāng)然英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)的強(qiáng)勢(shì),也離不開(kāi)Mellanox在InfiniBand等方面的增長(zhǎng)。
相較之下,英偉達(dá)游戲業(yè)務(wù)37%的增速雖然也很亮眼,卻在增長(zhǎng)性上相形見(jiàn)絀了。專業(yè)視覺(jué)以及汽車業(yè)務(wù)的營(yíng)收下滑,也就顯得沒(méi)那么重要了。去年的分析文章中,我曾大致估算數(shù)據(jù)中心業(yè)務(wù)占到英偉達(dá)整體營(yíng)收的1/4,只次于營(yíng)收占比過(guò)半的游戲業(yè)務(wù)。今年的情況預(yù)計(jì)又會(huì)發(fā)生較大變化。以這種成長(zhǎng)速度,數(shù)據(jù)中心很快就會(huì)成為可與其游戲業(yè)務(wù)相提并論、并駕齊驅(qū)的業(yè)務(wù)了。
這其實(shí)很大程度上代表了數(shù)據(jù)中心市場(chǎng),GPU這類型的硬件已經(jīng)占據(jù)了多重要的地位??梢?jiàn)市場(chǎng)對(duì)于性能和效率的渴求還是瘋狂的,何況數(shù)據(jù)中心市場(chǎng)客觀上還受到了新冠疫情的推動(dòng)。
那么這和Arm又有什么關(guān)系呢?
DPU是英偉達(dá)野心的承載
英偉達(dá)也在GTC China期間宣布,多家中國(guó)頂級(jí)云服務(wù)提供商及系統(tǒng)制造商采用其A100 Tensor Core GPU。阿里云、百度智能云、滴滴云、騰訊云等云服務(wù)提供商都推出了搭載A100的云服務(wù)及GPU實(shí)例。A100是英偉達(dá)這一代Ampere架構(gòu),定位在數(shù)據(jù)中心平臺(tái)的GPU產(chǎn)品,被英偉達(dá)稱作“最強(qiáng)性能的端到端AI以及HPC數(shù)據(jù)中心平臺(tái)”。
Ampere架構(gòu)是英偉達(dá)在2020年年中正式官宣的。消費(fèi)端的GeForce 30系列,以及上述A100都可以說(shuō)是Ampere架構(gòu)產(chǎn)品。實(shí)際上英偉達(dá)如今在熱推的另一類產(chǎn)品,文首提到的DPU也有Ampere架構(gòu)GPU的身影:BlueField-2X DPU板卡上就加入了一枚Ampere架構(gòu)的GPU,用于AI加速。
這里的DPU是相當(dāng)值得一談的。拋開(kāi)Ampere架構(gòu)不談,在前兩個(gè)月的GTC大會(huì)上,英偉達(dá)正式宣布了BlueField-2/2X DPU(data processing units)的推出。DPU這個(gè)概念最早應(yīng)該是Mellanox提出的。英偉達(dá)在新聞稿中提到,DPU采用data-center-infrastructure-on-a-chip架構(gòu),“突破性的網(wǎng)絡(luò)、存儲(chǔ)和安全性能”。直譯過(guò)來(lái),就是芯片上的數(shù)據(jù)中心基礎(chǔ)設(shè)施。
本月GTC China期間,好幾篇來(lái)自英偉達(dá)的新聞稿都提到了DPU或相關(guān)信息:包括公有云廠商Ucloud基于英偉達(dá)的BlueField DPU研發(fā),“并于上半年推出的裸金屬物理云1.0產(chǎn)品,通過(guò)DPU集成的多核Arm CPU快速將物理云基礎(chǔ)架構(gòu)軟件從x86遷移到DPU中”。而且“Ucloud進(jìn)一步于下半年研發(fā)并推出裸金屬物理云2.0產(chǎn)品”,其中也包含了BlueField DPU本身的更多特性。
在Mellanox被英偉達(dá)收購(gòu)之前,DPU實(shí)際上是Mellanox針對(duì)下一代SmartNIC的一個(gè)設(shè)想,將其networking的技術(shù),和Arm做結(jié)合,分擔(dān)主系統(tǒng)的更多工作,包括軟件定義網(wǎng)絡(luò)、軟件定義存儲(chǔ)、專用加速引擎等。2019年BlueField產(chǎn)品很低調(diào)地發(fā)布了。英偉達(dá)后續(xù)對(duì)BlueField-2,也就是DPU二代產(chǎn)品的定位有了進(jìn)一步的延展。
所以今年發(fā)布的其實(shí)是二代DPU。BlueField 2芯片本身包含8個(gè)Arm Cortex-A72核心,以及兩個(gè)VLIW加速引擎;然后再加上Mellanox最拿手的針對(duì)網(wǎng)絡(luò)連接的ConnectX-6 DX NIC(網(wǎng)絡(luò)適配器)。
簡(jiǎn)單來(lái)說(shuō),DPU是數(shù)據(jù)中心的另一個(gè)domain-specific加速器,從主CPU分擔(dān)networking、存儲(chǔ)和安全負(fù)載。這其實(shí)是英偉達(dá)在GPU產(chǎn)品于數(shù)據(jù)中心市場(chǎng)大獲成功后的又一步擴(kuò)張舉措。與此同時(shí)進(jìn)一步消除x86 CPU在數(shù)據(jù)中心的重要性。
用Mellanox的話來(lái)說(shuō),DPU是將計(jì)算功能,與數(shù)據(jù)靠得更近了(data-centric architecture),取代以前還要把數(shù)據(jù)專門(mén)移到計(jì)算所在位置的那種模式(compute-centric architecture)。
更具體地說(shuō),BlueField-2相對(duì)而言是達(dá)成了這個(gè)目標(biāo)的;而B(niǎo)lueField-2X則是在板卡上給DPU再加上了Ampere架構(gòu)的GPU(和EGX A100好像有點(diǎn)類似)——英偉達(dá)稱其為AI-powered DPU。此處多加的GPU價(jià)值主要是實(shí)時(shí)的安全分析,包括識(shí)別異常流量,加密流量分析,識(shí)別惡意行為,以及動(dòng)態(tài)安全組合、自動(dòng)響應(yīng)等。
至此,其實(shí)英偉達(dá)已經(jīng)有能力將整個(gè)系統(tǒng),包括CPU、NIC、加速器、安全都放到一個(gè)SoC上,再搭配自家GPU,基本上是可以無(wú)視x86的存在的。從英偉達(dá)公布的DPU產(chǎn)品路線圖來(lái)看,后續(xù)還會(huì)有BlueField-3和4的問(wèn)世。
BlueField-3其實(shí)是加強(qiáng)版的BlueField-2。而B(niǎo)lueField-4則計(jì)劃在單芯片性能上就打敗現(xiàn)有DPU+GPU的組合。英偉達(dá)計(jì)劃BlueField-4應(yīng)可提供400 TOPS的AI算力。如此一來(lái),從GPU在數(shù)據(jù)中心做AI、數(shù)據(jù)分析及HPC,到如今DPU接管網(wǎng)絡(luò)、存儲(chǔ)、安全等關(guān)鍵任務(wù),以及將來(lái)DPU可能把這些加速的活兒都干了。
DSP應(yīng)用于網(wǎng)絡(luò)安全的一個(gè)例子:當(dāng)兩名開(kāi)發(fā)者使用Omnivers高吞吐流app進(jìn)行實(shí)時(shí)的工作時(shí),一臺(tái)設(shè)備是Vmware Cloud Foundation + BlueField-2 DPU,另一臺(tái)則是傳統(tǒng)架構(gòu),在遭遇DdoS攻擊時(shí),兩種架構(gòu)的CPU占用率對(duì)比。右邊這臺(tái)服務(wù)器會(huì)因?yàn)閿?shù)據(jù)包泛紅,致工作被打斷;而左側(cè)服務(wù)器,DPU自己就能夠識(shí)別并丟棄這些惡意數(shù)據(jù)包
與此同時(shí),英偉達(dá)也推出了配套的DOCA軟件棧,就類似于GPU世界的CUDA那樣。英偉達(dá)這兩年一直在宣稱自己是家軟件公司。那么當(dāng)為開(kāi)發(fā)者提供SDK,這片市場(chǎng)的空前增長(zhǎng),就像現(xiàn)如今的GPU那樣,是為英偉達(dá)真正統(tǒng)領(lǐng)數(shù)據(jù)中心市場(chǎng)的野心所在。
而且英偉達(dá)現(xiàn)有的軟件開(kāi)發(fā)能力,還能持續(xù)為DOCA添磚加瓦,包括SDK擴(kuò)展支持、各種庫(kù)的增加:眼見(jiàn)CUDA如此的興盛即知DPU將來(lái)的潛力了。與此相較,媒體渲染的什么黃氏定律(Huang’s Law)都不過(guò)是為此服務(wù)的營(yíng)銷宣傳罷了。
Arm將在此間扮演什么樣的角色?回想文首Jay Puri在GTC China首日的圓桌論壇上的發(fā)言,是否變得明朗許多?在DPU的版圖上,Mellanox早已是英偉達(dá)麾下一員,就剩Arm了。想到此處,感覺(jué)英特爾在現(xiàn)如今的時(shí)代格局下,還真是有點(diǎn)兒“誰(shuí)都在針對(duì)我”的處境。
這或許也能一定程度解釋,為何AMD要收購(gòu)賽靈思。另外,Jay Puri發(fā)言中還提到了,Arm理應(yīng)在PC領(lǐng)域也發(fā)光發(fā)熱,這是否是在暗示,英偉達(dá)或許還有在消費(fèi)市場(chǎng)一搏的打算?