CUDA支持Arm是實(shí)現(xiàn)百萬(wàn)兆級(jí)超算的新途徑，還是Nvidia和Arm的好機(jī)會(huì)？

本文作者：包永剛

2019-06-19 08:00

導(dǎo)語(yǔ)：目前，X86、Power作為超算CPU計(jì)算節(jié)點(diǎn)的主要架構(gòu)，那么Nvidia宣布CUDA支持Arm誰(shuí)將是最大的贏家？

超級(jí)計(jì)算機(jī)（Supercomputer）通常簡(jiǎn)稱超算，在科學(xué)界常被視作一個(gè)國(guó)家技術(shù)領(lǐng)軍能力的指標(biāo)，因?yàn)樗軌驗(yàn)锳I、空氣動(dòng)力、大氣科學(xué)、能源科學(xué)等重要技術(shù)的研究提供算力支撐。如今強(qiáng)國(guó)之間的競(jìng)爭(zhēng)已經(jīng)進(jìn)入到了百萬(wàn)兆級(jí)超算的時(shí)代，這就需要更強(qiáng)大的處理器。目前，X86、Power作為超算CPU計(jì)算節(jié)點(diǎn)的主要架構(gòu)，那么Nvidia宣布CUDA支持Arm誰(shuí)將是最大的贏家？

超算競(jìng)爭(zhēng)進(jìn)入百萬(wàn)兆級(jí)時(shí)代

去年六月，美國(guó)能源部公布了世界上最快的超級(jí)計(jì)算機(jī)——Summit，反超中國(guó)超算太湖之光重奪超算Top 500第一的位置，并且美國(guó)表示他們預(yù)計(jì)在2021年建造一臺(tái)每秒運(yùn)算數(shù)十億億次計(jì)算機(jī)“極光（Aurora）”，甚至?xí)蛟旄咝艿挠?jì)算機(jī)。

CUDA支持Arm是實(shí)現(xiàn)百萬(wàn)兆級(jí)超算的新途徑，還是Nvidia和Arm的好機(jī)會(huì)？

2019超算Top 500

當(dāng)然，中國(guó)也在建立一個(gè)百萬(wàn)兆級(jí)超級(jí)計(jì)算機(jī)系統(tǒng)，有消息稱它基于已構(gòu)建的三種原型系統(tǒng)：曙光、天河和神威。日本和歐洲也不甘落后，日本希望在2021年有一臺(tái)百萬(wàn)兆級(jí)的超級(jí)計(jì)算機(jī)，歐洲人則在希望在2023年實(shí)現(xiàn)這一目標(biāo)。顯然，超級(jí)計(jì)算機(jī)的競(jìng)賽跨入了Exascale計(jì)算（百萬(wàn)兆級(jí)的計(jì)算，也可稱E級(jí)超算）時(shí)代。

用一個(gè)不精確的說(shuō)法來(lái)解釋百萬(wàn)兆級(jí)計(jì)算，一個(gè)百萬(wàn)兆級(jí)計(jì)算機(jī)一瞬間進(jìn)行的計(jì)算，相當(dāng)于地球上的所有人每天每秒都不停地計(jì)算四年。這樣強(qiáng)大的計(jì)算能力需要更加復(fù)雜的系統(tǒng)。與普通計(jì)算機(jī)一樣，超算同樣由硬件和軟件系統(tǒng)組成，但超算僅硬件部分就由高速運(yùn)算系統(tǒng)、高速互連通信網(wǎng)絡(luò)系統(tǒng)、存儲(chǔ)系統(tǒng)、維護(hù)監(jiān)控系統(tǒng)、電源系統(tǒng)、冷卻系統(tǒng)和結(jié)構(gòu)組裝設(shè)計(jì)等部分組成。

其中，高速運(yùn)算系統(tǒng)負(fù)責(zé)邏輯復(fù)雜的調(diào)度和串行任務(wù)和并行度高的任務(wù)，可采用同構(gòu)計(jì)算（純CPU組成計(jì)算節(jié)點(diǎn)），也可以采用異構(gòu)計(jì)算（CPU+加速器組成計(jì)算節(jié)點(diǎn)）的方式。

實(shí)現(xiàn)百萬(wàn)兆級(jí)超算的新途徑

根據(jù)國(guó)際組織TOP500編制的超級(jí)計(jì)算機(jī)榜單，從2019年度ISC國(guó)際超算大會(huì)上公布的超算性能500強(qiáng)榜單中，我們不難發(fā)現(xiàn)IBM Power、Nvidia Volta/Tesla、Intel Xeon顯然是超算計(jì)算節(jié)點(diǎn)的重要組成。

CUDA支持Arm是實(shí)現(xiàn)百萬(wàn)兆級(jí)超算的新途徑，還是Nvidia和Arm的好機(jī)會(huì)？

2019年度ISC國(guó)際超算大會(huì)上公布的超算Green500

但是，隨著算力的進(jìn)一步增強(qiáng)，超算產(chǎn)生的熱量不僅會(huì)造成更多的資源消耗，冷卻系統(tǒng)的設(shè)計(jì)同樣面臨更大的挑戰(zhàn)，因此沒(méi)瓦特性能也十分重要。TOP500也編制了一個(gè)Green500的超算排行榜，這個(gè)排行榜比拼的不是性能，而是比拼每瓦性能，所以，即便某個(gè)超算在TOP500榜單中墊底，在Green500中卻獲得好名次。

根據(jù)最新的Green500排行榜，在全球最節(jié)能的25款超級(jí)計(jì)算機(jī)中，有22款都得益于Nvidia的支持。

CUDA支持Arm是實(shí)現(xiàn)百萬(wàn)兆級(jí)超算的新途徑，還是Nvidia和Arm的好機(jī)會(huì)？

這其中的關(guān)鍵之一就是采用了異構(gòu)計(jì)算的方式，讓x86或者Power架構(gòu)的CPU與Nvidia GPU協(xié)同，把繁重的處理作業(yè)卸載至更為節(jié)能的并行處理CUDA GPU之上。不過(guò)在CPU市場(chǎng)，Arm架構(gòu)也不可忽略，那么在超算的百萬(wàn)兆級(jí)競(jìng)爭(zhēng)中，Arm CPU是否也能發(fā)揮優(yōu)勢(shì)？

現(xiàn)在下結(jié)論還為時(shí)尚早，但英偉達(dá)并不打算錯(cuò)過(guò)這個(gè)可能的機(jī)會(huì)。6月17日，2019年度ISC國(guó)際超算大會(huì)上，Nvidia宣布將于年底前向Arm生態(tài)系統(tǒng)提供全堆棧的AI和HPC軟件，該堆棧為600多個(gè)HPC應(yīng)用程序和所有AI框架提供加速，其中包括了所有Nvidia CUDA-X AI和HPC庫(kù)、GPU加速的AI框架和軟件開(kāi)發(fā)工具，如支持OpenACC的PGI編譯器和性能分析器。

CUDA支持Arm是實(shí)現(xiàn)百萬(wàn)兆級(jí)超算的新途徑，還是Nvidia和Arm的好機(jī)會(huì)？

這也就意味著，在Nvidia的堆棧優(yōu)化完成之后，Nvidia將為所有主要CPU架構(gòu)提供加速，包括x86、Power和Arm。

對(duì)于新的宣布，Nvidia創(chuàng)始人兼首席執(zhí)行官黃仁勛表示：“超級(jí)計(jì)算機(jī)是促進(jìn)科學(xué)發(fā)現(xiàn)的重要工具，建立百萬(wàn)兆級(jí)超級(jí)計(jì)算將能夠極大地?cái)U(kuò)展人類知識(shí)的邊界。隨著傳統(tǒng)計(jì)算規(guī)模擴(kuò)展步伐的停止，功率也將成為所有超級(jí)計(jì)算機(jī)的限制因素。Nvidia CUDA加速的計(jì)算和Arm的高能效CPU架構(gòu)的相結(jié)合，將助力HPC社區(qū)實(shí)現(xiàn)大幅提升，以達(dá)到百萬(wàn)兆級(jí)?！?/p>

Nvidia的好生意

從百萬(wàn)兆級(jí)超算建造者的角度看，Arm CPU+Nvidia GPU是一個(gè)新選擇，但從Nvidia的角度看，CUDA支持Arm不是一個(gè)簡(jiǎn)單的宣布，而是資源的投入。讓Nvidia有動(dòng)力進(jìn)行這樣的投入，是各國(guó)和巨頭公司們的需求和投入。

僅美國(guó)方面，下一代超算技術(shù)的研發(fā)總投入將達(dá)到4.3億多美元，美國(guó)能源部部長(zhǎng)里克?佩里就表示，這些資金劍指“下階段研發(fā)百億億次系統(tǒng)的全球競(jìng)賽”。顯然，百萬(wàn)兆級(jí)超算的構(gòu)建少不了Nvidia的GPU，特別是AI技術(shù)蓬勃發(fā)展并且越來(lái)越重要的當(dāng)下。此時(shí)Nvidia又聯(lián)合Arm為構(gòu)建百萬(wàn)兆級(jí)超算提供了新的途徑，自然能讓其從超算市場(chǎng)獲得更多的營(yíng)收。

Nvidia的在超算市場(chǎng)的努力不止CUDA支持Arm，Nvidia在2019年度ISC國(guó)際超算大會(huì)上還宣布了全球速度排名第22位的超級(jí)計(jì)算機(jī)——DGX SuperPOD。根據(jù)Nvidia的說(shuō)法，該超級(jí)計(jì)算機(jī)系統(tǒng)采用了96臺(tái)NvidiaDGX-2H超級(jí)計(jì)算機(jī)，內(nèi)含1536顆Nvidia V100 Tensor Core GPU，由Nvidia NVSwitch及 Mellanox網(wǎng)絡(luò)結(jié)構(gòu)相聯(lián)接。其處理能力高達(dá)9.4 petaflops，能夠用于訓(xùn)練安全自動(dòng)駕駛汽車所需要的海量深度神經(jīng)網(wǎng)絡(luò)。

CUDA支持Arm是實(shí)現(xiàn)百萬(wàn)兆級(jí)超算的新途徑，還是Nvidia和Arm的好機(jī)會(huì)？

對(duì)比來(lái)看，具備同等性能的其他TOP500超級(jí)計(jì)算機(jī)系統(tǒng)需要由數(shù)千臺(tái)服務(wù)器構(gòu)建，而DGX SuperPOD占地面積更少，體積比同等系統(tǒng)小400倍左右。部署方面，其他同等規(guī)模的系統(tǒng)通常需要6-9個(gè)月才能完成部署畢，DGX SuperPOD在工程師采用經(jīng)過(guò)驗(yàn)證的規(guī)范性方法情況下，僅需3個(gè)星期。

據(jù)雷鋒網(wǎng)了解，Nvidia DGX系統(tǒng)已經(jīng)服務(wù)于眾多對(duì)大規(guī)模計(jì)算有需求的企業(yè)機(jī)構(gòu)，例如寶馬、Continental、福特與Zenuity 等汽車公司，還有Facebook、微軟與富士膠片等公司，還有研究領(lǐng)域的日本理化學(xué)研究所與美國(guó)能源部實(shí)驗(yàn)室等。

Nvidia希望還沒(méi)有部署人工智能的數(shù)據(jù)中心的企業(yè)機(jī)構(gòu)使用Nvidia SuperPOD架構(gòu)。這可以讓雙方都從中獲益，不止于此，Nvidia還能通過(guò)構(gòu)建這樣的超級(jí)計(jì)算機(jī)，可以學(xué)會(huì)如何設(shè)計(jì)面向大規(guī)模人工智能機(jī)器的系統(tǒng)。

顯然，超算特別是百萬(wàn)兆超算對(duì)Nvidia是可以多贏的好生意。

Arm的好機(jī)會(huì)

對(duì)于Arm而言，百萬(wàn)兆級(jí)超算市場(chǎng)則是一個(gè)好機(jī)會(huì)。在移動(dòng)市場(chǎng)占據(jù)領(lǐng)導(dǎo)地位的Arm遇到市場(chǎng)增長(zhǎng)放緩時(shí)，同樣也希望能夠?qū)⑵浼軜?gòu)拓展到新的市場(chǎng)帶來(lái)增長(zhǎng)，近年來(lái)也在努力聯(lián)合合作伙伴推動(dòng)Arm服務(wù)器的發(fā)展，不過(guò)情況并不理想。

但在超算市場(chǎng)，特別是CUDA支持Arm之后，Arm能夠迎來(lái)了好機(jī)會(huì)。Atos高級(jí)執(zhí)行副總裁、大數(shù)據(jù)和網(wǎng)絡(luò)安全部門(mén)負(fù)責(zé)人Pierre Barnabé表示：“憑借萬(wàn)寶龍項(xiàng)目，以及為百萬(wàn)兆級(jí)超級(jí)計(jì)算機(jī)BullSequana X所做的Arm計(jì)算刀片設(shè)計(jì)，Atos成為了ARM生態(tài)系統(tǒng)中的先驅(qū)者。”

全球重要的超算提供商Cray總裁兼首席執(zhí)行官Peter Ungaro表示：“我們的Cray系統(tǒng)管理和編程環(huán)境（編譯器、庫(kù)和工具）已經(jīng)能夠在XC和未來(lái)的Shasta超級(jí)計(jì)算機(jī)上支持Arm處理器，將CUDA和CUDA-X HPC和AI軟件堆棧用于Arm平臺(tái)，并將其與Cray系統(tǒng)管理和編程環(huán)境緊密集成，能夠助力我們的超級(jí)計(jì)算機(jī)實(shí)現(xiàn)我們的愿景?！?/p>

另外，Ampere Computing、CSC、EPI、HPE、Jülich超算中心、Marvell等都表達(dá)了對(duì)于CUDA支持Arm的期待。同時(shí)還要看到，CUDA支持Arm能夠建造百萬(wàn)兆級(jí)超算，同樣也能讓服務(wù)器廠商更便捷地制造Arm服務(wù)器，所以，Arm的好機(jī)會(huì)是讓其能夠更好的拓展架構(gòu)優(yōu)勢(shì)。

雷鋒網(wǎng)小結(jié)

百萬(wàn)兆級(jí)超算系統(tǒng)是各國(guó)努力正在打造的新一代超算，此時(shí)，英偉達(dá)CUDA支持Arm給正在打造新一代超算的國(guó)家以及對(duì)算力有更高需求的企業(yè)一個(gè)新的選擇，這既是英偉達(dá)能夠多贏的好生意，更是Arm進(jìn)入超算市場(chǎng)的好機(jī)會(huì)?，F(xiàn)在有眾多的支持者表態(tài)支持這一新路徑，我們雖然對(duì)此也保持積極的態(tài)度，但結(jié)果仍需通過(guò)實(shí)際的百萬(wàn)兆級(jí)的超算系統(tǒng)來(lái)得出。創(chuàng)新不會(huì)百分之百成功，但創(chuàng)新才是推動(dòng)革新的最大動(dòng)力。雷鋒網(wǎng)

清華大學(xué)超算團(tuán)隊(duì)摘得 SC 2018 總冠軍，包攬三大國(guó)際大學(xué)生超算競(jìng)賽總冠軍

來(lái)自美國(guó)的全球最強(qiáng)超算 Summit 問(wèn)世了，但中國(guó)其實(shí)不必?fù)?dān)憂

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

包永剛

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

CUDA支持Arm是實(shí)現(xiàn)百萬(wàn)兆級(jí)超算的新途徑，還是Nvidia和Arm的好機(jī)會(huì)？

CUDA支持Arm是實(shí)現(xiàn)百萬(wàn)兆級(jí)超算的新途徑，還是Nvidia和Arm的好機(jī)會(huì)？