0
本文作者: 王強(qiáng) | 2015-04-10 10:02 | 專題:成為世界最快,中國(guó)超算經(jīng)歷了什么? |
美國(guó)封鎖對(duì)華超級(jí)計(jì)算機(jī)關(guān)鍵技術(shù)出口的消息,讓超算這個(gè)詞匯又成了媒體關(guān)注的焦點(diǎn)。
雖然國(guó)產(chǎn)超算“天河2號(hào)”已經(jīng)數(shù)度奪得全球性能冠軍,但是為之自豪的網(wǎng)民還很少對(duì)“超級(jí)計(jì)算機(jī)”這個(gè)概念有比較深入的了解。本文將先為大家介紹超級(jí)計(jì)算機(jī)相關(guān)的背景知識(shí),而續(xù)篇?jiǎng)t會(huì)探討美國(guó)技術(shù)封鎖政策對(duì)我國(guó)超算發(fā)展的影響。
什么是超算?
超級(jí)計(jì)算機(jī),又稱高性能計(jì)算,英文名High Performance Computing,簡(jiǎn)稱超算/HPC。HPC是為了解決工業(yè)界對(duì)大規(guī)模計(jì)算能力的需求而誕生的技術(shù),現(xiàn)代超算本質(zhì)上是將大量配置接近普通家用電腦/商用工作站的主機(jī)通過(guò)高速網(wǎng)絡(luò)連接起來(lái)的主機(jī)集群。它運(yùn)行的是專用操作系統(tǒng),每臺(tái)主機(jī)是一個(gè)運(yùn)算節(jié)點(diǎn);大量節(jié)點(diǎn)的運(yùn)算能力疊加起來(lái),就獲得了遠(yuǎn)超單臺(tái)或幾臺(tái)普通PC的計(jì)算能力。
超算的技術(shù)特點(diǎn)
經(jīng)常在超算相關(guān)的新聞下面看到這樣的評(píng)論:“這么強(qiáng),跑xxx游戲卡不卡?”普通消費(fèi)者對(duì)“運(yùn)算速度”的概念通常就是玩一些大型游戲有多少幀率、畫(huà)面細(xì)節(jié)能達(dá)到什么檔次。有趣的是,超算執(zhí)行的任務(wù)與3D游戲有不少相似之處。
計(jì)算機(jī)世界中,“計(jì)算”可以分為整數(shù)和浮點(diǎn)計(jì)算兩大類。8X4是整數(shù)運(yùn)算,而1.5912/0.4就是浮點(diǎn)計(jì)算。我們常見(jiàn)的大多數(shù)程序都是以整數(shù)計(jì)算為主,輔之以少量浮點(diǎn)部分;但3D游戲、圖像渲染、視頻特效這類工作則會(huì)大量應(yīng)用浮點(diǎn)代碼。
在科學(xué)和工程領(lǐng)域常見(jiàn)的計(jì)算任務(wù)都是偏浮點(diǎn)化的:典型如大氣模擬、材料應(yīng)力計(jì)算、蛋白質(zhì)分子模擬、地質(zhì)模型分析等。這些領(lǐng)域中整數(shù)運(yùn)算所占的比例較小,與我們常見(jiàn)的PC程序有較大差異。
浮點(diǎn)運(yùn)算任務(wù)的一大特點(diǎn)是很容易高度并行化。簡(jiǎn)單來(lái)說(shuō)就是一段計(jì)算可以拆分給許許多多的計(jì)算核心來(lái)完成,不像整數(shù)計(jì)算那樣很多時(shí)候只能分給少量幾個(gè)核心。另外,密集浮點(diǎn)程序可以大量使用高級(jí)浮點(diǎn)指令—例如AVX、FMA等來(lái)明顯提升運(yùn)算速度。相比之下一般消費(fèi)者使用的程序往往只能用到老舊的SSE、SSE2,不太容易從新指令中獲得加速效果。
因?yàn)樯鲜鎏攸c(diǎn),高性能計(jì)算領(lǐng)域的應(yīng)用可以很容易地從CPU的浮點(diǎn)運(yùn)算能力改進(jìn)中得益。下圖是Intel幾代Xeon CPU的理論浮點(diǎn)性能對(duì)比,可以看出受益于高級(jí)指令的增加,每代新品的性能都提升1倍以上;我們普通消費(fèi)者很難感受到這么大幅度的進(jìn)步,但科學(xué)和工程計(jì)算程序就獲益匪淺。
偏重浮點(diǎn)性能、可以大規(guī)模并行化的特點(diǎn)使科學(xué)計(jì)算應(yīng)用很適合跑在GPU上。GPU可以看作是有很多小核心的一種CPU,犧牲整數(shù)性能和單核心性能換來(lái)整塊芯片超強(qiáng)的浮點(diǎn)性能。CPU和GPU聯(lián)合執(zhí)行科學(xué)計(jì)算的方式被稱為異構(gòu)計(jì)算,最近幾年異構(gòu)計(jì)算開(kāi)始逐漸在業(yè)界推廣。
除了執(zhí)行運(yùn)算的CPU、GPU核心,超算的另外兩大關(guān)鍵技術(shù)是內(nèi)存和互聯(lián)網(wǎng)絡(luò)。高性能計(jì)算任務(wù)通常需要大量的內(nèi)存,而且所需的空間隨計(jì)算核心數(shù)量的增多而增加;此外,這些內(nèi)存還要有很高的帶寬來(lái)迅速將數(shù)據(jù)傳遞給處理器核心?;ヂ?lián)網(wǎng)絡(luò)則是將成千上萬(wàn)的主機(jī)搭建成超算系統(tǒng)的關(guān)鍵,主機(jī)數(shù)量越多,對(duì)網(wǎng)絡(luò)的帶寬、延遲和穩(wěn)定性要求就越高。
超算技術(shù)發(fā)展現(xiàn)狀
從前面的介紹我們可以知道,超算需要的是浮點(diǎn)性能很強(qiáng)、內(nèi)存帶寬和容量很高的計(jì)算芯片,以及高性能的大規(guī)模互聯(lián)網(wǎng)絡(luò)。高性能芯片的技術(shù)被四大巨頭壟斷:Intel、IBM、Nvidia和AMD。其中,Intel和IBM一方面生產(chǎn)CPU,另一方面研制出了類似GPU的超多核心芯片。例如Intel的新一代Xeon Phi處理器就是將數(shù)十顆特別加強(qiáng)了浮點(diǎn)性能的Atom核心集成到一起,配上帶寬達(dá)到數(shù)百GB/s的3D封裝內(nèi)存制造而成的。一顆新版Xeon Phi的性能達(dá)到每秒2萬(wàn)億次浮點(diǎn)運(yùn)算,相當(dāng)于最快的Xeon CPU的3倍。Nvidia和AMD則在自家GPU的基礎(chǔ)上生產(chǎn)專用計(jì)算卡Tesla和FirePro,其浮點(diǎn)性能也達(dá)到2-3萬(wàn)億次每秒的水平。
由于制造技術(shù)與成本的限制,Tesla和Xeon Phi這樣的芯片的內(nèi)存不能做到很大容量,無(wú)法執(zhí)行那些需要龐大內(nèi)存空間的代碼,這也限制了這類芯片的普及率。但由于這些芯片的性能相比一般CPU有明顯優(yōu)勢(shì),且?guī)状笃髽I(yè)都在努力解決內(nèi)存空間的問(wèn)題,未來(lái)它們會(huì)是業(yè)界的主流選擇。Intel希望自己的Xeon Phi在未來(lái)能一統(tǒng)天下;Nvidia與IBM合作,將推出Power CPU+Tesla 計(jì)算卡的異構(gòu)解決方案;AMD則力推自家的HSA異構(gòu)方案,希望Opteron CPU+FirePro計(jì)算卡的組合能占據(jù)一席之地。目前來(lái)看Intel的優(yōu)勢(shì)比較大,而Nvidia/IBM的聯(lián)盟也能拿下一定的份額。
互聯(lián)網(wǎng)絡(luò)方面的技術(shù)不像計(jì)算芯片那樣高度壟斷。目前有不少企業(yè)都在提供超算網(wǎng)絡(luò)解決方案,我國(guó)在這方面也具備世界一流水平。最先進(jìn)的超算網(wǎng)絡(luò)可以讓數(shù)萬(wàn)計(jì)算節(jié)點(diǎn)以高達(dá)100Gbps的帶寬通信,同時(shí)保證穩(wěn)定性和低延時(shí)。
超算對(duì)國(guó)家的意義
一如前文所述,超算技術(shù)主要是服務(wù)工業(yè)和科學(xué)研究的。強(qiáng)大的計(jì)算能力對(duì)企業(yè)、學(xué)校和國(guó)防研究都有很大的幫助,甚至可以說(shuō)是不可或缺的。當(dāng)年美國(guó)宣布終止核試驗(yàn),其底氣就是超算模擬核試驗(yàn)技術(shù)已經(jīng)足夠成熟。由于投入巨大、回報(bào)周期較長(zhǎng),各國(guó)的超算項(xiàng)目主要由政府實(shí)施或資助。如今,超算技術(shù)和資源水平已經(jīng)成為一國(guó)科研實(shí)力的重要指標(biāo)之一。
中國(guó)的超算技術(shù)近年來(lái)發(fā)展迅速,曙光、天河前后多次登上全球超算性能排行榜冠軍。如今美國(guó)宣布對(duì)華超算技術(shù)禁運(yùn),無(wú)疑是感到了中國(guó)在這一領(lǐng)域的威脅。那么美國(guó)的禁運(yùn)政策將對(duì)中國(guó)有什么影響呢?請(qǐng)看下一篇文章的具體分析。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。