2
本文作者: 精選轉(zhuǎn)載 | 2014-11-18 10:15 |
編者按:昨日,國外負(fù)責(zé)計算機(jī)運算速度測量的國際組織機(jī)構(gòu)在美國發(fā)布了全球超級計算機(jī)500強(qiáng)最新排行榜。榜單中,中國“天河二號”超級計算機(jī)以每秒33.86千萬億次的浮點運算速度獲得冠軍。這也是自從2011年以來,“天河二號”第四次贏得全球運算最快超級計算機(jī)的稱號。多次連任全球超級計算機(jī)冠軍,天河二號是否彰顯國家競爭力?
答案是肯定的!那么,為什么它能彰顯國家競爭力?這就需要知道這種超級計算機(jī)研制的難點在哪里。
現(xiàn)在全球投入使用或?qū)⒁度胧褂玫某売嬎銠C(jī),幾乎全部都是集群式計算機(jī)。這種計算機(jī)簡單說就是將大量的微型計算機(jī)通過網(wǎng)絡(luò)系統(tǒng)連接起來,使用專用的操作系統(tǒng)控制來執(zhí)行大規(guī)模的計算任務(wù)。搭建超級計算機(jī)所使用的節(jié)點,通常都使用市場上能買到的工作站/服務(wù)器使用的CPU、GPU等芯片。例如天河2使用的就是Intel的Xeon E5 V2處理器和Xeon Phi協(xié)處理器(后者類似GPU,負(fù)責(zé)一些特殊的計算任務(wù)),這兩種芯片都是在公開市場上銷售的。(Xeon E5 V2的正式銷售要等到第三季度)類似地,超算的內(nèi)存、存儲單元等一般也是標(biāo)準(zhǔn)化的產(chǎn)品,沒什么特殊和神秘的。
超級計算機(jī)研發(fā)的真正難點在于網(wǎng)絡(luò)系統(tǒng)和軟件系統(tǒng)
集群計算機(jī)系統(tǒng)在處理單一計算任務(wù)時,集群中的各個節(jié)點之間的通信是非常復(fù)雜的。不僅節(jié)點間傳輸?shù)臄?shù)據(jù)量巨大,延遲要求嚴(yán)格,而且動輒就需要數(shù)百數(shù)千乃至上萬個計算節(jié)點之間同時傳送計算數(shù)據(jù)。當(dāng)網(wǎng)絡(luò)系統(tǒng)的效率不足時,大量的數(shù)據(jù)會在網(wǎng)絡(luò)上發(fā)生擁堵,可能會極大地降低整套系統(tǒng)的運算性能。整臺超級計算機(jī)的運算速度越強(qiáng),集群內(nèi)的節(jié)點數(shù)目越大,對網(wǎng)絡(luò)系統(tǒng)的要求就越高。因此,網(wǎng)絡(luò)系統(tǒng)性能是硬件上制約超級計算機(jī)運算能力的最主要瓶頸。正因為存在這一瓶頸,廠商不可能通過無限制地堆砌節(jié)點數(shù)量來增加計算能力——當(dāng)總的運算能力超過網(wǎng)絡(luò)系統(tǒng)最高負(fù)荷后,繼續(xù)增加的節(jié)點不僅不能提高計算能力,反而會讓性能下降。
另一方面,控制大量的計算節(jié)點執(zhí)行同一個或少數(shù)一些計算任務(wù),對軟件系統(tǒng)的要求是和我們?nèi)粘=佑|的應(yīng)用完全不同的。軟件系統(tǒng)必須對硬件高度優(yōu)化才能充分發(fā)揮硬件的潛力,否則就會產(chǎn)生瓶頸。此外,由于超算的節(jié)點眾多,少數(shù)節(jié)點損壞是家常便飯,軟件系統(tǒng)必須做到部分節(jié)點損壞時不影響任務(wù)的持續(xù)。當(dāng)然,系統(tǒng)更不能頻繁出現(xiàn)死機(jī)、崩潰等情況,對穩(wěn)定性的要求遠(yuǎn)高過一般的家用、商用電腦。滿足這些要求的前提下,系統(tǒng)還需要做到盡可能的易于使用,這樣才便于執(zhí)行多種多樣的計算任務(wù),處理各行各業(yè)的需求。
因為以上兩大限制的存在,超級計算機(jī)的研制事實上是技術(shù)含量非常高的。節(jié)點的芯片隨便可以買得到,但網(wǎng)絡(luò)系統(tǒng)和軟件系統(tǒng)都是超算研發(fā)廠商自己的實力所在。
再來看看天河2
天河2使用了自主研發(fā)的網(wǎng)絡(luò)系統(tǒng)和操作系統(tǒng),其中網(wǎng)絡(luò)系統(tǒng)使用了國防科大自主研發(fā)的,基于SPARC指令集的飛騰1500處理器來處理網(wǎng)絡(luò)數(shù)據(jù),操作系統(tǒng)則是自主開發(fā)的麒麟。天河2目前有大約13000個計算節(jié)點,每個節(jié)點使用了兩顆Intel的Xeon E5-2692 V2 CPU和三張Xeon Phi 31sp Co-processor。Xeon E5-2692 V2是Intel開發(fā)的CPU,尚未上市,每顆CPU有12個核心,主頻2.2GHZ;Xeon Phi 31sp則是Intel開發(fā)的協(xié)處理器,專門用來執(zhí)行密集浮點運算,其形態(tài)為類似顯卡那樣的PCIe擴(kuò)展卡,卡上有一顆芯片和8GB高帶寬內(nèi)存,芯片內(nèi)有57個主頻約1GHZ的核心。Xeon Phi 的一個特點是浮點運算效率較低,其在運行浮點運算基準(zhǔn)測試linpack時,實際性能只相當(dāng)于理論最大運算性能的60%左右——相比之下,Xeon E5 CPU運行相同測試時的效率在80%以上。但是Xeon Phi的理論最大運算性能較高(每張卡1T Flops,亦即每秒1萬億次浮點運算),大大超過Xeon E5的212G Flops(每秒2120億次浮點運算),因此一張Xeon Phi的實際運算能力可以達(dá)到三顆Xeon E5的水平。
天河2的整機(jī)理論最大浮點運算性能達(dá)到54900TFlops,而實測運算性能達(dá)到33860TFlops,效率達(dá)到60%左右,這是非常不容易的:這意味著擁有1.3萬計算節(jié)點的龐大計算集群,效率和單個節(jié)點是差不多的水平。這說明天河2的網(wǎng)絡(luò)系統(tǒng)和軟件系統(tǒng)的水平是非常高的,在1.3萬節(jié)點的水平下幾乎沒有網(wǎng)絡(luò)和軟件瓶頸的出現(xiàn)。相比之下,一些較小的使用較落后網(wǎng)絡(luò)系統(tǒng)的超算,幾百個節(jié)點下的運算效率相比單節(jié)點的效率幾乎減半,說明瓶頸是非常嚴(yán)重的?,F(xiàn)在的天河2只是完成了一期工程,未來通過增加節(jié)點和改用更快速的計算卡(后者類似于我們常說的電腦升級)預(yù)計可以達(dá)到超過5萬TFlops的運算能力,這都要感謝國防科大自主研制的高性能網(wǎng)絡(luò)系統(tǒng)和軟件系統(tǒng)。
對于現(xiàn)代工業(yè)國家來說,超級計算機(jī)是增強(qiáng)研發(fā)能力、增強(qiáng)工業(yè)競爭力的一個重要的環(huán)節(jié)。一臺超算既可以處理少量的超大計算量的任務(wù)(比如軍事上模擬核試驗),也可以處理大量的計算量較小的任務(wù)(比如為眾多用戶同時處理不同的計算需求,如計算產(chǎn)品的流體測試數(shù)據(jù)、為電影后期進(jìn)行三維渲染、為學(xué)校物理實驗提供科學(xué)計算支持等),其用途是十分廣泛的。國內(nèi)已經(jīng)建成的超算中心都有各行各業(yè)的大量用戶在使用,效益還是很不錯的。經(jīng)過多年發(fā)展,中國的超級計算機(jī)研發(fā)能力已經(jīng)達(dá)到了僅次于美國日本的水平,在世界上屬于第一梯隊。雖然與美國的差距仍然較大(主要體現(xiàn)在核心芯片與軟件系統(tǒng)上),但發(fā)展的前景是越來越好的。很多外行不明就里,動輒就說超算就是堆芯片沒有技術(shù)含量,其實只是在證明自己的無知與自大罷了。
補(bǔ)充介紹下,除了超級計算機(jī)以外,12306的訂票系統(tǒng)也屬于大規(guī)模計算應(yīng)用中的兩個范疇,后者的任務(wù)是大規(guī)模實時整數(shù)數(shù)據(jù)處理,而前者的任務(wù)是大規(guī)模非實時浮點運算。任務(wù)類型的不同決定了兩者的系統(tǒng)要求有著巨大的差別:用于訂票系統(tǒng)的集群要求有非常高的I/O處理能力,足夠快的響應(yīng)速度和極低的錯誤率;用于超算的集群則要求非常高的浮點計算能力,不需要實時響應(yīng),也不需要那么高的IO處理,對錯誤率的容忍也更好。用超算系統(tǒng)的技術(shù)去做訂票系統(tǒng),前者的高浮點能力毫無用途,卻缺乏后者需要的實時性能和IO能力,結(jié)果只會一塌糊涂。
文章作者:王強(qiáng),內(nèi)容來源知乎,經(jīng)本人授權(quán)轉(zhuǎn)載,轉(zhuǎn)載須經(jīng)本人同意許可。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。