0
本文作者: 包永剛 | 2021-10-26 18:34 |
長久以來,高性能計(jì)算(HPC)給人的印象總是神秘且高深。這是因?yàn)樗饕菍W(xué)術(shù)界用來推進(jìn)基礎(chǔ)科學(xué)發(fā)現(xiàn)和探索的手段,比如上到宏觀的宇宙大爆炸模擬、下到微觀的量子物理和分子動力學(xué)研究,這種級別的話題一拋出來,就會有“生人勿近”的感覺。
然而,新冠肺炎對我們的突然襲擊,讓很多人重新認(rèn)識了高性能計(jì)算:它非但不“高冷”,對熱點(diǎn)事件的反應(yīng)還出人意料的快——不論是中國還是全球,領(lǐng)先的基因與藥物研發(fā)機(jī)構(gòu),在高性能計(jì)算的支持下,少則數(shù)小時(shí),多則幾天就破解了新冠病毒的結(jié)構(gòu),并立即開始疫苗的研制。
可以說,正是高性能計(jì)算在算力上的爆發(fā)式增長,讓過去以“年”來計(jì)算時(shí)長、且需要無數(shù)次實(shí)驗(yàn)來糾錯的病毒和疫苗研究過程發(fā)生了翻天覆地的變化,這種變化還不能只用一個“快”字來概括,而是“快”與“精準(zhǔn)”兼顧。
“高性能計(jì)算是改變世界和豐富地球上每個人生活背后的創(chuàng)新,”在日前于珠海舉辦的2021 CCF全國高性能計(jì)算學(xué)術(shù)年會(CCF HPC China 2021)上,英特爾公司副總裁Trish Damkroger就在其主題演講中這樣總結(jié)道:“每天都有新的用戶憧憬使用高性能計(jì)算系統(tǒng)的新方法來應(yīng)對越來越多的高性能計(jì)算和AI的挑戰(zhàn)。例如制造企業(yè)利用高性能計(jì)算系統(tǒng)來設(shè)計(jì)性能更好的運(yùn)動裝備,鐵路公司使用托管的天氣預(yù)報(bào)服務(wù)來避免脫軌,藥劑師使用機(jī)器學(xué)習(xí)來查明藥物中的有害成分。”
Trish的話,對于整個高性能計(jì)算行業(yè)而言已不僅僅是思想上的共鳴,而是正演進(jìn)為重塑這一技術(shù)及行業(yè)的共振。親歷了這場中國頂級高性能計(jì)算行業(yè)峰會,并站在E級 (Exascale,百億億級)計(jì)算時(shí)代門前的業(yè)內(nèi)同仁,不論是來自最終用戶、產(chǎn)品技術(shù)提供商還是研究機(jī)構(gòu),可能都在思考:高性能計(jì)算還會在哪些行業(yè)、哪些領(lǐng)域和場景引發(fā)創(chuàng)新的裂變反應(yīng)?它達(dá)成E級算力并與AI和大數(shù)據(jù)實(shí)現(xiàn)了更為充分的融合后,又會帶來哪些前所未有的可能?
圖一 CCF HPC China 2021上的英特爾展位
這兩個問題,或許每個專業(yè)人士的心里都有自己的答案,普通大眾也會有自己的那份期盼,暫時(shí)讓我們過濾掉這種多樣性和復(fù)雜度,僅就剛才提到的醫(yī)療及生命科學(xué)領(lǐng)域做個展望。
更多疑難雜癥將迎來精準(zhǔn)療法或藥物
上面這句話,就是高性能計(jì)算未來升級到E級計(jì)算時(shí)代,并與AI和大數(shù)據(jù)深度融合后,即將為這個領(lǐng)域帶來的變化。
正如前文提到的,高性能計(jì)算已經(jīng)顯著縮短了新冠病毒分析和疫苗的研發(fā)時(shí)間,拯救了數(shù)億普通人的生命。如果把它,特別是有了E級計(jì)算能力的它用于更為廣泛的醫(yī)療細(xì)分領(lǐng)域,那么它又快又精準(zhǔn)的效果,也會隨之?dāng)U展到這些細(xì)分領(lǐng)域。
一個典型的例子就是美國著名影星安吉麗娜·朱莉,她有家族性乳腺癌史,在做了基因檢測之后,結(jié)果顯示她患乳腺癌的風(fēng)險(xiǎn)高達(dá)87%,于是她與醫(yī)生商量后進(jìn)行了預(yù)防性乳腺切除,把乳腺癌風(fēng)險(xiǎn)降低到了5%以下。
這種融合基因測序、分子診斷等手段、并由高性能計(jì)算加速的精準(zhǔn)醫(yī)療方案,目前還只能惠及少部分人,主要原因就是高性能計(jì)算的整體算力還有所不足,無法為更多個體提供同樣精準(zhǔn)和快捷的服務(wù)。而且目前醫(yī)學(xué)領(lǐng)域的基礎(chǔ)研究與臨床醫(yī)學(xué)也處于分立的狀態(tài),這讓很多基礎(chǔ)研究偏離了解決實(shí)際需求的出發(fā)點(diǎn),無法更高效地作用于醫(yī)學(xué)的發(fā)展和進(jìn)步。
于是,在高性能計(jì)算演進(jìn)的同時(shí),能更有效利用它的轉(zhuǎn)化醫(yī)學(xué)概念也被提出,它就是要把基礎(chǔ)醫(yī)學(xué)研究與臨床實(shí)踐更緊密地結(jié)合起來,通過多學(xué)科交叉合作實(shí)現(xiàn)“從實(shí)驗(yàn)室到臨床”的雙向且高效的轉(zhuǎn)化。
在這個方向上,作為中國第一個,也是目前唯一建成的國家級綜合性轉(zhuǎn)化醫(yī)學(xué)中心——上海交通大學(xué)附屬瑞金醫(yī)院轉(zhuǎn)化醫(yī)學(xué)中心很有發(fā)言權(quán),其重點(diǎn)研究方向聚焦在腫瘤(包括白血?。?、代謝性疾病和心腦血管疾病等領(lǐng)域,其實(shí)踐過程就是需要收集全面多維的患者生物信息數(shù)據(jù),然后基于海量數(shù)據(jù)的挖掘和分析,最終形成更個性化且精準(zhǔn)的診療方案,然后再把這些方案涉及的新療法和新藥物普及開來。
這一過程說起來簡單,但在落實(shí)時(shí)卻十分復(fù)雜,僅在數(shù)據(jù)的收集、傳輸、存儲和處理環(huán)節(jié)就面臨重重困難,根本原因就是其涉及到本就龐大且還在持續(xù)增長的數(shù)據(jù)量。畢竟,單個人類全基因測序分析涉及的數(shù)據(jù)就高達(dá)870GB,再加上招募的患者病情通常比較危急,要求數(shù)據(jù)處理越快越好。另一方面,由于不同轉(zhuǎn)化醫(yī)學(xué)研究團(tuán)隊(duì)都需要同時(shí)訪問海量數(shù)據(jù)庫,所以,數(shù)據(jù)并行訪問的性能,就與算力一起,成為了影響整體效率高下的關(guān)鍵。
為此,瑞金醫(yī)院轉(zhuǎn)化醫(yī)學(xué)中心搭建了一個集存、傳、算、用為一體的定制化超算平臺,其中不但導(dǎo)入了英特爾至強(qiáng)可擴(kuò)展處理器的強(qiáng)勁算力和高效算法來保障超算平臺的計(jì)算性能,還使用了“英特爾傲騰持久內(nèi)存+分布式異步對象存儲 (DAOS)”的方案,來滿足轉(zhuǎn)化醫(yī)學(xué)實(shí)時(shí)、高頻和高效訪問數(shù)據(jù)的需求。
圖二 瑞金醫(yī)院轉(zhuǎn)化醫(yī)學(xué)中心對DAOS優(yōu)勢的剖析
瑞金醫(yī)院轉(zhuǎn)化醫(yī)學(xué)國家重大科技基礎(chǔ)設(shè)施(上海)生信大數(shù)據(jù)平臺共同負(fù)責(zé)人呂綱就在本次HPC China年會上表示:“DAOS充分發(fā)揮了英特爾傲騰持久內(nèi)存的性能,提供了高帶寬、低時(shí)延以及優(yōu)異的小文件并發(fā)性能。對應(yīng)全球IO500排行榜的公開數(shù)據(jù),這將是生信領(lǐng)域第一個可以沖擊榜單前十的系統(tǒng),也是一個突破天花板的里程碑。”
呂綱在這里提到的英特爾傲騰持久內(nèi)存,就是英特爾目前的高性能計(jì)算產(chǎn)品技術(shù)組合中的重要成員。它與DRAM相比,性能相近,但容量、耐用性和性價(jià)比更高,還有掉電不丟數(shù)據(jù)的獨(dú)家本領(lǐng)。DAOS在軟件上針對持久內(nèi)存的特性做了優(yōu)化,從而顯著提升數(shù)據(jù)存儲的訪問效率。按呂綱的話說,就是:“以前做全基因組測序需要花近168小時(shí),有了定制的生信計(jì)算平臺,不到8小時(shí)就可以完成!這為挽救患者生命爭取最佳治療時(shí)機(jī)提供了保障?!?/p>
說E級盼E級,E級實(shí)現(xiàn)不容易
有了瑞金醫(yī)院轉(zhuǎn)化醫(yī)學(xué)中心的開創(chuàng)性工作,并伴隨更多轉(zhuǎn)化醫(yī)學(xué)中心的建立、運(yùn)作和輻射,更多疾病,尤其是疑難雜癥就有望獲得更為精準(zhǔn)的療法和藥物的支持,甚至被攻克。但這一愿景的落地,也離不開高性能計(jì)算的進(jìn)一步發(fā)展演進(jìn)。當(dāng)然,高性能計(jì)算發(fā)展和演進(jìn)惠及了很多行業(yè)。相信隨著E級計(jì)算時(shí)代的到來,它必將在更多的行業(yè)中激發(fā)出更多讓人意想不到的創(chuàng)新。
E級計(jì)算既然有這么大的價(jià)值,那還不廢寢忘食、日以繼夜地加速搞定?
這一點(diǎn),可沒有圈外人想象得那么簡單。畢竟,它的算力水平,就是每秒鐘要實(shí)現(xiàn)百億億次浮點(diǎn)運(yùn)算。用一個形象但不夠精確的方式來解釋,它一瞬間的計(jì)算量,需要地球上的所有人持續(xù)不停地算上四年時(shí)間。
要實(shí)現(xiàn)如此級別的算力,現(xiàn)有的高性能計(jì)算技術(shù)必然要進(jìn)行大的變革甚至是顛覆。而一個大家都已公認(rèn)的方向,就是必須要導(dǎo)入基于異構(gòu)架構(gòu)的基礎(chǔ)設(shè)施。
所謂異構(gòu)架構(gòu),翻譯成易懂的語言就是:CPU要有,GPU也要上,F(xiàn)PGA和ASIC(專用芯片)都有更好,總之……不論通用算力還是特定加速,一個都不能少!
英特爾近幾年來被頻頻提及的XPU戰(zhàn)略,就是這種異構(gòu)架構(gòu)創(chuàng)新方向的具體體現(xiàn)。
先說說這個架構(gòu)中的CPU,它在未來的XPU時(shí)代大概率仍會扮演C位角色,算是通用算力的主要輸出和整個平臺的總控。例如今年剛剛發(fā)布的第三代英特爾至強(qiáng)可擴(kuò)展處理器,就一方面借助創(chuàng)新內(nèi)核架構(gòu)、對最多40個內(nèi)核和英特爾深度學(xué)習(xí)加速等技術(shù)的集成來實(shí)現(xiàn)通用算力,同時(shí)兼顧了對AI應(yīng)用的加速。
來自實(shí)測的數(shù)據(jù),證明這些技術(shù)的使用確實(shí)是立竿見影:與上一代相比,第三代至強(qiáng)可擴(kuò)展處理器將金融領(lǐng)域的蒙特卡羅、布萊克-舒爾斯和二項(xiàng)式期權(quán)定價(jià)模型等應(yīng)用的性能分別提升了高達(dá)70%、67%和28% ;將生命科學(xué)領(lǐng)域的NAMD、GROMACS、LAMMPS和 RELION的性能分別提升了高達(dá)57%、64%、60% 和 61%;將制造業(yè)中的 CONVERGE、NUMECA、OpenFOAM和Altair Radioss的性能分別提升了高達(dá)52%、61%、51%和47% 。而AI推理性能上,它相比前一代產(chǎn)品也提升了74%。
圖三 英特爾高性能計(jì)算產(chǎn)品組合現(xiàn)階段的核心——第三代至強(qiáng)可擴(kuò)展處理器
另一方面,業(yè)內(nèi)人士也非??粗氐谌翉?qiáng)可擴(kuò)展處理器在IO能力上的升級,特別是支持PCI-e 4這一進(jìn)步,讓它能與更多高性能 GPU 搭配。
下一代至強(qiáng)可擴(kuò)展處理器 Sapphire Rapids 相比之下就更加讓人期待:它將會采用全新模塊化SoC架構(gòu),除了最多可支持 56個內(nèi)核以及112線程外,它更吸引人的地方是一股腦導(dǎo)入了對DDR5、PCIe5 、CXL 和HBM技術(shù)的支持,可以進(jìn)一步增強(qiáng)內(nèi)存、存儲和互連的性能,而且這款產(chǎn)品還會集成 AMX(高級矩陣擴(kuò)展)技術(shù),讓CPU在運(yùn)行矩陣運(yùn)算任務(wù)時(shí),擁有更顯著的加速效果。
圖四 英特爾公司副總裁 Trish Damkroger 展望下一代至強(qiáng)可擴(kuò)展處理器的規(guī)格特性
與Sapphire Rapids主要提升通用計(jì)算性能相對應(yīng)的,就是Ponte Vecchio將為高性能計(jì)算和人工智能帶來的更強(qiáng)加速能力。根據(jù)Trish Damkroger的介紹,這款由47種不同芯片模塊組合而成的英特爾GPU,將采用靈活的數(shù)據(jù)并行向量矩陣引擎來處理一系列高度并行的工作負(fù)載,以助力加速 E 級計(jì)算愿景的實(shí)現(xiàn)。它可提供超高的雙精度浮點(diǎn)運(yùn)算吞吐量并提供超高緩存和內(nèi)存帶寬,以滿足需要高內(nèi)存帶寬的應(yīng)用程序的需求。
圖五 集領(lǐng)先架構(gòu)和多種先進(jìn)制造、封裝技術(shù)于一身的Ponte Vecchio
異構(gòu)架構(gòu)雖然主要會落實(shí)在硬件上,但它并不只是硬件需要面對的機(jī)遇和挑戰(zhàn)?!爱悩?gòu)系統(tǒng)增加了對可擴(kuò)展軟件方法的需求,這種軟件應(yīng)該能在堆棧的不同層級工作,” Trish Damkroger指出,“英特爾推出了oneAPI 行業(yè)計(jì)劃來幫助應(yīng)對這一挑戰(zhàn)。”
圖六 英特爾在本次HPC China上分享的oneAPI技術(shù)演示
oneAPI為充分簡化跨CPU、GPU、FPGA及其他加速器的異構(gòu)計(jì)算應(yīng)用開發(fā)及優(yōu)化而生,肩負(fù)著推進(jìn)和落實(shí)XPU戰(zhàn)略的重任。它不僅能夠提供編譯器、庫和分析工具,還支持AI和HPC應(yīng)用加速的AMX、VNNI/DL Boost 指令和內(nèi)存技術(shù)等功能。其目標(biāo),就是為更多相關(guān)應(yīng)用負(fù)載提供更優(yōu)的支持,并實(shí)現(xiàn)異構(gòu)計(jì)算“一次編譯,處處運(yùn)行”。
圖七 英特爾現(xiàn)在已大部分就緒,明后兩年就會完全就緒的高性能計(jì)算產(chǎn)品組合
從硬件到軟件再到產(chǎn)品組合,從計(jì)算到存儲再到互聯(lián),英特爾向高性能計(jì)算市場交出的答案就是豐富、多維、軟硬兼施的完整產(chǎn)品技術(shù)組合。至強(qiáng)是這一組合現(xiàn)階段的核心,上文提及的oneAPI、傲騰持久內(nèi)存和DAOS也同樣是其不可或缺的部分。Sapphire Rapids和Ponte Vecchio則會為這個組合第一次帶來“雙主角”的配置。
不過更值得說明的是,不論是現(xiàn)階段以CPU為主的組合,還是未來CPU與GPU協(xié)作的組合,英特爾提供這種組合,而非單獨(dú)CPU支持的根本原因,都是要實(shí)現(xiàn)“均衡”。英特爾對這種均衡的解讀,一是要實(shí)現(xiàn)數(shù)據(jù)全鏈路,包括計(jì)算、存儲和傳輸?shù)木馓嵘蛢?yōu)化,以避免平臺出現(xiàn)性能短板和瓶頸;二是要實(shí)現(xiàn)對通用計(jì)算和專用加速能力的兼顧和均衡提升,以滿足高性能計(jì)算應(yīng)用多樣化+差異化+融合化的需求。而不論是這兩種解讀中的哪一種,目前整個業(yè)界幾乎也只有英特爾具備足夠的實(shí)力將之實(shí)現(xiàn)。
圖八 英特爾在本次HPC China現(xiàn)場展示的部分高性能計(jì)算硬件產(chǎn)品
高性能計(jì)算要持續(xù)創(chuàng)新:超級力量和生態(tài)合作需并重
雖然Sapphire Rapids和Ponte Vecchio的指標(biāo)非常誘人,但它肯定不是英特爾在高性能計(jì)算領(lǐng)域的創(chuàng)新終點(diǎn)。同樣,盡管E級計(jì)算現(xiàn)在還是一個頗有難度的創(chuàng)新目標(biāo),但它也遲早會成為高性能計(jì)算創(chuàng)新史書上的里程碑之一。
在它們達(dá)成之后技術(shù)和產(chǎn)業(yè)又會發(fā)生哪些新的變化,這才是大家目前更為好奇的話題。
雖然同樣沒有一個標(biāo)準(zhǔn)答案,但英特爾CEO帕特.基辛格最近提出的“四大超級技術(shù)力量”,或許可以幫我們撥開些許迷霧?!斑@四種超級力量分別是無處不在的計(jì)算、無處不在的連接、從云到邊緣的基礎(chǔ)設(shè)施,以及人工智能,”英特爾公司市場營銷集團(tuán)副總裁、中國區(qū)行業(yè)解決方案部總經(jīng)理梁雅莉表示:“每一個超級力量都有其特質(zhì),同時(shí)也相得益彰,創(chuàng)造了強(qiáng)大的全新可能性?!?/p>
圖九 英特爾公司市場營銷集團(tuán)副總裁、中國區(qū)行業(yè)解決方案部總經(jīng)理梁雅莉
雖然提到可能性,就會有很多種可能,但梁雅莉還是鎖定了一個重要的方向,即萬物智能化,它是在萬物數(shù)字化、萬物網(wǎng)絡(luò)化、萬物移動化和萬物云化基礎(chǔ)上衍生出來的更大變革?!八鼘⒆屓藗儗τ?jì)算的需求呈指數(shù)級增長,”梁雅莉表示:“具備E級計(jì)算能力的高性能計(jì)算,就是支持這個轉(zhuǎn)變的重要基礎(chǔ)設(shè)施之一?!?/p>
圖十 將賦能“萬物智能化”變革的四大超級技術(shù)力量
賦能萬物智能化的目標(biāo),肯定不是一家企業(yè)能夠達(dá)成的愿景。就像在高性能計(jì)算領(lǐng)域不能只靠一個CPU或GPU,要憑產(chǎn)品組合打天下,在實(shí)現(xiàn)如此創(chuàng)新愿景的過程中,英特爾也在呼喚來自廣泛生態(tài)系統(tǒng)合作伙伴的支持。
很明顯,合作伙伴的響應(yīng)很是積極——僅本次HPC China大會上,英特爾就聯(lián)合十五家合作伙伴,展示了它們在高性能計(jì)算系統(tǒng)和解決方案上的最新成果,其中三家的實(shí)物展示還“嵌入”到了英特爾展區(qū)中,它們分別是新華三集團(tuán)基于第三代英特爾至強(qiáng)可擴(kuò)展處理器、英特爾傲騰持久內(nèi)存、英特爾SSD Optimizer 存儲構(gòu)建的通用液冷服務(wù)器 H3C UniServer R4900 G5 以及整體液冷解決方案,聯(lián)想基于第三代英特爾至強(qiáng)可擴(kuò)展處理器的 ThinkSystem SD650 V2 溫水水冷服務(wù)器,以及同樣基于該款處理器的寶德HPC&AI集群解決方案。
圖十一 H3C UniServer R4900 G5服務(wù)器不僅提升了服務(wù)器性能,也可有效減低噪音,助力“雙碳”目標(biāo)實(shí)現(xiàn)
圖十二 聯(lián)想ThinkSystem SD650 V2溫水水冷服務(wù)器使用銅質(zhì)水回路實(shí)現(xiàn)成本縮減和更高散熱效率,能為要求嚴(yán)苛的 HPC 工作負(fù)載提供更可靠的支持
圖十三 寶德 HPC & AI 集群解決方案能充分釋放英特爾深度學(xué)習(xí)加速技術(shù)的潛能,助用戶獲得將HPC和AI有機(jī)融合的應(yīng)用體驗(yàn)
寫在最后
經(jīng)過多年發(fā)展,高性能計(jì)算終于吹響了向E級計(jì)算時(shí)代沖刺的總攻號角,此為“勢”正成。
英特爾與合作伙伴的關(guān)系更加密切、對創(chuàng)新的傳遞和放大更為明顯,此為“道”已顯。
英特爾高性能計(jì)算產(chǎn)品技術(shù)組合的成員越來越多維和豐富,搭配后還能帶來更強(qiáng)的加成效果,此為“術(shù)”漸精。
這種道、術(shù)、勢三合一帶來的天時(shí)+地利+人和,就是英特爾持續(xù)發(fā)力高性能計(jì)算創(chuàng)新的底氣所在。
同樣,一場席卷全球的新冠肺炎,也為更多人接觸、了解甚至是應(yīng)用高性能計(jì)算帶來了一個意料之外的契機(jī),也讓大家認(rèn)識到,正是由于人類對于包括健康在內(nèi)的更美好生活永不停歇的追求,才會對高性能計(jì)算不斷提出更高的要求,同時(shí)也推動著高性能計(jì)算的普及。
當(dāng)追求美好遇見勇于創(chuàng)新,會有怎樣的化合作用?過去的,我們已經(jīng)見證;未來的,讓我們拭目以待。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。