0
“沒有高性能計(jì)算,就沒有大模型?!?br/>
7 月,在北京新中關(guān)購(gòu)物中心的俄式廚房,清華韓旭這樣對(duì)雷峰網(wǎng)形容道。
自 2023 年以來(lái),伴隨大模型崛起的除了芯片,還有芯片與模型之間的中間層——系統(tǒng)軟件優(yōu)化,其中高性能計(jì)算(HPC)背景出身的研究員參與占比大幅攀升。但對(duì)大眾來(lái)說(shuō),HPC 之于 LLM 的戰(zhàn)略意義仍是晦澀艱深的,直到 DeepSeek 殺出重圍,軟硬協(xié)同的力量被具象化,他們才被更多關(guān)注。
事實(shí)上,早在中國(guó)大模型的研究歷史初期,HPC 科學(xué)家的身影就占了一席之地。2020 年 10 月國(guó)慶前后,智源為研究大模型購(gòu)入十臺(tái)英偉達(dá) v100,就是清華高性能計(jì)算研究所的團(tuán)隊(duì)前去幫忙搭建。悟道算法團(tuán)隊(duì)用這個(gè)小集群訓(xùn)練了中國(guó)最早的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型 CPM,韓旭也參與其中,切身體會(huì)了 HPC 的分量。
芯片廠商賣卡通常只提供一整套機(jī)房設(shè)計(jì)方案的說(shuō)明書,具體搭建還需要專門的系統(tǒng)人才。而將機(jī)器搭起來(lái)、到通過(guò)上層軟件編寫讓機(jī)器更快跑起來(lái)、再到大模型訓(xùn)練時(shí)將大規(guī)模參數(shù)的存儲(chǔ)與計(jì)算分?jǐn)偟礁鱾€(gè)機(jī)器上、并解決機(jī)器與機(jī)器之間的通信問題,使模型訓(xùn)練地又好又快,每一步都屬于高性能計(jì)算的知識(shí)范疇。
以計(jì)算為例。大模型的計(jì)算是算矩陣乘法(即“算子”),矩陣乘法的計(jì)算是一個(gè)矩陣一個(gè)矩陣地算,大模型的參數(shù)規(guī)模大,計(jì)算矩陣時(shí)也要切成不同大小,以 100x100 的矩陣為例,在計(jì)算時(shí)是將其切成十橫十豎、還是斜對(duì)角切,算出來(lái)的結(jié)果也會(huì)不一樣——雖然切法可以窮盡,但每改一次就會(huì)牽一發(fā)動(dòng)全身,大模型訓(xùn)練即使單次試錯(cuò)也成本不低。
因此,盡管不是一門新學(xué)科,但在中間層降本增效的 HPC 技術(shù)在大模型時(shí)代天然就扮演了核心角色。
中國(guó)的 HPC 發(fā)展經(jīng)歷了三個(gè)主要階段:從上世紀(jì)七八十年代自研或仿制計(jì)算機(jī)(如 DJS 系列計(jì)算機(jī)、 銀河、神州超級(jí)計(jì)算機(jī)等),到九十年代拋棄大規(guī)模復(fù)雜硬件工程,轉(zhuǎn)向直接從外部采購(gòu)工作站、研究硬件上的可擴(kuò)展軟件系統(tǒng),再到 21 世紀(jì)后超算三大家(曙光公司、國(guó)防科大與江南計(jì)算所)開始用自研處理器、芯片構(gòu)建超級(jí)計(jì)算機(jī)。
這當(dāng)中,第二個(gè)階段是中國(guó) HPC 發(fā)展的一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn),而清華高性能計(jì)算研究所(以下簡(jiǎn)稱“高性能所”)扮演了先驅(qū)角色之一。
上世紀(jì)九十年代,他們率先放棄從零開始、每塊 CPU 每臺(tái)機(jī)器都要自研的路線,從外部采購(gòu)了多臺(tái)工作站,通過(guò)高速網(wǎng)絡(luò)將其連接在一起、再將工作站上的并行計(jì)算軟件搭好,組成了高性能計(jì)算機(jī)(又稱“集群系統(tǒng)”),效果很好。之后中國(guó)的 HPC 研究開始騰飛,打破了美國(guó)與日本的壟斷局面。
相比其他院校,如中科院計(jì)算所、國(guó)防科大等單位能投入千人規(guī)模研究,清華的性質(zhì)決定了其在 HPC 上無(wú)法投入大量人力,于是 1999 年高性能所成立后,研究重點(diǎn)也轉(zhuǎn)向了面向大規(guī)模集群系統(tǒng)的軟件優(yōu)化與應(yīng)用,在面向大規(guī)模集群的計(jì)算、存儲(chǔ)與通信問題中積累了豐富的經(jīng)驗(yàn)。
這也使得,過(guò)去的 25 年間,清華高性能所在 HPC、大數(shù)據(jù)、云計(jì)算、人工智能浪潮中均能屹立不倒。例如,大模型有 5 個(gè)關(guān)鍵環(huán)節(jié):數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、訓(xùn)練、微調(diào)與推理,計(jì)算、存儲(chǔ)與通信幾乎貫穿了每個(gè)環(huán)節(jié)。
而高性能所在歷經(jīng)多個(gè)浪潮后仍能歷久彌新,還要從一個(gè)人的故事說(shuō)起,他就是中國(guó) HPC 與存儲(chǔ)領(lǐng)域的著名科學(xué)家:鄭緯民。
一、繼往開來(lái)
鄭緯民的研究起點(diǎn),是 24 歲在清華西主樓一區(qū)四層的并行/分布實(shí)驗(yàn)室,見過(guò) PDP-1/23、03 等當(dāng)時(shí)最好的計(jì)算機(jī),以及其他小型計(jì)算機(jī)、S-1280 等計(jì)算機(jī)。
那是上世紀(jì)七十年代,動(dòng)蕩的歲月還未結(jié)束,但在這個(gè)小小的實(shí)驗(yàn)室里,一個(gè)青年技術(shù)員卻看到了技術(shù)變革的光輝。從此,他的一生都與研究計(jì)算機(jī)綁在了一起。
或許是時(shí)代命運(yùn)與個(gè)人視野的反差,鄭緯民在后來(lái)并沒有成為一個(gè)大眾刻板印象中的科學(xué)家。在他的身上,兩種沖突的特征得到天然的融合:在科學(xué)研究中,他有著技術(shù)人員對(duì)技術(shù)創(chuàng)新的普遍嚴(yán)謹(jǐn)與敬畏;但生活里,鄭緯民卻并不沉默寡言,而是常常開懷大笑、高談闊論,聲音洪亮不輸年輕學(xué)生。
談及大學(xué)時(shí)代的波折,也只有簡(jiǎn)單的一句“專業(yè)稍有荒廢”。
1965 年,鄭緯民從浙江寧波考到北京,成為了清華大學(xué)自動(dòng)控制系(今清華計(jì)算機(jī)系的前身)的一名本科生。沒多久文化大革命爆發(fā),鄭緯民的學(xué)業(yè)也受到影響,計(jì)算機(jī)相關(guān)理論與專業(yè)知識(shí)基本靠自學(xué)。好在運(yùn)氣不錯(cuò),1970 年鄭緯民順利畢業(yè),并留校任教加入了清華計(jì)算機(jī)大教研組,從助教做起。
1978 年,計(jì)算機(jī)大教研組被拆分成計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)、計(jì)算機(jī)系統(tǒng)及應(yīng)用、微型計(jì)算機(jī)三個(gè)教研組,鄭緯民被分到了計(jì)算機(jī)系統(tǒng)及應(yīng)用組中。那時(shí)鄭緯民 30 出頭,好學(xué)心還是很大,想解決更難的問題,但深感專業(yè)基礎(chǔ)不扎實(shí)的掣肘,于是 1979 年又去讀了清華計(jì)算機(jī)系的碩士。
1982 年碩士畢業(yè)后,鄭緯民又分別到美國(guó)、英國(guó)訪問了一段時(shí)間,先后在美國(guó)紐約州立大學(xué)石溪分校與英國(guó)南安普頓大學(xué)當(dāng)研究員。這兩段海外經(jīng)歷大大拓寬了他的研究視野,提升了他對(duì)計(jì)算機(jī)體系結(jié)構(gòu)的專業(yè)理解,同時(shí)也將他的研究品味從“跟上國(guó)際頂尖”轉(zhuǎn)向了“超越國(guó)際頂尖”。
鄭緯民
回國(guó)沒多久,鄭緯民就接任了計(jì)算機(jī)系統(tǒng)及應(yīng)用教研組的主任一職,開始參與清華的大規(guī)模計(jì)算集群系統(tǒng)(cluster)研究,即高性能計(jì)算機(jī)。
原先國(guó)內(nèi)研究 HPC 是從零開始,耗時(shí)長(zhǎng)、成本高。鄭緯民等人嘗試一段時(shí)間后,果斷放棄,從外部直接采購(gòu)了多臺(tái)計(jì)算力強(qiáng)的工作站、將其連接起來(lái),1996 年做出了國(guó)內(nèi)最早的微機(jī)集群系統(tǒng)——清華同方探索 108,并將其推向市場(chǎng),在 1999 年國(guó)慶 50 周年慶?;顒?dòng)中用于北京市氣象局的天氣保障。
由于貢獻(xiàn)突出,鄭緯民等人獲得國(guó)家科技進(jìn)步二等獎(jiǎng)。
也是在 1999 年,清華進(jìn)行組織架構(gòu)改革,將計(jì)算機(jī)系統(tǒng)及應(yīng)用、微型計(jì)算機(jī)兩個(gè)教研組合并成了高性能計(jì)算技術(shù)研究所,首任所長(zhǎng)由時(shí)任清華計(jì)算機(jī)系主任的周立柱教授兼任,2000 年鄭緯民接任。
鄭緯民當(dāng)所長(zhǎng)后,繼續(xù)主導(dǎo)并成功研制了一系列集群計(jì)算機(jī)。但隨著集群計(jì)算機(jī)的研發(fā)越來(lái)越復(fù)雜,要求投入的人力規(guī)模也越來(lái)越大,HPC 的研究主力就從高校轉(zhuǎn)向了國(guó)家專門成立的超算中心與大型研究所。清華高性能所在鄭緯民的帶領(lǐng)下,逐漸轉(zhuǎn)向 HPC 應(yīng)用與系統(tǒng)結(jié)構(gòu)優(yōu)化,以軟件開發(fā)為主。
楊廣文與薛巍分別是 1996 年、2003 年到鄭緯民組當(dāng)博士后,也歷經(jīng)了這一轉(zhuǎn)折期。他們后來(lái)將 HPC 應(yīng)用于解決大規(guī)模的科學(xué)計(jì)算問題,一共獲得過(guò)兩次全球高性能計(jì)算領(lǐng)域最高獎(jiǎng)——戈登貝爾獎(jiǎng),一次是天氣預(yù)報(bào),另一次是地震模擬,分別在 2016、2017 年,其中 2016 年是中國(guó)首次獲獎(jiǎng)。
楊廣文 2004 年接任高性能所所長(zhǎng),此后又擔(dān)任無(wú)錫超算中心主任,其主導(dǎo)運(yùn)維的“神威·太湖之光”超級(jí)計(jì)算機(jī)是中國(guó)超算的驕傲。楊廣文團(tuán)隊(duì)為其研發(fā)了應(yīng)用支撐系統(tǒng),取得多項(xiàng)領(lǐng)先成果。Top500 榜單是評(píng)選全球“最快”超級(jí)計(jì)算機(jī)的 500 強(qiáng),中國(guó)曾有三臺(tái)超級(jí)計(jì)算機(jī)是世界“第一”,神威·太湖之光就是其中之一、2016 年登上 Top500 榜首。
楊廣文(左)與薛?。ㄓ遥?/span>
HPC 從一開始就是為了解決大規(guī)模的計(jì)算需求而生,而許多關(guān)乎國(guó)計(jì)民生的問題求解都依賴大規(guī)模的計(jì)算。
以天氣預(yù)報(bào)為例,天氣預(yù)報(bào)具有強(qiáng)時(shí)效性,同時(shí)一個(gè)地區(qū)(如北京)的天氣預(yù)測(cè)往往要?jiǎng)澐譃槎鄠€(gè)不同的區(qū)域(如海淀、朝陽(yáng)、豐臺(tái)等)進(jìn)行計(jì)算,因此計(jì)算量極大。計(jì)算規(guī)模大,同時(shí)要求計(jì)算速度快、計(jì)算精度高——這只有超級(jí)計(jì)算機(jī)能解決。
一開始,計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)的優(yōu)化以計(jì)算為主,但隨著計(jì)算機(jī)的普及與互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)變得愈發(fā)重要。鄭緯民敏銳地察覺到了這一變化,預(yù)感未來(lái)系統(tǒng)結(jié)構(gòu)的研究會(huì)從“以計(jì)算為中心”轉(zhuǎn)向“以存儲(chǔ)為中心”,因?yàn)閿?shù)據(jù)處理的前提是數(shù)據(jù)的存儲(chǔ)。
于是,鄭緯民開始將團(tuán)隊(duì)的研究重心從傳統(tǒng) HPC 轉(zhuǎn)向了存儲(chǔ)。
在鄭緯民之前,國(guó)內(nèi)沒有大型存儲(chǔ),技術(shù)被海外壟斷、價(jià)格也居高不下。鄭緯民帶領(lǐng)團(tuán)隊(duì)里的舒繼武、薛巍等人攻克了這個(gè)難題:他們從 0 到 1 突破,在國(guó)內(nèi)首次研究出可擴(kuò)展的大規(guī)模存儲(chǔ)區(qū)域網(wǎng)絡(luò)(Storage Area Network,SAN),將大規(guī)模 SAN 存儲(chǔ)的產(chǎn)品價(jià)格打了下來(lái)。
除了大規(guī)模 SAN 存儲(chǔ)外,鄭緯民還曾創(chuàng)新性地提出社區(qū)共享的云存儲(chǔ)思路(如今云盤技術(shù)的基本原理),并主持開發(fā)了國(guó)內(nèi)首個(gè)云計(jì)算平臺(tái)“清華云”。
2006 年,鄭緯民團(tuán)隊(duì)余宏亮的研究論文被計(jì)算機(jī)系統(tǒng)頂會(huì) Eurosys 接收,是中國(guó)大陸學(xué)者首次在 Eurosys 上發(fā)表的論文。2011 年,鄭緯民團(tuán)隊(duì)的工作 FastScale 又被全球計(jì)算機(jī)存儲(chǔ)頂會(huì) FAST 接收,是國(guó)內(nèi)高校在 FAST 上獨(dú)立發(fā)表的首篇文章。
在鄭緯民之后,十?dāng)?shù)年間,高性能所的團(tuán)隊(duì)在系統(tǒng)方向又獲得多個(gè)“大陸第一”,包括:國(guó)內(nèi)大學(xué)首篇 OSDI 頂會(huì)論文、國(guó)內(nèi)首次躋身 IO500(全球存儲(chǔ) 500 強(qiáng)排名)榜首等;甚至“國(guó)際首次”,如全球第一個(gè)提出 Open_Channel 閃存存儲(chǔ)。
分別在 1999、2002 年到鄭緯民組當(dāng)博士后的舒繼武與武永衛(wèi),是最早跟著鄭緯民研究存儲(chǔ)的青年學(xué)生,后來(lái)也成為了存儲(chǔ)方向的接班人。如今清華高性能所是中國(guó)計(jì)算機(jī)存儲(chǔ)的佼佼者,在閃存、分布式內(nèi)存、分離式內(nèi)存與分布式文件系統(tǒng)等領(lǐng)域均有突出成果,其余星星點(diǎn)點(diǎn)的技術(shù)突破更是不計(jì)其數(shù)。
舒繼武(左)與武永衛(wèi)(右)
雖然高性能所的研究?jī)?nèi)容從集群轉(zhuǎn)向了軟件,但與硬件的關(guān)系一直十分緊密。這是因?yàn)?,面向系統(tǒng)結(jié)構(gòu)優(yōu)化的軟件編寫天然就要求研究者熟悉底層的硬件環(huán)境,包括計(jì)算機(jī)與芯片本身。同樣是以天氣預(yù)報(bào)為例:
二十年前,鄭緯民團(tuán)隊(duì)用 HPC 研究天氣預(yù)報(bào),跑在計(jì)算機(jī)上的程序?qū)嶋H是天氣預(yù)報(bào)專業(yè)的人寫的——當(dāng)時(shí)計(jì)算機(jī)結(jié)構(gòu)還比較簡(jiǎn)單,他們只需要懂 C 語(yǔ)言和 MPI(一個(gè)跨語(yǔ)言的通信協(xié)議)就能寫出優(yōu)秀的天氣預(yù)報(bào)軟件。但近幾年這個(gè)模式走不通了,因?yàn)楝F(xiàn)在的計(jì)算機(jī)結(jié)構(gòu)變得更復(fù)雜,如果只懂這兩樣、不懂機(jī)器,寫出來(lái)的軟件性能會(huì)大打折扣。
可以說(shuō),“軟硬協(xié)同”是寫在清華高性能所基因里的一個(gè)研究思想。
原先鄭緯民在清華上兩門課,一門是面向本科生的《計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)》、還有一門是面向研究生的《高級(jí)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)》,許多系統(tǒng)研究方向的學(xué)生都是通過(guò)這兩門課的教材與 PPT 入門。但選擇系統(tǒng)方向的學(xué)生既要懂硬件,又要懂軟件,還要有超強(qiáng)的寫代碼能力,即使是清華學(xué)生也??嫉头?。
這也注定了系統(tǒng)研究是一個(gè)獨(dú)孤求敗的賽道。系統(tǒng)結(jié)構(gòu)領(lǐng)域的頂會(huì)一年所接收論文最多不超過(guò) 300 篇,據(jù)鄭緯民的說(shuō)法,“高性能所的老師平均每人每年只能招 0.7 個(gè)博士生、有時(shí)候一年也招不到”。但同時(shí),這又是一個(gè)極具決定意義的技術(shù)方向,所以高性能所每培養(yǎng)一個(gè)碩博生,基本都被國(guó)內(nèi)大廠哄搶。
鄭緯民所培養(yǎng)的學(xué)生,除了留在清華任教的學(xué)者,進(jìn)入工業(yè)界的還有華為海思首席科學(xué)家廖恒、網(wǎng)易有道 CEO 周楓、美團(tuán)首席科學(xué)家夏華夏等等,國(guó)內(nèi)系統(tǒng)架構(gòu)方向的頂尖人才很多都與鄭緯民或多或少有關(guān)。此外,鄭緯民的學(xué)生還有對(duì)標(biāo) lululemon 瑜伽服品牌 Halara 的創(chuàng)始人張小沛等等,每個(gè)人的發(fā)展并不局限。
少為人知的是,DeepSeek 主導(dǎo)軟硬協(xié)同設(shè)計(jì)的核心成員中,就有 4 位從清華高性能所走出的青年學(xué)生。
此前,HPC 科學(xué)家并不活躍在聚光燈下。超級(jí)計(jì)算機(jī)雖是國(guó)家重器,卻距離大眾太遠(yuǎn)。近兩年,大模型家喻戶曉,在大模型硝煙中扮演“特種兵”的 Infra 人才也被推到了臺(tái)前。尤其是 DeepSeek 出圈后,更多人看到了系統(tǒng)優(yōu)化的價(jià)值——大模型突破的關(guān)鍵,不只在算法層,還有系統(tǒng)層。
二、一個(gè)新的計(jì)算 workload
2015 年,翟季冬去斯坦福大學(xué)訪問了一年,那是他第一次直觀感受到人工智能的浪潮。
當(dāng)時(shí),位于灣區(qū)的兩大計(jì)算機(jī)頂尖高校斯坦福和伯克利都在如火如荼地開展 AI 研究,從算法到 Infra。于是 2016 年回國(guó)后,他也將研究方向從傳統(tǒng)的科學(xué)計(jì)算轉(zhuǎn)向了 AI 系統(tǒng)軟件。
那是卷積為王的時(shí)代。當(dāng)時(shí)商湯剛起步,在清華附近也有辦公室,翟季冬團(tuán)隊(duì)與商湯建立了合作關(guān)系,研究如何將卷積模型訓(xùn)練地更好、推理跑得更快。但卷積類模型對(duì)計(jì)算的需求遠(yuǎn)沒有大模型那么高,大模型訓(xùn)練需要成百上千張加速卡,而卷積模型一般只要 8 張、16 張,所以他們當(dāng)時(shí)開展的是小規(guī)模的訓(xùn)推優(yōu)化。
在翟季冬看來(lái),HPC 的研究本質(zhì)一直沒有變,都是關(guān)注如何把跑在計(jì)算機(jī)上的程序優(yōu)化地更快、更好,“只是上面的應(yīng)用負(fù)載(workload)變了”,從天氣預(yù)報(bào)程序變成了人工智能程序。
翟季冬的本科畢業(yè)于電子科技大學(xué),2003 年以年級(jí)第一的成績(jī)保送到清華。那時(shí)他有兩個(gè)讀博方向可選,一個(gè)是人工智能所,另一個(gè)是高性能所。相比算法,翟季冬更喜歡需要編程、偏系統(tǒng)的高性能計(jì)算,幾乎剎那之間就選擇了HPC——“在給定硬件上探索怎么把一個(gè)程序的性能發(fā)揮到極致”,這個(gè)話題特別吸引翟季冬。
翟季冬
入學(xué)后,翟季冬跟著鄭緯民和陳文光讀博。陳文光也是鄭緯民的博士生,那一年剛從外面結(jié)束創(chuàng)業(yè)、回清華當(dāng)老師,由于還沒有博士招生資格,就幫著鄭緯民帶學(xué)生,在具體研究上給了翟季冬許多指導(dǎo),所以翟季冬也一直將陳文光視為博士期間的導(dǎo)師。
與翟季冬不同,陳文光選擇 HPC 是偶然:
陳文光的中學(xué)就讀于清華附中,那時(shí)班上有位同學(xué)的父親是清華的王克宏老師,王克宏當(dāng)時(shí)正在研究 AI,陳文光很感興趣,于是 1990 年入讀清華后就開始跟著王克宏、石純一研究 AI。但大四推研時(shí),這兩位老師都沒有招生名額了,王鼎興和鄭緯民組還有,于是陳文光就去了鄭緯民組讀博,由此進(jìn)入了高性能計(jì)算領(lǐng)域。
讀博期間,陳文光研究的是面向大規(guī)模集群系統(tǒng)的自動(dòng)并行編譯器。不過(guò),當(dāng)時(shí)陳文光的志向并不在科研,而是一心想創(chuàng)業(yè),所以博士畢業(yè)后就沒有選擇留校,而是投入了互聯(lián)網(wǎng)的創(chuàng)業(yè)大軍中,面向 C 端用戶開發(fā)用于不同平臺(tái)購(gòu)物比較的軟件。
但這個(gè)模式只適用于類似書這樣的標(biāo)準(zhǔn)商品?;ヂ?lián)網(wǎng)泡沫破裂后他們靠著外包軟件開發(fā)支撐了幾年,終不是長(zhǎng)久之計(jì)。剛好當(dāng)時(shí)國(guó)內(nèi)興起自研國(guó)產(chǎn) CPU 的熱潮,陳文光想既然有 CPU 了、那就肯定需要編譯器——編譯器的作用是將上層應(yīng)用的程序代碼轉(zhuǎn)成底下芯片上能運(yùn)行的機(jī)器代碼,于是重新加入了高性能所。
擔(dān)任教職后,陳文光繼續(xù)在自動(dòng)并行編譯上做了大量探索,同時(shí)拓展到串行編譯器的性能優(yōu)化,但很快發(fā)現(xiàn)這塊的研究已接近天花板:
2010 年,他們的一個(gè)編譯器工作被編譯頂會(huì) PLDI 接收,結(jié)果卻讓陳文光十分灰心,因?yàn)殡m然他們?cè)谶@個(gè)編譯器上寫了大量復(fù)雜的代碼,整體性能優(yōu)化卻只提升了 1%。于是 2010 年之后,陳文光就不再局限于編譯器,而是往上一層看,轉(zhuǎn)向了圖計(jì)算的研究。
陳文光
受導(dǎo)師鄭緯民的影響,陳文光一直以“做出有全球影響力的工作”的目標(biāo)來(lái)要求自己,不甘于現(xiàn)狀。在帶翟季冬的時(shí)候,陳文光也經(jīng)常跟他強(qiáng)調(diào),不要追求論文數(shù)量,而是要做有用的研究。鄭緯民教做人做事,陳文光教研究品味,所以翟季冬從博士期間就開始了對(duì)自己的高要求。
讀博時(shí),翟季冬主要研究高性能計(jì)算機(jī)的性能評(píng)測(cè)。當(dāng)時(shí)高性能所有一個(gè)國(guó)家項(xiàng)目,主要是對(duì)國(guó)內(nèi)研制的大規(guī)模機(jī)器性能(包括網(wǎng)絡(luò)、通信與內(nèi)存)做評(píng)測(cè),一般是成百上千臺(tái)的規(guī)模、跟現(xiàn)在的大規(guī)模數(shù)據(jù)中心類似。這就要求有一套完整的評(píng)測(cè)理論與方法。翟季冬的博士論文就是寫 HPC 性能預(yù)測(cè),用一臺(tái)機(jī)器預(yù)測(cè)出更大規(guī)模機(jī)器上的程序性能。
博士畢業(yè)后,翟季冬完全沒考慮過(guò)工業(yè)界的機(jī)會(huì),連簡(jiǎn)歷都沒有投過(guò),而是留校當(dāng)了兩年博士后,2012 年開始當(dāng)教職。他先是與薛巍一起研究如何在國(guó)產(chǎn)高性能計(jì)算機(jī)(如“神威藍(lán)光”)上讓天氣預(yù)報(bào)等應(yīng)用程序跑得更快,之后又在 2014 年開始接手了清華的學(xué)生超算競(jìng)賽團(tuán)隊(duì)。
在翟季冬的帶領(lǐng)下,清華超算第二年就開始開掛——2015 年同時(shí)獲得三大超算比賽 SC、ISC 與 ASC 的冠軍,2018 年又再度獲得大滿貫。截至目前,清華一共在超算比賽中奪冠 18 次,翟季冬帶隊(duì)時(shí)就獲得過(guò) 15 次。
全球三大超算比賽面向本科生,比賽內(nèi)容是在一個(gè)小規(guī)模的集群上給定一些題目,在同等功耗限制下看誰(shuí)跑得快,本質(zhì)上考核參賽者對(duì)計(jì)算機(jī)性能分析與優(yōu)化的能力。因此,打過(guò)超算比賽的學(xué)生在 HPC 相關(guān)基礎(chǔ)知識(shí)上也會(huì)更扎實(shí)。許多參賽學(xué)生如謝磊、唐適之、何家傲、鄭立言、黃可釗在本科畢業(yè)后都繼續(xù)跟著翟季冬讀博,在翟季冬轉(zhuǎn)向“HPC+AI”后也在這個(gè)方向做了深耕。
值得注意的是,DeepSeek 大模型 Infra 的核心成員趙成鋼在清華讀本科時(shí)也是超算團(tuán)隊(duì)的學(xué)生,在翟季冬的指導(dǎo)下三次奪冠。
趙成鋼的碩士是在清華叉院讀,主攻 Infra 框架層的系統(tǒng)優(yōu)化軟件開發(fā),2024 年碩士畢業(yè),翟季冬也是他的碩士答辯委員。翟季冬記得當(dāng)時(shí)問他“準(zhǔn)備去哪工作”,趙成鋼說(shuō)“去 DeepSeek 研究 AI 框架”,當(dāng)時(shí)翟季冬還有些意外,因?yàn)闆]聽過(guò)這家公司,但他認(rèn)可趙成鋼所選的方向是十分重要的。
翟季冬在 2017 年轉(zhuǎn)向 AI 系統(tǒng)軟件開發(fā)時(shí),恰逢新浪潮的萌芽期:那一年,Transformer 誕生,2018 年谷歌又基于 Transformer 發(fā)布了 BERT,引起廣泛關(guān)注,翟季冬團(tuán)隊(duì)也開始關(guān)注。那時(shí)候,他們也探索了圍繞 Transformer 的系統(tǒng)優(yōu)化,包括底層的編譯。
但 Transformer 的出現(xiàn)并沒有立即改變 AI 對(duì) HPC 的低訴求。翟季冬團(tuán)隊(duì)雖有探索,也因處在技術(shù)生澀期而走了不少?gòu)澛?。所以在傳統(tǒng)計(jì)算探索多年后、尋找下一個(gè)計(jì)算 workload 時(shí),清華高性能所的年輕教授反而將目光轉(zhuǎn)向了圖計(jì)算,而非 AI。
2012 年前后,社交網(wǎng)絡(luò)的興起催生了大規(guī)模的圖分析需求。圖計(jì)算也涉及到上百臺(tái)機(jī)器集群的運(yùn)轉(zhuǎn),要解決底層系統(tǒng)的數(shù)據(jù)丟失與容錯(cuò)、負(fù)載均衡等問題。那時(shí)高性能所有兩個(gè)團(tuán)隊(duì)涉及圖計(jì)算,陳文光組與武永衛(wèi)組,不過(guò)兩個(gè)組是分開研究,武永衛(wèi)組從系統(tǒng)存儲(chǔ)切入,陳文光從編譯器切入。
受谷歌 MapReduce(專門針對(duì)大規(guī)模數(shù)據(jù)集的編程模型)自動(dòng)并行的思路啟發(fā),陳文光與團(tuán)隊(duì)從數(shù)據(jù)結(jié)構(gòu)、調(diào)度負(fù)載均衡及并行計(jì)算等 HPC 方法論,分別在 2015、2016 年提出了針對(duì)圖計(jì)算的單機(jī)圖處理引擎 GridGraph 與分布式系統(tǒng)雙子星,計(jì)算速度都是當(dāng)時(shí)的 SOTA。尤其是雙子星,速度比當(dāng)時(shí) CMU 推出的高性能分布式圖并行計(jì)算框架 PowerGraph 還要快幾乎 20 倍。
陳文光一直有個(gè)目標(biāo),就是開發(fā)出能被全世界廣泛使用的軟件,像伯克利的 PostgreSQL、Apache Spark 等一樣。它們的路徑都是先開源,然后孵化公司、做成系統(tǒng)在全世界推廣。于是 2016 年陳文光又萌生了創(chuàng)業(yè)的念頭,拉了他的四位學(xué)生——洪春濤、朱曉偉、林恒、李愷威,在北京創(chuàng)立了費(fèi)馬科技。
2020 年,費(fèi)馬科技被螞蟻集團(tuán)以數(shù)億人民幣的價(jià)格收購(gòu)——這次收購(gòu)主要是對(duì)人才的收購(gòu),因?yàn)槲浵伨劢怪Ц顿J款,整個(gè)大場(chǎng)景是金融風(fēng)控,對(duì)圖計(jì)算有大量需求。被收購(gòu)后,費(fèi)馬團(tuán)隊(duì)一同并入螞蟻集團(tuán),包括陳文光。2022 年,陳文光還被任命為螞蟻技術(shù)研究院院長(zhǎng)。
為了避免清華與螞蟻之間的產(chǎn)權(quán)沖突,2020 年被收購(gòu)后,陳文光開始為學(xué)校科研尋找圖計(jì)算以外的研究方向。也是在這一年,AI 與 HPC 的緣分終于降臨——秋天,陳文光團(tuán)隊(duì)受智源邀請(qǐng)去搭建機(jī)器,以支持一個(gè)新的計(jì)算 workload:
大模型。
三、一支“特種兵”
1024 張 A100 是什么概念?
今天許多 AI 算法研究員已經(jīng)對(duì)這個(gè)數(shù)字見怪不怪,但 2020 年 OpenAI 宣稱 GPT-3 的訓(xùn)練用 1024 張英偉達(dá) A100 跑了 34 天時(shí),所有人都震驚了。然而,這個(gè)數(shù)字在超算面前卻是“小巫見大巫”。
以神威·太湖之光為例,其由 40 個(gè)運(yùn)算機(jī)柜組成,每個(gè)機(jī)柜包含 1024 塊處理器——也就是說(shuō),從大的機(jī)器規(guī)模上來(lái)看,支撐 GPT-3 的集群只是神威·太湖之光超算的 1/40。因此,清華算法團(tuán)隊(duì)在決定研究大模型后,首先就想到了大模型背后龐大計(jì)算集群的締造者們——清華高性能所。
2020 年 10 月,陳文光團(tuán)隊(duì)的助理研究員韓文弢率先被邀請(qǐng)到智源搭建十臺(tái)英偉達(dá) v100,同行的還有高性能所的幾位學(xué)生,曹煥琦、陳晟祺、李岱軒與孫楨波。
這臺(tái)小規(guī)模的機(jī)器集群支持劉知遠(yuǎn)團(tuán)隊(duì)完成了預(yù)訓(xùn)練語(yǔ)言模型 CPM,不過(guò) CPM 的參數(shù)規(guī)模只有幾十億,所以高性能所的支持沒有延伸到更廣的系統(tǒng)優(yōu)化上,而是停留在機(jī)器搭建,韓文弢后來(lái)也沒有投身大模型,而是回歸了教職主業(yè)。
韓文弢
陳文光與翟季冬真正投身大模型,是 2021 年與唐杰、楊紅霞等人一起在國(guó)產(chǎn)超級(jí)計(jì)算機(jī)上訓(xùn)練百萬(wàn)億參數(shù) MoE 大模型。為此,他們主力開發(fā)了“八卦爐”大模型訓(xùn)練系統(tǒng)。
2020 年底,翟季冬在一個(gè)人工智能論壇上見到楊紅霞。楊紅霞當(dāng)時(shí)對(duì) GPT-3 非常有熱情,向翟季冬提議算法與算力人員合作,大家一起在一個(gè)大算力平臺(tái)上訓(xùn)一個(gè)超越 GPT-3 的大模型。翟季冬本就對(duì) AI 很感興趣,欣然答應(yīng)。(更多細(xì)節(jié)可以閱讀雷峰網(wǎng)往期報(bào)道《五道口大模型簡(jiǎn)史》)
他們選中的超算在山東。那時(shí)候,新一代神威機(jī)器即將竣工,也需要新的程序來(lái)測(cè)試。2021 年 1 月,翟季冬與楊紅霞就帶了高性能所的馬子軒、何家傲等學(xué)生去現(xiàn)場(chǎng)考察,當(dāng)時(shí),支撐大模型訓(xùn)練的軟件非常不足,無(wú)法支撐訓(xùn)練任務(wù)。"幾乎什么都沒有",從上層的并行框架、中間層的PyTorch到底層的算子庫(kù)——基本等于赤手空拳。加上之前超算沒有用來(lái)訓(xùn)練過(guò)大模型,所以大家心里都沒底。
陳文光與翟季冬的學(xué)生從 2 月開始駐場(chǎng),從底層算子編譯做起,到并行通信、大規(guī)模并行計(jì)算軟件編寫,搭建了一整套八卦爐系統(tǒng),中間遇上春節(jié)假期也幾乎沒有休息,最終在 5 月份將包含 174 萬(wàn)億參數(shù)的 MoE 模型在超算整機(jī)上跑了起來(lái)。
在這個(gè)過(guò)程中,清華高性能所團(tuán)隊(duì)的最大收獲不是誕生了多少創(chuàng)新的 idea,而是掌握了大模型的整體訓(xùn)練流程。
陳文光告訴雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)),在他讀博時(shí),組里正在研究可擴(kuò)展集群計(jì)算機(jī),當(dāng)中涉及到大量并行計(jì)算軟件的編寫,包括高速通信協(xié)議、并行調(diào)試器與高容錯(cuò)系統(tǒng)等等。后來(lái)投身大模型后,他發(fā)現(xiàn)“大模型的訓(xùn)練與 30 年前大家在集群計(jì)算機(jī)上遇到的問題一模一樣”,都是研究怎么降低延遲、提升帶寬,避免在內(nèi)存中重復(fù)拷貝通信協(xié)議、降低開銷等等,甚至用的解法也完全一樣。
在智源的萬(wàn)億級(jí)參數(shù)大模型中,高性能所的貢獻(xiàn)主要是算子的編寫優(yōu)化與訓(xùn)練框架設(shè)計(jì)。
通俗來(lái)說(shuō),編寫并行程序時(shí),通常要告知系統(tǒng)哪些部分可以并行、如何并行,以及訓(xùn)練過(guò)程中怎么處理出錯(cuò)情況和平衡機(jī)器負(fù)載等問題,整個(gè)過(guò)程需要編寫大量的代碼。通過(guò)軟件優(yōu)化后的“八卦爐”大模型訓(xùn)練系統(tǒng)只需要簡(jiǎn)單的任務(wù)描述,就能讓萬(wàn)億大模型在青島超算中心包含 10 萬(wàn)個(gè) CPU、4000 多萬(wàn)個(gè)核的大型機(jī)器上高效運(yùn)行。
HPC 的本質(zhì)是追求更快、更極致的計(jì)算性能,通過(guò)“榨干”底層的硬件潛力支持機(jī)器上層的訓(xùn)練程序?!案臁本鸵馕吨案 薄谙嗤挠布l件下,假設(shè)大模型的訓(xùn)練時(shí)間能從一小時(shí)縮短至十分鐘,那就相當(dāng)于節(jié)省了五十分鐘的算力消耗成本。這個(gè)真實(shí)存在的需求目標(biāo)很吸引翟季冬。
也是在參與悟道項(xiàng)目后,翟季冬發(fā)現(xiàn) MoE 架構(gòu)的大模型訓(xùn)練還有很大的優(yōu)化空間。
悟道 2 的萬(wàn)億大模型之所以選擇 MoE 架構(gòu),是因?yàn)楣雀?2021 年 1 月發(fā)布的 Switch Transformer 也是 MoE,但那時(shí) MoE 還沒火,只有少數(shù)團(tuán)隊(duì)關(guān)注到這一趨勢(shì)?!坝∠笾校?dāng)時(shí) MoE 的訓(xùn)練效率只有 10% 到 20% 之間。”翟季冬告訴雷峰網(wǎng)。為此,他們開展了一系列的 MoE 優(yōu)化訓(xùn)練研究。
2021 年 1 月,翟季冬團(tuán)隊(duì)里的博士生何家傲就開始研究 FastMoE。
當(dāng)時(shí)他們發(fā)現(xiàn),MoE 模型相較其他的深度學(xué)習(xí)模型有天然的獨(dú)特之處,主流框架如 PyTorch 原生不支持 MoE 模型的訓(xùn)練,于是就想開發(fā)一個(gè)專門的 MoE 框架,在 PyTorch 里加一兩行代碼就能讓 MoE 模型自動(dòng)跑起來(lái)。何家傲耗時(shí)大約兩個(gè)月將 FastMoE 完成并開源,是全球第一個(gè)開源的 MoE 訓(xùn)練框架,在社區(qū)里引起非常不錯(cuò)的反響,被騰訊、華為等多個(gè)團(tuán)隊(duì)引用。
FastMoE 實(shí)現(xiàn)了許多功能,但在自動(dòng)并行等問題上還不夠出色。2022 年,翟季冬的另一個(gè)博士生翟明書基于 FastMoE 做改進(jìn),設(shè)置了一個(gè)在線與離線結(jié)合的并行策略選擇,提出了 SmartMoE。
簡(jiǎn)單來(lái)說(shuō),大模型在訓(xùn)練前需要分析采用什么樣的并行策略可以提高模型的訓(xùn)練效率。針對(duì)這一步驟,此前稠密模型已有 Alpa 等工作支持,但 MoE 是稀疏模型、具有動(dòng)態(tài)性,即 MoE 模型在純靜態(tài)時(shí)所選的并行策略并不一定最優(yōu)。對(duì)此,SmartMoE 選擇了在線與離線結(jié)合:靜態(tài)時(shí)先選擇一組不錯(cuò)的候選集合,比如大約 10 組配置,然后在大模型真正訓(xùn)練時(shí)在這 10 組中靈活調(diào)整到最優(yōu)。
這兩個(gè)工作的思路后來(lái)都被行業(yè)廣泛引用,但其開始的時(shí)間都遠(yuǎn)遠(yuǎn)早于行業(yè)熱捧 MoE 之前。
除了 MoE,翟季冬團(tuán)隊(duì)也針對(duì)稠密模型的推理做過(guò)系統(tǒng)優(yōu)化,提出了編譯器 PET 與 EinNet 等工作。但相比 MoE,稠密模型的性能極限已在業(yè)內(nèi)形成共識(shí),而 MoE 架構(gòu)的稀疏激活和負(fù)載動(dòng)態(tài)性對(duì)整體訓(xùn)練優(yōu)化來(lái)說(shuō)依然非常難,因此從系統(tǒng)的角度看,優(yōu)化空間更大。
2016 年翟季冬去斯坦福訪問,曾見識(shí)硅谷高校的頂尖科學(xué)家并不囿于高墻。比如,斯坦福的多核處理器專家 Kunle Olukotun 在學(xué)校研究出很好的技術(shù)后創(chuàng)立 Afara 芯片公司,后來(lái)被 Sun 收購(gòu)、自己也評(píng)選上了美國(guó)工程院院士。這讓翟季冬一直相信,創(chuàng)新與創(chuàng)業(yè)并不割裂。
于是 2023 年大模型爆發(fā)后,翟季冬看到大模型對(duì)中間層軟件的需求,就拉著湯雄超、師天麾、唐適之等幾位學(xué)生一起創(chuàng)立了大模型 Infra 公司“清程極智”,推出了“赤兔”大模型推理引擎等工作。
八卦爐以訓(xùn)練為主,赤兔以推理為主。當(dāng)前大模型領(lǐng)域兩個(gè)主流的開源推理引擎 vLLM 與 SGLang 都由伯克利團(tuán)隊(duì)開發(fā),對(duì)國(guó)產(chǎn)芯片的支持效果不好,而隨著國(guó)產(chǎn)芯片的崛起,將國(guó)產(chǎn)芯片用于大模型的推理支持是大勢(shì)所趨。清程極智所開發(fā)的“赤兔”系統(tǒng)經(jīng)試驗(yàn),能大幅降低 DeepSeek 等多個(gè)國(guó)產(chǎn)大模型的推理成本。
2021 年支持完悟道后,陳文光也選擇在國(guó)產(chǎn)大模型基礎(chǔ)設(shè)施上更進(jìn)一步,一方面兼任鵬城實(shí)驗(yàn)室智能計(jì)算研究部主任,主導(dǎo)“云腦 2”上大型并行訓(xùn)練系統(tǒng)搭建;另一方面是開發(fā)通用大數(shù)據(jù)處理優(yōu)化系統(tǒng),發(fā)布了“諸葛弩”等成果。
云腦 2 的特點(diǎn)是基于 4096 張華為昇騰 910A 卡打造而成,總算力規(guī)模為 1 Eops@FP16,存在精度支持不足、顯存較小、卡間通信帶寬較低等問題——這也是國(guó)產(chǎn)芯片集群的通用問題,在系統(tǒng)優(yōu)化上主要有 3 個(gè)難點(diǎn):一是要基于全新的昇騰 910A 卡打造高性能的 AI 處理器,二是要將 4096 張卡互聯(lián)起來(lái),三是整機(jī)系統(tǒng)的容錯(cuò)率與故障率把控。
陳文光與團(tuán)隊(duì)的任務(wù)是提高大模型在云腦 2 上的訓(xùn)練效率??傮w來(lái)說(shuō),云腦 2 的設(shè)計(jì)與優(yōu)化是成功的:
在芯片上,910A 的推出時(shí)間早于 A100,峰值速度是 256T、相當(dāng)于 A100 的 0.8 倍。卡間互連上,910A 的卡間帶寬只有 180GB/s,遠(yuǎn)低于 A100 的 600GB/s,后續(xù)的 910B 做了改進(jìn)、提升到約 400GB/s 以上。此外,云腦 2 采取液冷系統(tǒng),在 3000 多張卡上訓(xùn)練大模型時(shí)平均故障時(shí)間約為 100 小時(shí)一次,故障率約為風(fēng)冷的 A100 系統(tǒng)的 1/10。
云腦 2 完成后,曾用于訓(xùn)練 2000 億參數(shù)規(guī)模的純文本稠密模型,但效果并不算出色,原因是訓(xùn)練數(shù)據(jù)不夠,當(dāng)時(shí)只訓(xùn)練了 1.8T token 數(shù)據(jù)。
一方面,大模型圈一直流行訓(xùn)練數(shù)據(jù)即將匱乏、耗盡的聲音,但另一方面,又有觀點(diǎn)認(rèn)為,當(dāng)前模型能力不理想的原因之一是特定領(lǐng)域的數(shù)據(jù)沒有挖掘到,所以數(shù)據(jù)收集與處理仍是當(dāng)前大模型基礎(chǔ)研究的關(guān)鍵。
如今大模型的訓(xùn)練數(shù)據(jù)量越來(lái)越大,今年發(fā)布的 Llama 4 已達(dá)到 30T token、Qwen 3 達(dá)到了 35T token,但現(xiàn)有的通用大數(shù)據(jù)處理系統(tǒng)仍不盡理想。以 Spark 為例,雖然性能比 MapReduce 好,但基于 Java 的設(shè)計(jì)導(dǎo)致了大量?jī)?nèi)存冗余、計(jì)算效率低下。
陳文光從并行編程切入,將 Java 轉(zhuǎn)為本地代碼執(zhí)行,開發(fā)了“諸葛弩”系統(tǒng)——像諸葛亮發(fā)明的弩一樣,一次性射出多根箭,可以對(duì)數(shù)據(jù)快速去重、去廣告與統(tǒng)一格式,數(shù)據(jù)處理效率較 Spark 提升了數(shù)倍以上。如今,陳文光也成立了數(shù)據(jù)處理方向的創(chuàng)業(yè)公司。
四、存儲(chǔ)寶刀不老
大模型初期,清華高性能所團(tuán)隊(duì)從并行處理與編譯出發(fā),主要解決大模型的訓(xùn)練優(yōu)化問題。2023 年 ChatGPT 出圈后,更多 HPC 學(xué)者關(guān)注到這一計(jì)算 workload,以存儲(chǔ)為中心的系統(tǒng)優(yōu)化開始在大模型領(lǐng)域嶄露頭角。
2024 年,武永衛(wèi)團(tuán)隊(duì)發(fā)表了兩個(gè)大模型推理優(yōu)化的工作——Mooncake 與 KTransformers,最先拔得頭籌。值得注意的是,這兩個(gè)工作的背后有一位共同主導(dǎo)者,他就是 90 后青年科學(xué)家章明星。
章明星
章明星 2012 年本科畢業(yè)于北京郵電大學(xué),大學(xué)期間打過(guò) ACM/ICPC 比賽,對(duì)榨干硬件潛力的底層技術(shù)有深厚興趣,于是直博推免時(shí)就自然而然地選擇了高性能計(jì)算,在武永衛(wèi)組研究圖計(jì)算的分布式系統(tǒng)。
2017 年博士畢業(yè)后,章明星加入深信服,才開始接觸機(jī)器學(xué)習(xí)系統(tǒng),如用大規(guī)模機(jī)器學(xué)習(xí)研究殺毒軟件。他在深信服工作了 5 年,涉獵多個(gè)業(yè)務(wù)線,最后發(fā)現(xiàn)自己還是最喜歡研究前沿系統(tǒng)的效率優(yōu)化問題,于是 2022 年就選擇了回清華任教。
沒多久 ChatGPT 爆火,親自上手體驗(yàn)后,章明星直覺這是一個(gè)顛覆性的技術(shù)方向。剛好楊植麟、張宇韜等人在籌備月之暗面,他們認(rèn)為大模型的算法與 Infra 同等重要,想找系統(tǒng)方向的人才合作。張宇韜與章明星是江西南昌老鄉(xiāng),又是高中同學(xué)加博士校友,于是就找到了章明星,雙方一拍即合。
2023 年年初,章明星以友情合作的身份參與到月之暗面 Infra 系統(tǒng)與團(tuán)隊(duì)的建設(shè)中,經(jīng)歷了從云廠商選型到后續(xù)模型訓(xùn)練與推理的全過(guò)程。
這是他第一次接觸深度學(xué)習(xí)模型。章明星從 CUDA 算子怎么寫、DeepSpeed/Megatron 系統(tǒng)怎么調(diào)試開始學(xué)習(xí),與月之暗面的算法團(tuán)隊(duì)一起 babysit 煉丹爐,Mooncake 系統(tǒng)與 KTransformers 利用 AMX 指令的早期思路也是在這一合作的過(guò)程中誕生,主要用于模型的推理提效。
Mooncake 的誕生初衷很簡(jiǎn)單:
在大模型的實(shí)際使用中,假設(shè)一個(gè)用戶用大模型看論文,并提問“這篇論文的三個(gè)主要?jiǎng)?chuàng)新點(diǎn)是什么”,之后大量用戶也輸入同樣的論文與提問,那么這些問題的許多中間處理結(jié)果(KVCache)實(shí)際是相同的。
針對(duì)大模型的重復(fù)推理,Mooncake 的思路是將不同用戶的相同 KVCache 公共部分存起來(lái),到下一次需要用到時(shí)就直接換入到 GPU 中去、從而跳過(guò)這一部分的計(jì)算,通過(guò)廉價(jià)的存儲(chǔ)置換了昂貴且稀缺的 GPU 資源,這一套“以存換算”的思想可以大幅度節(jié)省算力消耗。
Mooncake 發(fā)布后,影響很大。此前,雖然微軟和北大等團(tuán)隊(duì)也針對(duì)大模型推理對(duì)算力的消耗提出類似思路并進(jìn)行了早期探索,但 Mooncake 能在一眾工作中脫穎而出的原因是:它第一次將 PD 分離和全局 KVCache 共享在大規(guī)模集群(數(shù)千張卡的規(guī)模)上跑了起來(lái),拿到了真實(shí)的業(yè)務(wù)收益。加上 2024 年 kimi 有一波現(xiàn)象級(jí)的爆火,承載 kimi 的 Mooncake 系統(tǒng)也就跟著火了起來(lái)。
后來(lái),Mooncake 在月之暗面內(nèi)部得到更廣泛的應(yīng)用,包括支撐了 K1.5 和 K2 模型的強(qiáng)化學(xué)習(xí)后訓(xùn)練和推理。2024 年年中,他們將 Mooncake 的關(guān)鍵組件開源,吸引了包括 9#AISoft、阿里、螞蟻、訊飛、字節(jié)、華為在內(nèi)的國(guó)內(nèi)基礎(chǔ)設(shè)施廠商和研究團(tuán)隊(duì)一同建設(shè),打造了一個(gè)開源的分布式推理社區(qū)。
在國(guó)際上,Mooncake 也引發(fā)了巨大反響:兩大推理引擎 vLLM 與 SGLang 都通過(guò)與 Mooncake 合作進(jìn)行分布式推理能力的建設(shè),英偉達(dá) Dynamo 系統(tǒng)也借鑒了 Mooncake 架構(gòu),此外英偉達(dá)還同 Mooncake、SGLang 社區(qū)一同在 H100 和 GB200 NVL72 的集群上復(fù)現(xiàn)了 DeepSeek 的高效分布式推理架構(gòu)。
Mooncake 是面向超大規(guī)模集群的云上推理優(yōu)化,KTransformers 則是為了解決大模型在本地化部署中顯存不足的推理優(yōu)化需求。
大模型在推理時(shí)主要用的是 GPU 推理卡,推理卡里包含兩塊區(qū)域:一塊是計(jì)算、一塊是存儲(chǔ)。其中,存儲(chǔ)區(qū)域叫“顯存”,里面主要放兩部分?jǐn)?shù)據(jù):一部分是大模型訓(xùn)練完以后的參數(shù),另一部分是一步步推理過(guò)程的中間部署"KVCache”,所以需要大量的存儲(chǔ)。這也是為什么在過(guò)去,將一個(gè) 671B 的 DeepSeek V3 大模型裝進(jìn)個(gè)人機(jī)器是非常困難的,因?yàn)轱@存非常昂貴。
為了解決這一問題,武永衛(wèi)、章明星團(tuán)隊(duì)和趨境科技一同設(shè)計(jì)的 KTransformers 系統(tǒng)通過(guò)充分發(fā)揮本地廣泛存在的廉價(jià) CPU/DRAM 資源,借用顯卡之外、主機(jī)里也有的存儲(chǔ) (如 CPU/內(nèi)存),通過(guò)讓 CPU 與 GPU 交換共同推理,實(shí)現(xiàn)了 400GB 內(nèi)存的 CPU 再加一張英偉達(dá)的 4090 卡就能做到每秒 20 到 30 個(gè) token 的輸出。
由于正值全民探索 DeepSeek 的熱潮,KTransformers 系統(tǒng)的熱度也隨之暴漲,成為了目前本地推理大型稀疏模型最主要的,以及后續(xù) Qwen3 和 Kimi K2 模型首發(fā)推薦的本地推理框架之一。
Mooncake 與 KTransformers 的特點(diǎn)是:它們都是一套系統(tǒng),而非一個(gè)技術(shù)單點(diǎn)。系統(tǒng)就意味著可以無(wú)限做深、持續(xù)優(yōu)化,任何技術(shù)點(diǎn)都可以為系統(tǒng)所用。例如,在設(shè)計(jì) Mooncake 時(shí),章明星也用到了傳統(tǒng)為高性能存儲(chǔ)和數(shù)據(jù)庫(kù)設(shè)計(jì)的 RDMA 等高性能通信技術(shù)。
2025 年,Mooncake 榮獲存儲(chǔ)頂會(huì) FAST 最佳論文。
這是清華高性能所距離 2011 年首次發(fā)表 FAST 論文后,時(shí)隔 14 年的又一次重大榮譽(yù)。2011 年發(fā)表一篇 FAST 難如登天:FAST 2011 共收錄 20 篇論文,其中 18 篇來(lái)自美國(guó)和加拿大,1 篇為美韓合作,僅有 1 篇由大陸學(xué)者獨(dú)立完成,即鄭緯民與張廣艷的 FastScale 論文。14 年后,F(xiàn)AST 將最佳論文頒給 Mooncake,不僅體現(xiàn)了中國(guó)存儲(chǔ)技術(shù)的科研話語(yǔ)權(quán)提升,還反映清華團(tuán)隊(duì)在推動(dòng)傳統(tǒng)存儲(chǔ)持續(xù)創(chuàng)新上的敢為人先。
事實(shí)上,大模型從訓(xùn)練到推理的每一個(gè)關(guān)鍵步驟都離不開存儲(chǔ)。
不止推理,大模型的訓(xùn)練也離不開存儲(chǔ)。針對(duì)萬(wàn)卡集群系統(tǒng)在運(yùn)行時(shí)可能出現(xiàn)故障,HPC 存儲(chǔ)在過(guò)去已有解法,即在訓(xùn)練到 10 分鐘時(shí)就知道一個(gè)小時(shí)要出錯(cuò)、然后主動(dòng)停下來(lái)將當(dāng)時(shí)的軟硬件環(huán)境記到硬盤里,標(biāo)記完后再繼續(xù)訓(xùn)練。清華高性能所曾提出“分布式檢查點(diǎn)”,將可能出錯(cuò)點(diǎn)的檢查時(shí)間從數(shù)小時(shí)壓縮到了十分鐘內(nèi)。
此外,在數(shù)據(jù)獲取上,大模型研究要解決兩個(gè)問題:一是系統(tǒng)能夠高效可靠地存儲(chǔ)高達(dá)上百億個(gè)文件的數(shù)據(jù),二是能找到文件存儲(chǔ)的位置并盡快讀取。獲取的數(shù)據(jù)要進(jìn)行預(yù)處理,處理后的數(shù)據(jù)質(zhì)量會(huì)直接影響模型的性能。存儲(chǔ)領(lǐng)域的“分布式文件系統(tǒng)”技術(shù)就是專門解決這類問題。
陳康是清華高性能所在分布式文件系統(tǒng)上的開拓者。
陳康(左)、張廣艷(右)
從 2015 年開始,陳康與當(dāng)時(shí)剛剛?cè)雽W(xué)讀研的閃英迪(現(xiàn)任清華大學(xué)計(jì)算機(jī)系助理研究員)合作,圍繞分布式文件系統(tǒng)展開了一系列研究。當(dāng)時(shí)的分布式文件系統(tǒng)在出現(xiàn)數(shù)據(jù)損壞時(shí),往往需要數(shù)小時(shí)甚至數(shù)天來(lái)完成故障修復(fù),而冗長(zhǎng)的修復(fù)過(guò)程又極易造成數(shù)據(jù)的二次損壞乃至永久性丟失。
為了解決這一難題,陳康與閃英迪從信息論領(lǐng)域挖掘出一種名為再生碼的信息編碼,并創(chuàng)新性地將其應(yīng)用于分布式文件系統(tǒng)。他們?cè)O(shè)計(jì)了與再生碼相適應(yīng)的硬盤數(shù)據(jù)結(jié)構(gòu),使系統(tǒng)的數(shù)據(jù)修復(fù)時(shí)間降低至分鐘級(jí)。
隨后,伴隨固態(tài)硬盤與 RDMA 網(wǎng)卡的逐步普及,他們發(fā)現(xiàn)先前的分布式文件系統(tǒng)架構(gòu)已經(jīng)無(wú)法充分利用新型硬件的性能,又帶領(lǐng)團(tuán)隊(duì)里的碩士生王潤(rùn)基等人共同設(shè)計(jì)并實(shí)現(xiàn)了新一代分布式文件系統(tǒng) MadFS,并成功部署在鵬城云腦 II 智算平臺(tái)上。MadFS 一舉奪得 2021 年 IO500(全球超算存儲(chǔ) 500 強(qiáng))榜單冠軍,是國(guó)內(nèi)科研機(jī)構(gòu)在該榜單上首次登頂。
2023年起,IO500 冠軍由舒繼武和陸游游團(tuán)隊(duì)開發(fā)的文件系統(tǒng) SuperFS 奪得。
陸游游是國(guó)內(nèi)閃存與分布式內(nèi)存方向的先驅(qū)青年科學(xué)家。在閃存SSD、內(nèi)存與網(wǎng)絡(luò)等高速硬件構(gòu)成的現(xiàn)代數(shù)據(jù)中心里,發(fā)揮高速硬件的性能是新型存儲(chǔ)系統(tǒng)設(shè)計(jì)的重要挑戰(zhàn)。基于閃存與內(nèi)存系統(tǒng)的研究積累與實(shí)踐經(jīng)驗(yàn),陸游游帶領(lǐng)曾少勛、郭昊、楊倚天等學(xué)生設(shè)計(jì)開發(fā)了全新的文件系統(tǒng)SuperFS,數(shù)據(jù)帶寬達(dá)到硬件理論帶寬的 90% 以上,元數(shù)據(jù)性能刷新世界紀(jì)錄,在相同硬件條件下系統(tǒng)效率提升約 9 倍。
目前,陸游游也在研究大模型訓(xùn)練與推理的存儲(chǔ)系統(tǒng),從向量存儲(chǔ)、參數(shù)存儲(chǔ)切入探索下一代大模型記憶存儲(chǔ)基礎(chǔ)設(shè)施。
陸游游
陸游游 2009 年從南京大學(xué)本科畢業(yè)后到清華高性能所讀博,師從舒繼武,博士期間在裸閃存上取得了十分突出的成績(jī)——國(guó)際首次提出 Open_channel 閃存存儲(chǔ),在 FAST、SOSP 與 OSDI 等頂會(huì)上發(fā)表了中國(guó)第一篇閃存論文,2016 年開始在 Linux 社區(qū)被廣泛推廣。也因此,陸游游博士后一出站即拿到了清華的教職,留校任教。
2013 年之后,陸游游轉(zhuǎn)向分布式內(nèi)存研究,2017 年提出了基于 RDMA 的分布式共享內(nèi)存池 Octopus——這是國(guó)際上第一個(gè)結(jié)合非易失內(nèi)存和 RDMA 的分布式文件系統(tǒng),其性能在獨(dú)立評(píng)測(cè)中遠(yuǎn)超其他文件系統(tǒng)。這項(xiàng)研究得到了國(guó)際同行的廣泛關(guān)注,被多位國(guó)際知名學(xué)者在國(guó)際學(xué)術(shù)會(huì)議的 keynote 報(bào)告介紹,被 Intel、Mellnox 等多個(gè)工業(yè)巨頭在國(guó)際組織的報(bào)告中討論,也在多個(gè)大學(xué)的課堂教學(xué)中研討。
2022 年,陸游游團(tuán)隊(duì)又發(fā)表了分離式內(nèi)存成果 Sherman(下一代數(shù)據(jù)中心內(nèi)存底座),Sherman 后來(lái)獲得數(shù)據(jù)庫(kù)頂會(huì) SIGMOD 2023 的“研究亮點(diǎn)獎(jiǎng)”(Research Highlight Award),是大陸團(tuán)隊(duì)首次獲獎(jiǎng)。這項(xiàng)工作也在2025年再次入選 ACM 通訊(Communications of ACM)研究亮點(diǎn)成果。
從 2010 年到 2020 年,陸游游與團(tuán)隊(duì)主要關(guān)注閃存與內(nèi)存,也在研究過(guò)程中發(fā)現(xiàn)了存儲(chǔ)在 AI 系統(tǒng)中的重要性。2019 年開始,陸游游與團(tuán)隊(duì)開始探索推薦系統(tǒng)中內(nèi)存和 GPU 顯存的管理,與快手合作在真實(shí)系統(tǒng)中取得了顯著收益。到大模型時(shí)代,GPU 顯存與傳統(tǒng)存儲(chǔ)層次之間的協(xié)同問題表現(xiàn)突出,因?yàn)榇竽P途嚯x GPU 內(nèi)部的計(jì)算單元越來(lái)越近,不再僅僅是 SSD 或內(nèi)存的性能,可能還要去關(guān)注 HBM 與互聯(lián)的性能。
今年,陸游游團(tuán)隊(duì)基于過(guò)往文件系統(tǒng)研究大模型的存儲(chǔ),在亞馬遜支持的 ASPLOS/EuroSys 2025 大模型推理優(yōu)化競(jìng)賽中獲得了第一名。
五、計(jì)算永不過(guò)時(shí)
盡管當(dāng)前清華高性能計(jì)算團(tuán)隊(duì)對(duì)大模型的 Infra 支持與探索是從傳統(tǒng) HPC 技術(shù)出發(fā),但他們的布局并不止于此。除了傳統(tǒng) HPC 的創(chuàng)新,同時(shí)他們也永遠(yuǎn)在探索 HPC 之外的下一代更快、更好的計(jì)算范式,如張悠慧在研究的類腦計(jì)算。
張悠慧
不同于 HPC,國(guó)內(nèi)的類腦計(jì)算發(fā)展基本和海外同步。
張悠慧 1993 年考上清華計(jì)算機(jī)系,本科第五年就進(jìn)入計(jì)算機(jī)系統(tǒng)及應(yīng)用教研組,先是跟著汪東升做研究,后師從鄭緯民讀博,參與了集群系統(tǒng)的研究。2002 年博士畢業(yè)后,張悠慧留校任教,先在汪東升組研究處理器,參加了當(dāng)年由國(guó)務(wù)院“18號(hào)文”(2000 年 6 月 24 日印發(fā))催熱的首波“中國(guó)芯”熱潮。
由汪東升、鞠大鵬、張悠慧等人組成的小組于 2004 年成功研制了當(dāng)時(shí)國(guó)內(nèi)主頻最高的 “清華芯”(代號(hào) THUMP 107),并與國(guó)內(nèi)頭部廠商開展了體系結(jié)構(gòu)定制設(shè)計(jì)方面的長(zhǎng)期合作,但高端突破仍待時(shí)日。2014 年,在施路平的影響下,張悠慧就轉(zhuǎn)向了類腦計(jì)算。
當(dāng)時(shí)人工智能剛起來(lái),類腦神經(jīng)網(wǎng)絡(luò)被稱為“第三代人工智能網(wǎng)絡(luò)”,非常超前。張悠慧轉(zhuǎn)變方向后,主要研究類腦芯片的設(shè)計(jì)與類腦編程范式,用了不少高性能計(jì)算機(jī)體系結(jié)構(gòu)的設(shè)計(jì)方法論——這也使得后來(lái)他在類腦計(jì)算的研究中一直強(qiáng)調(diào)要保持系統(tǒng)的軟硬件去耦合特性以及系統(tǒng)的“通用性”。
從信息社會(huì)的發(fā)展來(lái)看,整個(gè)計(jì)算機(jī)體系結(jié)構(gòu)到目前最成功的仍是通用處理器架構(gòu),即馮諾依曼架構(gòu),原因是圖靈完備性從理論層面解決了根本的問題:一個(gè)圖靈完備的語(yǔ)言寫出的程序,肯定能夠等價(jià)轉(zhuǎn)化為圖靈完備系統(tǒng)上的一個(gè)等價(jià)程序,而馮諾依曼架構(gòu)是實(shí)現(xiàn)圖靈完備的一種最常見、最實(shí)用的工程方案。
張悠慧在類腦研究中也采用了通用計(jì)算機(jī)的方法論。比如在 2020 年與施路平合作發(fā)表的國(guó)內(nèi)計(jì)算機(jī)系統(tǒng)領(lǐng)域的首篇 Nature 論文,就被當(dāng)期的 Nature 評(píng)論文章認(rèn)為,所提出的類腦計(jì)算完備性之于類腦計(jì)算系統(tǒng),就如同圖靈完備性之于通用計(jì)算機(jī)。
高性能計(jì)算會(huì)分為軟件、硬件、編譯等不同層次,且不同層次之間能夠獨(dú)立演化,張悠慧也深受啟發(fā),誕生了研究類腦通用編譯器的想法,將類腦應(yīng)用程序分層轉(zhuǎn)換為芯片上的可執(zhí)行程序,層間去耦合、轉(zhuǎn)換可復(fù)用。這樣做的原因在于——
目前的類腦系統(tǒng)生態(tài)存在軟件碎片化的問題,往往要圍繞不同的類腦芯片開發(fā)與之適配的中間軟件和應(yīng)用。即每一個(gè)都是分割的縱向綁定,開發(fā)出來(lái)的中間層次和應(yīng)用都是針對(duì)特定的芯片,換一個(gè)芯片就要重新開發(fā)。這就導(dǎo)致整個(gè)類腦研究社區(qū)難以共同演進(jìn)。
但是研究通用處理器的人,從來(lái)不會(huì)去擔(dān)心這個(gè)處理器上能不能跑一般的應(yīng)用,寫應(yīng)用的人也從來(lái)不會(huì)考慮在這個(gè)處理器上能不能跑——肯定能跑,因?yàn)橥ㄓ糜?jì)算機(jī)是圖靈完備的,且從應(yīng)用到處理器硬件橫向分層,中間編譯器已經(jīng)做了很多事情,使得底下的硬件特質(zhì)早就被屏蔽掉,所以軟件和硬件可以獨(dú)立發(fā)展、彼此不被束縛。
針對(duì)這個(gè)問題,張悠慧與鄭緯民、施路平、高光榮一起討論過(guò)很多次,最后在 2019 年決定從類腦計(jì)算系統(tǒng)的層次結(jié)構(gòu)入手,借鑒圖靈完備性與馮諾依曼架構(gòu)體系,提出了類腦計(jì)算完備性。這個(gè)工作從構(gòu)思到成型大概 9 個(gè)多月,趕在疫情前夕完成,最后登上 Nature。
張悠慧從 2014 年開始研究類腦計(jì)算,一共發(fā)表了兩篇 Nature,第一篇是與施路平團(tuán)隊(duì)合作的天機(jī)二代。天機(jī)二代芯片做了 DNN 與 SNN 的異構(gòu)融合,支持兩類芯片、兩類網(wǎng)絡(luò)的同時(shí)運(yùn)行,登上 Nature 封面,施路平主導(dǎo)、張悠慧為共同一作,是國(guó)內(nèi)類腦芯片的開山之作。
從 2014 年到 2021 年,張悠慧參與過(guò)兩代天機(jī)芯片的研發(fā),主導(dǎo)了天機(jī)一代與二代的工具鏈研發(fā),解決了網(wǎng)絡(luò)部署的問題。從論文公開情況來(lái)看,施路平、裴京、張悠慧以及其他合作者共同發(fā)表在 IEDM 上的論文是國(guó)內(nèi)第一篇類腦計(jì)算芯片論文。
2021 年后,張悠慧逐步開始設(shè)計(jì)通用計(jì)算與類腦計(jì)算融合的新型芯片。在芯片設(shè)計(jì)上,張悠慧也是從計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)的思路出發(fā),用“通用的微體系結(jié)構(gòu)擴(kuò)展”,進(jìn)行通用處理器的類腦計(jì)算定制化設(shè)計(jì)。這樣可以取得兩方面效果:一是容易編程,易用;二是體系結(jié)構(gòu)優(yōu)化到一定程度就能實(shí)現(xiàn)編程靈活性和性能的兼?zhèn)洹?/span>
比如拿 RISC-V 去擴(kuò)展,用指令集或較通用的微架構(gòu)擴(kuò)展來(lái)支持類腦神經(jīng)網(wǎng)絡(luò)的快速運(yùn)行。這樣的好處是,軟件能夠靈活編程來(lái)支持各類類腦應(yīng)用,而不需要重新去開發(fā)一個(gè)新芯片;而且運(yùn)行性能要顯著高于某類采用定制電路方式的 SNN 加速器芯片。
張悠慧提出的類腦計(jì)算系統(tǒng)層次結(jié)構(gòu),解決了類腦芯片與應(yīng)用緊耦合問題。后來(lái),課題組的助理研究員渠鵬(2009年河北省高考理科狀元)將這一解耦合方法論遷移至信創(chuàng)領(lǐng)域,在信創(chuàng)產(chǎn)業(yè)亟需解決軟件跨平臺(tái)適配遷移的背景下,創(chuàng)新性地將大模型技術(shù)與編譯技術(shù)結(jié)合,提出基于 “統(tǒng)一中間表示” 的跨平臺(tái)軟件適配遷移技術(shù)。
該技術(shù)利用大模型的代碼理解與生成能力,實(shí)現(xiàn)對(duì)非跨平臺(tái)代碼段的智能化定位與跨平臺(tái)轉(zhuǎn)換, 并通過(guò)編譯技術(shù)輔助實(shí)現(xiàn)準(zhǔn)確性提升,從而顯著降低了信創(chuàng)軟件的移植成本。2023年,這項(xiàng)技術(shù)與浙江金網(wǎng)合作,孵化了國(guó)內(nèi)首款信創(chuàng)適配一體機(jī)產(chǎn)品。
目前張悠慧在類腦計(jì)算的研究主要有兩塊:一是開發(fā)跨平臺(tái)的編譯器,希望在寫程序的時(shí)候不必有太多硬件上的約束,而且支持新的類腦芯片時(shí)可以盡量避免重復(fù)造輪子;另一塊就是用通用處理器做類腦計(jì)算擴(kuò)展。
GPU 擅長(zhǎng)密集計(jì)算和規(guī)則計(jì)算,但是對(duì)具有大量不規(guī)則訪存、稀疏計(jì)算特征的諸如神經(jīng)動(dòng)力學(xué)仿真應(yīng)用,效率非常低。張悠慧將類腦與通用計(jì)算結(jié)合所設(shè)計(jì)的芯片對(duì)這類應(yīng)用體現(xiàn)出了出色的加速作用,同時(shí)能保證高計(jì)算精度。
以前 SNN 在解決應(yīng)用問題層面比不上 DNN,優(yōu)勢(shì)主要在于功耗低。但張悠慧告訴雷峰網(wǎng),“現(xiàn)在慢慢趕上來(lái)了,可能還有1到1年半的距離?!?/span>
張悠慧轉(zhuǎn)向類腦計(jì)算,汪東升則將研究重點(diǎn)從國(guó)產(chǎn)芯片轉(zhuǎn)向了處理器的硬件安全上。
汪東升
現(xiàn)代處理器朝著高性能、低功耗和智能化的方向發(fā)展,硬件的安全問題也不容忽視,2018 年 1 月爆出的“熔斷”和“幽靈”漏洞就是出現(xiàn)在處理器的高性能處理模塊,同年汪東升團(tuán)隊(duì)發(fā)現(xiàn)的“騎士(VoltJokey)”漏洞則隱藏在普遍使用的低功耗動(dòng)態(tài)電源管理單元。通過(guò)“騎士”漏洞,黑客無(wú)需借助任何外部程序或者鏈接就可以直接獲取用戶的安全密鑰,影響了全球大量計(jì)算設(shè)備、且設(shè)計(jì)到處理器芯片的核心架構(gòu)。
對(duì)此,汪東升團(tuán)隊(duì)從信息論、數(shù)學(xué)和測(cè)試等角度提出基于熵變、形式化驗(yàn)證和多層次覆蓋率模型的硬件漏洞檢測(cè)與挖掘方法,在架構(gòu)層面設(shè)計(jì)了大規(guī)模分布式硬件漏洞智能挖掘與安全檢測(cè)平臺(tái),可對(duì)硬件進(jìn)行批量化、自動(dòng)化和智能化漏洞挖掘與安全測(cè)評(píng)。
他們相繼發(fā)現(xiàn)了通用處理器的“幻影”、“超車”、瞬態(tài)執(zhí)行計(jì)時(shí)側(cè)通道、PMU 側(cè)通道以及 GPU的“閃電”等漏洞,對(duì)處理器領(lǐng)域預(yù)先安全防御作出了巨大貢獻(xiàn)。
六、技術(shù)的英雄主義
大模型時(shí)代,HPC 的機(jī)遇加大,挑戰(zhàn)與壓力也倍增。
在過(guò)去,系統(tǒng)軟件的研究一般只需與芯片廠商合作,如今也必須與模型廠商合作——因?yàn)樵诖竽P偷男阅軆?yōu)化上,光做軟件優(yōu)化也許只能將 token 輸出從每秒 10 個(gè)提升到 50 個(gè),若要提升至每秒 500 個(gè) Token 的輸出則必須與算法人員一起從底層算子、Transformer 架構(gòu)、算法公式等改起。
章明星認(rèn)為,未來(lái)軟硬協(xié)同設(shè)計(jì)的趨勢(shì)會(huì)更加明顯,接下來(lái)大模型在軟硬協(xié)同上會(huì)有兩個(gè)趨勢(shì):一是稀疏大模型的發(fā)展會(huì)加大對(duì)算力側(cè)的需求,二是提高強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的模型推理性能?,F(xiàn)在章明星也在應(yīng)用 Mooncake 作強(qiáng)化學(xué)習(xí)的訓(xùn)練優(yōu)化。
理論上,模型層可以往下探究、芯片層也可以往上延伸,所以位于中間層的 HPC 軟件創(chuàng)新天然受到底層芯片與上層模型的“兩頭擠壓”。不過(guò),在承壓中作性能的極致創(chuàng)新幾乎已是 HPC 的天性,且隨著大模型的競(jìng)爭(zhēng)愈發(fā)激烈,國(guó)產(chǎn)芯片崛起,軟件創(chuàng)新的重要性仍在提高。
大規(guī)模集群的國(guó)產(chǎn)化成必然趨勢(shì)。DeepSeek 在算法層面打破了 OpenAI 對(duì)中國(guó)的壟斷和領(lǐng)先,但底層算力上中美仍有較大差距。中美 AGI 之間的競(jìng)爭(zhēng),與其說(shuō)是模型之間的競(jìng)爭(zhēng),不如說(shuō)是 AI Infra 之間的競(jìng)爭(zhēng)。DeepSeek 出圈后,陳文光就產(chǎn)生了一個(gè)想法:
下一個(gè)中美科技戰(zhàn)的里程碑,應(yīng)該是用國(guó)產(chǎn)的芯片訓(xùn)練出國(guó)際一流的高水平大模型。
翟季冬成立清程極智,為大規(guī)模集群開發(fā)系統(tǒng)優(yōu)化軟件,主要做兩件事:
一是并行處理——用一張卡跑大模型訓(xùn)練是“串行”,100 張卡則要做“并行”,理想情況是 100 張卡的訓(xùn)練速度能比一張卡快 100 倍,但囿于卡與卡之間的通信等原因幾乎不可能。一般的團(tuán)隊(duì)只能實(shí)現(xiàn)二三十倍,他們希望做到快七八十倍、甚至九十倍。
二則是編譯軟件開發(fā)——將上層的大模型編譯到國(guó)產(chǎn)卡中。好的編譯軟件能大幅提升芯片的計(jì)算性能、節(jié)省硬件投入。大模型的訓(xùn)練集群硬件投入成本往往超十億元,優(yōu)化后即使節(jié)省 1/3 乃至 1/4 的成本也是一筆大數(shù)目。
翟季冬很早就決定,除了英偉達(dá),也要深度支持華為、沐曦、海光、燧原、寒武紀(jì)等十幾家國(guó)產(chǎn)芯片。
一方面,美國(guó)對(duì)中國(guó)市場(chǎng)禁售后,拿到最新的芯片難度更高,比如英偉達(dá)的 GB200 NVL72 就是一個(gè)超節(jié)點(diǎn),如果能獲得就可以開展更多推理的優(yōu)化,否則就要關(guān)注國(guó)產(chǎn)卡;但另一方面,國(guó)產(chǎn)芯片也面臨軟件生態(tài)不完善的挑戰(zhàn),導(dǎo)致大模型在國(guó)產(chǎn)卡上跑起來(lái)需要開發(fā)更多軟件。
圍繞國(guó)產(chǎn)算力將中間層的軟件開發(fā)好、將底層算力釋放出來(lái)是他們的目標(biāo),但“如果本身算力不強(qiáng),還釋放不出來(lái),那挑戰(zhàn)就更大?!钡约径嬖V雷峰網(wǎng)。
國(guó)內(nèi)目前專注 AI 系統(tǒng)編譯的團(tuán)隊(duì)不多,現(xiàn)任清華高性能所助理研究員的王豪杰是其中之一。
王豪杰碩士師從陳文光,博士受翟季冬指導(dǎo),2021 年博士畢業(yè)后開始從純編譯轉(zhuǎn)向 AI 系統(tǒng)研究,主要關(guān)注國(guó)產(chǎn)芯片生態(tài)——英偉達(dá)芯片禁售后,如何通過(guò)編譯在國(guó)產(chǎn)卡上將中間的答案寫得像在英偉達(dá)上一樣好,是一個(gè)突出的挑戰(zhàn)。
王豪杰
從編譯角度看,每換一款新的芯片,涉及到的底層基礎(chǔ)建設(shè)和編程接口都會(huì)有差異,所以如果決定支持一款新的芯片,軟件架構(gòu)上的調(diào)整要使上層所有優(yōu)化不因新的芯片而崩潰。而在國(guó)產(chǎn)卡上,大量原先能在英偉達(dá)上跑的編程接口都無(wú)法使用,這就需要在工程實(shí)現(xiàn)上做大量的工作。
“針對(duì)每款芯片都寫一個(gè)系統(tǒng)肯定不現(xiàn)實(shí),理想情況是將 10 款芯片統(tǒng)一起來(lái)做通用優(yōu)化。”王豪杰解釋。系統(tǒng)越通用,性能優(yōu)化空間就會(huì)越小。底層芯片的集合帶出了一個(gè)新的編程范式,也帶來(lái)更大的挑戰(zhàn)。
這個(gè)過(guò)程中有許多因素是他們所無(wú)法控制。以大規(guī)模集群國(guó)產(chǎn)化替代為例,底層工藝水平與上層生態(tài)環(huán)境的挑戰(zhàn)是芯片廠商也要花時(shí)間彌平的差距。
以英偉達(dá)為例。所有的新技術(shù)推出后都先適配英偉達(dá)的 H100,即使 DeepSeek 開源的許多技術(shù)也是基于 H800、A800 展開,將相關(guān)內(nèi)容遷移到國(guó)產(chǎn)芯片上至少需要數(shù)月的時(shí)間。但好在,HPC 的研究也往往以 2、3 年為一個(gè)時(shí)間單位,耐心與完美主義幾乎是從事這行必備的兩個(gè)要求。
“因?yàn)榈阶詈蟠蠹移吹亩际鞘S嗟?5%-10% 空間優(yōu)化?!?/span>
相比算法,系統(tǒng)是一個(gè)更冷門、也更需要個(gè)人具備技術(shù)英雄主義情懷的領(lǐng)域——系統(tǒng)軟件的編寫要求超強(qiáng)的代碼能力,有時(shí)甚至需要涉及古早的匯編語(yǔ)言,系統(tǒng)人才兼?zhèn)涫税阄渌?、其中大多還都是計(jì)算機(jī)系的學(xué)生最敬而遠(yuǎn)之的幾門學(xué)科。
也因此,這個(gè)領(lǐng)域也是少數(shù)能夠容得下孤膽英雄的技術(shù)世界之一,少數(shù)高水平的人就能開發(fā)出極有影響力的系統(tǒng)。雷峰網(wǎng)
比如清華高性能所去 DeepSeek 的兩位學(xué)生中,一位曾單槍匹馬寫了 MadFS 中的大部分代碼、并曾用 Rust 語(yǔ)言迅速?gòu)?fù)現(xiàn)谷歌基于 Dart 語(yǔ)言開發(fā)的操作系統(tǒng) Fushisia,還有一位在國(guó)內(nèi)某大廠訓(xùn)練大模型時(shí)一個(gè)人戰(zhàn)斗力頂七個(gè)人。
值得注意的是,到目前為止,國(guó)內(nèi)許多高校在設(shè)立學(xué)科時(shí)依然沒有成立系統(tǒng)方向。
隨著科學(xué)計(jì)算在各個(gè)領(lǐng)域的廣泛應(yīng)用,建設(shè)校級(jí)高性能計(jì)算公共服務(wù)平臺(tái)幾乎是各高校深入計(jì)算科學(xué)研究的前提。雷峰網(wǎng)
2005 年,清華信息國(guó)家實(shí)驗(yàn)室成立了清華高性能計(jì)算公共服務(wù)平臺(tái),作為清華基礎(chǔ)科研條件建設(shè)的重要內(nèi)容。高性能所承擔(dān)了主要的平臺(tái)建設(shè)工作,張武生、林皎是兩大主力,張武生負(fù)責(zé)平臺(tái)的系統(tǒng)級(jí)研發(fā)工作,林皎負(fù)責(zé)平臺(tái)的技術(shù)支持和用戶服務(wù)。
其中,張武生開發(fā)了一套可支持通用和國(guó)產(chǎn)自主可控算力平臺(tái)的可定制集群操作系統(tǒng)和操作系統(tǒng)沙箱服務(wù)一體機(jī),重點(diǎn)應(yīng)對(duì) AI 算力平臺(tái)的異構(gòu)性、動(dòng)態(tài)變化、負(fù)荷大等特征帶來(lái)的挑戰(zhàn)。
林皎從“穩(wěn)定的系統(tǒng)環(huán)境+豐富的軟件資源+優(yōu)質(zhì)的技術(shù)服務(wù)”對(duì)平臺(tái)進(jìn)行管理,研發(fā)了“集群自動(dòng)檢測(cè)與修復(fù)系統(tǒng)“、”集群節(jié)能系統(tǒng)”等成果,并完善系統(tǒng)環(huán)境、培養(yǎng) HPC 應(yīng)用人才,使平臺(tái)高效運(yùn)營(yíng)。
2005 年至今,清華高性能計(jì)算平臺(tái)建設(shè)了“探索3號(hào)”、“探索100”、“探索200”、“探索1000”幾代超級(jí)計(jì)算系統(tǒng),向校內(nèi)外 46 個(gè)院系單位、312 個(gè)課題組提供高性能計(jì)算服務(wù),用戶發(fā)表 SCI 論文1231篇(其中 CNS 論文 51 篇)。
2024年,平臺(tái)完成了“開拓1000”智算系統(tǒng)建設(shè),有力推動(dòng)了清華人工智能及其相關(guān)學(xué)科領(lǐng)域的發(fā)展。
由于技術(shù)與人才培養(yǎng)的杰出貢獻(xiàn),清華高性能所多次獲得集體榮譽(yù),尤其是在前任支部書記趙穎的帶領(lǐng)下獲評(píng)全國(guó)黨建工作樣板支部,是清華大學(xué)第一個(gè)成功創(chuàng)建國(guó)家級(jí)樣板的教師黨支部。
針對(duì)國(guó)產(chǎn)芯片崛起加劇智能計(jì)算生態(tài)碎片化的現(xiàn)狀,清華高性能所也作了與時(shí)俱進(jìn)的探索,智能基礎(chǔ)軟件棧就是最新的嘗試。雷峰網(wǎng)
智能基礎(chǔ)軟件棧的目標(biāo)是整合高性能所以及典型開源的成果,方便包括大模型在內(nèi)的智能計(jì)算業(yè)務(wù)的開展,目前已取得初步成果:開發(fā)出了九源智能基礎(chǔ)軟件棧,并完成了與國(guó)產(chǎn)基礎(chǔ)硬件(飛騰、鯤鵬處理器以及昇騰、寒武紀(jì)、昆侖芯等加速芯片)和軟件(麒麟、歐拉等操作系統(tǒng))的適配。
除了構(gòu)建底層統(tǒng)一智能計(jì)算架構(gòu)、使同一程序運(yùn)行在多個(gè)硬件上成為可能,九源智能基礎(chǔ)軟件棧還提供了面向模型智能的高效訓(xùn)推平臺(tái)和智能編譯優(yōu)化系統(tǒng),面向數(shù)據(jù)智能的大數(shù)據(jù)智能分析系統(tǒng)、高性能緩存存儲(chǔ)系統(tǒng)、分布式圖數(shù)據(jù)庫(kù),不僅能可以滿足模型的訓(xùn)推需求、支撐檢索增強(qiáng)生成(RAG)等大模型應(yīng)用場(chǎng)景。
30 年過(guò)去,鄭緯民現(xiàn)已退休,但依然每天到實(shí)驗(yàn)室工作、且?guī)缀趺刻熳钤绲?。他向雷峰網(wǎng)感慨,相比過(guò)往的研究成果,他最大的成就其實(shí)是“培養(yǎng)了一群優(yōu)秀的年輕人”。
這個(gè)方向已是萬(wàn)丈高樓,但只要計(jì)算機(jī)存在,只要芯片、應(yīng)用仍不斷發(fā)展,人們就要解決一個(gè)問題,就是如何讓代碼在計(jì)算機(jī)上跑得更快,高性能計(jì)算技術(shù)就能被派上用場(chǎng)。所以,這注定是一條求新的漫漫長(zhǎng)路,需要一個(gè)人獨(dú)行,也需要一群人并肩。
也以此文致敬金蘭、鄭衍衡、王鼎興、沈美明、蘇伯珙、謝樹煜、湯志忠和溫冬嬋等教授。
應(yīng)用沒有終點(diǎn),計(jì)算也沒有終點(diǎn)。
(朱可軒、洪雨欣對(duì)本文亦有貢獻(xiàn))
不確定的時(shí)代更需要樂觀的技術(shù)理想主義者,更多大模型、AI、具身智能的精彩故事,歡迎添加作者微信 Fiona190913 交流。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。