HPC 2024：上半年建 140 個智算中心，但實際需求正在萎縮

本文作者：朱可軒

2024-09-30 13:20

導語：超算與智算正在加速融合。

9 月 24 日至 26 日，第 20 屆 CCF 全國高性能計算學術年會（CCF HPC China 2024）在武漢市中國光谷科技會展中心舉行，主題為“華章廿載新質未來”。

本屆大會由 12 位院士領銜，攜手了來自算力領域的 400 多位頂尖學者，進行學術交流和專題分享。值得一提的是，此次參會人數(shù)也創(chuàng)下歷屆新高，總數(shù)突破 4000 人。

在當下的智算時代，面對軟硬件兼容復雜、訓練集群故障頻發(fā)、可用算力效率不高、電力及空間限制等算力相關“卡脖子”的問題，多名業(yè)內大佬闡述了自身認知。

在結合海內外發(fā)展的判斷下，他們也先后展開了包括“高通量以太網(wǎng)(ETH+)”“晶圓級變結構計算”“類腦算力”等在內多種解法的分享和探討。

值得一提的是，有關于全球市場中“算力的盡頭是電力”的類似焦慮，在會上也出現(xiàn)了不同的聲音——中國工程院院士鄔江興特別強調了“用電力拼算力”這一發(fā)展范式的不可持續(xù)。

另外，AI 科技評論注意到，作為一年一度為超算、智算、數(shù)算等提供學術交流機會的平臺，在今年的 CCF HPC 中，“超智融合”被一眾大咖反復提及，成為本屆大會最鮮明的特點。

這也是在不少業(yè)內人士的預判中，未來解決國內計算瓶頸的重要路徑。

超算是可以用來訓練 AI 的，而國內過往在超算領域的豐富經(jīng)驗積累，需要移植到智算領域中來，超算和智算走向融合已然成為大勢所趨。

這一趨勢的出現(xiàn)，也標志著 HPC 由傳統(tǒng)通用計算主導的科學計算，逐步過渡到了異構加速的 AI 計算新時代。

需要關注的是，近年，對于“算力網(wǎng)”這一概念的呼聲走高也同超智融合息息相關。這也是基于中美需求差異的洞察下，更為符合國內算力市場現(xiàn)狀的解決方案之一。

算力的瓶頸與破局之道

當前，國內在算力集群之上已有不少千卡、萬卡級別的實踐，但要實現(xiàn)十萬卡，甚至超萬卡的突破仍頗具挑戰(zhàn)性。

國產(chǎn)算力究竟還有哪些“卡脖子”的問題？在此次 CCF HPC China 2024 上，業(yè)界大咖齊聚一堂對此作出討論，與此同時，也帶來了多種不同的解題思路。

“大算力需要大集群的擴展，但大集群并不一定能夠提供大算力”，高通量以太網(wǎng)聯(lián)盟執(zhí)行主席、中國科學院計算技術副研究院王展分析。

“今天基于并行的計算范式，對于每次的計算迭代來說，完成之后 GPU 之間都要通過全局參數(shù)和提督同步才能進行下一輪迭代，這種同步通信的特質決定了訓練集群很強的‘木桶短板’效應，任何一點擁塞、故障，都會導致整個集群訓練性能的損失或下降?！?nbsp;

所以，“為了讓大集群獲得好的算力，提高算力的線性擴展度，需要做很多方面的優(yōu)化工作，包括上面的算法、通訊框架、并行的計算模式，以及計算和網(wǎng)絡協(xié)同，存儲和網(wǎng)絡的協(xié)同等等?！彼偨Y發(fā)現(xiàn)，“其中最核心的需求是需要一個穩(wěn)定高性能的網(wǎng)絡互聯(lián)?！?/p>

去年，大模型的興起帶動了算力需求的提升，而王展觀察到，“彼時，許多頭部互聯(lián)網(wǎng)和云計算公司都還沒有基于以太網(wǎng)成熟的解決方案，一時間業(yè)內唱衰以太網(wǎng)，認為只有 InfiniBand（IB）才可以提供高性能的網(wǎng)絡互聯(lián)。”

發(fā)展至今年，“高通量以太網(wǎng)（ETH+）”逐漸走向主流舞臺，也在今年的大會上再度引來一波熱議。而從海外巨頭的動向來看，據(jù)王展透露，AMD 發(fā)布的 UALINK 聯(lián)盟也或將改為以太網(wǎng)：

“目前，AMD 采用的是 Infinity Fabri（IF ）的私有協(xié)議，在服務器內部是基于全互聯(lián)，而它下一步的 GPU 一定是采用 Infinity Fabric Switch放在服務的外部，這方面如何構建將成為行業(yè)重要風向標?！?nbsp;

不過，“高通量以太網(wǎng)（ETH+）”僅僅是解決思路之一，鄔江興給出的“答卷”則聚焦于“晶圓級變結構計算”。

在他看來，國內算力發(fā)展還有著以下難點：

一是性能增長與算力需求的矛盾凸顯；二是還原論模式導入帶寬、時延和單位算力密度的插損；三是剛性計算架構造成總體效率低下；四是存儲程序控制機理存在自在性安全矛盾。

當前，晶上計算正成為大規(guī)模、低功耗、高密度、高性能計算系統(tǒng)主流，這一點從世界主流廠家的布局中可以窺見一斑——

2019 年，美國 AI 芯片獨角獸 Cerebras Systems 首推晶圓級處理器 WSE 系列挑戰(zhàn)英偉達。2021年，特斯拉也推出了晶圓級 Dojo 處理器，此外，也包括英特爾的 M2+ 晶圓級拼裝、臺積電的 TSMC-SoW 等等。 HPC 2024：上半年建 140 個智算中心，但實際需求正在萎縮

而和前述布局稍有不同的是，鄔江興講述了“軟件定義晶上系統(tǒng)（SDSoW）”的新概念。

他提出了一個“SMV困境定理”，即現(xiàn)實技術物理環(huán)境在滿足全生命周期可擴展性前提下，任何單一技術體制都不可能在S、M、V三維空間內同時達到最優(yōu)，這也是當前國產(chǎn)算力發(fā)展之時，所面對的計算架構單一性與算力需求多樣性的矛盾所在。

針對這一“不可能三角”，“變結構計算”則是關鍵突破點。據(jù)鄔江興介紹，變結構計算的第一性原理為軟件定義的節(jié)點+互聯(lián)，SDSoW 則是這一解法的物理實現(xiàn)載體。

HPC 2024：上半年建 140 個智算中心，但實際需求正在萎縮

不同的算力處理特征適用場景各有差異，于是芯片也需要實現(xiàn)異構融合，這也同人腦處理任務具有相似之處。沿著這套邏輯，“類腦算力”的概念也成為當前業(yè)界前沿的思考之一。

“類腦處理器（BPU）更加接近生物腦信息處理特征，比較適用于一些密度比高的矩陣和稀疏矩陣，以及知識圖譜、動力學方程的運算，處理非結構化隨機排布的數(shù)據(jù)運算更有效率?！敝袊茖W院院士張旭如是說道。

當前，在全球范圍內均有類腦計算相關布局——去年年底，廣東智能科學與技術研究院發(fā)布了天琴芯類腦晶圓計算芯片，今年 4 月，英特爾也發(fā)布了 Hala Point 大型神經(jīng)擬態(tài)系統(tǒng)。

不過，類腦芯片在功耗上能夠占據(jù)一定優(yōu)勢的同時，對于成本問題，在業(yè)內仍有部分顧慮的聲音存在。

另外，值得一提的是，電力也是算力發(fā)展過程中屢屢被強調的關鍵一環(huán)。

“我在一年前預測過芯片短缺，而下一個短缺的將是電力，明年將沒有足夠的電力來運行所有芯片?！碧厮估紫瘓?zhí)行官埃隆·馬斯克曾發(fā)表過這方面的擔憂。

無獨有偶，此前，OpenAI 創(chuàng)始人山姆·奧特曼也曾提出類似警告：“下一波生成型人工智能系統(tǒng)消耗的電力將遠遠超出預期，能源系統(tǒng)將難以應對，未來AI的技術取決于能源，我們需要更多的光伏和儲能?！?/p>

美國科技巨頭們的焦慮盡顯，海外研究機構曾有報告稱，ChatGPT 每天要響應大約 2 億個請求，在此過程中消耗超過 50 萬度電力，這基本相當于 1.7 萬個美國普通家庭的用電量。

針對國內情況，鄔江興在會上對此發(fā)表了不同看法，他強調了“用電力拼算力”這一發(fā)展范式的不可持續(xù)。“算力的極限不是電力，不應該是電力，電力支持不了算力的持續(xù)發(fā)展。”鄔江興堅持認為。

「超智融合」已成大勢所趨

今年以來，“超智融合”也已成為業(yè)界廣泛認可的國內 HPC 新趨勢，這一點在本次大會上體現(xiàn)尤為明顯。

“超算是可以用來訓練超大模型的”，清華大學計算機系教授陳文光在演講中提到，“過去，我國在超算上是有很好的基礎的，那為什么到了智算時代，所有人都覺得我們落后了很多，是不是可以把超算領域的經(jīng)驗移植到智算領域里面來，通過‘超智融合’的方式?！?

HPC 2024：上半年建 140 個智算中心，但實際需求正在萎縮

他也在過往實踐中驗證了這一觀點的可行性——

“我們在新神威計算機上研發(fā)了一個大模型訓練框架叫‘Bagualu’，不過之前沒有說要去超智融合，所以在雙精度算力和半精度算力上面只做到了 1：4。但是如果這臺機器能做到 1：16，用來做 AI 訓練的話也會有一定競爭力?！标愇墓庹f道。

他認為，超智融合或為解決國內算力瓶頸的重要路線：

“確實超算過去只有科學和工程計算作為主要的應用，面臨商業(yè)用戶相對來說是比較少的問題，如果能夠做到很好的超智融合，也能給國產(chǎn)超級計算及的商業(yè)應用，提高整個的投資效率起到很好的作用?！?/p>

并行科技董事長、CCF 副理事長陳健對于“超智融合”的趨勢也有類似的感受。

在他看來，“在 AI 的進化史中，較長時間內我們理解 AI 是 AI，超算是超算。但從去年開始，AI的大模型訓練需求暴漲，這是典型的并行計算應用，底層需要超級計算機，是以 GPU 為主的超級計算機。其實超算也并不是說只有 CPU 的超級計算機，我們去看 top500，70% 是英偉達和 AMD 的 GPU 搭建起來的超級計算機，主要的算力是由 GPU 來組成的?！?/p>

自“百模大戰(zhàn)”打響后，過去兩年，業(yè)內不少實踐發(fā)現(xiàn)，傳統(tǒng)的基于云主機、虛擬化所搭建的云服務平臺，面對大模型訓練并不合適，而最關鍵的一點在于，沒有解決卡與卡之間性能的問題，也就是超算中常用的帶寬問題，或者說計算與通信的比例關系。

陳健將當前大模型的算力需求總結為以下方面——超大規(guī)模大模型訓練供不應求，包括微調在內的常規(guī)的大模型訓練供大于求。

對于常規(guī)大模型訓練，目前看到的情況是：“今年上半年大概有 140 多個智算中心在建，全國在規(guī)劃中的共有 250 多個智算中心，這部分算力搭建出來之后，大概率是 2000 卡以下的集群，而現(xiàn)在這樣的需求正在萎縮?！?/p>

其中，關鍵原因在于兩方面——“卷”基礎大模型的廠商變少以及隨著基礎大模型版本的更新迭代，許多行業(yè)模型的存在價值正在消失。

當前，業(yè)內有關“算力網(wǎng)”建設的呼吁，則是在對“超智融合”這一趨勢的預判之下給出的解決方案，對此，大會現(xiàn)場也有不少相關討論。

HPC 2024：上半年建 140 個智算中心，但實際需求正在萎縮

國防科技大學院士王懷民介紹道，“超算與智算融合不僅體現(xiàn)在算力中心，還出現(xiàn)在更廣泛范圍內算力中心資源的有效連接和共享，所以我們都在呼喚中國算力網(wǎng)的出現(xiàn)?！?/span>

這也是由中美需求上的差異所決定的，美國的算力主要集中在云服務商手里，通信運營商并沒有很強的算力，也并沒有強調建立算力網(wǎng)，而是利用分布式的系統(tǒng)和編程語言技術來解決云的孤立的問題。

中國工程院院士李國杰以天空實驗室為例介紹了美國的當前情況——

“Spark 的發(fā)明人 Ion Stoica 組建了一個 SkyComputing 實驗室，2022 年正式啟動，主要是想解決云服務平臺的孤島問題，想要發(fā)展成一種公共服務。主要包括三層平臺，兼容層隱藏云之間的差異，云間層尋找不同服務的最佳性價比，互惠對等層則主要實現(xiàn)免費和快速地在云間傳輸?！?nbsp;

說回到國內，據(jù)李國杰觀察，當前，由于在訓練過程中需要頻繁交換模型參數(shù)和梯度信息，所以實現(xiàn)反向傳播的延遲通常要控制在毫秒級以下，國內的龍頭企業(yè)都在做支持 10 萬 GPU 卡以上規(guī)模的大模型，但采用的都是相對集中的集群系統(tǒng)，并沒有采用異地分布式計算。

“他們的集群一般裝在一個園區(qū)，可能有幾個樓，分成幾個計算島，島里面進行張量并行和流水線并行，島之間做數(shù)據(jù)并行。但數(shù)據(jù)并行有個大問題，它要求一個 GPU 就要把整個模型參數(shù)存起來，GPT4 有 1.8 萬億參數(shù)，可能需要 10 個 TB 以上的內存，這個成本非常高。”他說道。

同時，他還表示，“在西部建很多小的超算中心、智算中心，聯(lián)合起來就可以解決我們國家的人工智能訓練問題，這樣的想法可能并不太靠譜?！?/p>

較為可行的解法還是“算力網(wǎng)”。

在李國杰的設想中，“算力網(wǎng)要發(fā)揮智能時代的基礎設施的作用，也需要像有瀏覽器、微信一樣的全民的普及應用?！?/p>

當前算力提供商、政府及學界紛紛在呼吁算力網(wǎng)的建設，在這方面也做出了不同的努力：

運營商布局云網(wǎng)融合，地方政府建算力樞紐中心，計算機界則聚焦于分布式計算的基礎研究，例如，中科院計算所在做信息高鐵項目、劉韻潔院士在做確定性計算網(wǎng)絡、蔣昌俊院士在做機動性的方艙計算。

不過李國杰也發(fā)現(xiàn)，目前，真正需要這種遠程算力的關鍵用戶到底在哪，暫時還不是很清楚。

未來，在用戶需求洞察的基礎之上，前述各方布局可以形成一定合力。

“最迫切的一點在于為需要幾百卡、幾千卡做訓練的中小模型單位找到合適的算力，如果把這件事真正做好了，就能打磨出算力網(wǎng)的 1.0 版本。幾年后，推理會比訓練需要更多算力，等到那時再升級 2.0 版本的算力網(wǎng)。”李國杰預判。

當前，算力網(wǎng)的抽象還涉及以下四個問題：一是怎么統(tǒng)一命名資源空間，也就是實現(xiàn)算力資源的池化；二是怎么提供一個萬維網(wǎng)網(wǎng)頁一樣的運行式抽象；三是怎么提供一個統(tǒng)一的編程方法；四是怎么系統(tǒng)性評價算力網(wǎng)的性能。雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

0人收藏

朱可軒

編輯

發(fā)私信

當月熱門文章