0
就在剛剛,DeepSeek團隊發(fā)布最新論文《洞察 DeepSeek-V3:規(guī)模的挑戰(zhàn)和對AI架構硬件的思考》。
論文鏈接:https://arxiv.org/pdf/2505.09343
在保持性能不變的情況下,論文采用了雙重視角——跨越硬件架構和模型設計,通過研究這種協(xié)同作用,探索 DeepSeek-V3 如何實現(xiàn)經(jīng)濟高效的大規(guī)模訓練和推理。
隨著 OpenAI o1/o3、DeepSeek-R1、Claude-3.7 Sonnet 等先進模型的出現(xiàn),大規(guī)模架構和上下文推理的進步強調了對更快、更高效推理的需求。因此,計算資源的需求也在逐步擴大。
DeepSeek 的出現(xiàn)證明了有效的軟硬件協(xié)同設計可以實現(xiàn)大型模型的成本效益訓練,為較小的團隊提供公平的競爭環(huán)境。
基于這一傳統(tǒng),DeepSeek-V3 代表了成本效益訓練的新里程碑,僅需 2,048 個 NVIDIA H800 GPU 就實現(xiàn)了最先進的性能。DeepSeek-V3 的實踐和見解展示了如何充分利用現(xiàn)有硬件資源,為更廣泛的 AI 和 HPC 社區(qū)提供寶貴的經(jīng)驗教訓。
論文章節(jié)的主要內容如下:
DeepSeek 模型的設計原則
低精度驅動設計
以互聯(lián)為驅動的設計
大規(guī)模網(wǎng)絡驅動設計
面向未來的硬件架構設計
如下圖 所示,DeepSeek-V3 采用 DeepSeek-MoE 和多頭潛在注意力 (MLA)架構,通過壓縮鍵值 (KV) 緩存大大減少了內存消耗。此外,DeepSeek-V3 還采用了 FP8 混合精度訓練,顯著降低了計算成本。
這些創(chuàng)新旨在解決LLM規(guī)模中的三個核心挑戰(zhàn)——內存效率、成本效益和推理速度。
LLM 通常需要大量的內存資源,內存需求每年增長 1000% 以上。相比之下,高速內存(例如 HBM)容量的增長速度要慢得多,通常每年不到 50%。與使用 BF16 進行權重的模型相比,F(xiàn)P8 將內存消耗顯著降低了一半,有效緩解了 AI 內存挑戰(zhàn)。
DeepSeek-V3 還采用了多頭潛在注意力 (MLA),它使用投影矩陣將所有注意力頭的 KV 表示壓縮成一個更小的潛在向量,該矩陣與模型聯(lián)合訓練。在推理過程中,只需要緩存潛在向量,與存儲所有注意力頭的 KV 緩存相比,顯著減少了內存消耗。
除了 MLA 之外,DeepSeek 還提出了其他幾種方法來減小 KV 緩存的大?。?/p>
共享 KV:多頭共享一組 KV 配對,從而顯著壓縮了 KV 存儲。
窗口 KV:對于長序列,緩存中只保留 KV 配對的滑動窗口。
量化壓縮:KV 配對使用low-bit進行存儲,進一步減少了內存使用。
對于稀疏計算,DeepSeek 還開發(fā)了 DeepSeek-MoE 架構,MoE 模型的優(yōu)勢在于兩個方面:
第一,減少訓練的計算要求:MoE 架構的主要優(yōu)勢在于它能夠顯著降低訓練成本。通過選擇性地僅激活專家參數(shù)的子集,MoE 模型允許參數(shù)總數(shù)急劇增加,同時保持計算要求適中。
如圖表2所示,DeepSeek-V3 的總計算成本約為每個令牌 250 GFLOPS,而 72B 密集模型需要 394 GFLOPS,405B 密集模型需要 2448 GFLOPS。這表明 MoE 模型實現(xiàn)了與密集模型相當甚至更好的性能,同時消耗的計算資源減少了一個數(shù)量級。
第二,個人使用和本地部署的優(yōu)勢:由于每個請求只激活了一個參數(shù)子集,因此內存和計算需求大大減少。例如,DeepSeek-V2(236B 參數(shù))在推理過程中僅激活 21B 參數(shù)。這使得配備 AI SoC 芯片的 PC 能夠實現(xiàn)每秒近 20 個令牌 (TPS)。相比之下,具有相似能力的密集模型(70B 參數(shù))在類似硬件上通常只能達到個位數(shù)的 TPS。
除此之外,為了最大限度地提高吞吐量,DeepSeek-V3 從一開始就被構建為利用雙微批處理重疊,有意將通信延遲與計算重疊。它將 MLA 和 MoE 的計算解耦為兩個不同的階段,當一個微批處理執(zhí)行 MLA 或 MoE 計算的一部分時,另一個微批處理同時執(zhí)行相應的調度通信。相反,在第二個微批處理的計算階段,第一個微批處理經(jīng)歷組合通信步驟。
這種流水線化方法實現(xiàn)了全對全通信與正在進行的計算的無縫重疊,確保 GPU 始終保持充分利用。此外,在生產中,V3 還采用預填充和解碼解聚架構,將大批量預填充和延遲敏感的解碼請求分配給不同的專家并行組大小,這可以最大限度地提高系統(tǒng)吞吐量。
雖然 MoE 模型表現(xiàn)出良好的可擴展性,但僅通過增加硬件資源來實現(xiàn)高推理速度的成本很高。因此,軟件和算法也必須有助于提高推理效率。
DeepSeek-V3 引入了多標記預測 (MTP) 框架,該框架同時增強了模型性能并提高了推理速度。MTP 可以讓模型能夠以較低的成本生成額外的候選標記并并行驗證,緩解了解碼步驟中標記順序生成的瓶頸,在不影響準確性的情況下顯著加快了推理速度。
真實世界的實踐數(shù)據(jù)表明,MTP 模塊預測第二個后續(xù)令牌的接受率為 80% 到 90%,與沒有 MTP 模塊的場景相比,生成 TPS 提高了 1.8 倍。
此外,通過預測每步多個令牌, MTP 增加了推理批量大小,這對于提高 EP 計算強度和硬件利用率至關重要。
雖然 GPTQ 和 AWQ 等量化技術已將位寬減少到 8 位、 4 位甚至更低,但是這些技術主要應用于推理期間以節(jié)省內存,而不是在訓練階段。在 DeepSeek-V3 之前,沒有利用 FP8 進行訓練的開源大型模型。
DeepSeek 通過基礎設施和算法團隊之間的深入合作,為 MoE 模型開發(fā)了一個與 FP8 兼容的訓練框架,在訓練管道中使用 FP8 精度前向和后向過程的計算組件。
雖然 FP8 在加速訓練方面具有巨大潛力,但需要解決幾個硬件限制才能充分利用其功能:
FP8 累積精度: FP8 在 Tensor Core 中使用約束累加精度,這會影響訓練大型模型的穩(wěn)定性
細粒度量化挑戰(zhàn):細粒度量化在傳輸部分結果時引入了大量的反量化開銷,會導致頻繁的數(shù)據(jù)移動,從而降低計算效率并使硬件利用率復雜化
為了解決現(xiàn)有硬件的限制,DeepSeek 對未來的設計有以下建議:
提高累積精度:硬件應改進并調整 Accumulation Register 精度到適當?shù)闹担ɡ?FP32),或支持可配置的 Accumulation Precision
對原生細粒度量化的支持:硬件應該支持原生細粒度量化,使 Tensor Core 能夠接收縮放因子并通過組縮放實現(xiàn)矩陣乘法,避免頻繁的數(shù)據(jù)移動以減少去量化開銷。
DeepSeek-V3 架構采用低精度壓縮進行網(wǎng)絡通信。在 EP 并行期間,使用細粒度的 FP8 量化來調度令牌,與 BF16 相比,通信量減少了 50%,顯著縮短了通信時間。
他們的建議是,為 FP8 或自定義精度格式定制的壓縮和解壓縮單元提供本機支持是未來硬件的可行方法。這有助于最大限度地減少帶寬需求并簡化通信管道,能大幅提升 MoE 訓練等帶寬密集型任務的效率。
研究團隊當前使用的 NVIDIA H800 GPU SXM 架構,基于 Hopper 架構,類似于 H100 GPU。然而,它為了滿足監(jiān)管要求,降低了 FP64 浮點計算性能和 NVLink 帶寬。具體來說,H800 SXM 節(jié)點中的 NVLink 帶寬從 900 GB/s 降低到了 400 GB/s。這個節(jié)點內部帶寬的顯著下降對高性能工作負載帶來了挑戰(zhàn)。
為了解決這個問題,他們在每個節(jié)點都配備了 8 張 400G 的 Infiniband(IB)CX7 網(wǎng)卡,從而增強了向外擴展(scale-out)的能力,以彌補帶寬不足。為了應對這些硬件限制,DeepSeek-V3 模型在設計時結合了多項考慮,既貼合了硬件的優(yōu)勢,也規(guī)避了其局限。
為適配 H800 架構的硬件限制,DeepSeek-V3 在并行策略上還進行了如下優(yōu)化:
避免使用張量并行(TP):在訓練階段,TP 因為受限的 NVLink 帶寬效率低下而被禁用。但在推理階段,TP 可以被選擇性地啟用,用于降低延遲和提升 TPOT(Tensor Parallel Optimized Transformer)性能。
增強的流水線并行(PP):采用 DualPipe 機制,以便將注意力計算和 MoE 計算與通信重疊。這也有助于減少流水線空泡,并在多個 GPU 間平衡內存使用,從而提升整體吞吐量。
加速的專家并行(EP):借助 8 張 400Gbps 的 Infiniband(IB)網(wǎng)卡,系統(tǒng)可以實現(xiàn)超過 40GB/s 的全互聯(lián)通信。
然而在 H800 架構中,節(jié)點內(intra-node)通信與節(jié)點間(inter-node)通信的帶寬差異約為 4:1。具體來說,NVLink 提供 200GB/s 的帶寬(實際可用約 160GB/s),而每張 400Gbps 的 IB 網(wǎng)卡實際帶寬約為 50GB/s(考慮小消息和延遲因素后,計算為 40GB/s 的有效帶寬)。
為了充分利用更高的節(jié)點內帶寬,模型架構特別在 TopK 專家選擇策略中,與硬件協(xié)同設計。
設想一個系統(tǒng)包含 8 個節(jié)點(共 64 張 GPU),以及 256 個路由專家(每張 GPU 有 4 個專家)。在 DeepSeek-V3 中,每個 token 會被路由到一個共享專家和 8 個路由專家。如果這 8 個目標專家平均分布在所有節(jié)點上,那么 token 在 IB 上的通信成本將是 8t(t 為傳輸一個 token 所需時間)。
但如果利用 NVLink 的更高帶寬,將路由到同一節(jié)點的 token 先在節(jié)點內通過 NVLink 傳輸,再由該節(jié)點的 GPU 使用 IB 轉發(fā)到其他節(jié)點,這種 NVLink 中繼方式可以顯著減少 IB 流量。當目標專家分布在 M 個節(jié)點時,這種策略可將通信成本降低為 Mt(M < 8)。
為實現(xiàn)這一策略,DeepSeek-V3 引入了節(jié)點受限的專家路由策略(Node-Limited Routing)。
具體來說,研究人員將 256 個路由專家分成 8 組,每組 32 個專家,并且每組部署在同一個節(jié)點上,而在實際部署時,他們使用算法保證每個 token 最多只會被路由到最多 4 個節(jié)點。這種做法有效地緩解了 IB 通信的瓶頸,提升了訓練期間通信帶寬的使用效率。
雖然節(jié)點受限路由策略(Node-Limited Routing)在一定程度上降低了通信帶寬的需求,但由于節(jié)點內(NVLink)和節(jié)點間(IB)通信帶寬之間存在差異,這也使得通信流水線內核的實現(xiàn)變得更為復雜。
在實際操作中,GPU 的流處理器( SM)既用于處理網(wǎng)絡消息(例如填充 QPs 和 WQEs),也用于通過 NVLink 進行數(shù)據(jù)轉發(fā),這會消耗大量計算資源。例如,在訓練過程中,H800 GPU 上多達 20 個 SM 被分配給與通信相關的操作,從而減少了用于實際計算的資源。
為最大化在線推理的吞吐量,研究團隊在 EP(專家并行)全互聯(lián)通信中完全采用 NIC RDMA,實現(xiàn)通信與計算資源的分離,避免 SM 資源競爭,從而提升計算效率。這也凸顯了 RDMA 的異步通信模型在計算與通信重疊處理方面的優(yōu)勢。
當前,在 EP 通信(特別是 combine 階段的 reduce 操作與數(shù)據(jù)類型轉換)中,SM 執(zhí)行的主要任務包括:
數(shù)據(jù)轉發(fā):聚合目標為同一節(jié)點中多個 GPU 的 IB 流量,實現(xiàn) IB 與 NVLink 域之間的數(shù)據(jù)橋接;
數(shù)據(jù)傳輸:在 RDMA 緩沖區(qū)(GPU 注冊內存區(qū)域)與輸入/輸出緩沖區(qū)之間傳輸數(shù)據(jù);
規(guī)約操作:執(zhí)行 EP combine 所需的規(guī)約操作;
內存布局管理:對穿越 IB 和 NVLink 域的分塊數(shù)據(jù)進行精細化內存布局管理;
數(shù)據(jù)類型轉換:在 all-to-all 通信前后執(zhí)行數(shù)據(jù)類型的轉換。
研究團隊還給出了一些如何在編程框架層面實現(xiàn) scale-up 與 scale-out 的融合建議:
統(tǒng)一網(wǎng)絡適配器:設計能夠同時連接 scale-up 與 scale-out 網(wǎng)絡的 NIC(網(wǎng)絡接口卡)或 I/O Die。這些適配器應具備基本的交換功能,比如能將來自 scale-out 網(wǎng)絡的包轉發(fā)到 scale-up 網(wǎng)絡中的特定 GPU??梢酝ㄟ^一個 LID(本地標識符)或帶有策略路由的 IP 地址實現(xiàn)。
專用通信協(xié)處理器:引入一個專用協(xié)處理器或可編程組件(如 I/O die),用于處理網(wǎng)絡流量。這種組件可將報文處理任務從 GPU 的 SM 上卸載,避免性能下降,并具備硬件加速的內存拷貝能力,以提升緩存管理效率。
靈活的轉發(fā)、廣播和規(guī)約機制:硬件應支持靈活的轉發(fā)、EP 分發(fā)階段的廣播操作、以及 EP 聚合階段的規(guī)約操作,這些機制需跨越 scale-up 與 scale-out 網(wǎng)絡運行。這樣可以復現(xiàn)我們當前基于 GPU SM 的實現(xiàn)邏輯,不僅提升了有效帶寬,也減少了網(wǎng)絡操作的計算復雜度。
硬件同步原語(Hardware Synchronization Primitives):提供更精細粒度的硬件同步指令,用于處理內存一致性問題或亂序報文抵達問題。這將替代基于軟件的同步機制(如 RDMA 的完成事件),后者通常會引入額外的延遲并增加編程復雜度?;?acquire/release 模型的內存語義通信是一個有前景的解決方案。
他們認為,通過實現(xiàn)上述建議,未來的硬件設計將能夠顯著提升大規(guī)模分布式 AI 系統(tǒng)的效率,同時簡化軟件開發(fā)的復雜度。
在 DeepSeek-V3 的訓練過程中,研究團隊部署了一個“多平面胖樹”(Multi-Plane Fat-Tree, MPFT)scale-out 網(wǎng)絡。每個節(jié)點配備了 8 張 GPU 和 8 張 IB 網(wǎng)卡,每對 GPU-NIC 映射到一個獨立的網(wǎng)絡平面(plane)。
這是一個八平面、兩層的胖樹結構網(wǎng)絡,其中每對 GPU 和 IB NIC 映射到一個網(wǎng)絡平面,并且跨平面的流量必須通過另一個 NIC,并通過 PCIe 或 NVLink 進行節(jié)點內轉發(fā)。
在保留兩層網(wǎng)絡拓撲在成本和延遲方面優(yōu)勢的同時,由于政策和監(jiān)管限制,最終實際部署的 GPU 數(shù)量僅略高于 2000 張。
此外,每個節(jié)點還配有一張 400Gbps 的以太網(wǎng) RoCE NIC,用于連接分布式存儲系統(tǒng) 3FS 所在的獨立存儲網(wǎng)絡平面。在該 scale-out 網(wǎng)絡中,我們使用了 64 端口的 400G IB 交換機,從理論上講,這種拓撲可支持最多 16384 張 GPU。
然而,由于 IB ConnectX-7 的當前技術限制,他們部署的 MPFT 網(wǎng)絡尚未完全實現(xiàn)理想架構。
理想情況下,每張 NIC 應該具備多個物理端口,每個連接到不同的網(wǎng)絡平面,但對用戶而言,它們通過端口綁定暴露為一個統(tǒng)一的邏輯接口。
從用戶角度來看,單個 QP(隊列對)可以跨所有可用端口無縫收發(fā)數(shù)據(jù)包,類似于“報文噴灑”(packet spraying)。但這也帶來了一個問題:同一個 QP 發(fā)出的數(shù)據(jù)包可能通過不同的網(wǎng)絡路徑傳輸,導致到達接收端時的順序被打亂,因此需要 NIC 提供原生的亂序報文排序能力。
研究團隊還介紹了多平面胖樹網(wǎng)絡的優(yōu)勢:
多軌胖樹(MRFT)的子集:MPFT 拓撲結構是更廣義的 Multi-Rail Fat-Tree(MRFT)架構的一個特定子集。因此,NVIDIA 和 NCCL 為多軌網(wǎng)絡開發(fā)的現(xiàn)有優(yōu)化策略可以無縫應用到多平面網(wǎng)絡的部署中。此外,NCCL 對 PXN(Port eXtended Network)技術的支持,解決了平面間通信隔離的問題,即便在平面之間沒有直接互聯(lián)的情況下,也能實現(xiàn)高效通信。
成本效益高(Cost Efficiency):多平面網(wǎng)絡使用兩層胖樹(FT2)拓撲即可支持超過 1 萬個端點,顯著降低了與三層胖樹(FT3)架構相比的網(wǎng)絡成本。其每個端點的成本甚至比高性價比的 Slim Fly(SF)拓撲還要更低。
流量隔離(Traffic Isolation):每個平面獨立運行,確保某一個平面的擁塞不會影響到其他平面。這種隔離機制提高了整體網(wǎng)絡的穩(wěn)定性,并防止級聯(lián)式性能下降的發(fā)生。
低延遲(Latency Reduction):實驗表明,兩層胖樹(Two-Layer Fat Tree)拓撲相較于三層胖樹具有更低的延遲。這一點使其特別適合延遲敏感型任務,如基于 MoE 架構的大模型訓練與推理。
魯棒性(Robustness):配備多端口的 NIC 提供多個上行鏈路,因此即使某個端口發(fā)生故障,也不會導致通信中斷,系統(tǒng)能夠實現(xiàn)快速、透明的故障恢復。
值得注意的是,由于當前 400G NDR InfiniBand 的限制,跨平面通信仍需通過節(jié)點內的轉發(fā)實現(xiàn),這在推理過程中會引入額外的延遲。如果未來硬件能夠實現(xiàn)之前建議的 scale-up 與 scale-out 網(wǎng)絡的融合,那么這種延遲將大大減少,從而進一步增強多平面網(wǎng)絡的可行性。
為了驗證多平面網(wǎng)絡設計的有效性,研究人員在實際部署的集群上進行了一系列實驗。通過修改集群的網(wǎng)絡拓撲,我們比較了多平面兩層胖樹(MPFT)和單平面多軌胖樹(MRFT)在性能上的差異。
他們發(fā)現(xiàn)在全互聯(lián)通信任務中,多平面網(wǎng)絡的性能幾乎與單平面多軌網(wǎng)絡持平。這一性能上的一致性歸因于 NCCL 的 PXN 機制 [54],它能在多軌拓撲中優(yōu)化 NVLink 的流量轉發(fā),而多平面拓撲同樣可以受益于該機制。
而在 16 張 GPU 上進行的 all-to-all 通信測試中,MPFT 與 MRFT 在延遲方面幾乎沒有差異。
為了進一步評估 MPFT 在實際訓練中的表現(xiàn),他們還測試了訓練中常見的專家并行通信(EP)模式。在多平面網(wǎng)絡中,每張 GPU 都能達到超過 40GB/s 的高帶寬,表明其在訓練場景下具有出色且穩(wěn)定的通信能力。
研究人員還比較了 DeepSeek-V3 模型在 MPFT 與 MRFT 網(wǎng)絡中的訓練指標:
MFU(Model Flops Utilization)指標是基于 BF16 理論峰值計算的;
Causal MFU 只考慮注意力矩陣下三角部分的 FLOPs;
Non-Causal MFU 則包括整個注意力矩陣的 FLOPs;
表中 1F、1B 和 1W 分別代表前向時間、輸入反向傳播時間、權重反向傳播時間。
實驗顯示,在 2048 張 GPU 上訓練 V3 模型時,MPFT 的整體性能幾乎與 MRFT 持平,兩者間的性能差異完全處于正常波動范圍內。
除此之外,團隊還對 InfiniBand 還是 RoCE 的問題進行了實驗,他們發(fā)現(xiàn) InfiniBand(IB)在延遲方面始終優(yōu)于 RoCE,因此成為分布式訓練和推理等延遲敏感型任務的首選網(wǎng)絡方案。
不過,盡管 IB 擁有更低的延遲表現(xiàn),但它也存在一些實際限制:
成本(Cost):IB 硬件遠比 RoCE 成本高,限制了其在更大范圍的部署中普及。
可擴展性(Scalability):IB 交換機通常最多支持 64 個端口,而 RoCE 交換機常見為 128 個端口。這使得 IB 在構建超大規(guī)模集群時面臨擴展性瓶頸。
盡管 RoCE 被認為是 IB 的一個高性價比替代方案,但目前在延遲和可擴展性上的不足,限制了其在大規(guī)模 AI 系統(tǒng)中的應用潛力,介于這一點,研究團隊也對 RoCE 提出了一些優(yōu)化意見:
專用低延遲 RoCE 交換機:他們建議以太網(wǎng)設備廠商開發(fā)專為 RDMA 工作負載優(yōu)化的 RoCE 交換機,去除那些不必要的傳統(tǒng)以太網(wǎng)功能。
例如,Slingshot 架構就展示了如何通過以太網(wǎng)設計實現(xiàn)接近 IB 的低延遲性能。類似地,Broadcom 的一系列新技術也展現(xiàn)出在 AI 應用場景中的巨大潛力,包括 AI Forwarding Header(AIFH)機制和即將發(fā)布的低延遲以太網(wǎng)交換機。這些創(chuàng)新展示了基于以太網(wǎng)的高性能 RDMA 網(wǎng)絡是完全可行的。
優(yōu)化的路由策略:RoCE 默認采用 ECMP(Equal-Cost Multi-Path)路由策略,在跨互聯(lián)網(wǎng)絡時難以高效地分散流量,常常導致 NCCL 集合通信中的嚴重擁塞和性能下降。
例如,在數(shù)據(jù)并行(DP)訓練中,LLM 的通信流量往往缺乏足夠的隨機性,導致多個流聚集到同一個鏈路,引發(fā)瓶頸。而自適應路由(Adaptive Routing, AR)可以動態(tài)地將數(shù)據(jù)包“噴灑”到多條路徑上,從而顯著提升網(wǎng)絡性能。雖然手動配置的靜態(tài)路由表(Static Routing)能在特定目標下避免鏈路沖突,但它缺乏靈活性。對于大規(guī)模 all-to-all 通信,自適應路由無疑在性能和擴展性方面更具優(yōu)勢。
改進的流量隔離與擁塞控制機制:
當前的 RoCE 交換機通常僅支持有限數(shù)量的優(yōu)先隊列(priority queues),這對于同時涉及多種通信模式(如 EP 的 all-to-all 與 DP 的 all-reduce)的復雜 AI 工作負載來說遠遠不夠。在這種混合通信場景中,all-to-all 會因突發(fā)性的一對多傳輸引發(fā)“入端擁塞(incast congestion)”,嚴重時會拖慢整條網(wǎng)絡路徑的性能。
研究團隊認為可以使用虛擬輸出隊列:為每個隊列對(QP)分配一個虛擬隊列,做到流量級別的隔離,以及使用更高效的擁塞控制機制,如基于 RTT 的擁塞控制(RTTCC),或用戶可編程的擁塞控制(PCC)。這些機制可以實現(xiàn)網(wǎng)卡與交換機之間的協(xié)同優(yōu)化,在動態(tài)流量條件下保持低延遲與高吞吐。
最后,研究人員表示他們自己是使用 IBGDA 技術來降低網(wǎng)絡通信中的延遲。而傳統(tǒng)的 GPU 網(wǎng)絡通信流程中通常需要通過 CPU 協(xié)程作為代理線程,為此他們還貼心的整理出了流程:
GPU 準備好要發(fā)送的數(shù)據(jù)、通知 CPU 代理、CPU 填寫控制信息(Work Request, WR),然后通過 doorbell 機制通知網(wǎng)卡啟動數(shù)據(jù)傳輸。
他們表示這種方式引入了不小的通信開銷。而 IBGDA 則通過允許 GPU 直接填寫 WR(無需經(jīng)過 CPU),極大減少了中間環(huán)節(jié)的延遲,提高了通信效率。
研究團隊在識別了當前硬件面臨的限制,并提出了相應的建議后,將視野擴展至更宏觀的層面,提出未來硬件架構設計的前瞻性方向。他們認為當前主要的限制包括:
互聯(lián)故障(Interconnect Failures):高性能互聯(lián)系統(tǒng)(如 InfiniBand 與 NVLink)易受到間歇性斷連的影響,這會破壞節(jié)點之間的通信。在通信密集型任務(如專家并行 EP)中,即便是短暫的通信中斷,也可能造成明顯的性能下降,甚至任務失敗。
單點硬件故障(Single Hardware Failures):節(jié)點宕機、GPU 故障,或 ECC(糾錯碼)內存錯誤都可能影響到長時間運行的訓練任務,往往需要代價高昂的任務重啟。在大規(guī)模部署中,這類單點故障的概率隨著系統(tǒng)規(guī)模的擴大而急劇上升。
靜默數(shù)據(jù)損壞(Silent Data Corruption):某些錯誤(如多位內存翻轉、計算錯誤等)可能逃逸 ECC 機制的檢測,造成模型訓練中的數(shù)據(jù)悄然被破壞。這類錯誤最為隱蔽,會在長時間訓練過程中積累,導致下游計算被污染,嚴重損害模型質量。當前的緩解措施主要依賴于應用層啟發(fā)式檢測,但這不足以確保系統(tǒng)層面的整體魯棒性。
他們還認為,為了應對傳統(tǒng) ECC 所無法覆蓋的錯誤類型,硬件需要引入更先進的檢測機制。例如:基于校驗和(checksum)的驗證機制、硬件加速的冗余校驗(redundancy checks)。這些方法能為大規(guī)模部署提供更高的系統(tǒng)可靠性。
此外,硬件廠商應向最終用戶提供全面的診斷工具包,以支持其對系統(tǒng)完整性的驗證,并及時識別潛在的靜默數(shù)據(jù)損壞風險。若這些工具作為標準硬件的一部分預裝,能夠實現(xiàn)持續(xù)運行期內的驗證流程,從而提升整個系統(tǒng)的透明度與可信度。
盡管加速器(如 GPU)往往成為設計焦點,但CPU 依舊是協(xié)調計算任務、管理 I/O 操作、保持系統(tǒng)吞吐量不可或缺的關鍵組件。但研究團隊認為當前架構存在幾個嚴重瓶頸:
PCIe 成為瓶頸:CPU 與 GPU 之間的 PCIe 接口在傳輸大規(guī)模參數(shù)、梯度或 KV 緩存時,常成為帶寬瓶頸。
為此,研究團隊也給出了一些建議,他們認為未來系統(tǒng)應采用CPU-GPU 直連方式(如 NVLink、Infinity Fabric),或將 CPU 與 GPU 一并納入 scale-up 域中,從根本上消除節(jié)點內互聯(lián)瓶頸。
內存帶寬不足:為了支撐高速數(shù)據(jù)傳輸,還需匹配足夠高的內存帶寬。例如,要跑滿 160 條 PCIe 5.0 通道,需要每個節(jié)點擁有 640 GB/s 的 IO 吞吐,對應約 1 TB/s 的內存帶寬,這對傳統(tǒng) DRAM 架構構成巨大挑戰(zhàn)。
對 CPU 性能的需求提升:
在 Chiplet 架構中,還需更多核心支持按緩存感知方式(cache-aware)劃分與隔離負載。
同時,為避免控制側成為瓶頸,每張 GPU 需要配備足夠多的 CPU 核;
對于內核調度、網(wǎng)絡處理等低延遲任務,需要基礎頻率在 4GHz 以上的單核性能;
除此之外,他們還提出了幾個關鍵方向,為滿足低延遲、高效率的 AI 工作負載,未來的互聯(lián)網(wǎng)絡不僅要具備低延遲,更應具備“智能感知能力”,指出了一條道路:
共封裝光學(Co-Packaged Optics):通過集成硅光技術,可實現(xiàn)可擴展的超高帶寬與能效比,這對構建大規(guī)模分布式系統(tǒng)至關重要。
無損網(wǎng)絡(Lossless Network):雖然基于信用的流量控制(CBFC)機制可以保證無損數(shù)據(jù)傳輸,但如果觸發(fā)方式不當,會導致嚴重的“隊頭阻塞”(head-of-line blocking)。因此,必須部署由終端主動驅動的高級擁塞控制(Congestion Control, CC)算法,主動調節(jié)注入速率,防止極端擁塞情況的發(fā)生。
自適應路由(Adaptive Routing):未來網(wǎng)絡應標準化動態(tài)路由機制,例如“分包噴灑(packet spraying)”與“擁塞感知轉發(fā)”。
對于 load/store 的內存語義通信在跨節(jié)點通信中具備效率高、編程友好的優(yōu)勢,但當前的實現(xiàn)常受限于內存順序約束(memory ordering)的問題,研究團隊也給出了自己的意見。
他們先是舉了個例子:發(fā)送方在寫入數(shù)據(jù)后,必須先執(zhí)行一次內存屏障(memory fence),再更新通知接收方的標志位,才能確保接收方讀到的是“已完成寫入”的數(shù)據(jù)。這種強順序要求帶來額外的 RTT 延遲,并可能阻塞當前線程,降低系統(tǒng)的吞吐量。
類似地,在消息語義的 RDMA 場景中也存在亂序同步的問題。例如,在 InfiniBand 或 NVIDIA BlueField-3 上,在 RDMA 寫之后再執(zhí)行基于分包噴灑的 RDMA 原子加操作,也會引發(fā)額外的 RTT 延遲。
然后給出了建議:在硬件層面加入對內存語義通信順序的一致性保障,包括編程接口層面支持 acquire/release 語義,以及在接收端由硬件保證順序投遞(in-order delivery),避免引入軟件側開銷。
一種可行的方法是:接收方緩存原子消息,并利用數(shù)據(jù)包序號確保按序處理。然而,他們認為更優(yōu)雅也更高效的方式是使用 Region Acquire/Release(RAR)機制:
硬件在接收端維護一個 bitmap,用于記錄某段 RNR(remote non-registered)內存區(qū)域的狀態(tài),acquire/release 操作在此地址范圍內生效,并且只需極小的 bitmap 開銷,即可實現(xiàn)由硬件強制的通信順序保障,最重要的是,這一機制理想情況下可由 NIC 或 I/O Die 來實現(xiàn)。
最后研究團隊強調,RAR 不僅適用于內存語義操作,也同樣能擴展到 RDMA 的消息語義原語中,具有廣泛的實用性。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))關注到,他們還認為在混合工作負載環(huán)境下,未來硬件應該具備動態(tài)帶寬分配和流量優(yōu)先級控制的能力。例如,在訓練與推理任務混合部署的場景中,應當將推理請求從訓練任務中隔離,以確保延遲敏感型應用的響應速度。
此外,未來網(wǎng)絡還應當:
采用智能路徑選擇策略,實時監(jiān)測網(wǎng)絡狀態(tài),智能分流,緩解通信熱點;
支持自愈協(xié)議、冗余端口、快速故障切換(failover)機制,保障系統(tǒng)的魯棒性;
具備高效的擁塞控制機制,比如端側主導的流控與注入速率調節(jié)機制,避免嚴重擁塞;
支持 lossless 網(wǎng)絡協(xié)議但避免“隊頭阻塞”問題,比如通過優(yōu)化 CBFC(基于信用的流控)與自適應擁塞感知機制配合。
最后,研究團隊指出模型規(guī)模的指數(shù)級增長,已經(jīng)遠遠超過了高帶寬內存(HBM)技術的進展速度。這種不匹配導致了嚴重的內存瓶頸,特別是在以注意力機制為核心的架構(例如 Transformer)中,內存帶寬限制成為性能提升的最大障礙。
為此他們也提出了兩點建議:
DRAM 堆疊加速器(DRAM-Stacked Accelerators):借助先進的三維堆疊(3D stacking)技術,可以將 DRAM 芯片垂直整合在計算邏輯芯片之上。這種設計能夠提供極高的內存帶寬、超低延遲,同時具備實用的內存容量(盡管受限于堆疊層數(shù))。對于專家混合(MoE)模型中的超高速推理任務,這種架構極具優(yōu)勢,因為它能顯著緩解內存吞吐瓶頸。例如,SeDRAM 架構就展示了這種模式的潛力,在內存受限的工作負載下提供了前所未有的性能表現(xiàn)。
晶圓級系統(tǒng)集成(System-on-Wafer, SoW):晶圓級集成技術通過將多個計算單元和存儲模塊整合在一整塊晶圓上,可以最大化計算密度與內存帶寬,滿足超大規(guī)模模型在訓練與推理階段對存儲和帶寬的極端需求。
他們表示,這些內存中心的架構創(chuàng)新,旨在打破當前內存發(fā)展滯后于模型規(guī)模擴張的瓶頸,是下一代 AI 系統(tǒng)持續(xù)邁向“更大、更快、更穩(wěn)”的關鍵路徑之一。同時這些方案也在 DeepSeek-V3 訓練與推理實踐中均取得了實效,為下一代高性能 AI 系統(tǒng)構建了堅實的內存支撐基礎。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。