首次披露！DeepSeek V3 發(fā)布軟硬一體協(xié)同訓(xùn)練論文，公開“降成本”秘訣

本文作者：鄭佳美洪雨欣

2025-05-15 14:32

導(dǎo)語：V3 的成本下降密碼，是軟硬協(xié)同設(shè)計(jì)。

就在剛剛，DeepSeek團(tuán)隊(duì)發(fā)布最新論文《洞察 DeepSeek-V3：規(guī)模的挑戰(zhàn)和對(duì)AI架構(gòu)硬件的思考》。

論文鏈接：https://arxiv.org/pdf/2505.09343

在保持性能不變的情況下，論文采用了雙重視角——跨越硬件架構(gòu)和模型設(shè)計(jì)，通過研究這種協(xié)同作用，探索 DeepSeek-V3 如何實(shí)現(xiàn)經(jīng)濟(jì)高效的大規(guī)模訓(xùn)練和推理。

隨著 OpenAI o1/o3、DeepSeek-R1、Claude-3.7 Sonnet 等先進(jìn)模型的出現(xiàn)，大規(guī)模架構(gòu)和上下文推理的進(jìn)步強(qiáng)調(diào)了對(duì)更快、更高效推理的需求。因此，計(jì)算資源的需求也在逐步擴(kuò)大。

DeepSeek 的出現(xiàn)證明了有效的軟硬件協(xié)同設(shè)計(jì)可以實(shí)現(xiàn)大型模型的成本效益訓(xùn)練，為較小的團(tuán)隊(duì)提供公平的競(jìng)爭(zhēng)環(huán)境。

基于這一傳統(tǒng)，DeepSeek-V3 代表了成本效益訓(xùn)練的新里程碑，僅需 2,048 個(gè) NVIDIA H800 GPU 就實(shí)現(xiàn)了最先進(jìn)的性能。DeepSeek-V3 的實(shí)踐和見解展示了如何充分利用現(xiàn)有硬件資源，為更廣泛的 AI 和 HPC 社區(qū)提供寶貴的經(jīng)驗(yàn)教訓(xùn)。

論文章節(jié)的主要內(nèi)容如下：

DeepSeek 模型的設(shè)計(jì)原則

低精度驅(qū)動(dòng)設(shè)計(jì)

以互聯(lián)為驅(qū)動(dòng)的設(shè)計(jì)

大規(guī)模網(wǎng)絡(luò)驅(qū)動(dòng)設(shè)計(jì)

面向未來的硬件架構(gòu)設(shè)計(jì)

DeepSeek 模型的設(shè)計(jì)原則

如下圖所示，DeepSeek-V3 采用 DeepSeek-MoE 和多頭潛在注意力（MLA）架構(gòu)，通過壓縮鍵值（KV）緩存大大減少了內(nèi)存消耗。此外，DeepSeek-V3 還采用了 FP8 混合精度訓(xùn)練，顯著降低了計(jì)算成本。

首次披露！DeepSeek V3 發(fā)布軟硬一體協(xié)同訓(xùn)練論文，公開“降成本”秘訣

這些創(chuàng)新旨在解決LLM規(guī)模中的三個(gè)核心挑戰(zhàn)——內(nèi)存效率、成本效益和推理速度。

LLM 通常需要大量的內(nèi)存資源，內(nèi)存需求每年增長(zhǎng) 1000% 以上。相比之下，高速內(nèi)存（例如 HBM）容量的增長(zhǎng)速度要慢得多，通常每年不到 50%。與使用 BF16 進(jìn)行權(quán)重的模型相比，F(xiàn)P8 將內(nèi)存消耗顯著降低了一半，有效緩解了 AI 內(nèi)存挑戰(zhàn)。

DeepSeek-V3 還采用了多頭潛在注意力（MLA），它使用投影矩陣將所有注意力頭的 KV 表示壓縮成一個(gè)更小的潛在向量，該矩陣與模型聯(lián)合訓(xùn)練。在推理過程中，只需要緩存潛在向量，與存儲(chǔ)所有注意力頭的 KV 緩存相比，顯著減少了內(nèi)存消耗。

除了 MLA 之外，DeepSeek 還提出了其他幾種方法來減小 KV 緩存的大小：

共享 KV：多頭共享一組 KV 配對(duì)，從而顯著壓縮了 KV 存儲(chǔ)。

窗口 KV：對(duì)于長(zhǎng)序列，緩存中只保留 KV 配對(duì)的滑動(dòng)窗口。

量化壓縮：KV 配對(duì)使用low-bit進(jìn)行存儲(chǔ)，進(jìn)一步減少了內(nèi)存使用。

對(duì)于稀疏計(jì)算，DeepSeek 還開發(fā)了 DeepSeek-MoE 架構(gòu)，MoE 模型的優(yōu)勢(shì)在于兩個(gè)方面：

第一，減少訓(xùn)練的計(jì)算要求：MoE 架構(gòu)的主要優(yōu)勢(shì)在于它能夠顯著降低訓(xùn)練成本。通過選擇性地僅激活專家參數(shù)的子集，MoE 模型允許參數(shù)總數(shù)急劇增加，同時(shí)保持計(jì)算要求適中。

首次披露！DeepSeek V3 發(fā)布軟硬一體協(xié)同訓(xùn)練論文，公開“降成本”秘訣

如圖表2所示，DeepSeek-V3 的總計(jì)算成本約為每個(gè)令牌 250 GFLOPS，而 72B 密集模型需要 394 GFLOPS，405B 密集模型需要 2448 GFLOPS。這表明 MoE 模型實(shí)現(xiàn)了與密集模型相當(dāng)甚至更好的性能，同時(shí)消耗的計(jì)算資源減少了一個(gè)數(shù)量級(jí)。

第二，個(gè)人使用和本地部署的優(yōu)勢(shì)：由于每個(gè)請(qǐng)求只激活了一個(gè)參數(shù)子集，因此內(nèi)存和計(jì)算需求大大減少。例如，DeepSeek-V2（236B 參數(shù)）在推理過程中僅激活 21B 參數(shù)。這使得配備 AI SoC 芯片的 PC 能夠?qū)崿F(xiàn)每秒近 20 個(gè)令牌（TPS）。相比之下，具有相似能力的密集模型（70B 參數(shù)）在類似硬件上通常只能達(dá)到個(gè)位數(shù)的 TPS。

除此之外，為了最大限度地提高吞吐量，DeepSeek-V3 從一開始就被構(gòu)建為利用雙微批處理重疊，有意將通信延遲與計(jì)算重疊。它將 MLA 和 MoE 的計(jì)算解耦為兩個(gè)不同的階段，當(dāng)一個(gè)微批處理執(zhí)行 MLA 或 MoE 計(jì)算的一部分時(shí)，另一個(gè)微批處理同時(shí)執(zhí)行相應(yīng)的調(diào)度通信。相反，在第二個(gè)微批處理的計(jì)算階段，第一個(gè)微批處理經(jīng)歷組合通信步驟。

這種流水線化方法實(shí)現(xiàn)了全對(duì)全通信與正在進(jìn)行的計(jì)算的無縫重疊，確保 GPU 始終保持充分利用。此外，在生產(chǎn)中，V3 還采用預(yù)填充和解碼解聚架構(gòu)，將大批量預(yù)填充和延遲敏感的解碼請(qǐng)求分配給不同的專家并行組大小，這可以最大限度地提高系統(tǒng)吞吐量。

雖然 MoE 模型表現(xiàn)出良好的可擴(kuò)展性，但僅通過增加硬件資源來實(shí)現(xiàn)高推理速度的成本很高。因此，軟件和算法也必須有助于提高推理效率。

DeepSeek-V3 引入了多標(biāo)記預(yù)測(cè) （MTP）框架，該框架同時(shí)增強(qiáng)了模型性能并提高了推理速度。MTP 可以讓模型能夠以較低的成本生成額外的候選標(biāo)記并并行驗(yàn)證，緩解了解碼步驟中標(biāo)記順序生成的瓶頸，在不影響準(zhǔn)確性的情況下顯著加快了推理速度。

真實(shí)世界的實(shí)踐數(shù)據(jù)表明，MTP 模塊預(yù)測(cè)第二個(gè)后續(xù)令牌的接受率為 80% 到 90%，與沒有 MTP 模塊的場(chǎng)景相比，生成 TPS 提高了 1.8 倍。

此外，通過預(yù)測(cè)每步多個(gè)令牌， MTP 增加了推理批量大小，這對(duì)于提高 EP 計(jì)算強(qiáng)度和硬件利用率至關(guān)重要。

低精度驅(qū)動(dòng)設(shè)計(jì)

雖然 GPTQ 和 AWQ 等量化技術(shù)已將位寬減少到 8 位、 4 位甚至更低，但是這些技術(shù)主要應(yīng)用于推理期間以節(jié)省內(nèi)存，而不是在訓(xùn)練階段。在 DeepSeek-V3 之前，沒有利用 FP8 進(jìn)行訓(xùn)練的開源大型模型。

DeepSeek 通過基礎(chǔ)設(shè)施和算法團(tuán)隊(duì)之間的深入合作，為 MoE 模型開發(fā)了一個(gè)與 FP8 兼容的訓(xùn)練框架，在訓(xùn)練管道中使用 FP8 精度前向和后向過程的計(jì)算組件。

雖然 FP8 在加速訓(xùn)練方面具有巨大潛力，但需要解決幾個(gè)硬件限制才能充分利用其功能：

FP8 累積精度： FP8 在 Tensor Core 中使用約束累加精度，這會(huì)影響訓(xùn)練大型模型的穩(wěn)定性

細(xì)粒度量化挑戰(zhàn)：細(xì)粒度量化在傳輸部分結(jié)果時(shí)引入了大量的反量化開銷，會(huì)導(dǎo)致頻繁的數(shù)據(jù)移動(dòng)，從而降低計(jì)算效率并使硬件利用率復(fù)雜化

為了解決現(xiàn)有硬件的限制，DeepSeek 對(duì)未來的設(shè)計(jì)有以下建議：

提高累積精度：硬件應(yīng)改進(jìn)并調(diào)整 Accumulation Register 精度到適當(dāng)?shù)闹担ɡ?FP32），或支持可配置的 Accumulation Precision

對(duì)原生細(xì)粒度量化的支持：硬件應(yīng)該支持原生細(xì)粒度量化，使 Tensor Core 能夠接收縮放因子并通過組縮放實(shí)現(xiàn)矩陣乘法，避免頻繁的數(shù)據(jù)移動(dòng)以減少去量化開銷。

DeepSeek-V3 架構(gòu)采用低精度壓縮進(jìn)行網(wǎng)絡(luò)通信。在 EP 并行期間，使用細(xì)粒度的 FP8 量化來調(diào)度令牌，與 BF16 相比，通信量減少了 50%，顯著縮短了通信時(shí)間。

他們的建議是，為 FP8 或自定義精度格式定制的壓縮和解壓縮單元提供本機(jī)支持是未來硬件的可行方法。這有助于最大限度地減少帶寬需求并簡(jiǎn)化通信管道，能大幅提升 MoE 訓(xùn)練等帶寬密集型任務(wù)的效率。

以互聯(lián)為驅(qū)動(dòng)的設(shè)計(jì)

研究團(tuán)隊(duì)當(dāng)前使用的 NVIDIA H800 GPU SXM 架構(gòu)，基于 Hopper 架構(gòu)，類似于 H100 GPU。然而，它為了滿足監(jiān)管要求，降低了 FP64 浮點(diǎn)計(jì)算性能和 NVLink 帶寬。具體來說，H800 SXM 節(jié)點(diǎn)中的 NVLink 帶寬從 900 GB/s 降低到了 400 GB/s。這個(gè)節(jié)點(diǎn)內(nèi)部帶寬的顯著下降對(duì)高性能工作負(fù)載帶來了挑戰(zhàn)。

首次披露！DeepSeek V3 發(fā)布軟硬一體協(xié)同訓(xùn)練論文，公開“降成本”秘訣

為了解決這個(gè)問題，他們?cè)诿總€(gè)節(jié)點(diǎn)都配備了 8 張 400G 的 Infiniband（IB）CX7 網(wǎng)卡，從而增強(qiáng)了向外擴(kuò)展（scale-out）的能力，以彌補(bǔ)帶寬不足。為了應(yīng)對(duì)這些硬件限制，DeepSeek-V3 模型在設(shè)計(jì)時(shí)結(jié)合了多項(xiàng)考慮，既貼合了硬件的優(yōu)勢(shì)，也規(guī)避了其局限。

為適配 H800 架構(gòu)的硬件限制，DeepSeek-V3 在并行策略上還進(jìn)行了如下優(yōu)化：

避免使用張量并行（TP）：在訓(xùn)練階段，TP 因?yàn)槭芟薜?NVLink 帶寬效率低下而被禁用。但在推理階段，TP 可以被選擇性地啟用，用于降低延遲和提升 TPOT（Tensor Parallel Optimized Transformer）性能。

增強(qiáng)的流水線并行（PP）：采用 DualPipe 機(jī)制，以便將注意力計(jì)算和 MoE 計(jì)算與通信重疊。這也有助于減少流水線空泡，并在多個(gè) GPU 間平衡內(nèi)存使用，從而提升整體吞吐量。

加速的專家并行（EP）：借助 8 張 400Gbps 的 Infiniband（IB）網(wǎng)卡，系統(tǒng)可以實(shí)現(xiàn)超過 40GB/s 的全互聯(lián)通信。

然而在 H800 架構(gòu)中，節(jié)點(diǎn)內(nèi)（intra-node）通信與節(jié)點(diǎn)間（inter-node）通信的帶寬差異約為 4:1。具體來說，NVLink 提供 200GB/s 的帶寬（實(shí)際可用約 160GB/s），而每張 400Gbps 的 IB 網(wǎng)卡實(shí)際帶寬約為 50GB/s（考慮小消息和延遲因素后，計(jì)算為 40GB/s 的有效帶寬）。

為了充分利用更高的節(jié)點(diǎn)內(nèi)帶寬，模型架構(gòu)特別在 TopK 專家選擇策略中，與硬件協(xié)同設(shè)計(jì)。

設(shè)想一個(gè)系統(tǒng)包含 8 個(gè)節(jié)點(diǎn)（共 64 張 GPU），以及 256 個(gè)路由專家（每張 GPU 有 4 個(gè)專家）。在 DeepSeek-V3 中，每個(gè) token 會(huì)被路由到一個(gè)共享專家和 8 個(gè)路由專家。如果這 8 個(gè)目標(biāo)專家平均分布在所有節(jié)點(diǎn)上，那么 token 在 IB 上的通信成本將是 8t（t 為傳輸一個(gè) token 所需時(shí)間）。

但如果利用 NVLink 的更高帶寬，將路由到同一節(jié)點(diǎn)的 token 先在節(jié)點(diǎn)內(nèi)通過 NVLink 傳輸，再由該節(jié)點(diǎn)的 GPU 使用 IB 轉(zhuǎn)發(fā)到其他節(jié)點(diǎn)，這種 NVLink 中繼方式可以顯著減少 IB 流量。當(dāng)目標(biāo)專家分布在 M 個(gè)節(jié)點(diǎn)時(shí)，這種策略可將通信成本降低為 Mt（M < 8）。

為實(shí)現(xiàn)這一策略，DeepSeek-V3 引入了節(jié)點(diǎn)受限的專家路由策略（Node-Limited Routing）。

具體來說，研究人員將 256 個(gè)路由專家分成 8 組，每組 32 個(gè)專家，并且每組部署在同一個(gè)節(jié)點(diǎn)上，而在實(shí)際部署時(shí)，他們使用算法保證每個(gè) token 最多只會(huì)被路由到最多 4 個(gè)節(jié)點(diǎn)。這種做法有效地緩解了 IB 通信的瓶頸，提升了訓(xùn)練期間通信帶寬的使用效率。

雖然節(jié)點(diǎn)受限路由策略（Node-Limited Routing）在一定程度上降低了通信帶寬的需求，但由于節(jié)點(diǎn)內(nèi)（NVLink）和節(jié)點(diǎn)間（IB）通信帶寬之間存在差異，這也使得通信流水線內(nèi)核的實(shí)現(xiàn)變得更為復(fù)雜。

在實(shí)際操作中，GPU 的流處理器（ SM）既用于處理網(wǎng)絡(luò)消息（例如填充 QPs 和 WQEs），也用于通過 NVLink 進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā)，這會(huì)消耗大量計(jì)算資源。例如，在訓(xùn)練過程中，H800 GPU 上多達(dá) 20 個(gè) SM 被分配給與通信相關(guān)的操作，從而減少了用于實(shí)際計(jì)算的資源。

為最大化在線推理的吞吐量，研究團(tuán)隊(duì)在 EP（專家并行）全互聯(lián)通信中完全采用 NIC RDMA，實(shí)現(xiàn)通信與計(jì)算資源的分離，避免 SM 資源競(jìng)爭(zhēng)，從而提升計(jì)算效率。這也凸顯了 RDMA 的異步通信模型在計(jì)算與通信重疊處理方面的優(yōu)勢(shì)。

當(dāng)前，在 EP 通信（特別是 combine 階段的 reduce 操作與數(shù)據(jù)類型轉(zhuǎn)換）中，SM 執(zhí)行的主要任務(wù)包括：

數(shù)據(jù)轉(zhuǎn)發(fā)：聚合目標(biāo)為同一節(jié)點(diǎn)中多個(gè) GPU 的 IB 流量，實(shí)現(xiàn) IB 與 NVLink 域之間的數(shù)據(jù)橋接；

數(shù)據(jù)傳輸：在 RDMA 緩沖區(qū)（GPU 注冊(cè)內(nèi)存區(qū)域）與輸入/輸出緩沖區(qū)之間傳輸數(shù)據(jù)；

規(guī)約操作：執(zhí)行 EP combine 所需的規(guī)約操作；

內(nèi)存布局管理：對(duì)穿越 IB 和 NVLink 域的分塊數(shù)據(jù)進(jìn)行精細(xì)化內(nèi)存布局管理；

數(shù)據(jù)類型轉(zhuǎn)換：在 all-to-all 通信前后執(zhí)行數(shù)據(jù)類型的轉(zhuǎn)換。

研究團(tuán)隊(duì)還給出了一些如何在編程框架層面實(shí)現(xiàn) scale-up 與 scale-out 的融合建議：

統(tǒng)一網(wǎng)絡(luò)適配器：設(shè)計(jì)能夠同時(shí)連接 scale-up 與 scale-out 網(wǎng)絡(luò)的 NIC（網(wǎng)絡(luò)接口卡）或 I/O Die。這些適配器應(yīng)具備基本的交換功能，比如能將來自 scale-out 網(wǎng)絡(luò)的包轉(zhuǎn)發(fā)到 scale-up 網(wǎng)絡(luò)中的特定 GPU?？梢酝ㄟ^一個(gè) LID（本地標(biāo)識(shí)符）或帶有策略路由的 IP 地址實(shí)現(xiàn)。

專用通信協(xié)處理器：引入一個(gè)專用協(xié)處理器或可編程組件（如 I/O die），用于處理網(wǎng)絡(luò)流量。這種組件可將報(bào)文處理任務(wù)從 GPU 的 SM 上卸載，避免性能下降，并具備硬件加速的內(nèi)存拷貝能力，以提升緩存管理效率。

靈活的轉(zhuǎn)發(fā)、廣播和規(guī)約機(jī)制：硬件應(yīng)支持靈活的轉(zhuǎn)發(fā)、EP 分發(fā)階段的廣播操作、以及 EP 聚合階段的規(guī)約操作，這些機(jī)制需跨越 scale-up 與 scale-out 網(wǎng)絡(luò)運(yùn)行。這樣可以復(fù)現(xiàn)我們當(dāng)前基于 GPU SM 的實(shí)現(xiàn)邏輯，不僅提升了有效帶寬，也減少了網(wǎng)絡(luò)操作的計(jì)算復(fù)雜度。

硬件同步原語（Hardware Synchronization Primitives）：提供更精細(xì)粒度的硬件同步指令，用于處理內(nèi)存一致性問題或亂序報(bào)文抵達(dá)問題。這將替代基于軟件的同步機(jī)制（如 RDMA 的完成事件），后者通常會(huì)引入額外的延遲并增加編程復(fù)雜度。基于 acquire/release 模型的內(nèi)存語義通信是一個(gè)有前景的解決方案。

他們認(rèn)為，通過實(shí)現(xiàn)上述建議，未來的硬件設(shè)計(jì)將能夠顯著提升大規(guī)模分布式 AI 系統(tǒng)的效率，同時(shí)簡(jiǎn)化軟件開發(fā)的復(fù)雜度。

大規(guī)模網(wǎng)絡(luò)驅(qū)動(dòng)設(shè)計(jì)

在 DeepSeek-V3 的訓(xùn)練過程中，研究團(tuán)隊(duì)部署了一個(gè)“多平面胖樹”（Multi-Plane Fat-Tree, MPFT）scale-out 網(wǎng)絡(luò)。每個(gè)節(jié)點(diǎn)配備了 8 張 GPU 和 8 張 IB 網(wǎng)卡，每對(duì) GPU-NIC 映射到一個(gè)獨(dú)立的網(wǎng)絡(luò)平面（plane）。

首次披露！DeepSeek V3 發(fā)布軟硬一體協(xié)同訓(xùn)練論文，公開“降成本”秘訣

這是一個(gè)八平面、兩層的胖樹結(jié)構(gòu)網(wǎng)絡(luò)，其中每對(duì) GPU 和 IB NIC 映射到一個(gè)網(wǎng)絡(luò)平面，并且跨平面的流量必須通過另一個(gè) NIC，并通過 PCIe 或 NVLink 進(jìn)行節(jié)點(diǎn)內(nèi)轉(zhuǎn)發(fā)。

在保留兩層網(wǎng)絡(luò)拓?fù)湓诔杀竞脱舆t方面優(yōu)勢(shì)的同時(shí)，由于政策和監(jiān)管限制，最終實(shí)際部署的 GPU 數(shù)量?jī)H略高于 2000 張。

此外，每個(gè)節(jié)點(diǎn)還配有一張 400Gbps 的以太網(wǎng) RoCE NIC，用于連接分布式存儲(chǔ)系統(tǒng) 3FS 所在的獨(dú)立存儲(chǔ)網(wǎng)絡(luò)平面。在該 scale-out 網(wǎng)絡(luò)中，我們使用了 64 端口的 400G IB 交換機(jī)，從理論上講，這種拓?fù)淇芍С肿疃?16384 張 GPU。

然而，由于 IB ConnectX-7 的當(dāng)前技術(shù)限制，他們部署的 MPFT 網(wǎng)絡(luò)尚未完全實(shí)現(xiàn)理想架構(gòu)。

理想情況下，每張 NIC 應(yīng)該具備多個(gè)物理端口，每個(gè)連接到不同的網(wǎng)絡(luò)平面，但對(duì)用戶而言，它們通過端口綁定暴露為一個(gè)統(tǒng)一的邏輯接口。

首次披露！DeepSeek V3 發(fā)布軟硬一體協(xié)同訓(xùn)練論文，公開“降成本”秘訣

從用戶角度來看，單個(gè) QP（隊(duì)列對(duì)）可以跨所有可用端口無縫收發(fā)數(shù)據(jù)包，類似于“報(bào)文噴灑”（packet spraying）。但這也帶來了一個(gè)問題：同一個(gè) QP 發(fā)出的數(shù)據(jù)包可能通過不同的網(wǎng)絡(luò)路徑傳輸，導(dǎo)致到達(dá)接收端時(shí)的順序被打亂，因此需要 NIC 提供原生的亂序報(bào)文排序能力。

研究團(tuán)隊(duì)還介紹了多平面胖樹網(wǎng)絡(luò)的優(yōu)勢(shì)：

多軌胖樹（MRFT）的子集：MPFT 拓?fù)浣Y(jié)構(gòu)是更廣義的 Multi-Rail Fat-Tree（MRFT）架構(gòu)的一個(gè)特定子集。因此，NVIDIA 和 NCCL 為多軌網(wǎng)絡(luò)開發(fā)的現(xiàn)有優(yōu)化策略可以無縫應(yīng)用到多平面網(wǎng)絡(luò)的部署中。此外，NCCL 對(duì) PXN（Port eXtended Network）技術(shù)的支持，解決了平面間通信隔離的問題，即便在平面之間沒有直接互聯(lián)的情況下，也能實(shí)現(xiàn)高效通信。

成本效益高（Cost Efficiency）：多平面網(wǎng)絡(luò)使用兩層胖樹（FT2）拓?fù)浼纯芍С殖^ 1 萬個(gè)端點(diǎn)，顯著降低了與三層胖樹（FT3）架構(gòu)相比的網(wǎng)絡(luò)成本。其每個(gè)端點(diǎn)的成本甚至比高性價(jià)比的 Slim Fly（SF）拓?fù)溥€要更低。

流量隔離（Traffic Isolation）：每個(gè)平面獨(dú)立運(yùn)行，確保某一個(gè)平面的擁塞不會(huì)影響到其他平面。這種隔離機(jī)制提高了整體網(wǎng)絡(luò)的穩(wěn)定性，并防止級(jí)聯(lián)式性能下降的發(fā)生。

低延遲（Latency Reduction）：實(shí)驗(yàn)表明，兩層胖樹（Two-Layer Fat Tree）拓?fù)湎噍^于三層胖樹具有更低的延遲。這一點(diǎn)使其特別適合延遲敏感型任務(wù)，如基于 MoE 架構(gòu)的大模型訓(xùn)練與推理。

魯棒性（Robustness）：配備多端口的 NIC 提供多個(gè)上行鏈路，因此即使某個(gè)端口發(fā)生故障，也不會(huì)導(dǎo)致通信中斷，系統(tǒng)能夠?qū)崿F(xiàn)快速、透明的故障恢復(fù)。

值得注意的是，由于當(dāng)前 400G NDR InfiniBand 的限制，跨平面通信仍需通過節(jié)點(diǎn)內(nèi)的轉(zhuǎn)發(fā)實(shí)現(xiàn)，這在推理過程中會(huì)引入額外的延遲。如果未來硬件能夠?qū)崿F(xiàn)之前建議的 scale-up 與 scale-out 網(wǎng)絡(luò)的融合，那么這種延遲將大大減少，從而進(jìn)一步增強(qiáng)多平面網(wǎng)絡(luò)的可行性。

首次披露！DeepSeek V3 發(fā)布軟硬一體協(xié)同訓(xùn)練論文，公開“降成本”秘訣

為了驗(yàn)證多平面網(wǎng)絡(luò)設(shè)計(jì)的有效性，研究人員在實(shí)際部署的集群上進(jìn)行了一系列實(shí)驗(yàn)。通過修改集群的網(wǎng)絡(luò)拓?fù)?，我們比較了多平面兩層胖樹（MPFT）和單平面多軌胖樹（MRFT）在性能上的差異。

他們發(fā)現(xiàn)在全互聯(lián)通信任務(wù)中，多平面網(wǎng)絡(luò)的性能幾乎與單平面多軌網(wǎng)絡(luò)持平。這一性能上的一致性歸因于 NCCL 的 PXN 機(jī)制 [54]，它能在多軌拓?fù)渲袃?yōu)化 NVLink 的流量轉(zhuǎn)發(fā)，而多平面拓?fù)渫瑯涌梢允芤嬗谠摍C(jī)制。

首次披露！DeepSeek V3 發(fā)布軟硬一體協(xié)同訓(xùn)練論文，公開“降成本”秘訣

而在 16 張 GPU 上進(jìn)行的 all-to-all 通信測(cè)試中，MPFT 與 MRFT 在延遲方面幾乎沒有差異。

首次披露！DeepSeek V3 發(fā)布軟硬一體協(xié)同訓(xùn)練論文，公開“降成本”秘訣

為了進(jìn)一步評(píng)估 MPFT 在實(shí)際訓(xùn)練中的表現(xiàn)，他們還測(cè)試了訓(xùn)練中常見的專家并行通信（EP）模式。在多平面網(wǎng)絡(luò)中，每張 GPU 都能達(dá)到超過 40GB/s 的高帶寬，表明其在訓(xùn)練場(chǎng)景下具有出色且穩(wěn)定的通信能力。

研究人員還比較了 DeepSeek-V3 模型在 MPFT 與 MRFT 網(wǎng)絡(luò)中的訓(xùn)練指標(biāo)：

MFU（Model Flops Utilization）指標(biāo)是基于 BF16 理論峰值計(jì)算的；

Causal MFU 只考慮注意力矩陣下三角部分的 FLOPs；

Non-Causal MFU 則包括整個(gè)注意力矩陣的 FLOPs；

表中 1F、1B 和 1W 分別代表前向時(shí)間、輸入反向傳播時(shí)間、權(quán)重反向傳播時(shí)間。

實(shí)驗(yàn)顯示，在 2048 張 GPU 上訓(xùn)練 V3 模型時(shí)，MPFT 的整體性能幾乎與 MRFT 持平，兩者間的性能差異完全處于正常波動(dòng)范圍內(nèi)。

首次披露！DeepSeek V3 發(fā)布軟硬一體協(xié)同訓(xùn)練論文，公開“降成本”秘訣

除此之外，團(tuán)隊(duì)還對(duì) InfiniBand 還是 RoCE 的問題進(jìn)行了實(shí)驗(yàn)，他們發(fā)現(xiàn) InfiniBand（IB）在延遲方面始終優(yōu)于 RoCE，因此成為分布式訓(xùn)練和推理等延遲敏感型任務(wù)的首選網(wǎng)絡(luò)方案。

不過，盡管 IB 擁有更低的延遲表現(xiàn)，但它也存在一些實(shí)際限制：

成本（Cost）：IB 硬件遠(yuǎn)比 RoCE 成本高，限制了其在更大范圍的部署中普及。

可擴(kuò)展性（Scalability）：IB 交換機(jī)通常最多支持 64 個(gè)端口，而 RoCE 交換機(jī)常見為 128 個(gè)端口。這使得 IB 在構(gòu)建超大規(guī)模集群時(shí)面臨擴(kuò)展性瓶頸。

首次披露！DeepSeek V3 發(fā)布軟硬一體協(xié)同訓(xùn)練論文，公開“降成本”秘訣

盡管 RoCE 被認(rèn)為是 IB 的一個(gè)高性價(jià)比替代方案，但目前在延遲和可擴(kuò)展性上的不足，限制了其在大規(guī)模 AI 系統(tǒng)中的應(yīng)用潛力，介于這一點(diǎn)，研究團(tuán)隊(duì)也對(duì) RoCE 提出了一些優(yōu)化意見：

專用低延遲 RoCE 交換機(jī)：他們建議以太網(wǎng)設(shè)備廠商開發(fā)專為 RDMA 工作負(fù)載優(yōu)化的 RoCE 交換機(jī)，去除那些不必要的傳統(tǒng)以太網(wǎng)功能。

例如，Slingshot 架構(gòu)就展示了如何通過以太網(wǎng)設(shè)計(jì)實(shí)現(xiàn)接近 IB 的低延遲性能。類似地，Broadcom 的一系列新技術(shù)也展現(xiàn)出在 AI 應(yīng)用場(chǎng)景中的巨大潛力，包括 AI Forwarding Header（AIFH）機(jī)制和即將發(fā)布的低延遲以太網(wǎng)交換機(jī)。這些創(chuàng)新展示了基于以太網(wǎng)的高性能 RDMA 網(wǎng)絡(luò)是完全可行的。

優(yōu)化的路由策略：RoCE 默認(rèn)采用 ECMP（Equal-Cost Multi-Path）路由策略，在跨互聯(lián)網(wǎng)絡(luò)時(shí)難以高效地分散流量，常常導(dǎo)致 NCCL 集合通信中的嚴(yán)重?fù)砣托阅芟陆怠?/p>

例如，在數(shù)據(jù)并行（DP）訓(xùn)練中，LLM 的通信流量往往缺乏足夠的隨機(jī)性，導(dǎo)致多個(gè)流聚集到同一個(gè)鏈路，引發(fā)瓶頸。而自適應(yīng)路由（Adaptive Routing, AR）可以動(dòng)態(tài)地將數(shù)據(jù)包“噴灑”到多條路徑上，從而顯著提升網(wǎng)絡(luò)性能。雖然手動(dòng)配置的靜態(tài)路由表（Static Routing）能在特定目標(biāo)下避免鏈路沖突，但它缺乏靈活性。對(duì)于大規(guī)模 all-to-all 通信，自適應(yīng)路由無疑在性能和擴(kuò)展性方面更具優(yōu)勢(shì)。

首次披露！DeepSeek V3 發(fā)布軟硬一體協(xié)同訓(xùn)練論文，公開“降成本”秘訣

改進(jìn)的流量隔離與擁塞控制機(jī)制：

當(dāng)前的 RoCE 交換機(jī)通常僅支持有限數(shù)量的優(yōu)先隊(duì)列（priority queues），這對(duì)于同時(shí)涉及多種通信模式（如 EP 的 all-to-all 與 DP 的 all-reduce）的復(fù)雜 AI 工作負(fù)載來說遠(yuǎn)遠(yuǎn)不夠。在這種混合通信場(chǎng)景中，all-to-all 會(huì)因突發(fā)性的一對(duì)多傳輸引發(fā)“入端擁塞（incast congestion）”，嚴(yán)重時(shí)會(huì)拖慢整條網(wǎng)絡(luò)路徑的性能。

研究團(tuán)隊(duì)認(rèn)為可以使用虛擬輸出隊(duì)列：為每個(gè)隊(duì)列對(duì)（QP）分配一個(gè)虛擬隊(duì)列，做到流量級(jí)別的隔離，以及使用更高效的擁塞控制機(jī)制，如基于 RTT 的擁塞控制（RTTCC），或用戶可編程的擁塞控制（PCC）。這些機(jī)制可以實(shí)現(xiàn)網(wǎng)卡與交換機(jī)之間的協(xié)同優(yōu)化，在動(dòng)態(tài)流量條件下保持低延遲與高吞吐。

最后，研究人員表示他們自己是使用 IBGDA 技術(shù)來降低網(wǎng)絡(luò)通信中的延遲。而傳統(tǒng)的 GPU 網(wǎng)絡(luò)通信流程中通常需要通過 CPU 協(xié)程作為代理線程，為此他們還貼心的整理出了流程：

GPU 準(zhǔn)備好要發(fā)送的數(shù)據(jù)、通知 CPU 代理、CPU 填寫控制信息（Work Request, WR），然后通過 doorbell 機(jī)制通知網(wǎng)卡啟動(dòng)數(shù)據(jù)傳輸。

他們表示這種方式引入了不小的通信開銷。而 IBGDA 則通過允許 GPU 直接填寫 WR（無需經(jīng)過 CPU），極大減少了中間環(huán)節(jié)的延遲，提高了通信效率。

面向未來的硬件架構(gòu)設(shè)計(jì)

研究團(tuán)隊(duì)在識(shí)別了當(dāng)前硬件面臨的限制，并提出了相應(yīng)的建議后，將視野擴(kuò)展至更宏觀的層面，提出未來硬件架構(gòu)設(shè)計(jì)的前瞻性方向。他們認(rèn)為當(dāng)前主要的限制包括：

互聯(lián)故障（Interconnect Failures）：高性能互聯(lián)系統(tǒng)（如 InfiniBand 與 NVLink）易受到間歇性斷連的影響，這會(huì)破壞節(jié)點(diǎn)之間的通信。在通信密集型任務(wù)（如專家并行 EP）中，即便是短暫的通信中斷，也可能造成明顯的性能下降，甚至任務(wù)失敗。

單點(diǎn)硬件故障（Single Hardware Failures）：節(jié)點(diǎn)宕機(jī)、GPU 故障，或 ECC（糾錯(cuò)碼）內(nèi)存錯(cuò)誤都可能影響到長(zhǎng)時(shí)間運(yùn)行的訓(xùn)練任務(wù)，往往需要代價(jià)高昂的任務(wù)重啟。在大規(guī)模部署中，這類單點(diǎn)故障的概率隨著系統(tǒng)規(guī)模的擴(kuò)大而急劇上升。

靜默數(shù)據(jù)損壞（Silent Data Corruption）：某些錯(cuò)誤（如多位內(nèi)存翻轉(zhuǎn)、計(jì)算錯(cuò)誤等）可能逃逸 ECC 機(jī)制的檢測(cè)，造成模型訓(xùn)練中的數(shù)據(jù)悄然被破壞。這類錯(cuò)誤最為隱蔽，會(huì)在長(zhǎng)時(shí)間訓(xùn)練過程中積累，導(dǎo)致下游計(jì)算被污染，嚴(yán)重?fù)p害模型質(zhì)量。當(dāng)前的緩解措施主要依賴于應(yīng)用層啟發(fā)式檢測(cè)，但這不足以確保系統(tǒng)層面的整體魯棒性。

他們還認(rèn)為，為了應(yīng)對(duì)傳統(tǒng) ECC 所無法覆蓋的錯(cuò)誤類型，硬件需要引入更先進(jìn)的檢測(cè)機(jī)制。例如：基于校驗(yàn)和（checksum）的驗(yàn)證機(jī)制、硬件加速的冗余校驗(yàn)（redundancy checks）。這些方法能為大規(guī)模部署提供更高的系統(tǒng)可靠性。

此外，硬件廠商應(yīng)向最終用戶提供全面的診斷工具包，以支持其對(duì)系統(tǒng)完整性的驗(yàn)證，并及時(shí)識(shí)別潛在的靜默數(shù)據(jù)損壞風(fēng)險(xiǎn)。若這些工具作為標(biāo)準(zhǔn)硬件的一部分預(yù)裝，能夠?qū)崿F(xiàn)持續(xù)運(yùn)行期內(nèi)的驗(yàn)證流程，從而提升整個(gè)系統(tǒng)的透明度與可信度。

盡管加速器（如 GPU）往往成為設(shè)計(jì)焦點(diǎn)，但CPU 依舊是協(xié)調(diào)計(jì)算任務(wù)、管理 I/O 操作、保持系統(tǒng)吞吐量不可或缺的關(guān)鍵組件。但研究團(tuán)隊(duì)認(rèn)為當(dāng)前架構(gòu)存在幾個(gè)嚴(yán)重瓶頸：

PCIe 成為瓶頸：CPU 與 GPU 之間的 PCIe 接口在傳輸大規(guī)模參數(shù)、梯度或 KV 緩存時(shí)，常成為帶寬瓶頸。

為此，研究團(tuán)隊(duì)也給出了一些建議，他們認(rèn)為未來系統(tǒng)應(yīng)采用CPU-GPU 直連方式（如 NVLink、Infinity Fabric），或?qū)?CPU 與 GPU 一并納入 scale-up 域中，從根本上消除節(jié)點(diǎn)內(nèi)互聯(lián)瓶頸。

內(nèi)存帶寬不足：為了支撐高速數(shù)據(jù)傳輸，還需匹配足夠高的內(nèi)存帶寬。例如，要跑滿 160 條 PCIe 5.0 通道，需要每個(gè)節(jié)點(diǎn)擁有 640 GB/s 的 IO 吞吐，對(duì)應(yīng)約 1 TB/s 的內(nèi)存帶寬，這對(duì)傳統(tǒng) DRAM 架構(gòu)構(gòu)成巨大挑戰(zhàn)。

對(duì) CPU 性能的需求提升：

在 Chiplet 架構(gòu)中，還需更多核心支持按緩存感知方式（cache-aware）劃分與隔離負(fù)載。

同時(shí)，為避免控制側(cè)成為瓶頸，每張 GPU 需要配備足夠多的 CPU 核；

對(duì)于內(nèi)核調(diào)度、網(wǎng)絡(luò)處理等低延遲任務(wù)，需要基礎(chǔ)頻率在 4GHz 以上的單核性能；

除此之外，他們還提出了幾個(gè)關(guān)鍵方向，為滿足低延遲、高效率的 AI 工作負(fù)載，未來的互聯(lián)網(wǎng)絡(luò)不僅要具備低延遲，更應(yīng)具備“智能感知能力”，指出了一條道路：

共封裝光學(xué)（Co-Packaged Optics）：通過集成硅光技術(shù)，可實(shí)現(xiàn)可擴(kuò)展的超高帶寬與能效比，這對(duì)構(gòu)建大規(guī)模分布式系統(tǒng)至關(guān)重要。

無損網(wǎng)絡(luò)（Lossless Network）：雖然基于信用的流量控制（CBFC）機(jī)制可以保證無損數(shù)據(jù)傳輸，但如果觸發(fā)方式不當(dāng)，會(huì)導(dǎo)致嚴(yán)重的“隊(duì)頭阻塞”（head-of-line blocking）。因此，必須部署由終端主動(dòng)驅(qū)動(dòng)的高級(jí)擁塞控制（Congestion Control, CC）算法，主動(dòng)調(diào)節(jié)注入速率，防止極端擁塞情況的發(fā)生。

自適應(yīng)路由（Adaptive Routing）：未來網(wǎng)絡(luò)應(yīng)標(biāo)準(zhǔn)化動(dòng)態(tài)路由機(jī)制，例如“分包噴灑（packet spraying）”與“擁塞感知轉(zhuǎn)發(fā)”。

對(duì)于 load/store 的內(nèi)存語義通信在跨節(jié)點(diǎn)通信中具備效率高、編程友好的優(yōu)勢(shì)，但當(dāng)前的實(shí)現(xiàn)常受限于內(nèi)存順序約束（memory ordering）的問題，研究團(tuán)隊(duì)也給出了自己的意見。

他們先是舉了個(gè)例子：發(fā)送方在寫入數(shù)據(jù)后，必須先執(zhí)行一次內(nèi)存屏障（memory fence），再更新通知接收方的標(biāo)志位，才能確保接收方讀到的是“已完成寫入”的數(shù)據(jù)。這種強(qiáng)順序要求帶來額外的 RTT 延遲，并可能阻塞當(dāng)前線程，降低系統(tǒng)的吞吐量。

類似地，在消息語義的 RDMA 場(chǎng)景中也存在亂序同步的問題。例如，在 InfiniBand 或 NVIDIA BlueField-3 上，在 RDMA 寫之后再執(zhí)行基于分包噴灑的 RDMA 原子加操作，也會(huì)引發(fā)額外的 RTT 延遲。

然后給出了建議：在硬件層面加入對(duì)內(nèi)存語義通信順序的一致性保障，包括編程接口層面支持 acquire/release 語義，以及在接收端由硬件保證順序投遞（in-order delivery），避免引入軟件側(cè)開銷。

一種可行的方法是：接收方緩存原子消息，并利用數(shù)據(jù)包序號(hào)確保按序處理。然而，他們認(rèn)為更優(yōu)雅也更高效的方式是使用 Region Acquire/Release（RAR）機(jī)制：

硬件在接收端維護(hù)一個(gè) bitmap，用于記錄某段 RNR（remote non-registered）內(nèi)存區(qū)域的狀態(tài)，acquire/release 操作在此地址范圍內(nèi)生效，并且只需極小的 bitmap 開銷，即可實(shí)現(xiàn)由硬件強(qiáng)制的通信順序保障，最重要的是，這一機(jī)制理想情況下可由 NIC 或 I/O Die 來實(shí)現(xiàn)。

最后研究團(tuán)隊(duì)強(qiáng)調(diào)，RAR 不僅適用于內(nèi)存語義操作，也同樣能擴(kuò)展到 RDMA 的消息語義原語中，具有廣泛的實(shí)用性。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))關(guān)注到，他們還認(rèn)為在混合工作負(fù)載環(huán)境下，未來硬件應(yīng)該具備動(dòng)態(tài)帶寬分配和流量?jī)?yōu)先級(jí)控制的能力。例如，在訓(xùn)練與推理任務(wù)混合部署的場(chǎng)景中，應(yīng)當(dāng)將推理請(qǐng)求從訓(xùn)練任務(wù)中隔離，以確保延遲敏感型應(yīng)用的響應(yīng)速度。

此外，未來網(wǎng)絡(luò)還應(yīng)當(dāng)：

采用智能路徑選擇策略，實(shí)時(shí)監(jiān)測(cè)網(wǎng)絡(luò)狀態(tài)，智能分流，緩解通信熱點(diǎn)；

支持自愈協(xié)議、冗余端口、快速故障切換（failover）機(jī)制，保障系統(tǒng)的魯棒性；

具備高效的擁塞控制機(jī)制，比如端側(cè)主導(dǎo)的流控與注入速率調(diào)節(jié)機(jī)制，避免嚴(yán)重?fù)砣?/p>

支持 lossless 網(wǎng)絡(luò)協(xié)議但避免“隊(duì)頭阻塞”問題，比如通過優(yōu)化 CBFC（基于信用的流控）與自適應(yīng)擁塞感知機(jī)制配合。

最后，研究團(tuán)隊(duì)指出模型規(guī)模的指數(shù)級(jí)增長(zhǎng)，已經(jīng)遠(yuǎn)遠(yuǎn)超過了高帶寬內(nèi)存（HBM）技術(shù)的進(jìn)展速度。這種不匹配導(dǎo)致了嚴(yán)重的內(nèi)存瓶頸，特別是在以注意力機(jī)制為核心的架構(gòu)（例如 Transformer）中，內(nèi)存帶寬限制成為性能提升的最大障礙。

為此他們也提出了兩點(diǎn)建議：

DRAM 堆疊加速器（DRAM-Stacked Accelerators）：借助先進(jìn)的三維堆疊（3D stacking）技術(shù)，可以將 DRAM 芯片垂直整合在計(jì)算邏輯芯片之上。這種設(shè)計(jì)能夠提供極高的內(nèi)存帶寬、超低延遲，同時(shí)具備實(shí)用的內(nèi)存容量（盡管受限于堆疊層數(shù)）。對(duì)于專家混合（MoE）模型中的超高速推理任務(wù)，這種架構(gòu)極具優(yōu)勢(shì)，因?yàn)樗茱@著緩解內(nèi)存吞吐瓶頸。例如，SeDRAM 架構(gòu)就展示了這種模式的潛力，在內(nèi)存受限的工作負(fù)載下提供了前所未有的性能表現(xiàn)。

晶圓級(jí)系統(tǒng)集成（System-on-Wafer, SoW）：晶圓級(jí)集成技術(shù)通過將多個(gè)計(jì)算單元和存儲(chǔ)模塊整合在一整塊晶圓上，可以最大化計(jì)算密度與內(nèi)存帶寬，滿足超大規(guī)模模型在訓(xùn)練與推理階段對(duì)存儲(chǔ)和帶寬的極端需求。

他們表示，這些內(nèi)存中心的架構(gòu)創(chuàng)新，旨在打破當(dāng)前內(nèi)存發(fā)展滯后于模型規(guī)模擴(kuò)張的瓶頸，是下一代 AI 系統(tǒng)持續(xù)邁向“更大、更快、更穩(wěn)”的關(guān)鍵路徑之一。同時(shí)這些方案也在 DeepSeek-V3 訓(xùn)練與推理實(shí)踐中均取得了實(shí)效，為下一代高性能 AI 系統(tǒng)構(gòu)建了堅(jiān)實(shí)的內(nèi)存支撐基礎(chǔ)。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。