丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給Nemo
發(fā)送

0

DeepSeek致謝騰訊大模型網(wǎng)絡提速技術(shù)方案貢獻,助力大模型通信性能提升30%

本文作者: Nemo   2025-05-07 18:46
導語:相關(guān)技術(shù)方案獲得了DeepSeek公開致謝,稱這是一次“huge speedup”代碼貢獻。

5月7日,記者獲悉,騰訊技術(shù)團隊針對DeepSeek開源的DeepEP通信框架進行深度優(yōu)化,使其在多種網(wǎng)絡環(huán)境下均實現(xiàn)顯著性能提升。經(jīng)測試,優(yōu)化后的通信框架性能在RoCE網(wǎng)絡環(huán)境提升100%,IB網(wǎng)絡環(huán)境提升30%,為企業(yè)開展AI大模型訓練提供更高效的解決方案。相關(guān)技術(shù)方案獲得了DeepSeek公開致謝,稱這是一次“huge speedup”代碼貢獻。

DeepSeek致謝騰訊大模型網(wǎng)絡提速技術(shù)方案貢獻,助力大模型通信性能提升30%

自今年2月DeepSeek開源包括DeepEP在內(nèi)的五大代碼庫以來,該團隊便向業(yè)界展示了如何利用有限的硬件資源實現(xiàn)接近萬卡集群的性能。在這些技術(shù)中,DeepEP憑借突破性的方法提升了300%的通信效率,成功解決了MoE架構(gòu)大模型對英偉達NCCL的依賴問題。

但該技術(shù)在成本較低、適用面更廣的RoCE網(wǎng)絡環(huán)境中表現(xiàn)不佳,限制了其在更廣泛場景的應用。這一痛點引發(fā)了開源社區(qū)的持續(xù)討論。

騰訊星脈網(wǎng)絡團隊基于在RoCE網(wǎng)絡領(lǐng)域的深厚積累,在DeepEP開源后便展開技術(shù)攻關(guān),發(fā)現(xiàn)兩大關(guān)鍵瓶頸:一是對于雙端口網(wǎng)卡帶寬利用率不足,二是CPU控制面交互存在時延。

騰訊在RoCE網(wǎng)絡優(yōu)化方面的突破,首先體現(xiàn)在帶寬分配的智能化,通過拓撲感知的多QP建鏈技術(shù),智能分配數(shù)據(jù)流,優(yōu)化了雙端口網(wǎng)卡的帶寬利用率,確保每條數(shù)據(jù)通道都能得到充分使用。此舉有效避免了帶寬浪費,為RoCE網(wǎng)絡的性能提升提供了有力支撐。

其次,騰訊還著力解決了GPU通信中的CPU控制瓶頸問題。通過基于IBGDA技術(shù)的優(yōu)化,騰訊使得“控制面”場景的操作也可以繞過CPU的“中轉(zhuǎn)”,進一步降低了延遲和能耗,提升了整體通信效率。

同時,GPU直接“對話”時存在的傳輸順序混亂難題,騰訊提出了“QP內(nèi)時序鎖”機制,使得多個GPU間的數(shù)據(jù)傳輸能夠精準、按順序完成,即使同時處理1000多個數(shù)據(jù)傳輸任務,DeepEP也能自動理順先后順序。

在騰訊的技術(shù)優(yōu)化下,DeepEP不僅在RoCE網(wǎng)絡實現(xiàn)性能翻倍,反哺到IB(InfiniBand)網(wǎng)絡時更使原有通信效率再提升30%。

DeepSeek致謝騰訊大模型網(wǎng)絡提速技術(shù)方案貢獻,助力大模型通信性能提升30%

(騰訊工程師在不同節(jié)點服務器上的測試數(shù)據(jù))

目前該技術(shù)已全面開源,并成功應用于騰訊混元大模型等項目的訓練推理,在騰訊星脈與H20服務器構(gòu)建的高性能環(huán)境中,這套方案同樣展現(xiàn)出卓越的通用性。


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說