「鯰魚」DeepSeek 正在攪動(dòng)上下游

本文作者：朱可軒

2025-02-07 18:10

導(dǎo)語(yǔ)：大模型同行焦慮、云廠「搶食」、芯片廠拼命，DeepSeek 效應(yīng)仍在持續(xù)。

作者｜朱可軒

編輯｜陳彩嫻

春節(jié)結(jié)束，DeepSeek 熱度不減，而要說剛剛過去的春節(jié)假期，留給科技圈的印象可能是“卷上加卷”，幾乎無人不在熱議分析著 DeepSeek 這條“鯰魚”。

硅谷方面迎來了空前的危機(jī)感：開源的信徒們聲量再度走高，甚至連 OpenAI 都在反思閉源的決策是否正確；低算力成本的新范式引發(fā)芯片巨頭英偉達(dá)連鎖反應(yīng)，創(chuàng)下美股史上最大規(guī)模單日市值蒸發(fā)紀(jì)錄；政府部門下場(chǎng)調(diào)查 DeepSeek 使用芯片的合規(guī)性......

在海外對(duì) DeepSeek 評(píng)價(jià)褒貶不一的同時(shí)，國(guó)內(nèi)也迎來了空前繁榮。

DeepSeek 發(fā)布 R1 模型后上線的 APP 接到潑天流量，初步驗(yàn)證了應(yīng)用端增長(zhǎng)將會(huì)拉動(dòng)整個(gè) AI 生態(tài)發(fā)展。利好在于 DeepSeek 會(huì)把整個(gè)應(yīng)用的可能性都打開，換言之就是以后發(fā)現(xiàn) ChatGPT 不用這么貴。

這點(diǎn)在近日 OpenAI 的頻繁動(dòng)作中也可以窺見，其為應(yīng)戰(zhàn) DeepSeek R1 首次向免費(fèi)用戶提供推理模型 o3-mini，并也在后續(xù)升級(jí)公開了 o3-mini 的推理思維鏈，不少海外網(wǎng)友在評(píng)論中向 DeepSeek 表示感謝，不過這一思維鏈僅為總結(jié)版。

「鯰魚」DeepSeek 正在攪動(dòng)上下游

同時(shí)能樂觀看到的是，DeepSeek 這一波無疑又將國(guó)內(nèi)拎成一股繩。

在其將模型降本按下加速鍵后，以其為圓心，上游芯片廠商、中間層云廠以及一眾創(chuàng)業(yè)公司都在積極加入生態(tài)中，為 DeepSeek 模型使用的降本增效持續(xù)添磚加瓦。

據(jù) DeepSeek 論文介紹，V3 模型完整訓(xùn)練僅需 278.8 萬 H800 GPU 小時(shí)，且訓(xùn)練過程十分穩(wěn)定。

在這背后，MoE 架構(gòu)是 V3 相比 Llama 3 405B 預(yù)訓(xùn)練成本降低十倍最關(guān)鍵的原因，當(dāng)前，V3 是在公開領(lǐng)域第一個(gè)證明 MoE 的稀疏度可以做到這么高的模型。此外，MLA 同樣相輔相成，這部分則主要體現(xiàn)在推理側(cè)。

“越稀疏的 MoE 在推理的時(shí)候需要越大的 batch size 才能充分利用算力。而限制 batch size 的最關(guān)鍵因素就是 KVCache 的大小，MLA 大幅度縮小了 KVCache 大小。”趨境科技研究員向 AI 科技評(píng)論分析道。

從整體上來看，DeepSeek 的成功在于各項(xiàng)技術(shù)的組合，而非單一技術(shù)。業(yè)內(nèi)評(píng)價(jià)，DeepSeek 團(tuán)隊(duì)工程能力極強(qiáng)，其在并行訓(xùn)練、算子優(yōu)化等方面也都做得很好，把每個(gè)細(xì)節(jié)做到極致后才實(shí)現(xiàn)了最終的突破性效果。

而 DeepSeek 開源也意味著能為大模型整體發(fā)展再添一把柴，其現(xiàn)階段成果還體現(xiàn)在語(yǔ)言模型，業(yè)內(nèi)判斷，后續(xù)如有類似路線的模型在圖像、視頻等領(lǐng)域發(fā)力，將會(huì)進(jìn)一步帶動(dòng)行業(yè)整體需求。

第三方推理服務(wù)的機(jī)遇

據(jù)數(shù)據(jù)顯示，DeepSeek 自發(fā)布后，截止一月末上線僅 21 天，其日活躍用戶 DAU 2215 萬，達(dá) ChatGPT 日活用戶的 41.6%，超過豆包的日活用戶 1695 萬，成為全球增速最快的應(yīng)用，并收割了蘋果應(yīng)用商店 157 個(gè)國(guó)家/地區(qū)第一。

用戶大量涌入之余，外網(wǎng)黑客也在瘋狂攻擊，DeepSeek APP 目前服務(wù)器繁忙已有多時(shí)，這背后在業(yè)內(nèi)看來，其實(shí)也與 DeepSeek 將卡投入訓(xùn)練，用在推理側(cè)的算力不太夠有關(guān)。

業(yè)內(nèi)人士向 AI 科技評(píng)論分析道，“服務(wù)器頻繁的問題其實(shí)很好解決，收費(fèi)或者融資買更多機(jī)器，不過這要看 DeepSeek 的選擇了?！?/p>

這也是專注技術(shù)和產(chǎn)品化的抉擇博弈，一直以來 DeepSeek 都在依靠幻方量化實(shí)現(xiàn)自我供血，幾乎未接受過外部融資，在現(xiàn)金流方面壓力不大，所以其技術(shù)氛圍也相對(duì)純粹。

當(dāng)前，面對(duì)前述問題，一部分用戶在社交平臺(tái)呼吁 DeepSeek 增高使用門檻、加設(shè)付費(fèi)項(xiàng)目來提升自身的使用舒適度。

另外，也有開發(fā)者選擇調(diào)用官方 API 或者使用第三方 API 獲得部署優(yōu)化。不過，日前，DeepSeek 開放平臺(tái)又發(fā)布消息稱，“當(dāng)前服務(wù)器資源緊張，已暫停 API 服務(wù)充值?！?/p>

「鯰魚」DeepSeek 正在攪動(dòng)上下游

這無疑為 AI Infra 層的第三方廠商提供了更多機(jī)會(huì)。

近日，國(guó)內(nèi)外數(shù)十家云巨頭已紛紛上線了 DeepSeek 的模型 API——海外云廠兩大巨頭微軟、亞馬遜于 1 月底便搶先接入。

國(guó)內(nèi)華為云率先出擊，在 2 月 1 日與硅基流動(dòng)合作上新 DeepSeek R1 & V3 推理服務(wù)，當(dāng)前，據(jù) AI 科技評(píng)論了解，硅基流動(dòng)平臺(tái)服務(wù)已被大量用戶涌入“打爆”。

BAT 三巨頭以及字節(jié)跳動(dòng)也紛紛在 2 月 3 日陸續(xù)打出低價(jià)限免牌，這波狂歡如同回到去年 DeepSeek 在發(fā)布 V2 模型時(shí)點(diǎn)燃的云廠價(jià)格戰(zhàn)，自那時(shí)起 DeepSeek 就開始被稱為“價(jià)格屠夫”。

云廠的瘋狂“搶食”和早些年微軟云強(qiáng)綁定 OpenAI 的邏輯也有些相似之處：

2019 年，微軟云便已早早壓注 OpenAI 并注資 10 億美元，并在 2023 年后者發(fā)布 ChatGPT 后吃到了紅利。但二者的親密關(guān)系則在 Meta 開源 Llama 后出現(xiàn)了裂痕，開源模型的出現(xiàn)意味著微軟云外的其他廠商也能布局自己的大模型。

此次 DeepSeek 不僅在產(chǎn)品側(cè)比 ChatGPT 當(dāng)年熱度更甚，更是在 o1 之后相對(duì)應(yīng)推出了開源模型，這就如同當(dāng)年的 Llama 開源復(fù)現(xiàn) GPT-3 所引發(fā)的轟動(dòng)一般。

實(shí)際上，云廠也是在壓注 AI 應(yīng)用的流量入口，換言之，和更為開發(fā)者深入綁定意味著能夠搶占先機(jī)。據(jù)悉，百度智能云在上線 DeepSeek 模型首日，便已有超 1.5 萬客戶通過千帆平臺(tái)進(jìn)行調(diào)用。

另外，也有不少小廠給出了解決方案，除硅基流動(dòng)外，潞晨科技、趨境科技、無問芯穹、PPIO 派歐云等 AI Infra 廠商也已陸續(xù)上線對(duì) DeepSeek 模型的支持。

AI 科技評(píng)論了解到，目前，針對(duì) DeepSeek 的本地化部署優(yōu)化空間主要存在于兩方面：

一是針對(duì) MoE 模型稀疏性的特性，能夠采用混合推理的思路優(yōu)化，在本地部署 DeepSeek 671B 大小的 MoE 模型，GPU/CPU 混合推理是非常重要的方向，二是 MLA 的優(yōu)化實(shí)現(xiàn)。

不過，DeepSeek 的兩款模型在部署優(yōu)化上還有些許難點(diǎn)問題。

“因?yàn)槟Ｐ痛?、參?shù)多，優(yōu)化確實(shí)有一定的復(fù)雜度，尤其需要本地化部署的話，如何做到效果和成本的最優(yōu)平衡會(huì)有難度?！壁吘晨萍佳芯繂T告訴 AI 科技評(píng)論。

其中最大難點(diǎn)在于如何克服顯存容量的限制?！拔覀儾捎卯悩?gòu)協(xié)同的思路是充分利用 CPU 等其余算力，僅將非Shared 部分的稀疏 MoE 矩陣放在 CPU/DRAM 上并通過高性能的 CPU 算子進(jìn)行處理，剩余稠密部分放在 GPU 上?！彼M(jìn)一步介紹。

據(jù)了解，趨境的開源框架 KTransformers 主要是通過一套注入模板將各種策略和算子注入到原本的 Transformers 實(shí)現(xiàn)中，同時(shí)，通過通用的 CUDAGraph 等方法大幅度提升 Transformers 的推理速度。

DeepSeek 也為這些創(chuàng)業(yè)公司帶來了生存空間，當(dāng)前增長(zhǎng)效益已開始初顯成效，上線 DeepSeek API 后，不少?gòu)S商在與 AI 科技評(píng)論交談中提到，其均得到了明顯客戶增長(zhǎng)，許多客戶找上門提出優(yōu)化訴求。

有相關(guān)業(yè)者發(fā)文表示，“以往稍具規(guī)模的客戶群體，往往早已被大廠的標(biāo)準(zhǔn)化服務(wù)套牢，被他們規(guī)模效應(yīng)帶來的成本優(yōu)勢(shì)牢牢綁定。然而春節(jié)前完成 DeepSeek-R1/V3 的部署后，我們突然接到多家知名客戶的合作需求，連此前一度沉寂的老客戶也主動(dòng)聯(lián)絡(luò)，希望引入我們的 DeepSeek 服務(wù)?！?/p>

目前來看，DeepSeek 這波讓模型的推理性能變得更加重要，而且大模型普及更為廣泛，這會(huì)持續(xù)影響 AI Infra 行業(yè)的發(fā)展，如果能夠低成本地在本地落地一個(gè) DeepSeek 級(jí)別的模型，將會(huì)對(duì)政府和企業(yè)智能化的發(fā)展有很大的幫助。

但與此同時(shí)，挑戰(zhàn)也是存在的，也會(huì)有部分客戶可能會(huì)對(duì)大模型的能力期待比較高，在實(shí)際的部署使用中，大模型的使用效果、成本這些要做到平衡的挑戰(zhàn)更明顯了。

「顛覆英偉達(dá)」的冷思考

當(dāng)前，除華為外，摩爾線程、沐曦、壁仞科技、天數(shù)智芯等數(shù)十家國(guó)產(chǎn)芯片廠商也紛紛跟進(jìn)適配了 DeepSeek 兩款模型。

有芯片廠商向 AI 科技評(píng)論表示，“DeepSeek 在結(jié)構(gòu)上有創(chuàng)新，但還是 LLM，我們適配 DeepSeek 都是聚焦推理應(yīng)用，所以技術(shù)實(shí)現(xiàn)上并不難，實(shí)現(xiàn)得都很快?！?/p>

不過，MoE 這一路線對(duì)存儲(chǔ)和分布式有更高的要求，再加上使用國(guó)產(chǎn)芯片部署也需要考慮一些系統(tǒng)兼容問題，在適配過程中仍有許多工程上的難題需要解決。

“當(dāng)前，國(guó)產(chǎn)算力在使用的便利性和穩(wěn)定性方面與英偉達(dá)仍存較大差異，軟件環(huán)境、故障排查、涉及底層的性能優(yōu)化等都需要原廠參與解決推進(jìn)?！睆臉I(yè)者在實(shí)踐過后告訴 AI 科技評(píng)論。

同時(shí)，“由于 DeepSeek R1 參數(shù)規(guī)模較大，國(guó)產(chǎn)算力也需要更多節(jié)點(diǎn)的并行才能使用。另外，國(guó)內(nèi)在硬件規(guī)格上也還存在些許落后，例如，華為 910B 當(dāng)前還不能支持 DeepSeek 所引入的 FP8 推理?！?/p>

DeepSeek V3 模型的亮點(diǎn)之一便是引入了 FP8 混合精度訓(xùn)練框架，并在超大規(guī)模模型上驗(yàn)證了有效性，這點(diǎn)作為首次公開驗(yàn)證具有重大意義。此前，微軟、英偉達(dá)等巨頭都曾提及過相關(guān)工作，但業(yè)內(nèi)一直以來都有聲音對(duì)此表示質(zhì)疑。

據(jù)了解，相比于 INT8 而言，F(xiàn)P8 的最大優(yōu)勢(shì)在于其后訓(xùn)練量化能夠獲得幾乎無損的精度，同時(shí)顯著提升推理速度，與 FP16 相比，在英偉達(dá) H20 上可以實(shí)現(xiàn) 2 倍的加速效果，在 H100 上可獲得超過 1.5 倍的加速。

值得一提的是，近期，隨著國(guó)產(chǎn)算力+國(guó)產(chǎn)模型這一趨勢(shì)的討論愈發(fā)熱烈，關(guān)于英偉達(dá)是否會(huì)被顛覆、CUDA 護(hù)城河將會(huì)被繞開的聲音也甚囂塵上。

一個(gè)不可否認(rèn)的事實(shí)是，DeepSeek 確實(shí)憑借一己之力讓英偉達(dá)市值暴跌，但這背后實(shí)則是英偉達(dá)高端算力方面受到質(zhì)疑，過往受資本裹挾的算力堆砌論被打破，而目前來看，英偉達(dá)卡在訓(xùn)練方面被替代仍舊有難度。

從 DeepSeek 對(duì) CUDA 的使用深度中可以發(fā)現(xiàn)，類似用 SM 做通信甚至直接操縱網(wǎng)卡這種靈活性其實(shí)不是一般的 GPU 可以支持的。

業(yè)內(nèi)觀點(diǎn)也強(qiáng)調(diào)，英偉達(dá)的護(hù)城河是 CUDA 整個(gè)生態(tài)，并非 CUDA 本身，DeepSeek 所使用的 PTX（并行線程執(zhí)行）指令仍是 CUDA 生態(tài)的一環(huán)。

“短期來看，英偉達(dá)算力還無法繞開，這點(diǎn)在訓(xùn)練層尤為明顯，推理上國(guó)產(chǎn)卡的推行會(huì)相對(duì)容易些，所以進(jìn)度也會(huì)快些。大家做國(guó)產(chǎn)卡適配也都是推理側(cè)，沒人能用國(guó)產(chǎn)卡大規(guī)模訓(xùn)練出 DeepSeek 這種性能的模型?！庇袕臉I(yè)者向 AI 科技評(píng)論分析。

整體從推理上來看，對(duì)于國(guó)產(chǎn)大模型芯片是利好的。國(guó)內(nèi)芯片廠商的機(jī)會(huì)在推理會(huì)更為明顯，訓(xùn)練由于要求太高所以很難進(jìn)。

業(yè)內(nèi)看來，推理國(guó)產(chǎn)卡就可以，再不濟(jì)多買一臺(tái)機(jī)器，訓(xùn)練不一樣，機(jī)器多了管理起來會(huì)累，而且失誤率高會(huì)影響訓(xùn)練的效果。

訓(xùn)練對(duì)集群規(guī)模也有要求，推理對(duì)集群要求則沒那么高，對(duì) GPU 的要求也相對(duì)低，當(dāng)前，英偉達(dá) H20 單卡的性能其實(shí)并沒有華為、寒武紀(jì)強(qiáng)，強(qiáng)在集群。

從算力市場(chǎng)的整體影響情況上來看，潞晨科技創(chuàng)始人尤洋告訴 AI 科技評(píng)論，“DeepSeek 這波短期內(nèi)可能會(huì)打擊超大訓(xùn)練算力集群的建設(shè)和租賃，長(zhǎng)期來看，由于其顯著降低了大模型訓(xùn)練、推理、應(yīng)用的成本，市場(chǎng)需求高漲，以此為基礎(chǔ)的AI迭代，會(huì)繼續(xù)推動(dòng)算力市場(chǎng)的持續(xù)需求?！?/p>

同時(shí)，“DeepSeek 在推理和微調(diào)側(cè)的需求提升，也更適合國(guó)內(nèi)算力建設(shè)比較散、國(guó)產(chǎn)算力相對(duì)弱情況，減少集群建設(shè)后的閑置浪費(fèi)，這是全國(guó)產(chǎn)化的算力生態(tài)各層級(jí)廠商有效落地的機(jī)會(huì)。”

潞晨科技也和華為云合作推出了基于國(guó)產(chǎn)算力的 DeepSeek R1 系列推理 API 及云鏡像服務(wù)，尤洋樂觀表示，“有 DeepSeek 給大家國(guó)產(chǎn)化的信心，后續(xù)大家對(duì)于國(guó)產(chǎn)算力的熱情和投入也會(huì)更多。”雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

朱可軒

編輯

發(fā)私信

當(dāng)月熱門文章