丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給朱可軒
發(fā)送

0

「鯰魚」DeepSeek 正在攪動(dòng)上下游

本文作者: 朱可軒   2025-02-07 18:10
導(dǎo)語(yǔ):大模型同行焦慮、云廠「搶食」、芯片廠拼命,DeepSeek 效應(yīng)仍在持續(xù)。

作者|朱可軒

編輯|陳彩嫻

春節(jié)結(jié)束,DeepSeek 熱度不減,而要說剛剛過去的春節(jié)假期,留給科技圈的印象可能是“卷上加卷”,幾乎無人不在熱議分析著 DeepSeek 這條“鯰魚”。

硅谷方面迎來了空前的危機(jī)感:開源的信徒們聲量再度走高,甚至連 OpenAI 都在反思閉源的決策是否正確;低算力成本的新范式引發(fā)芯片巨頭英偉達(dá)連鎖反應(yīng),創(chuàng)下美股史上最大規(guī)模單日市值蒸發(fā)紀(jì)錄;政府部門下場(chǎng)調(diào)查 DeepSeek 使用芯片的合規(guī)性......

在海外對(duì) DeepSeek 評(píng)價(jià)褒貶不一的同時(shí),國(guó)內(nèi)也迎來了空前繁榮。

DeepSeek 發(fā)布 R1 模型后上線的 APP 接到潑天流量,初步驗(yàn)證了應(yīng)用端增長(zhǎng)將會(huì)拉動(dòng)整個(gè) AI 生態(tài)發(fā)展。利好在于 DeepSeek 會(huì)把整個(gè)應(yīng)用的可能性都打開,換言之就是以后發(fā)現(xiàn) ChatGPT 不用這么貴。

這點(diǎn)在近日 OpenAI 的頻繁動(dòng)作中也可以窺見,其為應(yīng)戰(zhàn) DeepSeek R1 首次向免費(fèi)用戶提供推理模型 o3-mini,并也在后續(xù)升級(jí)公開了 o3-mini 的推理思維鏈,不少海外網(wǎng)友在評(píng)論中向 DeepSeek 表示感謝,不過這一思維鏈僅為總結(jié)版。

「鯰魚」DeepSeek 正在攪動(dòng)上下游

同時(shí)能樂觀看到的是,DeepSeek 這一波無疑又將國(guó)內(nèi)拎成一股繩。

在其將模型降本按下加速鍵后,以其為圓心,上游芯片廠商、中間層云廠以及一眾創(chuàng)業(yè)公司都在積極加入生態(tài)中,為 DeepSeek 模型使用的降本增效持續(xù)添磚加瓦。

據(jù) DeepSeek 論文介紹,V3 模型完整訓(xùn)練僅需 278.8 萬 H800 GPU 小時(shí),且訓(xùn)練過程十分穩(wěn)定。

在這背后,MoE 架構(gòu)是 V3 相比 Llama 3 405B 預(yù)訓(xùn)練成本降低十倍最關(guān)鍵的原因,當(dāng)前,V3 是在公開領(lǐng)域第一個(gè)證明 MoE 的稀疏度可以做到這么高的模型。此外,MLA 同樣相輔相成,這部分則主要體現(xiàn)在推理側(cè)。

“越稀疏的 MoE 在推理的時(shí)候需要越大的 batch size 才能充分利用算力。而限制 batch size 的最關(guān)鍵因素就是 KVCache 的大小,MLA 大幅度縮小了 KVCache 大小。”趨境科技研究員向 AI 科技評(píng)論分析道。

從整體上來看,DeepSeek 的成功在于各項(xiàng)技術(shù)的組合,而非單一技術(shù)。業(yè)內(nèi)評(píng)價(jià),DeepSeek 團(tuán)隊(duì)工程能力極強(qiáng),其在并行訓(xùn)練、算子優(yōu)化等方面也都做得很好,把每個(gè)細(xì)節(jié)做到極致后才實(shí)現(xiàn)了最終的突破性效果。

而 DeepSeek 開源也意味著能為大模型整體發(fā)展再添一把柴,其現(xiàn)階段成果還體現(xiàn)在語(yǔ)言模型,業(yè)內(nèi)判斷,后續(xù)如有類似路線的模型在圖像、視頻等領(lǐng)域發(fā)力,將會(huì)進(jìn)一步帶動(dòng)行業(yè)整體需求。


第三方推理服務(wù)的機(jī)遇

據(jù)數(shù)據(jù)顯示,DeepSeek 自發(fā)布后,截止一月末上線僅 21 天,其日活躍用戶 DAU 2215 萬,達(dá) ChatGPT 日活用戶的 41.6%,超過豆包的日活用戶 1695 萬,成為全球增速最快的應(yīng)用,并收割了蘋果應(yīng)用商店 157 個(gè)國(guó)家/地區(qū)第一。

用戶大量涌入之余,外網(wǎng)黑客也在瘋狂攻擊,DeepSeek APP 目前服務(wù)器繁忙已有多時(shí),這背后在業(yè)內(nèi)看來,其實(shí)也與 DeepSeek 將卡投入訓(xùn)練,用在推理側(cè)的算力不太夠有關(guān)。

業(yè)內(nèi)人士向 AI 科技評(píng)論分析道,“服務(wù)器頻繁的問題其實(shí)很好解決,收費(fèi)或者融資買更多機(jī)器,不過這要看 DeepSeek 的選擇了?!?/p>

這也是專注技術(shù)和產(chǎn)品化的抉擇博弈,一直以來 DeepSeek 都在依靠幻方量化實(shí)現(xiàn)自我供血,幾乎未接受過外部融資,在現(xiàn)金流方面壓力不大,所以其技術(shù)氛圍也相對(duì)純粹。

當(dāng)前,面對(duì)前述問題,一部分用戶在社交平臺(tái)呼吁 DeepSeek 增高使用門檻、加設(shè)付費(fèi)項(xiàng)目來提升自身的使用舒適度。

另外,也有開發(fā)者選擇調(diào)用官方 API 或者使用第三方 API 獲得部署優(yōu)化。不過,日前,DeepSeek 開放平臺(tái)又發(fā)布消息稱,“當(dāng)前服務(wù)器資源緊張,已暫停 API 服務(wù)充值?!?/p>

「鯰魚」DeepSeek 正在攪動(dòng)上下游

這無疑為 AI Infra 層的第三方廠商提供了更多機(jī)會(huì)。

近日,國(guó)內(nèi)外數(shù)十家云巨頭已紛紛上線了 DeepSeek 的模型 API——海外云廠兩大巨頭微軟、亞馬遜于 1 月底便搶先接入。

國(guó)內(nèi)華為云率先出擊,在 2 月 1 日與硅基流動(dòng)合作上新 DeepSeek R1 & V3 推理服務(wù),當(dāng)前,據(jù) AI 科技評(píng)論了解,硅基流動(dòng)平臺(tái)服務(wù)已被大量用戶涌入“打爆”。

BAT 三巨頭以及字節(jié)跳動(dòng)也紛紛在 2 月 3 日陸續(xù)打出低價(jià)限免牌,這波狂歡如同回到去年 DeepSeek 在發(fā)布 V2 模型時(shí)點(diǎn)燃的云廠價(jià)格戰(zhàn),自那時(shí)起 DeepSeek 就開始被稱為“價(jià)格屠夫”。

云廠的瘋狂“搶食”和早些年微軟云強(qiáng)綁定 OpenAI 的邏輯也有些相似之處:

2019 年,微軟云便已早早壓注 OpenAI 并注資 10 億美元,并在 2023 年后者發(fā)布 ChatGPT 后吃到了紅利。但二者的親密關(guān)系則在 Meta 開源 Llama 后出現(xiàn)了裂痕,開源模型的出現(xiàn)意味著微軟云外的其他廠商也能布局自己的大模型。

此次 DeepSeek 不僅在產(chǎn)品側(cè)比 ChatGPT 當(dāng)年熱度更甚,更是在 o1 之后相對(duì)應(yīng)推出了開源模型,這就如同當(dāng)年的 Llama 開源復(fù)現(xiàn) GPT-3 所引發(fā)的轟動(dòng)一般。

實(shí)際上,云廠也是在壓注 AI 應(yīng)用的流量入口,換言之,和更為開發(fā)者深入綁定意味著能夠搶占先機(jī)。據(jù)悉,百度智能云在上線 DeepSeek 模型首日,便已有超 1.5 萬客戶通過千帆平臺(tái)進(jìn)行調(diào)用。

另外,也有不少小廠給出了解決方案,除硅基流動(dòng)外,潞晨科技、趨境科技、無問芯穹、PPIO 派歐云等 AI Infra 廠商也已陸續(xù)上線對(duì) DeepSeek 模型的支持。

AI 科技評(píng)論了解到,目前,針對(duì) DeepSeek 的本地化部署優(yōu)化空間主要存在于兩方面:

一是針對(duì) MoE 模型稀疏性的特性,能夠采用混合推理的思路優(yōu)化,在本地部署 DeepSeek 671B 大小的 MoE 模型,GPU/CPU 混合推理是非常重要的方向,二是 MLA 的優(yōu)化實(shí)現(xiàn)。

不過,DeepSeek 的兩款模型在部署優(yōu)化上還有些許難點(diǎn)問題。

“因?yàn)槟P痛?、參?shù)多,優(yōu)化確實(shí)有一定的復(fù)雜度,尤其需要本地化部署的話,如何做到效果和成本的最優(yōu)平衡會(huì)有難度?!壁吘晨萍佳芯繂T告訴 AI 科技評(píng)論。

其中最大難點(diǎn)在于如何克服顯存容量的限制?!拔覀儾捎卯悩?gòu)協(xié)同的思路是充分利用 CPU 等其余算力,僅將非Shared 部分的稀疏 MoE 矩陣放在 CPU/DRAM 上并通過高性能的 CPU 算子進(jìn)行處理,剩余稠密部分放在 GPU 上?!彼M(jìn)一步介紹。

據(jù)了解,趨境的開源框架 KTransformers 主要是通過一套注入模板將各種策略和算子注入到原本的 Transformers 實(shí)現(xiàn)中,同時(shí),通過通用的 CUDAGraph 等方法大幅度提升 Transformers 的推理速度。

DeepSeek 也為這些創(chuàng)業(yè)公司帶來了生存空間,當(dāng)前增長(zhǎng)效益已開始初顯成效,上線 DeepSeek API 后,不少?gòu)S商在與 AI 科技評(píng)論交談中提到,其均得到了明顯客戶增長(zhǎng),許多客戶找上門提出優(yōu)化訴求。

有相關(guān)業(yè)者發(fā)文表示,“以往稍具規(guī)模的客戶群體,往往早已被大廠的標(biāo)準(zhǔn)化服務(wù)套牢,被他們規(guī)模效應(yīng)帶來的成本優(yōu)勢(shì)牢牢綁定。然而春節(jié)前完成 DeepSeek-R1/V3 的部署后,我們突然接到多家知名客戶的合作需求,連此前一度沉寂的老客戶也主動(dòng)聯(lián)絡(luò),希望引入我們的 DeepSeek 服務(wù)?!?/p>

目前來看,DeepSeek 這波讓模型的推理性能變得更加重要,而且大模型普及更為廣泛,這會(huì)持續(xù)影響 AI Infra 行業(yè)的發(fā)展,如果能夠低成本地在本地落地一個(gè) DeepSeek 級(jí)別的模型,將會(huì)對(duì)政府和企業(yè)智能化的發(fā)展有很大的幫助。

但與此同時(shí),挑戰(zhàn)也是存在的,也會(huì)有部分客戶可能會(huì)對(duì)大模型的能力期待比較高,在實(shí)際的部署使用中,大模型的使用效果、成本這些要做到平衡的挑戰(zhàn)更明顯了。


「顛覆英偉達(dá)」的冷思考

當(dāng)前,除華為外,摩爾線程、沐曦、壁仞科技、天數(shù)智芯等數(shù)十家國(guó)產(chǎn)芯片廠商也紛紛跟進(jìn)適配了 DeepSeek 兩款模型。

有芯片廠商向 AI 科技評(píng)論表示,“DeepSeek 在結(jié)構(gòu)上有創(chuàng)新,但還是 LLM,我們適配 DeepSeek 都是聚焦推理應(yīng)用,所以技術(shù)實(shí)現(xiàn)上并不難,實(shí)現(xiàn)得都很快?!?/p>

不過,MoE 這一路線對(duì)存儲(chǔ)和分布式有更高的要求,再加上使用國(guó)產(chǎn)芯片部署也需要考慮一些系統(tǒng)兼容問題,在適配過程中仍有許多工程上的難題需要解決。

“當(dāng)前,國(guó)產(chǎn)算力在使用的便利性和穩(wěn)定性方面與英偉達(dá)仍存較大差異,軟件環(huán)境、故障排查、涉及底層的性能優(yōu)化等都需要原廠參與解決推進(jìn)?!睆臉I(yè)者在實(shí)踐過后告訴 AI 科技評(píng)論。

同時(shí),“由于 DeepSeek R1 參數(shù)規(guī)模較大,國(guó)產(chǎn)算力也需要更多節(jié)點(diǎn)的并行才能使用。另外,國(guó)內(nèi)在硬件規(guī)格上也還存在些許落后,例如,華為 910B 當(dāng)前還不能支持 DeepSeek 所引入的 FP8 推理?!?/p>

DeepSeek V3 模型的亮點(diǎn)之一便是引入了 FP8 混合精度訓(xùn)練框架,并在超大規(guī)模模型上驗(yàn)證了有效性,這點(diǎn)作為首次公開驗(yàn)證具有重大意義。此前,微軟、英偉達(dá)等巨頭都曾提及過相關(guān)工作,但業(yè)內(nèi)一直以來都有聲音對(duì)此表示質(zhì)疑。

據(jù)了解,相比于 INT8 而言,F(xiàn)P8 的最大優(yōu)勢(shì)在于其后訓(xùn)練量化能夠獲得幾乎無損的精度,同時(shí)顯著提升推理速度,與 FP16 相比,在英偉達(dá) H20 上可以實(shí)現(xiàn) 2 倍的加速效果,在 H100 上可獲得超過 1.5 倍的加速。

值得一提的是,近期,隨著國(guó)產(chǎn)算力+國(guó)產(chǎn)模型這一趨勢(shì)的討論愈發(fā)熱烈,關(guān)于英偉達(dá)是否會(huì)被顛覆、CUDA 護(hù)城河將會(huì)被繞開的聲音也甚囂塵上。

一個(gè)不可否認(rèn)的事實(shí)是,DeepSeek 確實(shí)憑借一己之力讓英偉達(dá)市值暴跌,但這背后實(shí)則是英偉達(dá)高端算力方面受到質(zhì)疑,過往受資本裹挾的算力堆砌論被打破,而目前來看,英偉達(dá)卡在訓(xùn)練方面被替代仍舊有難度。

從 DeepSeek 對(duì) CUDA 的使用深度中可以發(fā)現(xiàn),類似用 SM 做通信甚至直接操縱網(wǎng)卡這種靈活性其實(shí)不是一般的 GPU 可以支持的。

業(yè)內(nèi)觀點(diǎn)也強(qiáng)調(diào),英偉達(dá)的護(hù)城河是 CUDA 整個(gè)生態(tài),并非 CUDA 本身,DeepSeek 所使用的 PTX(并行線程執(zhí)行)指令仍是 CUDA 生態(tài)的一環(huán)。

“短期來看,英偉達(dá)算力還無法繞開,這點(diǎn)在訓(xùn)練層尤為明顯,推理上國(guó)產(chǎn)卡的推行會(huì)相對(duì)容易些,所以進(jìn)度也會(huì)快些。大家做國(guó)產(chǎn)卡適配也都是推理側(cè),沒人能用國(guó)產(chǎn)卡大規(guī)模訓(xùn)練出 DeepSeek 這種性能的模型?!庇袕臉I(yè)者向 AI 科技評(píng)論分析。

整體從推理上來看,對(duì)于國(guó)產(chǎn)大模型芯片是利好的。國(guó)內(nèi)芯片廠商的機(jī)會(huì)在推理會(huì)更為明顯,訓(xùn)練由于要求太高所以很難進(jìn)。

業(yè)內(nèi)看來,推理國(guó)產(chǎn)卡就可以,再不濟(jì)多買一臺(tái)機(jī)器,訓(xùn)練不一樣,機(jī)器多了管理起來會(huì)累,而且失誤率高會(huì)影響訓(xùn)練的效果。

訓(xùn)練對(duì)集群規(guī)模也有要求,推理對(duì)集群要求則沒那么高,對(duì) GPU 的要求也相對(duì)低,當(dāng)前,英偉達(dá) H20 單卡的性能其實(shí)并沒有華為、寒武紀(jì)強(qiáng),強(qiáng)在集群。

從算力市場(chǎng)的整體影響情況上來看,潞晨科技創(chuàng)始人尤洋告訴 AI 科技評(píng)論,“DeepSeek 這波短期內(nèi)可能會(huì)打擊超大訓(xùn)練算力集群的建設(shè)和租賃,長(zhǎng)期來看,由于其顯著降低了大模型訓(xùn)練、推理、應(yīng)用的成本,市場(chǎng)需求高漲,以此為基礎(chǔ)的AI迭代,會(huì)繼續(xù)推動(dòng)算力市場(chǎng)的持續(xù)需求?!?/p>

同時(shí),“DeepSeek 在推理和微調(diào)側(cè)的需求提升,也更適合國(guó)內(nèi)算力建設(shè)比較散、國(guó)產(chǎn)算力相對(duì)弱情況,減少集群建設(shè)后的閑置浪費(fèi),這是全國(guó)產(chǎn)化的算力生態(tài)各層級(jí)廠商有效落地的機(jī)會(huì)。”

潞晨科技也和華為云合作推出了基于國(guó)產(chǎn)算力的 DeepSeek R1 系列推理 API 及云鏡像服務(wù),尤洋樂觀表示,“有 DeepSeek 給大家國(guó)產(chǎn)化的信心,后續(xù)大家對(duì)于國(guó)產(chǎn)算力的熱情和投入也會(huì)更多。”雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

「鯰魚」DeepSeek 正在攪動(dòng)上下游

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說