為什么中國(guó)只有一個(gè) DeepSeek？

本文作者：陳彩嫻

2025-02-09 17:23

導(dǎo)語(yǔ)：投機(jī)者能抓住短期機(jī)會(huì)，但實(shí)力者才能抓住長(zhǎng)期機(jī)會(huì)。

DeepSeek 風(fēng)暴后，中國(guó)的大模型創(chuàng)業(yè)圈會(huì)發(fā)生什么樣的變化？

近日來(lái)，筆者也與多位業(yè)內(nèi)人士進(jìn)行了探討，發(fā)現(xiàn)國(guó)產(chǎn)大模型圈目前出現(xiàn)了兩個(gè)極端：一個(gè)是極端的熱血沸騰，另一個(gè)則是極端的霜打茄子。

前者以積極擁抱 DeepSeek 生態(tài)的算力廠商與模型服務(wù)廠商、以及原先沒(méi)有能力參與大模型“軍備競(jìng)賽”的開(kāi)源受益者為代表，后者則以其他中國(guó)大模型創(chuàng)業(yè)公司（俗稱“大模型六小虎”）與過(guò)去兩年投資了這些公司的 VC 們?yōu)橹?，形成了一個(gè)“冰火兩重天”的局面。

據(jù)了解，部分在過(guò)去兩年投了估值在第一梯隊(duì)的大模型公司的 VC 團(tuán)隊(duì)已經(jīng)開(kāi)始準(zhǔn)備/正在接受內(nèi)部的“鞭尸”，主要被質(zhì)問(wèn)的角度無(wú)非是幾點(diǎn)：

“為什么 DeepSeek 用這么低的成本就能訓(xùn)練出這么強(qiáng)大的模型，而我們投的大模型公司融資了幾十億美金卻做不出來(lái)？”雷峰網(wǎng)

“DeepSeek 這次能出圈本質(zhì)還是技術(shù)足夠創(chuàng)新、足夠牛。XXX 家連基本的大模型技術(shù)團(tuán)隊(duì)都沒(méi)有，為什么要投？”雷峰網(wǎng)

“XXX 也有非常強(qiáng)大的人才團(tuán)隊(duì)，而且也有訓(xùn)練基座大模型的經(jīng)驗(yàn)與追求，為什么沒(méi)有成為 DeepSeek？他們靠什么支撐這么高的估值？”

“DeepSeek 出來(lái)后，誰(shuí)還會(huì)投大模型六小虎？還有哪幾個(gè)有上市希望？如果沒(méi)有，接下來(lái)我們是回購(gòu)還是退出？”

……

“為什么沒(méi)有成為 DeepSeek”，以及“為什么中國(guó)只有一個(gè) DeepSeek”，是幾乎所有大模型從業(yè)者與 VC 從春節(jié)就開(kāi)始求索的問(wèn)題。這兩個(gè)問(wèn)題幾乎可以涵蓋了目前國(guó)內(nèi)所有關(guān)于大模型創(chuàng)新的焦慮，也只有嚴(yán)肅探討這兩個(gè)問(wèn)題，才能回答另一個(gè)更重要的問(wèn)題：如何成為 DeepSeek？

在春節(jié)期間的一篇文章《「DeepSeek 現(xiàn)象」只是中國(guó) AI 崛起的開(kāi)始》中，我們已經(jīng)從中美 AI 創(chuàng)新對(duì)比的大角度試圖向行業(yè)傳遞一個(gè)信息：中國(guó) AI 需有民族自豪感；而在這一篇文章中，我們希望結(jié)合過(guò)去四年中國(guó)大模型的發(fā)展歷史，進(jìn)一步探討：

中國(guó)是否缺少像 DeepSeek 這樣的技術(shù)理想主義者？

如果中國(guó)不缺少，這樣的技術(shù)團(tuán)隊(duì)是否已被充分挖掘、并得到相應(yīng)的社會(huì)系統(tǒng)性支持？如沒(méi)有，原因出在哪里？雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

作為一個(gè)從 2020 年 GPT-3 爆發(fā)以來(lái)就跟進(jìn)大模型報(bào)道的行業(yè)號(hào)，這篇文章無(wú)意于回答一個(gè)如此宏觀而深刻的問(wèn)題，只從第三方視角呈現(xiàn)一些或許與該話題相關(guān)的事實(shí)或觀點(diǎn)。

1、系統(tǒng)性錯(cuò)位

2023 年之前，中國(guó)只有 4 家大模型公司：智譜、面壁、深言與聆心（后被智譜收購(gòu)），且都來(lái)自清華；2023 年之后，大模型的創(chuàng)業(yè)公司增加到了十幾家，從技術(shù)上看直接原因是 Llama 開(kāi)源，但最根本的原因其實(shí)是，那時(shí)候所有人都認(rèn)為：

大模型的技術(shù)門檻雖高、但并非不可模仿。尤其基于已有的開(kāi)源大模型，技術(shù)難度進(jìn)一步降低，“技術(shù)無(wú)法構(gòu)成商業(yè)壁壘”的論調(diào)甚囂塵上。

在這種集體共識(shí)的“統(tǒng)治”下，我們復(fù)盤 2023 年 ChatGPT 爆火后中國(guó)大模型創(chuàng)業(yè)的幾個(gè)力量動(dòng)態(tài)，就不難理解當(dāng)前中國(guó)大模型創(chuàng)業(yè)中場(chǎng)的畸形現(xiàn)象：

首先，由于整個(gè)市場(chǎng)對(duì)技術(shù)創(chuàng)新的敬畏之心變?nèi)酰?023 年 ChatGPT 大火后，中國(guó)的第一批大模型技術(shù)探路者中，只有智譜一家成為了資本的寵兒，最早突破 200 億人民幣估值大關(guān)、躋身大模型第一梯隊(duì)。（月之暗面是 2023 年后成立的，故不算在其中）

而由清華自然語(yǔ)言處理實(shí)驗(yàn)室（THUNLP）走出的其余兩家創(chuàng)業(yè)公司面壁、深言，在資本市場(chǎng)的呼聲遠(yuǎn)不如后來(lái)的新勢(shì)力。

尤其是面壁智能（因?yàn)樯钛赃x擇了聚焦產(chǎn)品），作為國(guó)內(nèi)最早提出要做“平民版大模型”、跟 DeepSeek 的技術(shù)愿景與創(chuàng)新方向最像、甚至比 DeepSeek 還早成立的一家公司，直到 2024 年年底完成一筆 3 億人民幣的融資后、估值也才不到 35 億人民幣，距離第一梯隊(duì)的 200 億門檻相差極遠(yuǎn)。

據(jù)雷峰網(wǎng) AI 科技評(píng)論過(guò)去兩年與超 50 位大模型投資人的交流所知，同是清華出身、同有技術(shù)先發(fā)優(yōu)勢(shì)、同有優(yōu)秀年輕技術(shù)人才的智譜與面壁之所以相差那么大，主要有幾方面原因：

一是清華學(xué)術(shù)派追基座模型的只押一家，因?yàn)椤皩?duì)教授創(chuàng)業(yè)持保留意見(jiàn)”；二是智譜的愿景更好理解，早期對(duì)外融資時(shí)說(shuō)“對(duì)標(biāo) OpenAI”、VC 立刻就懂，但面壁由于一開(kāi)始就強(qiáng)調(diào)底層模型訓(xùn)練效率優(yōu)化，在熱錢最多的 2023 年一度被認(rèn)為是一家類似潞晨、硅基的“AI Infra”公司。

面壁智能在 2023 年沒(méi)拿到太多錢、無(wú)法投入基座大模型，通過(guò)類似 DeepSeek V3 這樣的基座大模型訓(xùn)練直觀反饋高效訓(xùn)練的重要性，2024 年就只有走端側(cè)小模型，而后者對(duì)“高效訓(xùn)練”的代言效果遠(yuǎn)沒(méi)有 DeepSeek V3 這樣的工作好。

2022 年、2023 年在融資時(shí)，面壁就打出“高效訓(xùn)練”的旗號(hào)去融資，但幾乎在 VC 那吃遍了閉門羹。

其次，也是承接沒(méi)有對(duì)技術(shù)敬畏之心的大環(huán)境前提，2023 年大模型浪潮來(lái)臨后，中國(guó)的 AI 科技 VC 其實(shí)并沒(méi)有沉下心來(lái)研究 AGI 這項(xiàng)技術(shù)，而是為了迅速上桌將錢投向了“曾打過(guò)勝仗的連續(xù)成功創(chuàng)業(yè)者”，哪怕這些團(tuán)隊(duì)此前壓根沒(méi)有過(guò)任何大模型研發(fā)經(jīng)歷。

這當(dāng)中，最典型的代表是王慧文的光年之外與王小川的百川智能。

當(dāng)前估值超過(guò) 200 億人民幣的大模型公司中，只有智譜唐杰、月之暗面楊植麟等人是從 2020 年大模型未出圈時(shí)就開(kāi)始了對(duì)大模型的技術(shù)探索，百川智能、MiniMax與階躍星辰的團(tuán)隊(duì)大多都是在 2023 年之后才展開(kāi)。

譬如，MiniMax 的創(chuàng)始人閆俊杰是計(jì)算機(jī)視覺(jué)出身，而大模型起初解決的是語(yǔ)言智能（多模態(tài)是另一篇章）。不過(guò) MiniMax 最早是靠產(chǎn)品 Glow 出圈、而非底層大模型技術(shù)獲得資本青睞的，所以這是另外一個(gè)維度，且靠近閆俊杰的人對(duì)他的評(píng)價(jià)都是“很有技術(shù)追求”。

DeepSeek 的研發(fā)團(tuán)隊(duì)同樣是從 0 開(kāi)始學(xué)習(xí)大模型技術(shù)，苦讀論文、死磕實(shí)驗(yàn)，所以沒(méi)有任何跡象表明一個(gè)從前未曾訓(xùn)練過(guò)大模型的團(tuán)隊(duì)無(wú)法通過(guò)在 2023 年之后的努力學(xué)習(xí)來(lái)補(bǔ)足技術(shù)的短板，但從過(guò)去兩年的行業(yè)發(fā)展來(lái)看，百川智能在基座模型上的升級(jí)并不頻繁，重心轉(zhuǎn)向醫(yī)療行業(yè)大模型。

由于不訓(xùn)練視頻等大模型，百川的研發(fā)成本較其他公司更低，現(xiàn)金流充?！@只對(duì)百川有利，對(duì)整個(gè)大模型行業(yè)的發(fā)展是沒(méi)有貢獻(xiàn)的。

假設(shè)在資源有限的情況下，沒(méi)有技術(shù)能力的團(tuán)隊(duì)占據(jù)了大量的資本資源，反之有技術(shù)能力的團(tuán)隊(duì)卻只能得到極少的資本資源，錢、才的系統(tǒng)性錯(cuò)位注定產(chǎn)生的結(jié)果只有遺憾、沒(méi)有未來(lái)。

如若 AGI 大模型技術(shù)果真已沒(méi)有上升的空間、各家的技術(shù)壁壘已經(jīng)逐漸拉平，那么互聯(lián)網(wǎng)時(shí)代拼資源、拼資本的打法或許也能分到最后一杯羹。但對(duì)技術(shù)有敬畏之心的創(chuàng)業(yè)者始終保持清醒的頭腦，依然能看到現(xiàn)有大模型底層算法與架構(gòu)等在訓(xùn)練與推理中所存在的不足，知道 AGI 仍有許多具體且高難度的問(wèn)題要解決。

也就是說(shuō)，底層技術(shù)的持續(xù)創(chuàng)新能力仍是大模型公司的護(hù)城河，純拼資源的互聯(lián)網(wǎng)方法論暫不適用當(dāng)前中國(guó)的大模型發(fā)展?！@些話大概率不會(huì)得到大部分中國(guó)科技 VC 的認(rèn)可，因?yàn)?2023、2024 年的大模型投資甚至還有“Club Deal”這樣的玩法……

在過(guò)去兩年的大模型發(fā)展中，一個(gè)不愿意學(xué)習(xí)技術(shù)的 VC，比一個(gè)不愿意學(xué)習(xí)技術(shù)的研發(fā)所產(chǎn)生的殺傷力，可能還要更大。

泡沫期終將結(jié)束。潮水褪去后，誰(shuí)在裸泳也將一目了然。

2、AGI 軍團(tuán)可遇不可求

市場(chǎng)對(duì)技術(shù)缺乏敬畏之心的另一個(gè)影響是：為了迎合市場(chǎng)，（當(dāng)然還有突破大廠圍剿的考慮），過(guò)去兩年中國(guó)大模型創(chuàng)業(yè)公司的目光也從長(zhǎng)期的 AGI 轉(zhuǎn)到短期的商收、產(chǎn)品打磨上。

這一打法的變化也是因?yàn)樯鲜鲂袠I(yè)的誤判，以為大模型再無(wú)創(chuàng)新之處。堅(jiān)定追求 AGI 的創(chuàng)業(yè)者必須同時(shí)兼顧商業(yè)與技術(shù)，而對(duì) AGI 產(chǎn)生懷疑或徹底被市場(chǎng)聲音迷惑的團(tuán)隊(duì)則要么放棄預(yù)訓(xùn)練、全面轉(zhuǎn)向 C 端應(yīng)用或干脆只基于開(kāi)源模型微調(diào)行業(yè)大模型。

從 GPT-3 到 ChatGPT 的出現(xiàn)經(jīng)歷了兩年半，但市場(chǎng)卻普遍呈現(xiàn)出一個(gè)“規(guī)律”：國(guó)內(nèi)的大模型從基座到商業(yè)化只要兩年。盡管一些大模型公司能同時(shí)堅(jiān)持“L2”與“L4”兩步走，但在人才與研究資源的投入上沒(méi)有一家公司能像 DeepSeek 一樣對(duì) AGI 這么純粹。

2023 年上半年融資戰(zhàn)剛開(kāi)始時(shí)，業(yè)內(nèi)的一個(gè)分析是：中國(guó)的 VC 經(jīng)過(guò)上一代 AI 公司的“洗禮”，對(duì)大模型公司的商業(yè)化耐心已經(jīng)從 5 年、8 年縮短到 3 年內(nèi)?！@或許是中國(guó)大模型公司的普遍困境。

眾所周知：DeepSeek 專注 AGI 研究，是依托梁文鋒個(gè)人與幻方量化的原有儲(chǔ)備資金，沒(méi)有向外融資。“自己有錢，所以不需要聽(tīng)外界的，自己想干什么就干什么?！薄@也是眾多大模型公司對(duì) DeepSeek 羨慕的地方。

近日原先噴 AGI 的朱嘯虎又改口稱因?yàn)?DeepSeek 愿意投 AGI 公司，可以說(shuō)是 DeepSeek 用過(guò)硬的技術(shù)實(shí)力改變了 VC 的看法，但更殘酷的一個(gè)現(xiàn)實(shí)是：可能大批有過(guò)硬創(chuàng)新能力的團(tuán)隊(duì)因?yàn)槿诓坏藉X而倒在時(shí)代的前夜。

“商業(yè)化思維”不僅反映在部分科技 VC 的影子中，其實(shí)也反映在研發(fā)人才的選擇中。

根據(jù)獵頭的反饋，2024 年，中國(guó)對(duì)人才“氪金”力度最大的公司毫無(wú)疑問(wèn)是字節(jié)跳動(dòng)。大廠與創(chuàng)業(yè)團(tuán)隊(duì)的分野已經(jīng)形成，而大模型人才從創(chuàng)業(yè)團(tuán)隊(duì)流向大廠更是成為過(guò)去一年的普遍選擇。例如，據(jù) AI 科技評(píng)論所知，DeepSeek 為做 AGI 所物色的多位 NLP、多模態(tài)與強(qiáng)化學(xué)習(xí)方向的優(yōu)秀人才，就在 DeepSeek 與字節(jié)跳動(dòng)之間選擇了字節(jié)跳動(dòng)。

據(jù)早期為 DeepSeek 服務(wù)的獵頭透露，DeepSeek 早期也希望從海外的谷歌、Meta、OpenAI 等團(tuán)隊(duì)挖頂尖人才，但進(jìn)展并不順利，所以只能退而求其次、自己培養(yǎng)。

AGI 的投入，除了要有錢，也要有人，而且是一群絕對(duì)的技術(shù)理想主義者，以及優(yōu)秀的組織文化。DeepSeek 的成功或許無(wú)法復(fù)制，但從 V2、V3 到 R1、R1-Zero，DeepSeek 的技術(shù)結(jié)果體現(xiàn)了其在資金、人才/理想與組織文化上的優(yōu)勢(shì)。

在 DeepSeek 之前，“北九坤、南幻方”就已經(jīng)在金融量化領(lǐng)域鼎鼎有名，而量化行業(yè)對(duì)技術(shù)人才的高要求也是眾所周知的，基本以 Top2 高校、信息學(xué)競(jìng)賽金牌選手為基準(zhǔn)，團(tuán)隊(duì)規(guī)模往往不大，但能力超強(qiáng)。據(jù) AI 科技評(píng)論了解，2024 年上半年 DeepSeek 的團(tuán)隊(duì)規(guī)模也只有 40 多人，且大多數(shù)是原幻方 Top2 的技術(shù)高手。

延續(xù)原來(lái)幻方的風(fēng)格，DeepSeek 的招聘門檻一直非常高。比如，他們從 2024 年年中就開(kāi)始物色多模態(tài)與強(qiáng)化學(xué)習(xí)方向的技術(shù)大牛，但招了大半年、相關(guān)崗位也依然空缺，對(duì)人才的招聘寧缺毋濫。R1 爆火后，投遞簡(jiǎn)歷雖然暴增，但據(jù)知情人士稱“合適的并不多”。

DeepSeek 內(nèi)部的組織文化也非常扁平。據(jù) AI 科技評(píng)論了解，無(wú)論是北京還是杭州，都只有一個(gè)老板：DeepSeek 創(chuàng)始人梁文鋒?！傲何匿h以下基本全是打工人?！?/p>

此外，梁文鋒的個(gè)人風(fēng)格也十分明顯：有極強(qiáng)的技術(shù)信仰，對(duì) AGI 有十足的好奇心與求知欲，并且十分刻苦。接近梁文鋒的知情人士形容，梁文鋒“說(shuō)話非常非常慢，每一句話都要思考很久很久才表達(dá)出來(lái)，而且表達(dá)非常簡(jiǎn)潔。雖然簡(jiǎn)潔，但說(shuō)出來(lái)的話經(jīng)常一針見(jiàn)血。”

DeepSeek 的團(tuán)隊(duì)文化與宇樹(shù)、Momenta 這樣的公司很相似：一號(hào)位都是技術(shù)發(fā)燒友，對(duì)技術(shù)有天然的敬畏之心與好奇之心；同時(shí)在管理上集權(quán)風(fēng)格明顯，文化扁平，因而能在技術(shù)探索中遇到困難時(shí)能自上而下協(xié)調(diào)資源，快速達(dá)到上傳下達(dá)的效果。

同時(shí)，宇樹(shù)與 DeepSeek 在招人時(shí)也有一套自己的標(biāo)準(zhǔn)，與市面上千篇一律的面試套路很不同。有興趣的讀者可以去了解下。

DeepSeek 梁文鋒很早開(kāi)始探索如何用更低的成本訓(xùn)練出更強(qiáng)的模型，彼時(shí)行業(yè)還普遍看不懂。同樣地，宇樹(shù)王興興也是在大家還看不懂機(jī)器狗時(shí)就開(kāi)始做四足機(jī)器狗，Momenta 曹旭東也是在自動(dòng)駕駛行業(yè)還普遍沉醉于 L4 時(shí)同時(shí)開(kāi)始做 L2 與 L4、兩條腿走路。

敢于與主流對(duì)著干的創(chuàng)業(yè)團(tuán)隊(duì)需要一種強(qiáng)大的叛逆精神。在 AI 科技評(píng)論與多位投資人的交流中，這種“叛逆”容易被輕易地歸類為“年輕人群體”，但在筆者看來(lái)，叛逆的底氣終究來(lái)源于一個(gè)團(tuán)隊(duì)對(duì)自己所要解決的社會(huì)問(wèn)題的認(rèn)知、判斷與技術(shù)自信，即：堅(jiān)信自己的前進(jìn)方向是未來(lái)的，會(huì)帶來(lái)巨大的價(jià)值。

3、創(chuàng)新的品味

V2 掀起價(jià)格戰(zhàn)后，梁文鋒在接受《暗涌》的訪談時(shí)對(duì)這個(gè)技術(shù)成果的評(píng)價(jià)是：“在美國(guó)每天發(fā)生的大量創(chuàng)新里，這是非常普通的一個(gè)?！?/p>

V3 與 R1 之后，梁文鋒暫時(shí)還沒(méi)有對(duì)外發(fā)過(guò)聲，但對(duì) DeepSeek 與梁文鋒來(lái)說(shuō)，在完全實(shí)現(xiàn) AGI 之前，或許 V3 與 R1 的創(chuàng)新也只是“非常普通的一個(gè)”?！@并非否定后兩者的突破與可取之處，而是想突出高追求的團(tuán)隊(duì)往往會(huì)將 100 分的事情說(shuō)成 80 分，并永遠(yuǎn)追求附加分。

R1 發(fā)布，業(yè)內(nèi)的一位資深強(qiáng)化學(xué)習(xí)學(xué)者向 AI 科技評(píng)論分析時(shí)表示：“用純 RL 算法代替 RL+SFT 的范式后，我覺(jué)得 AGI 的實(shí)現(xiàn)最晚三年?！?/p>

Sam Altman 說(shuō) 2025 年 AI 就會(huì)超越人類，馬斯克也說(shuō) AGI 最晚在 2026 年就可以實(shí)現(xiàn)?！诟鞣N“AGI時(shí)間點(diǎn)”的預(yù)言上，雖然我們很難判斷具體會(huì)在什么時(shí)候發(fā)生，但可以感受到這樣的大趨勢(shì)正在發(fā)生。

趨勢(shì)已知，同時(shí) DeepSeek 的打板已經(jīng)讓大家意識(shí)到起碼兩個(gè)事實(shí)：一是 AGI 的技術(shù)還沒(méi)到天花板，二是中國(guó)的科技團(tuán)隊(duì)有能力做出引領(lǐng)世界 AGI 的創(chuàng)新。相比沉浸于 DeepSeek 的勝利，接下來(lái)怎么推動(dòng)中國(guó) AGI 的發(fā)展，才是更重要的事情。

在過(guò)去的半個(gè)月，DeepSeek 的風(fēng)暴讓大廠、創(chuàng)業(yè)公司、算力廠商、投資人等對(duì) AGI 發(fā)展的認(rèn)知都產(chǎn)生了新的變化。一些過(guò)去被忽視的大象般的問(wèn)題重新得到重視，同時(shí)一些過(guò)去的陳舊看法也被顛覆。但一致的變化是：所有人都意識(shí)到，在現(xiàn)階段，AGI 的實(shí)現(xiàn)仍需要理想主義。

相比猜測(cè) OpenAI 或 DeepSeek 下一步會(huì)做什么，推斷 AGI 需要解決什么技術(shù)問(wèn)題更重要。換言之，創(chuàng)新比模仿更重要。

事實(shí)上，根據(jù)過(guò)去一年 AI 科技評(píng)論的訪談，除了 DeepSeek，國(guó)內(nèi)也有不少 AI 人才在不斷堅(jiān)持創(chuàng)新、不斷提出新的解法來(lái)解決懸而未決的難題。只列舉一二：

香港大學(xué)計(jì)算與數(shù)據(jù)科學(xué)研究院院長(zhǎng)馬毅教授在過(guò)去兩年一直強(qiáng)調(diào)：當(dāng)前通過(guò)高算力推進(jìn)訓(xùn)練的大模型擁有的是知識(shí)、而非智能。區(qū)別于深度學(xué)習(xí)的黑盒特質(zhì)，馬毅團(tuán)隊(duì)一直致力于研究可解釋、可控制的人工智能算法與框架（白盒理論）。（更多信息可以閱讀 AI 科技評(píng)論往期報(bào)道：《港大馬毅：現(xiàn)在大模型的「知識(shí)」，不等同于「智能」》）

CNCC 2024 上，智譜唐杰提到多模態(tài)技術(shù)的下一步發(fā)展。從 2021 年開(kāi)始，智譜團(tuán)隊(duì)就開(kāi)始探索多模態(tài)大模型。據(jù)智譜團(tuán)隊(duì)透露，在早期探索中，他們遇到過(guò)類似的問(wèn)題：文本、圖像、語(yǔ)音與視頻等多模態(tài)數(shù)據(jù)同時(shí)灌入訓(xùn)練大模型時(shí)，一個(gè)模態(tài)的數(shù)據(jù)似乎會(huì)削弱另一個(gè)模態(tài)的知識(shí)/智能。多模態(tài)雖然趨勢(shì)，但如何優(yōu)化跨模態(tài)的數(shù)據(jù)對(duì)齊、收集高質(zhì)量的數(shù)據(jù)、以及增強(qiáng)多模態(tài)模型的常識(shí)與推理能力等，也仍有很強(qiáng)的研究空間。（更多內(nèi)容可以閱讀雷峰網(wǎng)往期報(bào)道：《五道口大模型簡(jiǎn)史》）

而據(jù) 2024 年 3 月與面壁團(tuán)隊(duì)多位創(chuàng)始成員的交流，當(dāng)前主流的大模型架構(gòu)其實(shí)還無(wú)法很好地解決幾個(gè)關(guān)鍵問(wèn)題，由此難以靠近 AGI：如經(jīng)驗(yàn)學(xué)習(xí)與空間記憶。例如人可以通過(guò)多次學(xué)習(xí)一件事而更熟練，或者迅速熟悉新環(huán)境、并將另一個(gè)問(wèn)題的認(rèn)知有效遷移到新環(huán)境中。這些問(wèn)題是當(dāng)前 Transformer 不太好表達(dá)的。（更多內(nèi)容可以閱讀 AI 科技評(píng)論往期報(bào)道：《被低估的面壁：打造出不輸 OpenAI 的 Scaling Law 曲線》）

隨著具身智能的發(fā)展，接下來(lái) AGI 也天然分會(huì)分為云端 AGI 與端側(cè) AGI。端側(cè) AGI 指的是天然能感知環(huán)境與進(jìn)行做高階推理，并能基于高階推理做出復(fù)雜多步的決策的模型。熱門的具身大小腦就是沿著這一趨勢(shì)發(fā)展，而這一方向也仍有許多問(wèn)題要解決。要解決這些問(wèn)題，除了資源，還要有強(qiáng)烈的技術(shù)實(shí)力與技術(shù)愿景。

o1 發(fā)布后，大模型領(lǐng)域的許多研究開(kāi)始往推理走，但據(jù)小道消息：谷歌的 Gemini 團(tuán)隊(duì)近日已完成了新一代的基礎(chǔ)模型，并對(duì)一小部分用戶開(kāi)放了測(cè)試。

雖然 2023 年谷歌被 OpenAI 打得股價(jià)暴跌，但如果看 2020 年 6 月到 2022 年期間谷歌的大模型技術(shù)，就可以發(fā)現(xiàn)谷歌的大模型打法是自下而上構(gòu)建從底層算力、架構(gòu)到上層算法的體系。這或許也是谷歌 Gemini 能后來(lái)發(fā)力的重要原因。

DeepSeek 的路徑也是如此。根據(jù) DeepSeek 的技術(shù)披露，其研究大模型的路徑也是從底層萬(wàn)卡集群、HAI 框架向上貫穿，構(gòu)建環(huán)環(huán)相扣的技術(shù)體系。

對(duì)權(quán)威保持警惕、永遠(yuǎn)從問(wèn)題的本質(zhì)倒推，堅(jiān)定創(chuàng)新，才能引領(lǐng)潮流。短期的快錢或許會(huì)流向幸運(yùn)的人，但長(zhǎng)期的資源應(yīng)該流向那些擅長(zhǎng)將資源應(yīng)用到最好的團(tuán)隊(duì)。

希望 2025 年，中國(guó)不再只有一個(gè) DeepSeek。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

陳彩嫻

編輯

發(fā)私信

當(dāng)月熱門文章

為什么中國(guó)只有一個(gè) DeepSeek？

為什么中國(guó)只有一個(gè) DeepSeek？