0
DeepSeek 風(fēng)暴后,中國的大模型創(chuàng)業(yè)圈會發(fā)生什么樣的變化?
近日來,筆者也與多位業(yè)內(nèi)人士進行了探討,發(fā)現(xiàn)國產(chǎn)大模型圈目前出現(xiàn)了兩個極端:一個是極端的熱血沸騰,另一個則是極端的霜打茄子。
前者以積極擁抱 DeepSeek 生態(tài)的算力廠商與模型服務(wù)廠商、以及原先沒有能力參與大模型“軍備競賽”的開源受益者為代表,后者則以其他中國大模型創(chuàng)業(yè)公司(俗稱“大模型六小虎”)與過去兩年投資了這些公司的 VC 們?yōu)橹?,形成了一個“冰火兩重天”的局面。
據(jù)了解,部分在過去兩年投了估值在第一梯隊的大模型公司的 VC 團隊已經(jīng)開始準備/正在接受內(nèi)部的“鞭尸”,主要被質(zhì)問的角度無非是幾點:
“為什么 DeepSeek 用這么低的成本就能訓(xùn)練出這么強大的模型,而我們投的大模型公司融資了幾十億美金卻做不出來?”雷峰網(wǎng)
“DeepSeek 這次能出圈本質(zhì)還是技術(shù)足夠創(chuàng)新、足夠牛。XXX 家連基本的大模型技術(shù)團隊都沒有,為什么要投?”雷峰網(wǎng)
“XXX 也有非常強大的人才團隊,而且也有訓(xùn)練基座大模型的經(jīng)驗與追求,為什么沒有成為 DeepSeek?他們靠什么支撐這么高的估值?”
“DeepSeek 出來后,誰還會投大模型六小虎?還有哪幾個有上市希望?如果沒有,接下來我們是回購還是退出?”
……
“為什么沒有成為 DeepSeek”,以及“為什么中國只有一個 DeepSeek”,是幾乎所有大模型從業(yè)者與 VC 從春節(jié)就開始求索的問題。這兩個問題幾乎可以涵蓋了目前國內(nèi)所有關(guān)于大模型創(chuàng)新的焦慮,也只有嚴肅探討這兩個問題,才能回答另一個更重要的問題:如何成為 DeepSeek?
在春節(jié)期間的一篇文章《「DeepSeek 現(xiàn)象」只是中國 AI 崛起的開始》中,我們已經(jīng)從中美 AI 創(chuàng)新對比的大角度試圖向行業(yè)傳遞一個信息:中國 AI 需有民族自豪感;而在這一篇文章中,我們希望結(jié)合過去四年中國大模型的發(fā)展歷史,進一步探討:
中國是否缺少像 DeepSeek 這樣的技術(shù)理想主義者?
如果中國不缺少,這樣的技術(shù)團隊是否已被充分挖掘、并得到相應(yīng)的社會系統(tǒng)性支持?如沒有,原因出在哪里?雷峰網(wǎng)
作為一個從 2020 年 GPT-3 爆發(fā)以來就跟進大模型報道的行業(yè)號,這篇文章無意于回答一個如此宏觀而深刻的問題,只從第三方視角呈現(xiàn)一些或許與該話題相關(guān)的事實或觀點。
1、系統(tǒng)性錯位
2023 年之前,中國只有 4 家大模型公司:智譜、面壁、深言與聆心(后被智譜收購),且都來自清華;2023 年之后,大模型的創(chuàng)業(yè)公司增加到了十幾家,從技術(shù)上看直接原因是 Llama 開源,但最根本的原因其實是,那時候所有人都認為:
大模型的技術(shù)門檻雖高、但并非不可模仿。尤其基于已有的開源大模型,技術(shù)難度進一步降低,“技術(shù)無法構(gòu)成商業(yè)壁壘”的論調(diào)甚囂塵上。
在這種集體共識的“統(tǒng)治”下,我們復(fù)盤 2023 年 ChatGPT 爆火后中國大模型創(chuàng)業(yè)的幾個力量動態(tài),就不難理解當(dāng)前中國大模型創(chuàng)業(yè)中場的畸形現(xiàn)象:
首先,由于整個市場對技術(shù)創(chuàng)新的敬畏之心變?nèi)酰?023 年 ChatGPT 大火后,中國的第一批大模型技術(shù)探路者中,只有智譜一家成為了資本的寵兒,最早突破 200 億人民幣估值大關(guān)、躋身大模型第一梯隊。(月之暗面是 2023 年后成立的,故不算在其中)
而由清華自然語言處理實驗室(THUNLP)走出的其余兩家創(chuàng)業(yè)公司面壁、深言,在資本市場的呼聲遠不如后來的新勢力。
尤其是面壁智能(因為深言選擇了聚焦產(chǎn)品),作為國內(nèi)最早提出要做“平民版大模型”、跟 DeepSeek 的技術(shù)愿景與創(chuàng)新方向最像、甚至比 DeepSeek 還早成立的一家公司,直到 2024 年年底完成一筆 3 億人民幣的融資后、估值也才不到 35 億人民幣,距離第一梯隊的 200 億門檻相差極遠。
據(jù)雷峰網(wǎng)(公眾號:雷峰網(wǎng)) AI 科技評論過去兩年與超 50 位大模型投資人的交流所知,同是清華出身、同有技術(shù)先發(fā)優(yōu)勢、同有優(yōu)秀年輕技術(shù)人才的智譜與面壁之所以相差那么大,主要有幾方面原因:
一是清華學(xué)術(shù)派追基座模型的只押一家,因為“對教授創(chuàng)業(yè)持保留意見”;二是智譜的愿景更好理解,早期對外融資時說“對標 OpenAI”、VC 立刻就懂,但面壁由于一開始就強調(diào)底層模型訓(xùn)練效率優(yōu)化,在熱錢最多的 2023 年一度被認為是一家類似潞晨、硅基的“AI Infra”公司。
面壁智能在 2023 年沒拿到太多錢、無法投入基座大模型,通過類似 DeepSeek V3 這樣的基座大模型訓(xùn)練直觀反饋高效訓(xùn)練的重要性,2024 年就只有走端側(cè)小模型,而后者對“高效訓(xùn)練”的代言效果遠沒有 DeepSeek V3 這樣的工作好。
2022 年、2023 年在融資時,面壁就打出“高效訓(xùn)練”的旗號去融資,但幾乎在 VC 那吃遍了閉門羹。
其次,也是承接沒有對技術(shù)敬畏之心的大環(huán)境前提,2023 年大模型浪潮來臨后,中國的 AI 科技 VC 其實并沒有沉下心來研究 AGI 這項技術(shù),而是為了迅速上桌將錢投向了“曾打過勝仗的連續(xù)成功創(chuàng)業(yè)者”,哪怕這些團隊此前壓根沒有過任何大模型研發(fā)經(jīng)歷。
這當(dāng)中,最典型的代表是王慧文的光年之外與王小川的百川智能。
當(dāng)前估值超過 200 億人民幣的大模型公司中,只有智譜唐杰、月之暗面楊植麟等人是從 2020 年大模型未出圈時就開始了對大模型的技術(shù)探索,百川智能、MiniMax與階躍星辰的團隊大多都是在 2023 年之后才展開。
譬如,MiniMax 的創(chuàng)始人閆俊杰是計算機視覺出身,而大模型起初解決的是語言智能(多模態(tài)是另一篇章)。不過 MiniMax 最早是靠產(chǎn)品 Glow 出圈、而非底層大模型技術(shù)獲得資本青睞的,所以這是另外一個維度,且靠近閆俊杰的人對他的評價都是“很有技術(shù)追求”。
DeepSeek 的研發(fā)團隊同樣是從 0 開始學(xué)習(xí)大模型技術(shù),苦讀論文、死磕實驗,所以沒有任何跡象表明一個從前未曾訓(xùn)練過大模型的團隊無法通過在 2023 年之后的努力學(xué)習(xí)來補足技術(shù)的短板,但從過去兩年的行業(yè)發(fā)展來看,百川智能在基座模型上的升級并不頻繁,重心轉(zhuǎn)向醫(yī)療行業(yè)大模型。
由于不訓(xùn)練視頻等大模型,百川的研發(fā)成本較其他公司更低,現(xiàn)金流充裕——但這只對百川有利,對整個大模型行業(yè)的發(fā)展是沒有貢獻的。
假設(shè)在資源有限的情況下,沒有技術(shù)能力的團隊占據(jù)了大量的資本資源,反之有技術(shù)能力的團隊卻只能得到極少的資本資源,錢、才的系統(tǒng)性錯位注定產(chǎn)生的結(jié)果只有遺憾、沒有未來。
如若 AGI 大模型技術(shù)果真已沒有上升的空間、各家的技術(shù)壁壘已經(jīng)逐漸拉平,那么互聯(lián)網(wǎng)時代拼資源、拼資本的打法或許也能分到最后一杯羹。但對技術(shù)有敬畏之心的創(chuàng)業(yè)者始終保持清醒的頭腦,依然能看到現(xiàn)有大模型底層算法與架構(gòu)等在訓(xùn)練與推理中所存在的不足,知道 AGI 仍有許多具體且高難度的問題要解決。
也就是說,底層技術(shù)的持續(xù)創(chuàng)新能力仍是大模型公司的護城河,純拼資源的互聯(lián)網(wǎng)方法論暫不適用當(dāng)前中國的大模型發(fā)展。——但這些話大概率不會得到大部分中國科技 VC 的認可,因為 2023、2024 年的大模型投資甚至還有“Club Deal”這樣的玩法……
在過去兩年的大模型發(fā)展中,一個不愿意學(xué)習(xí)技術(shù)的 VC,比一個不愿意學(xué)習(xí)技術(shù)的研發(fā)所產(chǎn)生的殺傷力,可能還要更大。
泡沫期終將結(jié)束。潮水褪去后,誰在裸泳也將一目了然。
2、AGI 軍團可遇不可求
市場對技術(shù)缺乏敬畏之心的另一個影響是:為了迎合市場,(當(dāng)然還有突破大廠圍剿的考慮),過去兩年中國大模型創(chuàng)業(yè)公司的目光也從長期的 AGI 轉(zhuǎn)到短期的商收、產(chǎn)品打磨上。
這一打法的變化也是因為上述行業(yè)的誤判,以為大模型再無創(chuàng)新之處。堅定追求 AGI 的創(chuàng)業(yè)者必須同時兼顧商業(yè)與技術(shù),而對 AGI 產(chǎn)生懷疑或徹底被市場聲音迷惑的團隊則要么放棄預(yù)訓(xùn)練、全面轉(zhuǎn)向 C 端應(yīng)用或干脆只基于開源模型微調(diào)行業(yè)大模型。
從 GPT-3 到 ChatGPT 的出現(xiàn)經(jīng)歷了兩年半,但市場卻普遍呈現(xiàn)出一個“規(guī)律”:國內(nèi)的大模型從基座到商業(yè)化只要兩年。盡管一些大模型公司能同時堅持“L2”與“L4”兩步走,但在人才與研究資源的投入上沒有一家公司能像 DeepSeek 一樣對 AGI 這么純粹。
2023 年上半年融資戰(zhàn)剛開始時,業(yè)內(nèi)的一個分析是:中國的 VC 經(jīng)過上一代 AI 公司的“洗禮”,對大模型公司的商業(yè)化耐心已經(jīng)從 5 年、8 年縮短到 3 年內(nèi)?!@或許是中國大模型公司的普遍困境。
眾所周知:DeepSeek 專注 AGI 研究,是依托梁文鋒個人與幻方量化的原有儲備資金,沒有向外融資。“自己有錢,所以不需要聽外界的,自己想干什么就干什么?!薄@也是眾多大模型公司對 DeepSeek 羨慕的地方。
近日原先噴 AGI 的朱嘯虎又改口稱因為 DeepSeek 愿意投 AGI 公司,可以說是 DeepSeek 用過硬的技術(shù)實力改變了 VC 的看法,但更殘酷的一個現(xiàn)實是:可能大批有過硬創(chuàng)新能力的團隊因為融不到錢而倒在時代的前夜。
“商業(yè)化思維”不僅反映在部分科技 VC 的影子中,其實也反映在研發(fā)人才的選擇中。
根據(jù)獵頭的反饋,2024 年,中國對人才“氪金”力度最大的公司毫無疑問是字節(jié)跳動。大廠與創(chuàng)業(yè)團隊的分野已經(jīng)形成,而大模型人才從創(chuàng)業(yè)團隊流向大廠更是成為過去一年的普遍選擇。例如,據(jù) AI 科技評論所知,DeepSeek 為做 AGI 所物色的多位 NLP、多模態(tài)與強化學(xué)習(xí)方向的優(yōu)秀人才,就在 DeepSeek 與字節(jié)跳動之間選擇了 字節(jié)跳動。
據(jù)早期為 DeepSeek 服務(wù)的獵頭透露,DeepSeek 早期也希望從海外的谷歌、Meta、OpenAI 等團隊挖頂尖人才,但進展并不順利,所以只能退而求其次、自己培養(yǎng)。
AGI 的投入,除了要有錢,也要有人,而且是一群絕對的技術(shù)理想主義者,以及優(yōu)秀的組織文化。DeepSeek 的成功或許無法復(fù)制,但從 V2、V3 到 R1、R1-Zero,DeepSeek 的技術(shù)結(jié)果體現(xiàn)了其在資金、人才/理想與組織文化上的優(yōu)勢。
在 DeepSeek 之前,“北九坤、南幻方”就已經(jīng)在金融量化領(lǐng)域鼎鼎有名,而量化行業(yè)對技術(shù)人才的高要求也是眾所周知的,基本以 Top2 高校、信息學(xué)競賽金牌選手為基準,團隊規(guī)模往往不大,但能力超強。據(jù) AI 科技評論了解,2024 年上半年 DeepSeek 的團隊規(guī)模也只有 40 多人,且大多數(shù)是原幻方 Top2 的技術(shù)高手。
延續(xù)原來幻方的風(fēng)格,DeepSeek 的招聘門檻一直非常高。比如,他們從 2024 年年中就開始物色多模態(tài)與強化學(xué)習(xí)方向的技術(shù)大牛,但招了大半年、相關(guān)崗位也依然空缺,對人才的招聘寧缺毋濫。R1 爆火后,投遞簡歷雖然暴增,但據(jù)知情人士稱“合適的并不多”。
DeepSeek 內(nèi)部的組織文化也非常扁平。據(jù) AI 科技評論了解,無論是北京還是杭州,都只有一個老板:DeepSeek 創(chuàng)始人梁文鋒。“梁文鋒以下基本全是打工人?!?/p>
此外,梁文鋒的個人風(fēng)格也十分明顯:有極強的技術(shù)信仰,對 AGI 有十足的好奇心與求知欲,并且十分刻苦。接近梁文鋒的知情人士形容,梁文鋒“說話非常非常慢,每一句話都要思考很久很久才表達出來,而且表達非常簡潔。雖然簡潔,但說出來的話經(jīng)常一針見血?!?/p>
DeepSeek 的團隊文化與宇樹、Momenta 這樣的公司很相似:一號位都是技術(shù)發(fā)燒友,對技術(shù)有天然的敬畏之心與好奇之心;同時在管理上集權(quán)風(fēng)格明顯,文化扁平,因而能在技術(shù)探索中遇到困難時能自上而下協(xié)調(diào)資源,快速達到上傳下達的效果。
同時,宇樹與 DeepSeek 在招人時也有一套自己的標準,與市面上千篇一律的面試套路很不同。有興趣的讀者可以去了解下。
DeepSeek 梁文鋒很早開始探索如何用更低的成本訓(xùn)練出更強的模型,彼時行業(yè)還普遍看不懂。同樣地,宇樹王興興也是在大家還看不懂機器狗時就開始做四足機器狗,Momenta 曹旭東也是在自動駕駛行業(yè)還普遍沉醉于 L4 時同時開始做 L2 與 L4、兩條腿走路。
敢于與主流對著干的創(chuàng)業(yè)團隊需要一種強大的叛逆精神。在 AI 科技評論與多位投資人的交流中,這種“叛逆”容易被輕易地歸類為“年輕人群體”,但在筆者看來,叛逆的底氣終究來源于一個團隊對自己所要解決的社會問題的認知、判斷與技術(shù)自信,即:堅信自己的前進方向是未來的,會帶來巨大的價值。
3、創(chuàng)新的品味
V2 掀起價格戰(zhàn)后,梁文鋒在接受《暗涌》的訪談時對這個技術(shù)成果的評價是:“在美國每天發(fā)生的大量創(chuàng)新里,這是非常普通的一個?!?/p>
V3 與 R1 之后,梁文鋒暫時還沒有對外發(fā)過聲,但對 DeepSeek 與梁文鋒來說,在完全實現(xiàn) AGI 之前,或許 V3 與 R1 的創(chuàng)新也只是“非常普通的一個”?!@并非否定后兩者的突破與可取之處,而是想突出高追求的團隊往往會將 100 分的事情說成 80 分,并永遠追求附加分。
R1 發(fā)布,業(yè)內(nèi)的一位資深強化學(xué)習(xí)學(xué)者向 AI 科技評論分析時表示:“用純 RL 算法代替 RL+SFT 的范式后,我覺得 AGI 的實現(xiàn)最晚三年?!?/p>
Sam Altman 說 2025 年 AI 就會超越人類,馬斯克也說 AGI 最晚在 2026 年就可以實現(xiàn)?!诟鞣N“AGI時間點”的預(yù)言上,雖然我們很難判斷具體會在什么時候發(fā)生,但可以感受到這樣的大趨勢正在發(fā)生。
趨勢已知,同時 DeepSeek 的打板已經(jīng)讓大家意識到起碼兩個事實:一是 AGI 的技術(shù)還沒到天花板,二是中國的科技團隊有能力做出引領(lǐng)世界 AGI 的創(chuàng)新。相比沉浸于 DeepSeek 的勝利,接下來怎么推動中國 AGI 的發(fā)展,才是更重要的事情。
在過去的半個月,DeepSeek 的風(fēng)暴讓大廠、創(chuàng)業(yè)公司、算力廠商、投資人等對 AGI 發(fā)展的認知都產(chǎn)生了新的變化。一些過去被忽視的大象般的問題重新得到重視,同時一些過去的陳舊看法也被顛覆。但一致的變化是:所有人都意識到,在現(xiàn)階段,AGI 的實現(xiàn)仍需要理想主義。
相比猜測 OpenAI 或 DeepSeek 下一步會做什么,推斷 AGI 需要解決什么技術(shù)問題更重要。換言之,創(chuàng)新比模仿更重要。
事實上,根據(jù)過去一年 AI 科技評論的訪談,除了 DeepSeek,國內(nèi)也有不少 AI 人才在不斷堅持創(chuàng)新、不斷提出新的解法來解決懸而未決的難題。只列舉一二:
香港大學(xué)計算與數(shù)據(jù)科學(xué)研究院院長馬毅教授在過去兩年一直強調(diào):當(dāng)前通過高算力推進訓(xùn)練的大模型擁有的是知識、而非智能。區(qū)別于深度學(xué)習(xí)的黑盒特質(zhì),馬毅團隊一直致力于研究可解釋、可控制的人工智能算法與框架(白盒理論)。(更多信息可以閱讀 AI 科技評論往期報道:《港大馬毅:現(xiàn)在大模型的「知識」,不等同于「智能」》)
CNCC 2024 上,智譜唐杰提到多模態(tài)技術(shù)的下一步發(fā)展。從 2021 年開始,智譜團隊就開始探索多模態(tài)大模型。據(jù)智譜團隊透露,在早期探索中,他們遇到過類似的問題:文本、圖像、語音與視頻等多模態(tài)數(shù)據(jù)同時灌入訓(xùn)練大模型時,一個模態(tài)的數(shù)據(jù)似乎會削弱另一個模態(tài)的知識/智能。多模態(tài)雖然趨勢,但如何優(yōu)化跨模態(tài)的數(shù)據(jù)對齊、收集高質(zhì)量的數(shù)據(jù)、以及增強多模態(tài)模型的常識與推理能力等,也仍有很強的研究空間。(更多內(nèi)容可以閱讀雷峰網(wǎng)往期報道:《五道口大模型簡史》)
而據(jù) 2024 年 3 月與面壁團隊多位創(chuàng)始成員的交流,當(dāng)前主流的大模型架構(gòu)其實還無法很好地解決幾個關(guān)鍵問題,由此難以靠近 AGI:如經(jīng)驗學(xué)習(xí)與空間記憶。例如人可以通過多次學(xué)習(xí)一件事而更熟練,或者迅速熟悉新環(huán)境、并將另一個問題的認知有效遷移到新環(huán)境中。這些問題是當(dāng)前 Transformer 不太好表達的。(更多內(nèi)容可以閱讀 AI 科技評論往期報道:《被低估的面壁:打造出不輸 OpenAI 的 Scaling Law 曲線》)
隨著具身智能的發(fā)展,接下來 AGI 也天然分會分為云端 AGI 與端側(cè) AGI。端側(cè) AGI 指的是天然能感知環(huán)境與進行做高階推理,并能基于高階推理做出復(fù)雜多步的決策的模型。熱門的具身大小腦就是沿著這一趨勢發(fā)展,而這一方向也仍有許多問題要解決。要解決這些問題,除了資源,還要有強烈的技術(shù)實力與技術(shù)愿景。
o1 發(fā)布后,大模型領(lǐng)域的許多研究開始往推理走,但據(jù)小道消息:谷歌的 Gemini 團隊近日已完成了新一代的基礎(chǔ)模型,并對一小部分用戶開放了測試。
雖然 2023 年谷歌被 OpenAI 打得股價暴跌,但如果看 2020 年 6 月到 2022 年期間谷歌的大模型技術(shù),就可以發(fā)現(xiàn)谷歌的大模型打法是自下而上構(gòu)建從底層算力、架構(gòu)到上層算法的體系。這或許也是谷歌 Gemini 能后來發(fā)力的重要原因。
DeepSeek 的路徑也是如此。根據(jù) DeepSeek 的技術(shù)披露,其研究大模型的路徑也是從底層萬卡集群、HAI 框架向上貫穿,構(gòu)建環(huán)環(huán)相扣的技術(shù)體系。
對權(quán)威保持警惕、永遠從問題的本質(zhì)倒推,堅定創(chuàng)新,才能引領(lǐng)潮流。短期的快錢或許會流向幸運的人,但長期的資源應(yīng)該流向那些擅長將資源應(yīng)用到最好的團隊。
希望 2025 年,中國不再只有一個 DeepSeek。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。