丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給二維馬曉寧
發(fā)送

0

獨(dú)家對話劉知遠(yuǎn):AGI 是一場技術(shù)理想與商業(yè)現(xiàn)實(shí)的「持久戰(zhàn)」

本文作者: 二維馬曉寧   2025-03-04 16:26
導(dǎo)語:這是一個與「朱嘯虎們」相反的 AGI 敘事。

DeepSeek 以迅雷不及掩耳之勢出圈后,中國大部分的大模型團(tuán)隊(duì)都被打得措手不及,只有一家公司因?yàn)榈讓蛹夹g(shù)和 AGI 思想路徑與 DeepSeek 相近而暫時“逃過一劫”,這家公司就是:面壁智能。

作為中國最早的一批大模型團(tuán)隊(duì)之一,面壁智能成立于 2022 年 8 月,其創(chuàng)始團(tuán)隊(duì)從 2021 年就主力參與北京智源人工智能研究院的大模型項(xiàng)目“悟道”,訓(xùn)練出多個百億、千億參數(shù)規(guī)模的大模型,并成立大模型開源社區(qū)OpenBMB,是國內(nèi)最早提出“平民版大模型”、最早促進(jìn)大模型開源事業(yè)的團(tuán)隊(duì)之一。

但意料之外、又情理之中的是,盡管團(tuán)隊(duì)技術(shù)實(shí)力出色、對 AGI 的理解深刻,其在 2022 年到 2023 年大模型浪潮剛起、國內(nèi)純種大模型團(tuán)隊(duì)并不多時,卻遭到冷落與誤解,未能吃到首輪紅利。

2023 年,面壁智能在訓(xùn)練出千億參數(shù)規(guī)模的基礎(chǔ)模型后,由于早期融資少、且在探索商業(yè)化時發(fā)現(xiàn)千億模型難以落地,戰(zhàn)略決定轉(zhuǎn)向訓(xùn)練參數(shù)規(guī)模更小、算力更低、但性能更強(qiáng)的端側(cè)模型——雖在國內(nèi)一批大模型創(chuàng)業(yè)團(tuán)中打出差異化,但也錯過了諸如 DeepSeek V3 這樣在與 Llama 3、GPT-4 等同級別的基礎(chǔ)大模型上驗(yàn)證“更低成本訓(xùn)練更強(qiáng)模型”的勝利。

面壁的發(fā)展提供了大模型創(chuàng)業(yè)熱潮中的另一視角。當(dāng) ChatGPT 引爆市場熱情后,資本陷入對標(biāo) OpenAI 的狂熱,對強(qiáng)調(diào)技術(shù)創(chuàng)新的差異化路線反應(yīng)冷淡。這種認(rèn)知滯后揭示了中國科技投資的深層困境:在技術(shù)演進(jìn)曲線上,相比成為先驗(yàn)的引領(lǐng)者,資本往往成為后驗(yàn)的追隨者。

2024 年,多位投資者對面壁智能的評價是:“這個團(tuán)隊(duì)的技術(shù)很好,但就是給人的感覺太陽春白雪,如果在國內(nèi)做 To B 的話,我不知道他們能否有團(tuán)隊(duì)去跟 B 端的客戶老大哥們勾肩搭背、抽煙喝酒。”

DeepSeek 在硅谷掀桌,以及國產(chǎn)動漫電影《哪吒 2》的大熱,使得 2025 年被稱為是“理想主義者的勝利”。那么,大模型圈中的典型理想主義者面壁智能,是否也迎來了他們所想象的勝利?

事實(shí)上,AGI 比我們想得更大,勝利的到來也或許更遙遠(yuǎn)。

不久前,雷峰網(wǎng) AI 科技評論也與面壁智能的創(chuàng)始人、清華大學(xué)副教授劉知遠(yuǎn)博士進(jìn)行了一次深入交流,可以作為勾勒技術(shù)理想主義的一個典型畫像。在交談中,劉知遠(yuǎn)多次引用毛主席所著的《論持久戰(zhàn)》來解釋他們在“征戰(zhàn)” AGI 路上的一些思考。他認(rèn)為,AGI 的勝利需要戰(zhàn)略上的持久戰(zhàn)、戰(zhàn)術(shù)上的速決戰(zhàn)。

在劉知遠(yuǎn)看來,大模型的技術(shù)還遠(yuǎn)遠(yuǎn)沒有收斂,反而是在加速前進(jìn)。AGI 是一場關(guān)于“智力”的持久戰(zhàn),真正的勝利不在于短期估值的高低,而在于能否實(shí)事求是地追尋理想主義。

站在 2025 年的門檻回望,面壁智能的歷程折射出中國創(chuàng)新生態(tài)的復(fù)雜圖景。資本市場的認(rèn)知滯后、技術(shù)路線的搖擺爭議、商業(yè)化與理想主義的碰撞,這些挑戰(zhàn)共同構(gòu)成了中國攀登 AGI 高峰的必經(jīng)之路。

以下是 雷峰網(wǎng)(公眾號:雷峰網(wǎng)) AI科技評論 與劉知遠(yuǎn)的對話全文,為方便閱讀,進(jìn)行了不改變原意的文字調(diào)整。


1
AI 資本寒冬的親歷者

AI 科技評論:記得 2023 年5 月采訪跟您交流時,您就提到面壁的成立初衷是做“平民版大模型”、讓 AGI 普惠。能否談?wù)劽姹诘某闪⒈尘埃?/p>

劉知遠(yuǎn):2021 年我們在智源做完第一版“悟道”模型之后就有了要商業(yè)化的想法,很重要的原因是:從技術(shù)來講,我們認(rèn)為大模型已經(jīng)找到了一種通用地從數(shù)據(jù)學(xué)習(xí)知識的方案,已經(jīng)在邁向通用智能了。對于接下來怎么做,當(dāng)時我有兩個判斷:

第一個判斷是 AI 已經(jīng)具有商業(yè)化的能力,具有實(shí)際應(yīng)用的成熟度了。

歷史上就有相似的案例,譬如說搜索引擎:它的研究大概在上個世紀(jì)六七十年代就開始了,在相當(dāng)于長的一段時間里面,主要是由實(shí)驗(yàn)室來開展研究,因?yàn)榧夹g(shù)還不成熟,不足以去進(jìn)行商業(yè)化的應(yīng)用。

但是到了上個世紀(jì) 90 年代末,雅虎和 Google 這樣的公司出現(xiàn),就意味著搜索引擎技術(shù)已經(jīng)具備了商業(yè)化的價值,也有了大規(guī)模應(yīng)用的可能性。

在這種情況下,如果研究人員還躲在實(shí)驗(yàn)室、躲在高校去做研究,那就一定不能夠站在這個領(lǐng)域的前沿去看問題了,因?yàn)閱栴}已經(jīng)轉(zhuǎn)移到了大規(guī)模應(yīng)用層面,只有在企業(yè)才能找到最前沿的問題。

2000 年之前,搜索引擎最前沿的技術(shù)主要是由學(xué)術(shù)界來提出的;2000 年之后,這一領(lǐng)域絕大部分有影響力的技術(shù),就變成了主要是由 Google 等企業(yè)提出的。

AGI 從業(yè)者也應(yīng)該看到這樣一個變化。我覺得我要有這樣的自覺性,就是前沿的問題在哪,我就要做什么樣的事。

第二個判斷就是,大模型的技術(shù)特點(diǎn)已經(jīng)跟之前的 AI 技術(shù)有相當(dāng)大的不同。

現(xiàn)在的大模型是一個系統(tǒng)工程,要有數(shù)據(jù)、要有底層架構(gòu)、要做模型設(shè)計(jì)、要做模型訓(xùn)練。這樣的一個系統(tǒng)工程已經(jīng)不是學(xué)校實(shí)驗(yàn)室的學(xué)生單打獨(dú)斗能完成的工作了。

結(jié)合這兩個判斷,在 2021 年,我們認(rèn)為一定要成立一家公司,才能夠在 AGI 時代做出更大的貢獻(xiàn)。當(dāng)時就拿到了智源和智譜的投資,在 2022 年 8 月份正式成立面壁智能、想訓(xùn)練平民版大模型。

AI 科技評論:但一開始的融資并不順利,很多 VC 不 buy in 這個觀點(diǎn)。

劉知遠(yuǎn):我們一開始在融資上確實(shí)有比較大的挑戰(zhàn),最早去見投資人的時候,很多人尚不了解大模型是什么東西,有什么用處。后面從 2022 年下半年到今天,經(jīng)歷了三個分水嶺,過程中我們的認(rèn)知和能力也發(fā)生飛速蛻變。

第一個分水嶺就是 2022 年底 ChatGPT 出來。

我印象比較深的是,春節(jié)前后,A 股上的大模型概念股火了一把,人人都在談?wù)?ChatGPT,  大機(jī)構(gòu)挨個探尋國內(nèi)大模型團(tuán)隊(duì),包括我們。

2023 年的上半年,大模型公司都在融資,業(yè)內(nèi)認(rèn)為大模型融資的窗口期可能就那么一兩月的時間。而當(dāng)時面壁團(tuán)隊(duì)還處在非常早期的狀態(tài),主要是實(shí)驗(yàn)室的幾個學(xué)生。那個時候大家對我們最大的 concern(顧慮點(diǎn))是,團(tuán)隊(duì)商業(yè)化經(jīng)驗(yàn)不是特別豐富。這個階段我們拿到了知乎的風(fēng)投,知乎 CTO 李大海也加入我們擔(dān)任 CEO,為我們補(bǔ)足了開辦大型公司的經(jīng)驗(yàn)。但當(dāng)時花了比較多的時間來安排大海加入面壁的事情,商業(yè)化團(tuán)隊(duì)的鋪墊,一定程度上延緩了融資的整個節(jié)奏,錯過了投資人最上頭的時刻。

現(xiàn)在反過來看的話,即使當(dāng)時不是這些,我覺得可能也不會有大的改變,因?yàn)楫?dāng)時投資人更想去看國內(nèi)哪個團(tuán)隊(duì)的模型可以去對標(biāo) OpenAI,會把這個對標(biāo)作為評價的標(biāo)準(zhǔn)。而當(dāng)時我們的敘事,特別強(qiáng)調(diào)高效,強(qiáng)調(diào)以更低的成本去訓(xùn)練大模型,這個事情對于投資人來講是沒有感知的。

到 2023 年的下半年我們接著去融資,大概八九月份的時候,明顯的感覺到整個市場對于大模型的態(tài)度有一些變化了:大家覺得該投的已經(jīng)投了,再出手的意愿就沒有那么強(qiáng)烈了。等2024 年我們做出來了端側(cè)模型,在全球算是出圈了,一定程度上也加強(qiáng)了大家的信心,比之前順了很多。大概是因?yàn)槲覀冏龀鰜砹艘恍┠軌蜃尨蠹矣畜w感的東西。

AI 科技評論:投資人當(dāng)時的主要質(zhì)疑點(diǎn)是什么?

劉知遠(yuǎn):不同階段可能會有不同的質(zhì)疑,可能大模型投資會有一些 Mismatch(匹配錯位)。

譬如說高效訓(xùn)練。這次 DeepSeek 出圈,所有的投資人和券商都在分析什么是 DeepSeek 取得成功的關(guān)鍵技術(shù),比如 MoE、流水線并行、FP8 之類,但其實(shí)我們早在 2023 年初就在說我們擁有非常強(qiáng)大的大模型的并行計(jì)算能力、全流程的高效處理能力。

投資人他們可能也很苦,DeepSeek 做出來后、他們會比較能夠 get 到模型高效訓(xùn)練的重要意義;沒做出來之前,他們就只能從人才隊(duì)伍等各個方面去研判一個團(tuán)隊(duì)到底能不能投。

在兩年前,大家很難 get 到我們可以讓模型加速多少倍這件事有什么意義、從商業(yè)上說具有什么價值。大家的問題還是,你們這些技術(shù)到底該怎么去商業(yè)化、怎么賺錢,而不是想問,你們是不是像 OpenAI 那樣去推進(jìn) AGI,在 AGI 時代這些技術(shù)到底會有什么樣的重要價值或者意義?但一些有希望的團(tuán)隊(duì),在發(fā)展早期,可能還沒什么錢、沒什么資源的時候,還是更需要去爭取理解和支持。

AI 科技評論:現(xiàn)在(匹配錯位)這個問題被糾正了嗎?

劉知遠(yuǎn):客觀上來講,即使是在學(xué)術(shù)界,絕大部分人其實(shí)也不能把握技術(shù)發(fā)展的脈絡(luò)或者趨勢,會更相信眼前已經(jīng)看到的這些現(xiàn)狀。但高價值的人、高價值的團(tuán)隊(duì)和產(chǎn)品,會通過時間的檢驗(yàn),最終收獲到能夠跟他們相匹配的一個價值。


2
大模型還在快速演進(jìn)

AI 科技評論:面壁不在“大模型六小虎”之中,會遺憾嗎?

劉知遠(yuǎn):從融資估值排位看,顯然就進(jìn)不去了(笑)。

AI 科技評論:DeepSeek也不屬于六小虎。

劉知遠(yuǎn):對。DeepSeek 出來后,我最近參加一些政府與學(xué)校的座談會,大家也會討論為什么“DeepSeek”不是六小虎、或者大公司做出來的?

但是我說實(shí)話,既然是風(fēng)險投資,就要允許出錯,允許有各種各樣的探索,也不能因?yàn)?DeepSeek 火了就覺得六小虎都不行。也許他們過兩三個月也會做出一個特別厲害的東西。我覺得還是要保持寬容的心態(tài)。中國未來一定不會只有 DeepSeek 這一家創(chuàng)新的公司,所以我覺得不要讓大家有那么大的壓力,要互相學(xué)習(xí)、不斷進(jìn)步。

譬如2023 年,很多人會覺得 ChatGPT 就應(yīng)該是人工智能的最終形態(tài)了,只要國內(nèi)有公司能夠有實(shí)力把這樣的一個模型給做出來,那它就是可以被投的——實(shí)際上并非如此。

AI 科技評論:那你覺得你們的競爭優(yōu)勢是什么?

劉知遠(yuǎn):我在很多場合都強(qiáng)調(diào)過,我們的競爭優(yōu)勢就是,我們認(rèn)為大模型技術(shù)還在快速地演進(jìn),最先進(jìn)的技術(shù)要么是我們做出來,要么是別人做出來之后、我們能夠把技術(shù)快速地融合到我們的體系中。

我們會覺得,有一個具有創(chuàng)新能力的團(tuán)隊(duì),能夠持續(xù)不斷地站在最前沿,看看未來的路到底該怎么走,這是我們的優(yōu)勢。但是這點(diǎn)并不被多數(shù)人 buy in,一些人會覺得大模型只需要足夠多的錢、買到足夠多的算力,就能做出來,這顯然是不對的。

AI 科技評論:你們早期也訓(xùn)練過千億大模型,但后來是因?yàn)槿谫Y不夠、才轉(zhuǎn)去訓(xùn)端側(cè)小模型的嗎?

劉知遠(yuǎn):2023 年下半年,我們做出了一個 GPT-3.5 級別的千億大模型,但之后決定去做端側(cè)模型。這是因?yàn)楦鶕?jù)我當(dāng)時的研判,國內(nèi)的這些一線大模型團(tuán)隊(duì),只要他們愿意,那么他們一定是可以在未來的半年之內(nèi),也就是2024 年的 4 ~ 6 月份之間實(shí)現(xiàn) GPT-4 水平的模型。后來事實(shí)上也是如此。

沿著這個趨勢,就一定會出現(xiàn)價格戰(zhàn)。果然,DeepSeek 發(fā)布 V2 后 API 的價格非常低,其他團(tuán)隊(duì)不得不加入,進(jìn)一步地壓縮了所有團(tuán)隊(duì)的盈利空間。所以這條路本身是有問題的——指望 OpenAI 做出一個東西,然后我們在國內(nèi)復(fù)現(xiàn),從而占據(jù)國內(nèi) OpenAI 的生態(tài)位,這個邏輯是不通的,主要原因有幾個:

一是國內(nèi)能復(fù)現(xiàn)的團(tuán)隊(duì)其實(shí)非常多,所以一定會導(dǎo)致惡性競爭;二是我們認(rèn)為更重要的是前沿技術(shù)的原始創(chuàng)新,確保團(tuán)隊(duì)永遠(yuǎn)站在 AGI 技術(shù)發(fā)展的最前沿才是最關(guān)鍵的。大模型的技術(shù)其實(shí)還遠(yuǎn)遠(yuǎn)沒有收斂,反而是在加速前進(jìn),所以這個時候應(yīng)該是要花更多的精力,去組建一個高效協(xié)同的大模型團(tuán)隊(duì),這也是我們這兩年的主旋律。

作為前沿技術(shù)導(dǎo)向的創(chuàng)業(yè)團(tuán)隊(duì),我們的優(yōu)勢在創(chuàng)新,不應(yīng)該去做重復(fù)性的工作。我們內(nèi)部就總結(jié)了兩句話,一個是叫“走先人一步的路”,一個是叫“打以少勝多的仗”,就是得考慮多幾步,確保每一場仗都能夠打贏。

AI 科技評論:最早支持你們的資本都是什么類型、什么風(fēng)格的?

劉知遠(yuǎn):我覺得我們的投資人都會比較務(wù)實(shí),跟我們的氣質(zhì)都比較像。我們不會去講一個特別讓大家心潮澎湃的故事,而是會去說如何一步一步地抵達(dá) AGI。

這個務(wù)實(shí)不是實(shí)用主義的意思,而是說他們會比較實(shí)事求是地考慮相關(guān)的問題。不論是知乎、華為哈勃這樣的公司投資者,還是春華資本這樣的財(cái)務(wù)投資方,都有類似的特點(diǎn)。

他們會更加務(wù)實(shí)地去考慮大模型往前走的這么一小步需要什么。模型提供的智力,就跟芯片提供的算力、電源提供的電力一樣,是未來人類社會的基本需求。我們就是要把模型做得集成度越來越高、成本越來越低、算力越來越強(qiáng),讓更多的人能夠用得上這種高質(zhì)量的智力。

朱嘯虎說可能接下來就要進(jìn)入到應(yīng)用的階段了,但我覺得還遠(yuǎn)遠(yuǎn)沒有。應(yīng)用當(dāng)然值得做,但我會覺得, AGI 技術(shù)的收斂還遠(yuǎn)遠(yuǎn)沒有完成,至少需要 3 到 5 年的時間,才能讓我們把模型構(gòu)造得質(zhì)量足夠高,成本足夠低,真正讓每個人都能用得起。這應(yīng)該是未來的一個發(fā)展方向。

我們不能夠一會兒相信這樣、一會兒相信那樣,還是要有戰(zhàn)略定力在。


3
戰(zhàn)略是持久戰(zhàn)、戰(zhàn)術(shù)是速決戰(zhàn)

AI 科技評論:怎樣理解戰(zhàn)略定力?

劉知遠(yuǎn):這個寒假我把毛主席的《論持久戰(zhàn)》又仔細(xì)看了一遍。我覺得,也許每一場仗你可以有非常多不同的打法,但你的戰(zhàn)略應(yīng)該是不能夠有太大的變動的,AGI 就是如此。

一會今天是這樣,一會明天是那樣,那就說明你對這件事情其實(shí)還沒想透、還沒想明白。就像《論持久戰(zhàn)》里說的,解放戰(zhàn)爭時期,有些人今天贏了一場仗就覺得中國要大勝、輸了一場仗覺得中國要完了。這些觀點(diǎn)在很多領(lǐng)域都是存在的。

AI 科技評論:既然你們之前已經(jīng)做出了一個千億模型,最終因?yàn)橘Y源問題選擇了端側(cè)模型這樣一個更具差異化的道路。如果面壁有更多的資源,你會考慮重新訓(xùn)練一個大模型,去驗(yàn)證你們的高效能力和目前的技術(shù)路線嗎?

劉知遠(yuǎn):跟 DeepSeek 對照一下,如果回到 2023 年下半年,我們有足夠多的算力、足夠多的資源,我們要去做大模型,那我們一定是要去做一個足夠高效的大模型。

在那么多團(tuán)隊(duì)都能夠?qū)崿F(xiàn) GPT-4 水平的模型能力的前提下,我們要做差異化的競爭,就是把這個模型做得足夠小、足夠高效,讓它的成本足夠低。另一方面,這個模型要用在哪些特殊的場景,擁有哪些特殊的能力上,我們跟其他的模型要有截然不同的區(qū)別。

如果做的都是一樣的模型,顯然就是不對的。學(xué)我者生,像我者死。到了大模型階段,不能簡單地靠資源、靠鋪量、靠投放去參與競爭,這么做沒辦法取得最終的勝利。

AI 科技評論:那做出一樣模型的這些公司,他們是戰(zhàn)略上誤判,還是不夠?qū)嵤虑笫牵?/p>

劉知遠(yuǎn):我倒是覺得不是什么戰(zhàn)略上的誤判,只是對未來沒有多想幾步,或者多想幾步之后仍然做出的當(dāng)時最優(yōu)決策。這個是一個很自然的決定,對吧?因?yàn)?OpenAI 就是這么做的。但那么多家做出來之后,事情一直在變化,仍然會面臨一些現(xiàn)實(shí)的新局面(如價格戰(zhàn))。

AI 科技評論:像面壁這樣做端側(cè)模型的公司,能迎來像 DeepSeek 這樣的大爆發(fā)嗎?端云兩條路,最終能走向殊途同歸嗎?

劉知遠(yuǎn):不管是做端側(cè)模型,還是做云側(cè)更大體量的模型,技術(shù)體系基本上是一致的,都是要做數(shù)據(jù)治理、架構(gòu)設(shè)計(jì)、學(xué)習(xí)的算法等。就像是端側(cè)芯片和服務(wù)器芯片,光刻機(jī)體系是一致的一樣。我們做端側(cè)模型,對相關(guān)算法創(chuàng)新、數(shù)據(jù)治理會提出更高的要求,所以端側(cè)模型應(yīng)該更難做。

邁向 AGI 時代,就意味著全社會的算力就是分布式的,既有端側(cè)算力,又有云側(cè)算力。如果我們有更多的資源和支持,顯然我們也應(yīng)該去布局服務(wù)器端的人工智能。我們要探索出一條把云側(cè)和端側(cè)的人工智更好協(xié)同的道路。

AI 科技評論:在過去兩年,投資人對你們商業(yè)化能力的質(zhì)疑有改善了嗎?

劉知遠(yuǎn):大海加入之后,2023 年的下半年,由大海來牽頭去進(jìn)行融資后,這個面的質(zhì)疑就幾乎沒有了。最近這半年我們在端側(cè)上做得比較好,現(xiàn)在各大汽車廠商都有非常多的承諾,感覺大家比較認(rèn)可(我們)。

AI 科技評論:六小虎中,你覺得哪一家大模型公司能活到最后?

劉知遠(yuǎn):雖然剛才說了大模型投資的一些問題,但我覺得過去的兩年時間,我自己也收獲非常大。回顧兩年前,如果我是投資人,可能我也不會投這個團(tuán)隊(duì),這兩年我們自主成長還是挺大的。

我剛才提到了毛主席的《論持久戰(zhàn)》,文中的觀點(diǎn)是,因?yàn)槲曳椒鶈T遼闊,但是相對弱小,所以中國的抗日戰(zhàn)爭一定是一個內(nèi)線防御的持久戰(zhàn)。我們現(xiàn)在判斷 AGI 的到來,可能需要未來五年到十年的時間,也是一個持久戰(zhàn)。

戰(zhàn)略上是持久戰(zhàn),但是在戰(zhàn)術(shù)上,具體到打每一場仗、每一個具體的戰(zhàn)役,則要去主動進(jìn)攻,包圍敵人,打出外線進(jìn)攻的速決戰(zhàn)。要主動選擇戰(zhàn)場和時間,把局部的敵人以絕地的優(yōu)勢殲滅掉。這里的戰(zhàn)略和戰(zhàn)術(shù)恰恰是辯證的相對關(guān)系。

對應(yīng)到我們創(chuàng)業(yè)上,面壁之前、包括現(xiàn)在來說還相對比較弱,資源比較少,那我們怎么邁向AGI?我不可能現(xiàn)在哭著求別人,說因?yàn)槲矣?AGI 的夢想,所以你們一定要來支持我們。大家投或不投,都是正常的,我們還是要堅(jiān)持實(shí)現(xiàn)我們的夢想。這就跟抗日戰(zhàn)爭一樣,是一個持久戰(zhàn)的過程。我們要做到,打的每一場仗,都是一個主動進(jìn)攻,做到速決,做到殲滅。

也就是說,我們選擇了端側(cè),那我們就一定是在端側(cè)上迅速打出我們的聲音,得到進(jìn)一步的壯大,然后再去打下一場仗。通過一場接一場戰(zhàn)術(shù)上的勝利,最終贏得戰(zhàn)略上的成功。

如果融資多,如果有一場仗打得不好,其實(shí)會有非常大的影響。我們這個小團(tuán)隊(duì)當(dāng)然更不容易,但是只要打得漂亮,就可以贏得更多的資源,進(jìn)一步發(fā)展壯大。如果我們處處防御,處處被動,顯然也迎不來最終的勝利。

AI 科技評論:抗日戰(zhàn)爭是有一個很明確的目標(biāo),就是把日本侵略者趕出中國,這就是勝利的終點(diǎn)。對您來說 AGI 勝利的終點(diǎn)在哪?

劉知遠(yuǎn):2021 年,當(dāng)時我們在智源的支持下去孵化面壁的時候,我們就搞了一個開源社區(qū)叫 OpenBMB。當(dāng)時我們給 OpenBMB 提出的 Slogan 就是,讓大模型飛入千家萬戶。經(jīng)過這兩三年的探索和發(fā)展,我們進(jìn)一步豐富了這個內(nèi)涵,我們要“智周萬物”,把大模型放在距離用戶最近的地方。

我們最內(nèi)核的精神沒有變化,就是我們認(rèn)為 AGI 帶來的智能革命,其內(nèi)在要求就是要讓這個大模型質(zhì)量足夠高、成本足夠低,能夠讓每個人用得上、用得起大模型。這是我們的一個基本判斷。

因?yàn)橹悄芨锩€沒到來,所以我們很難預(yù)期它到底會對整個社會形態(tài)產(chǎn)生什么樣的影響,但是我們可以從歷史上大概推演出一點(diǎn)遠(yuǎn)景。這個歷史就是過去 80 年,我們整個人類社會所經(jīng)歷的信息革命歷史。

上個世紀(jì) 40 年代計(jì)算機(jī)剛剛發(fā)明的時候,一臺大型計(jì)算機(jī)重 2.7 噸,一間屋子才能放得下。由于構(gòu)造這個大型機(jī)的成本極高,一般人根本用不上、也用不起,只有國家級別才能夠裝備得了這樣的一個大型機(jī)。當(dāng)時的 IBM 就是大型機(jī)的巨頭。IBM 的董事長 Watson 曾說過,這個世界上不需要超過五臺計(jì)算機(jī),原因就是當(dāng)時大型機(jī)實(shí)在太昂貴,也只能在非常少的重要場合發(fā)揮作用。難道我們會說,大型機(jī)的出現(xiàn),標(biāo)志著信息革命的出現(xiàn)嗎?顯然不會。

一場革命,一定是讓這個社會上的每個人都能感知到革命的到來,這才是真正的革命。所以我們覺得,信息革命的標(biāo)志應(yīng)該是上個世紀(jì) 80 年代個人計(jì)算機(jī)的出現(xiàn),以及智能手機(jī)的普及,能夠讓我們每個人都用得上、用得起這些廉價的高質(zhì)量算力。

以此為參照來看的話,我們會發(fā)現(xiàn),英偉達(dá)也好、OpenAI 也好,階段性對大模型的判斷,就是要越訓(xùn)越大,越訓(xùn)越強(qiáng),我覺得它大概的歷史地位就跟當(dāng)年的大型機(jī)一樣。今天我們也需要大型機(jī),每個國家都會有超級計(jì)算機(jī)來做天氣預(yù)報、做科學(xué)計(jì)算,但這不是每個人都需要的。

我們需要那種超級大的大模型,智力足夠強(qiáng),甚至能擁有超人的智力。但是智能革命的標(biāo)志應(yīng)該是,我們能夠建立起足夠廉價的、足夠高質(zhì)量的、每個人專屬的 AI 模型。

也許有人會認(rèn)為,端側(cè)模型的市場份額不會很大,所以端側(cè)模型顯得不那么重要。真的嗎?我并不這么認(rèn)為,但我也不會嘗試用沒實(shí)現(xiàn)的東西說服他們。

DeepSeek 給我們帶來的啟示就是,只有這個東西做出來了,被大家看到了,大家才能感知到它的革命性。所以我們要做的就是通過一場又一場的勝利,把這件事情做出來,讓大家真正感受到我們內(nèi)心的愿景。

AI 科技評論:從大型機(jī)到小型機(jī),你覺得這個過程會需要多久?

劉知遠(yuǎn):我覺得 AI 的發(fā)展跟計(jì)算機(jī)的發(fā)展一樣,一開始肯定是大型機(jī),大型機(jī)做出來后,再開始做小型化,芯片做得越來越小、算力越來越強(qiáng)。大型機(jī)發(fā)展到了一定的階段之后,開始有人去考慮商業(yè)化到底該怎么做的時候,慢慢找到了做 PC(個人電腦)的路子。有一本書叫《硅谷之火》, 就是講 80 年代的這段故事。

從技術(shù)路徑上來講,大模型肯定是某一些能力得先有人能做出來、然后我們再去考慮它的小型化。DeepSeek V3 就是對 GPT-4 能力的一個復(fù)現(xiàn),它做了GPT-4的效果,但是算力要低 1/10。這顯然是大模型“小型化”的一個表現(xiàn),對應(yīng)的 R1 也是非常出圈。

OpenAI 發(fā)布的 o1 也可以看成是高階推理的大型機(jī),未來一定是要小型化,變成低成本、高質(zhì)量的模型。整個發(fā)展路徑在我來看非常清晰。

我提過一個叫“Densing Law”的概念,類似于大模型領(lǐng)域的“摩爾定律”。我們發(fā)現(xiàn),從 2023 年到 2024 年這兩年,全球開源的大模型能力密度大概是每 100 天翻一倍。就是說,如果當(dāng)前我訓(xùn)練出一個模型、它具備 GPT-4 的水平能力,那么過了 100 天之后,只需要一半的參數(shù)我就可以實(shí)現(xiàn)這個能力。

去年 12 月初我們發(fā)布了 Densing Law,現(xiàn)在去看 DeepSeek V3 就是這個定律的完美證明。2024年4月18日發(fā)布的 Llama 3-405B 是 4000 億參數(shù),如果按照 Densing Law 估算,經(jīng)過 3 個周期(即300天)就可以用 500億 激活參數(shù)實(shí)現(xiàn)該能力,而 DeepSeekV3 發(fā)布于2024年12月底,全部參數(shù) 6700 億采用 MOE 架構(gòu)激活參數(shù)為 370億。


4
看向未來:戰(zhàn)爭與人才

AI 科技評論:這個春節(jié) DeepSeek 贏得了一場很漂亮的戰(zhàn)役,我們接下來要贏得什么戰(zhàn)役?

劉知遠(yuǎn):其實(shí) DeepSeek 這場戰(zhàn)役還是一場比較大的戰(zhàn)役,因?yàn)樗耐度肫鋵?shí)還是非常高的,模型訓(xùn)練有幾千萬人民幣的投入,更不用說前期的人力、實(shí)驗(yàn)算力的投入,肯定是要十倍預(yù)期,所以我覺得這是一場幾個億的小型戰(zhàn)爭。

面壁在 2024 年已經(jīng)打過幾場比較漂亮的戰(zhàn)斗,我們發(fā)布了 MiniCPM、叫“小鋼炮”,在國內(nèi)外的聲譽(yù)很高。去年的《經(jīng)濟(jì)學(xué)人》和最近的《MIT Technology Review》,都提到我們的模型以及我們的團(tuán)隊(duì)。我覺得從我們當(dāng)前資源的角度來看,這場仗打得非常好。

接下來要打類似于 DeepSeek 這樣的仗,我覺得還需要通過更多的戰(zhàn)斗勝利,不斷擴(kuò)大我們的影響力,積累更多的資源。所以我們并不謀求馬上去得到這樣一場大勝,這個目標(biāo)比較遠(yuǎn)大?,F(xiàn)在面壁要把當(dāng)前的資源做到極致利用,實(shí)事求是地要求自己。

DeepSeek 的成功對于大模型創(chuàng)業(yè)團(tuán)隊(duì)是個巨大的鼓舞,當(dāng)一定的資源、優(yōu)秀的青年人才團(tuán)隊(duì)、AGI使命感,賦能于一個正確的領(lǐng)導(dǎo)者,賦能于一個正確的戰(zhàn)略方向、一件正確的事,可以爆發(fā)出驚人的威力。我們的內(nèi)在自我要求,是通過對大模型本質(zhì)規(guī)律的掌握,去成為那個正確團(tuán)隊(duì)、正確方向,做正確的事。世界的走向浩浩湯湯,國家也在投入大量的基金,我們正值一個重大的歷史機(jī)遇,一旦我們能夠獲得更多的資源,我們肯定能夠更完備地組建大模型團(tuán)隊(duì),瞄著 AGI 需要我們完成的階段性目標(biāo)進(jìn)行攻堅(jiān),做出我們的貢獻(xiàn)。

這次 DeepSeek R1 做出的高階推理能力本身就是邁向 AGI 的一個重要能力,此外還需要很多種能力,比如定制模態(tài)具身、AI 終端的群體智能等等,還有這么多仗要打,所以我們還是覺得很有信心。

AI 科技評論:2025 年才剛開始,這一波熱潮之后,你覺得國內(nèi)的大模型,會往哪幾個方向去發(fā)展?面壁想要在當(dāng)中扮演一個什么樣的推動力量?

劉知遠(yuǎn):很難說都會在 2025 年實(shí)現(xiàn),但是我覺得肯定還是會有很多值得期待的,一個是高階推理,肯定會在 2025 年持續(xù)地去改進(jìn)。DeepSeek R1 的技術(shù)方案以及工程化,在 2025 年還會有很多可以改進(jìn)的地方,可以讓它更加高效。

高階推理會成為一個非常重要的話題,但是民眾以及投資的興趣可以會發(fā)生快速的衰減,就像 ChatGPT 剛出來的時候,大家也都為之一振,覺得非常 Amazing,但是只過了半年,大家就已經(jīng)習(xí)以為常,覺得沒什么大不了的,特別是很多團(tuán)隊(duì)迅速跟上了之后。所以如果只看 2025 年的話,我覺得大概率在 6 月前后,國內(nèi)會有非常多的團(tuán)隊(duì)都能做到 R1 的水平,我們也會在端側(cè)實(shí)現(xiàn)這個能力。

高階推理之后,有多模態(tài)、有具身、有群體智能,有小型化、有終端智能、底層算力和硬件的深度融合等,依次為支撐產(chǎn)生各種各樣的創(chuàng)新應(yīng)用,這是未來兩到三年的主旋律。

今年哪個點(diǎn)上會有突破,這件事情可能很難預(yù)期,但是兩到三年我會覺得還是非常明確的。我們團(tuán)隊(duì)肯定堅(jiān)持要做的就是模型的小型化、高效化、低成本,別人用 500 億參數(shù)才能做的模型,我們就要努力用 100 億體量之內(nèi)做出來,爭取盡快能放在終端上跑起來,讓他真正地離用戶更近,這是我們的一個基本思維方式。

AI 科技評論:以一個人工智能老師的身份角色,你怎么看人才的識別、人才的發(fā)展培養(yǎng),并且將之和整個公司的執(zhí)行緊密配合起來呢?

劉知遠(yuǎn):還是回到毛主席的《論持久戰(zhàn)》上來。其實(shí)戰(zhàn)略的重要意義就是要讓大家相信,戰(zhàn)略是用來統(tǒng)一思想的。我們相信抗日戰(zhàn)爭是一個通過持久戰(zhàn)可以達(dá)成的目標(biāo),這是我們統(tǒng)一全國人民思想的重要目標(biāo),軍民全體都為之而奮斗努力,大家才能更加主動把每一場仗都打好。

我們以 AGI 為目標(biāo),去創(chuàng)建一家公司,顯然是要有一個非常清晰的、明確的、持久的戰(zhàn)略意圖。我們提到的 AI 終端、Densing Law、對端側(cè)大模型的預(yù)期、以及信息革命和智能革命的類比,其實(shí)都是希望能夠讓整個團(tuán)隊(duì)有一個清晰的戰(zhàn)略共識。只有這樣,大家才能達(dá)到高度協(xié)同,將來去打每一個具體的仗的時候,他就會知道,這場仗的目的是什么,有什么意義。如果我們在戰(zhàn)略上反復(fù)橫跳,不僅投資人無所適從,整個團(tuán)隊(duì)都會人心渙散。

AGI 和光刻機(jī)一樣,是一個非常復(fù)雜的系統(tǒng)工具,需要大團(tuán)隊(duì)協(xié)作的組織模式,光靠組織創(chuàng)新可能很難做到,創(chuàng)業(yè)公司還是得讓大家思想上非常統(tǒng)一,目標(biāo)一致,才能做好協(xié)同的工作。

AI科技評論:那這些人才是哪來的?應(yīng)該從大廠挖,還是自己培養(yǎng)?

劉知遠(yuǎn):我是從 2013 年開始帶研究生,到今天應(yīng)該差不多十年的時間了。這么多年來,我最大的感受就是,人的潛力是非常非常巨大的。如果你讓他掌握了一些知識,讓他建立了一些自信,給他找到了一個讓他發(fā)自內(nèi)心幸福的目標(biāo),那么他的這個潛力一旦迸發(fā)出來,力量是非常非常大的。

我認(rèn)為,如果是從大廠去挖那么兩三個人,這兩三個人只是見過的東西多一點(diǎn)、能力好像稍微出眾一點(diǎn),而本身在目標(biāo)上沒有那么地堅(jiān)定,不把 AGI 作為他的奮斗目標(biāo),那他也沒有那么強(qiáng)的動力去做相關(guān)的工作。所以我不覺得我們應(yīng)該把主要精力放在挖人上。

我們要做的就是把大家的潛力挖掘出來,把動力激發(fā)出來,一旦激發(fā)出來,他們的能力就會發(fā)生裂變,像原子彈一樣迸發(fā)出非常強(qiáng)大的能量。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

獨(dú)家對話劉知遠(yuǎn):AGI 是一場技術(shù)理想與商業(yè)現(xiàn)實(shí)的「持久戰(zhàn)」

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說