丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給二維馬曉寧
發(fā)送

0

獨家對話劉知遠:AGI 是一場技術理想與商業(yè)現(xiàn)實的「持久戰(zhàn)」

本文作者: 二維馬曉寧   2025-03-04 16:26
導語:這是一個與「朱嘯虎們」相反的 AGI 敘事。

DeepSeek 以迅雷不及掩耳之勢出圈后,中國大部分的大模型團隊都被打得措手不及,只有一家公司因為底層技術和 AGI 思想路徑與 DeepSeek 相近而暫時“逃過一劫”,這家公司就是:面壁智能。

作為中國最早的一批大模型團隊之一,面壁智能成立于 2022 年 8 月,其創(chuàng)始團隊從 2021 年就主力參與北京智源人工智能研究院的大模型項目“悟道”,訓練出多個百億、千億參數(shù)規(guī)模的大模型,并成立大模型開源社區(qū)OpenBMB,是國內(nèi)最早提出“平民版大模型”、最早促進大模型開源事業(yè)的團隊之一。

但意料之外、又情理之中的是,盡管團隊技術實力出色、對 AGI 的理解深刻,其在 2022 年到 2023 年大模型浪潮剛起、國內(nèi)純種大模型團隊并不多時,卻遭到冷落與誤解,未能吃到首輪紅利。

2023 年,面壁智能在訓練出千億參數(shù)規(guī)模的基礎模型后,由于早期融資少、且在探索商業(yè)化時發(fā)現(xiàn)千億模型難以落地,戰(zhàn)略決定轉向訓練參數(shù)規(guī)模更小、算力更低、但性能更強的端側模型——雖在國內(nèi)一批大模型創(chuàng)業(yè)團中打出差異化,但也錯過了諸如 DeepSeek V3 這樣在與 Llama 3、GPT-4 等同級別的基礎大模型上驗證“更低成本訓練更強模型”的勝利。

面壁的發(fā)展提供了大模型創(chuàng)業(yè)熱潮中的另一視角。當 ChatGPT 引爆市場熱情后,資本陷入對標 OpenAI 的狂熱,對強調(diào)技術創(chuàng)新的差異化路線反應冷淡。這種認知滯后揭示了中國科技投資的深層困境:在技術演進曲線上,相比成為先驗的引領者,資本往往成為后驗的追隨者。

2024 年,多位投資者對面壁智能的評價是:“這個團隊的技術很好,但就是給人的感覺太陽春白雪,如果在國內(nèi)做 To B 的話,我不知道他們能否有團隊去跟 B 端的客戶老大哥們勾肩搭背、抽煙喝酒?!?/p>

DeepSeek 在硅谷掀桌,以及國產(chǎn)動漫電影《哪吒 2》的大熱,使得 2025 年被稱為是“理想主義者的勝利”。那么,大模型圈中的典型理想主義者面壁智能,是否也迎來了他們所想象的勝利?

事實上,AGI 比我們想得更大,勝利的到來也或許更遙遠。

不久前,雷峰網(wǎng)(公眾號:雷峰網(wǎng)) AI 科技評論也與面壁智能的創(chuàng)始人、清華大學副教授劉知遠博士進行了一次深入交流,可以作為勾勒技術理想主義的一個典型畫像。在交談中,劉知遠多次引用毛主席所著的《論持久戰(zhàn)》來解釋他們在“征戰(zhàn)” AGI 路上的一些思考。他認為,AGI 的勝利需要戰(zhàn)略上的持久戰(zhàn)、戰(zhàn)術上的速決戰(zhàn)。

在劉知遠看來,大模型的技術還遠遠沒有收斂,反而是在加速前進。AGI 是一場關于“智力”的持久戰(zhàn),真正的勝利不在于短期估值的高低,而在于能否實事求是地追尋理想主義。

站在 2025 年的門檻回望,面壁智能的歷程折射出中國創(chuàng)新生態(tài)的復雜圖景。資本市場的認知滯后、技術路線的搖擺爭議、商業(yè)化與理想主義的碰撞,這些挑戰(zhàn)共同構成了中國攀登 AGI 高峰的必經(jīng)之路。

以下是 雷峰網(wǎng) AI科技評論 與劉知遠的對話全文,為方便閱讀,進行了不改變原意的文字調(diào)整。


1
AI 資本寒冬的親歷者

AI 科技評論:記得 2023 年5 月采訪跟您交流時,您就提到面壁的成立初衷是做“平民版大模型”、讓 AGI 普惠。能否談談面壁的成立背景?

劉知遠:2021 年我們在智源做完第一版“悟道”模型之后就有了要商業(yè)化的想法,很重要的原因是:從技術來講,我們認為大模型已經(jīng)找到了一種通用地從數(shù)據(jù)學習知識的方案,已經(jīng)在邁向通用智能了。對于接下來怎么做,當時我有兩個判斷:

第一個判斷是 AI 已經(jīng)具有商業(yè)化的能力,具有實際應用的成熟度了。

歷史上就有相似的案例,譬如說搜索引擎:它的研究大概在上個世紀六七十年代就開始了,在相當于長的一段時間里面,主要是由實驗室來開展研究,因為技術還不成熟,不足以去進行商業(yè)化的應用。

但是到了上個世紀 90 年代末,雅虎和 Google 這樣的公司出現(xiàn),就意味著搜索引擎技術已經(jīng)具備了商業(yè)化的價值,也有了大規(guī)模應用的可能性。

在這種情況下,如果研究人員還躲在實驗室、躲在高校去做研究,那就一定不能夠站在這個領域的前沿去看問題了,因為問題已經(jīng)轉移到了大規(guī)模應用層面,只有在企業(yè)才能找到最前沿的問題。

2000 年之前,搜索引擎最前沿的技術主要是由學術界來提出的;2000 年之后,這一領域絕大部分有影響力的技術,就變成了主要是由 Google 等企業(yè)提出的。

AGI 從業(yè)者也應該看到這樣一個變化。我覺得我要有這樣的自覺性,就是前沿的問題在哪,我就要做什么樣的事。

第二個判斷就是,大模型的技術特點已經(jīng)跟之前的 AI 技術有相當大的不同。

現(xiàn)在的大模型是一個系統(tǒng)工程,要有數(shù)據(jù)、要有底層架構、要做模型設計、要做模型訓練。這樣的一個系統(tǒng)工程已經(jīng)不是學校實驗室的學生單打獨斗能完成的工作了。

結合這兩個判斷,在 2021 年,我們認為一定要成立一家公司,才能夠在 AGI 時代做出更大的貢獻。當時就拿到了智源和智譜的投資,在 2022 年 8 月份正式成立面壁智能、想訓練平民版大模型。

AI 科技評論:但一開始的融資并不順利,很多 VC 不 buy in 這個觀點。

劉知遠:我們一開始在融資上確實有比較大的挑戰(zhàn),最早去見投資人的時候,很多人尚不了解大模型是什么東西,有什么用處。后面從 2022 年下半年到今天,經(jīng)歷了三個分水嶺,過程中我們的認知和能力也發(fā)生飛速蛻變。

第一個分水嶺就是 2022 年底 ChatGPT 出來。

我印象比較深的是,春節(jié)前后,A 股上的大模型概念股火了一把,人人都在談論 ChatGPT,  大機構挨個探尋國內(nèi)大模型團隊,包括我們。

2023 年的上半年,大模型公司都在融資,業(yè)內(nèi)認為大模型融資的窗口期可能就那么一兩月的時間。而當時面壁團隊還處在非常早期的狀態(tài),主要是實驗室的幾個學生。那個時候大家對我們最大的 concern(顧慮點)是,團隊商業(yè)化經(jīng)驗不是特別豐富。這個階段我們拿到了知乎的風投,知乎 CTO 李大海也加入我們擔任 CEO,為我們補足了開辦大型公司的經(jīng)驗。但當時花了比較多的時間來安排大海加入面壁的事情,商業(yè)化團隊的鋪墊,一定程度上延緩了融資的整個節(jié)奏,錯過了投資人最上頭的時刻。

現(xiàn)在反過來看的話,即使當時不是這些,我覺得可能也不會有大的改變,因為當時投資人更想去看國內(nèi)哪個團隊的模型可以去對標 OpenAI,會把這個對標作為評價的標準。而當時我們的敘事,特別強調(diào)高效,強調(diào)以更低的成本去訓練大模型,這個事情對于投資人來講是沒有感知的。

到 2023 年的下半年我們接著去融資,大概八九月份的時候,明顯的感覺到整個市場對于大模型的態(tài)度有一些變化了:大家覺得該投的已經(jīng)投了,再出手的意愿就沒有那么強烈了。等2024 年我們做出來了端側模型,在全球算是出圈了,一定程度上也加強了大家的信心,比之前順了很多。大概是因為我們做出來了一些能夠讓大家有體感的東西。

AI 科技評論:投資人當時的主要質(zhì)疑點是什么?

劉知遠:不同階段可能會有不同的質(zhì)疑,可能大模型投資會有一些 Mismatch(匹配錯位)。

譬如說高效訓練。這次 DeepSeek 出圈,所有的投資人和券商都在分析什么是 DeepSeek 取得成功的關鍵技術,比如 MoE、流水線并行、FP8 之類,但其實我們早在 2023 年初就在說我們擁有非常強大的大模型的并行計算能力、全流程的高效處理能力。

投資人他們可能也很苦,DeepSeek 做出來后、他們會比較能夠 get 到模型高效訓練的重要意義;沒做出來之前,他們就只能從人才隊伍等各個方面去研判一個團隊到底能不能投。

在兩年前,大家很難 get 到我們可以讓模型加速多少倍這件事有什么意義、從商業(yè)上說具有什么價值。大家的問題還是,你們這些技術到底該怎么去商業(yè)化、怎么賺錢,而不是想問,你們是不是像 OpenAI 那樣去推進 AGI,在 AGI 時代這些技術到底會有什么樣的重要價值或者意義?但一些有希望的團隊,在發(fā)展早期,可能還沒什么錢、沒什么資源的時候,還是更需要去爭取理解和支持。

AI 科技評論:現(xiàn)在(匹配錯位)這個問題被糾正了嗎?

劉知遠:客觀上來講,即使是在學術界,絕大部分人其實也不能把握技術發(fā)展的脈絡或者趨勢,會更相信眼前已經(jīng)看到的這些現(xiàn)狀。但高價值的人、高價值的團隊和產(chǎn)品,會通過時間的檢驗,最終收獲到能夠跟他們相匹配的一個價值。


2
大模型還在快速演進

AI 科技評論:面壁不在“大模型六小虎”之中,會遺憾嗎?

劉知遠:從融資估值排位看,顯然就進不去了(笑)。

AI 科技評論:DeepSeek也不屬于六小虎。

劉知遠:對。DeepSeek 出來后,我最近參加一些政府與學校的座談會,大家也會討論為什么“DeepSeek”不是六小虎、或者大公司做出來的?

但是我說實話,既然是風險投資,就要允許出錯,允許有各種各樣的探索,也不能因為 DeepSeek 火了就覺得六小虎都不行。也許他們過兩三個月也會做出一個特別厲害的東西。我覺得還是要保持寬容的心態(tài)。中國未來一定不會只有 DeepSeek 這一家創(chuàng)新的公司,所以我覺得不要讓大家有那么大的壓力,要互相學習、不斷進步。

譬如2023 年,很多人會覺得 ChatGPT 就應該是人工智能的最終形態(tài)了,只要國內(nèi)有公司能夠有實力把這樣的一個模型給做出來,那它就是可以被投的——實際上并非如此。

AI 科技評論:那你覺得你們的競爭優(yōu)勢是什么?

劉知遠:我在很多場合都強調(diào)過,我們的競爭優(yōu)勢就是,我們認為大模型技術還在快速地演進,最先進的技術要么是我們做出來,要么是別人做出來之后、我們能夠把技術快速地融合到我們的體系中。

我們會覺得,有一個具有創(chuàng)新能力的團隊,能夠持續(xù)不斷地站在最前沿,看看未來的路到底該怎么走,這是我們的優(yōu)勢。但是這點并不被多數(shù)人 buy in,一些人會覺得大模型只需要足夠多的錢、買到足夠多的算力,就能做出來,這顯然是不對的。

AI 科技評論:你們早期也訓練過千億大模型,但后來是因為融資不夠、才轉去訓端側小模型的嗎?

劉知遠:2023 年下半年,我們做出了一個 GPT-3.5 級別的千億大模型,但之后決定去做端側模型。這是因為根據(jù)我當時的研判,國內(nèi)的這些一線大模型團隊,只要他們愿意,那么他們一定是可以在未來的半年之內(nèi),也就是2024 年的 4 ~ 6 月份之間實現(xiàn) GPT-4 水平的模型。后來事實上也是如此。

沿著這個趨勢,就一定會出現(xiàn)價格戰(zhàn)。果然,DeepSeek 發(fā)布 V2 后 API 的價格非常低,其他團隊不得不加入,進一步地壓縮了所有團隊的盈利空間。所以這條路本身是有問題的——指望 OpenAI 做出一個東西,然后我們在國內(nèi)復現(xiàn),從而占據(jù)國內(nèi) OpenAI 的生態(tài)位,這個邏輯是不通的,主要原因有幾個:

一是國內(nèi)能復現(xiàn)的團隊其實非常多,所以一定會導致惡性競爭;二是我們認為更重要的是前沿技術的原始創(chuàng)新,確保團隊永遠站在 AGI 技術發(fā)展的最前沿才是最關鍵的。大模型的技術其實還遠遠沒有收斂,反而是在加速前進,所以這個時候應該是要花更多的精力,去組建一個高效協(xié)同的大模型團隊,這也是我們這兩年的主旋律。

作為前沿技術導向的創(chuàng)業(yè)團隊,我們的優(yōu)勢在創(chuàng)新,不應該去做重復性的工作。我們內(nèi)部就總結了兩句話,一個是叫“走先人一步的路”,一個是叫“打以少勝多的仗”,就是得考慮多幾步,確保每一場仗都能夠打贏。

AI 科技評論:最早支持你們的資本都是什么類型、什么風格的?

劉知遠:我覺得我們的投資人都會比較務實,跟我們的氣質(zhì)都比較像。我們不會去講一個特別讓大家心潮澎湃的故事,而是會去說如何一步一步地抵達 AGI。

這個務實不是實用主義的意思,而是說他們會比較實事求是地考慮相關的問題。不論是知乎、華為哈勃這樣的公司投資者,還是春華資本這樣的財務投資方,都有類似的特點。

他們會更加務實地去考慮大模型往前走的這么一小步需要什么。模型提供的智力,就跟芯片提供的算力、電源提供的電力一樣,是未來人類社會的基本需求。我們就是要把模型做得集成度越來越高、成本越來越低、算力越來越強,讓更多的人能夠用得上這種高質(zhì)量的智力。

朱嘯虎說可能接下來就要進入到應用的階段了,但我覺得還遠遠沒有。應用當然值得做,但我會覺得, AGI 技術的收斂還遠遠沒有完成,至少需要 3 到 5 年的時間,才能讓我們把模型構造得質(zhì)量足夠高,成本足夠低,真正讓每個人都能用得起。這應該是未來的一個發(fā)展方向。

我們不能夠一會兒相信這樣、一會兒相信那樣,還是要有戰(zhàn)略定力在。


3
戰(zhàn)略是持久戰(zhàn)、戰(zhàn)術是速決戰(zhàn)

AI 科技評論:怎樣理解戰(zhàn)略定力?

劉知遠:這個寒假我把毛主席的《論持久戰(zhàn)》又仔細看了一遍。我覺得,也許每一場仗你可以有非常多不同的打法,但你的戰(zhàn)略應該是不能夠有太大的變動的,AGI 就是如此。

一會今天是這樣,一會明天是那樣,那就說明你對這件事情其實還沒想透、還沒想明白。就像《論持久戰(zhàn)》里說的,解放戰(zhàn)爭時期,有些人今天贏了一場仗就覺得中國要大勝、輸了一場仗覺得中國要完了。這些觀點在很多領域都是存在的。

AI 科技評論:既然你們之前已經(jīng)做出了一個千億模型,最終因為資源問題選擇了端側模型這樣一個更具差異化的道路。如果面壁有更多的資源,你會考慮重新訓練一個大模型,去驗證你們的高效能力和目前的技術路線嗎?

劉知遠:跟 DeepSeek 對照一下,如果回到 2023 年下半年,我們有足夠多的算力、足夠多的資源,我們要去做大模型,那我們一定是要去做一個足夠高效的大模型。

在那么多團隊都能夠?qū)崿F(xiàn) GPT-4 水平的模型能力的前提下,我們要做差異化的競爭,就是把這個模型做得足夠小、足夠高效,讓它的成本足夠低。另一方面,這個模型要用在哪些特殊的場景,擁有哪些特殊的能力上,我們跟其他的模型要有截然不同的區(qū)別。

如果做的都是一樣的模型,顯然就是不對的。學我者生,像我者死。到了大模型階段,不能簡單地靠資源、靠鋪量、靠投放去參與競爭,這么做沒辦法取得最終的勝利。

AI 科技評論:那做出一樣模型的這些公司,他們是戰(zhàn)略上誤判,還是不夠?qū)嵤虑笫牵?/p>

劉知遠:我倒是覺得不是什么戰(zhàn)略上的誤判,只是對未來沒有多想幾步,或者多想幾步之后仍然做出的當時最優(yōu)決策。這個是一個很自然的決定,對吧?因為 OpenAI 就是這么做的。但那么多家做出來之后,事情一直在變化,仍然會面臨一些現(xiàn)實的新局面(如價格戰(zhàn))。

AI 科技評論:像面壁這樣做端側模型的公司,能迎來像 DeepSeek 這樣的大爆發(fā)嗎?端云兩條路,最終能走向殊途同歸嗎?

劉知遠:不管是做端側模型,還是做云側更大體量的模型,技術體系基本上是一致的,都是要做數(shù)據(jù)治理、架構設計、學習的算法等。就像是端側芯片和服務器芯片,光刻機體系是一致的一樣。我們做端側模型,對相關算法創(chuàng)新、數(shù)據(jù)治理會提出更高的要求,所以端側模型應該更難做。

邁向 AGI 時代,就意味著全社會的算力就是分布式的,既有端側算力,又有云側算力。如果我們有更多的資源和支持,顯然我們也應該去布局服務器端的人工智能。我們要探索出一條把云側和端側的人工智更好協(xié)同的道路。

AI 科技評論:在過去兩年,投資人對你們商業(yè)化能力的質(zhì)疑有改善了嗎?

劉知遠:大海加入之后,2023 年的下半年,由大海來牽頭去進行融資后,這個面的質(zhì)疑就幾乎沒有了。最近這半年我們在端側上做得比較好,現(xiàn)在各大汽車廠商都有非常多的承諾,感覺大家比較認可(我們)。

AI 科技評論:六小虎中,你覺得哪一家大模型公司能活到最后?

劉知遠:雖然剛才說了大模型投資的一些問題,但我覺得過去的兩年時間,我自己也收獲非常大?;仡檭赡昵?,如果我是投資人,可能我也不會投這個團隊,這兩年我們自主成長還是挺大的。

我剛才提到了毛主席的《論持久戰(zhàn)》,文中的觀點是,因為我方幅員遼闊,但是相對弱小,所以中國的抗日戰(zhàn)爭一定是一個內(nèi)線防御的持久戰(zhàn)。我們現(xiàn)在判斷 AGI 的到來,可能需要未來五年到十年的時間,也是一個持久戰(zhàn)。

戰(zhàn)略上是持久戰(zhàn),但是在戰(zhàn)術上,具體到打每一場仗、每一個具體的戰(zhàn)役,則要去主動進攻,包圍敵人,打出外線進攻的速決戰(zhàn)。要主動選擇戰(zhàn)場和時間,把局部的敵人以絕地的優(yōu)勢殲滅掉。這里的戰(zhàn)略和戰(zhàn)術恰恰是辯證的相對關系。

對應到我們創(chuàng)業(yè)上,面壁之前、包括現(xiàn)在來說還相對比較弱,資源比較少,那我們怎么邁向AGI?我不可能現(xiàn)在哭著求別人,說因為我有 AGI 的夢想,所以你們一定要來支持我們。大家投或不投,都是正常的,我們還是要堅持實現(xiàn)我們的夢想。這就跟抗日戰(zhàn)爭一樣,是一個持久戰(zhàn)的過程。我們要做到,打的每一場仗,都是一個主動進攻,做到速決,做到殲滅。

也就是說,我們選擇了端側,那我們就一定是在端側上迅速打出我們的聲音,得到進一步的壯大,然后再去打下一場仗。通過一場接一場戰(zhàn)術上的勝利,最終贏得戰(zhàn)略上的成功。

如果融資多,如果有一場仗打得不好,其實會有非常大的影響。我們這個小團隊當然更不容易,但是只要打得漂亮,就可以贏得更多的資源,進一步發(fā)展壯大。如果我們處處防御,處處被動,顯然也迎不來最終的勝利。

AI 科技評論:抗日戰(zhàn)爭是有一個很明確的目標,就是把日本侵略者趕出中國,這就是勝利的終點。對您來說 AGI 勝利的終點在哪?

劉知遠:2021 年,當時我們在智源的支持下去孵化面壁的時候,我們就搞了一個開源社區(qū)叫 OpenBMB。當時我們給 OpenBMB 提出的 Slogan 就是,讓大模型飛入千家萬戶。經(jīng)過這兩三年的探索和發(fā)展,我們進一步豐富了這個內(nèi)涵,我們要“智周萬物”,把大模型放在距離用戶最近的地方。

我們最內(nèi)核的精神沒有變化,就是我們認為 AGI 帶來的智能革命,其內(nèi)在要求就是要讓這個大模型質(zhì)量足夠高、成本足夠低,能夠讓每個人用得上、用得起大模型。這是我們的一個基本判斷。

因為智能革命還沒到來,所以我們很難預期它到底會對整個社會形態(tài)產(chǎn)生什么樣的影響,但是我們可以從歷史上大概推演出一點遠景。這個歷史就是過去 80 年,我們整個人類社會所經(jīng)歷的信息革命歷史。

上個世紀 40 年代計算機剛剛發(fā)明的時候,一臺大型計算機重 2.7 噸,一間屋子才能放得下。由于構造這個大型機的成本極高,一般人根本用不上、也用不起,只有國家級別才能夠裝備得了這樣的一個大型機。當時的 IBM 就是大型機的巨頭。IBM 的董事長 Watson 曾說過,這個世界上不需要超過五臺計算機,原因就是當時大型機實在太昂貴,也只能在非常少的重要場合發(fā)揮作用。難道我們會說,大型機的出現(xiàn),標志著信息革命的出現(xiàn)嗎?顯然不會。

一場革命,一定是讓這個社會上的每個人都能感知到革命的到來,這才是真正的革命。所以我們覺得,信息革命的標志應該是上個世紀 80 年代個人計算機的出現(xiàn),以及智能手機的普及,能夠讓我們每個人都用得上、用得起這些廉價的高質(zhì)量算力。

以此為參照來看的話,我們會發(fā)現(xiàn),英偉達也好、OpenAI 也好,階段性對大模型的判斷,就是要越訓越大,越訓越強,我覺得它大概的歷史地位就跟當年的大型機一樣。今天我們也需要大型機,每個國家都會有超級計算機來做天氣預報、做科學計算,但這不是每個人都需要的。

我們需要那種超級大的大模型,智力足夠強,甚至能擁有超人的智力。但是智能革命的標志應該是,我們能夠建立起足夠廉價的、足夠高質(zhì)量的、每個人專屬的 AI 模型。

也許有人會認為,端側模型的市場份額不會很大,所以端側模型顯得不那么重要。真的嗎?我并不這么認為,但我也不會嘗試用沒實現(xiàn)的東西說服他們。

DeepSeek 給我們帶來的啟示就是,只有這個東西做出來了,被大家看到了,大家才能感知到它的革命性。所以我們要做的就是通過一場又一場的勝利,把這件事情做出來,讓大家真正感受到我們內(nèi)心的愿景。

AI 科技評論:從大型機到小型機,你覺得這個過程會需要多久?

劉知遠:我覺得 AI 的發(fā)展跟計算機的發(fā)展一樣,一開始肯定是大型機,大型機做出來后,再開始做小型化,芯片做得越來越小、算力越來越強。大型機發(fā)展到了一定的階段之后,開始有人去考慮商業(yè)化到底該怎么做的時候,慢慢找到了做 PC(個人電腦)的路子。有一本書叫《硅谷之火》, 就是講 80 年代的這段故事。

從技術路徑上來講,大模型肯定是某一些能力得先有人能做出來、然后我們再去考慮它的小型化。DeepSeek V3 就是對 GPT-4 能力的一個復現(xiàn),它做了GPT-4的效果,但是算力要低 1/10。這顯然是大模型“小型化”的一個表現(xiàn),對應的 R1 也是非常出圈。

OpenAI 發(fā)布的 o1 也可以看成是高階推理的大型機,未來一定是要小型化,變成低成本、高質(zhì)量的模型。整個發(fā)展路徑在我來看非常清晰。

我提過一個叫“Densing Law”的概念,類似于大模型領域的“摩爾定律”。我們發(fā)現(xiàn),從 2023 年到 2024 年這兩年,全球開源的大模型能力密度大概是每 100 天翻一倍。就是說,如果當前我訓練出一個模型、它具備 GPT-4 的水平能力,那么過了 100 天之后,只需要一半的參數(shù)我就可以實現(xiàn)這個能力。

去年 12 月初我們發(fā)布了 Densing Law,現(xiàn)在去看 DeepSeek V3 就是這個定律的完美證明。2024年4月18日發(fā)布的 Llama 3-405B 是 4000 億參數(shù),如果按照 Densing Law 估算,經(jīng)過 3 個周期(即300天)就可以用 500億 激活參數(shù)實現(xiàn)該能力,而 DeepSeekV3 發(fā)布于2024年12月底,全部參數(shù) 6700 億采用 MOE 架構激活參數(shù)為 370億。


4
看向未來:戰(zhàn)爭與人才

AI 科技評論:這個春節(jié) DeepSeek 贏得了一場很漂亮的戰(zhàn)役,我們接下來要贏得什么戰(zhàn)役?

劉知遠:其實 DeepSeek 這場戰(zhàn)役還是一場比較大的戰(zhàn)役,因為它的投入其實還是非常高的,模型訓練有幾千萬人民幣的投入,更不用說前期的人力、實驗算力的投入,肯定是要十倍預期,所以我覺得這是一場幾個億的小型戰(zhàn)爭。

面壁在 2024 年已經(jīng)打過幾場比較漂亮的戰(zhàn)斗,我們發(fā)布了 MiniCPM、叫“小鋼炮”,在國內(nèi)外的聲譽很高。去年的《經(jīng)濟學人》和最近的《MIT Technology Review》,都提到我們的模型以及我們的團隊。我覺得從我們當前資源的角度來看,這場仗打得非常好。

接下來要打類似于 DeepSeek 這樣的仗,我覺得還需要通過更多的戰(zhàn)斗勝利,不斷擴大我們的影響力,積累更多的資源。所以我們并不謀求馬上去得到這樣一場大勝,這個目標比較遠大?,F(xiàn)在面壁要把當前的資源做到極致利用,實事求是地要求自己。

DeepSeek 的成功對于大模型創(chuàng)業(yè)團隊是個巨大的鼓舞,當一定的資源、優(yōu)秀的青年人才團隊、AGI使命感,賦能于一個正確的領導者,賦能于一個正確的戰(zhàn)略方向、一件正確的事,可以爆發(fā)出驚人的威力。我們的內(nèi)在自我要求,是通過對大模型本質(zhì)規(guī)律的掌握,去成為那個正確團隊、正確方向,做正確的事。世界的走向浩浩湯湯,國家也在投入大量的基金,我們正值一個重大的歷史機遇,一旦我們能夠獲得更多的資源,我們肯定能夠更完備地組建大模型團隊,瞄著 AGI 需要我們完成的階段性目標進行攻堅,做出我們的貢獻。

這次 DeepSeek R1 做出的高階推理能力本身就是邁向 AGI 的一個重要能力,此外還需要很多種能力,比如定制模態(tài)具身、AI 終端的群體智能等等,還有這么多仗要打,所以我們還是覺得很有信心。

AI 科技評論:2025 年才剛開始,這一波熱潮之后,你覺得國內(nèi)的大模型,會往哪幾個方向去發(fā)展?面壁想要在當中扮演一個什么樣的推動力量?

劉知遠:很難說都會在 2025 年實現(xiàn),但是我覺得肯定還是會有很多值得期待的,一個是高階推理,肯定會在 2025 年持續(xù)地去改進。DeepSeek R1 的技術方案以及工程化,在 2025 年還會有很多可以改進的地方,可以讓它更加高效。

高階推理會成為一個非常重要的話題,但是民眾以及投資的興趣可以會發(fā)生快速的衰減,就像 ChatGPT 剛出來的時候,大家也都為之一振,覺得非常 Amazing,但是只過了半年,大家就已經(jīng)習以為常,覺得沒什么大不了的,特別是很多團隊迅速跟上了之后。所以如果只看 2025 年的話,我覺得大概率在 6 月前后,國內(nèi)會有非常多的團隊都能做到 R1 的水平,我們也會在端側實現(xiàn)這個能力。

高階推理之后,有多模態(tài)、有具身、有群體智能,有小型化、有終端智能、底層算力和硬件的深度融合等,依次為支撐產(chǎn)生各種各樣的創(chuàng)新應用,這是未來兩到三年的主旋律。

今年哪個點上會有突破,這件事情可能很難預期,但是兩到三年我會覺得還是非常明確的。我們團隊肯定堅持要做的就是模型的小型化、高效化、低成本,別人用 500 億參數(shù)才能做的模型,我們就要努力用 100 億體量之內(nèi)做出來,爭取盡快能放在終端上跑起來,讓他真正地離用戶更近,這是我們的一個基本思維方式。

AI 科技評論:以一個人工智能老師的身份角色,你怎么看人才的識別、人才的發(fā)展培養(yǎng),并且將之和整個公司的執(zhí)行緊密配合起來呢?

劉知遠:還是回到毛主席的《論持久戰(zhàn)》上來。其實戰(zhàn)略的重要意義就是要讓大家相信,戰(zhàn)略是用來統(tǒng)一思想的。我們相信抗日戰(zhàn)爭是一個通過持久戰(zhàn)可以達成的目標,這是我們統(tǒng)一全國人民思想的重要目標,軍民全體都為之而奮斗努力,大家才能更加主動把每一場仗都打好。

我們以 AGI 為目標,去創(chuàng)建一家公司,顯然是要有一個非常清晰的、明確的、持久的戰(zhàn)略意圖。我們提到的 AI 終端、Densing Law、對端側大模型的預期、以及信息革命和智能革命的類比,其實都是希望能夠讓整個團隊有一個清晰的戰(zhàn)略共識。只有這樣,大家才能達到高度協(xié)同,將來去打每一個具體的仗的時候,他就會知道,這場仗的目的是什么,有什么意義。如果我們在戰(zhàn)略上反復橫跳,不僅投資人無所適從,整個團隊都會人心渙散。

AGI 和光刻機一樣,是一個非常復雜的系統(tǒng)工具,需要大團隊協(xié)作的組織模式,光靠組織創(chuàng)新可能很難做到,創(chuàng)業(yè)公司還是得讓大家思想上非常統(tǒng)一,目標一致,才能做好協(xié)同的工作。

AI科技評論:那這些人才是哪來的?應該從大廠挖,還是自己培養(yǎng)?

劉知遠:我是從 2013 年開始帶研究生,到今天應該差不多十年的時間了。這么多年來,我最大的感受就是,人的潛力是非常非常巨大的。如果你讓他掌握了一些知識,讓他建立了一些自信,給他找到了一個讓他發(fā)自內(nèi)心幸福的目標,那么他的這個潛力一旦迸發(fā)出來,力量是非常非常大的。

我認為,如果是從大廠去挖那么兩三個人,這兩三個人只是見過的東西多一點、能力好像稍微出眾一點,而本身在目標上沒有那么地堅定,不把 AGI 作為他的奮斗目標,那他也沒有那么強的動力去做相關的工作。所以我不覺得我們應該把主要精力放在挖人上。

我們要做的就是把大家的潛力挖掘出來,把動力激發(fā)出來,一旦激發(fā)出來,他們的能力就會發(fā)生裂變,像原子彈一樣迸發(fā)出非常強大的能量。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

獨家對話劉知遠:AGI 是一場技術理想與商業(yè)現(xiàn)實的「持久戰(zhàn)」

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說