螞蟻武威：下一代「推理」模型范式大猜想

本文作者：陳彩嫻

2025-05-21 00:10

導(dǎo)語：長思維鏈?zhǔn)巧疃人伎嫉囊环N實現(xiàn)，但未必是最理想的。

R1 之后，長思維鏈成為研究下一代基礎(chǔ)模型中 “推理”（Reasoning）能力的熱門方向。一方面，R1 證明了大模型深度思考的可行性；與此同時，盡管 R1 展現(xiàn)出了強(qiáng)大的性能，大模型推理的序幕實則才剛剛拉開。

此外，R1 在海外掀桌也給國內(nèi)人工智能的研究帶來一個顯著影響，即：越來越多的研究者敢于站在更高視角思考，提出前瞻引領(lǐng)的技術(shù)思想。螞蟻技術(shù)研究院自然語言處理負(fù)責(zé)人武威對推理的思考就是其中一個典型。

武威的本科與博士均畢業(yè)于北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院。2011 年獲微軟學(xué)者后，他于 2012 年加入微軟亞洲研究院，歷任主管研究員、微軟小冰首席科學(xué)家。加入螞蟻前，他還曾任美團(tuán) NLP 中心負(fù)責(zé)人。

針對模型的推理，武威從數(shù)學(xué)出發(fā)，提出了許多與目前業(yè)內(nèi)主流不同的聲音。

事實上，早在 OpenAI 發(fā)布 o1 之前的 2023 年下半年，武威與團(tuán)隊就已開始研究大模型的推理問題。武威指出，R1 的實現(xiàn)結(jié)果是令人興奮的，但同時他評價，長思維鏈推理未必最優(yōu)，“因為這樣的模型維度太高、能量太高，以致表現(xiàn)不太穩(wěn)定?！?/span>

實際上，物理與化學(xué)中的大量現(xiàn)象均表明，能量最小的結(jié)構(gòu)才最穩(wěn)定。因此，武威猜想，未來的推理模型可能是更低維、更穩(wěn)定的人工智能系統(tǒng)。如果說長思維鏈?zhǔn)窍到y(tǒng) 2，一些研究則顯示，在人的日常思考中，占主導(dǎo)的往往是消耗更低的系統(tǒng) 1。

此外，當(dāng)前的主流推理模型都出現(xiàn)推理結(jié)果正確、但推理過程出錯的現(xiàn)象。在長思維鏈的實現(xiàn)中，糾錯的成本也隨之增加。同樣以數(shù)學(xué)為例，武威指出：當(dāng)推理模型發(fā)展到最后，思考過程或許比結(jié)果更重要；相比解決一個問題，模型在思考中發(fā)現(xiàn)新知識（如經(jīng)典數(shù)學(xué)問題的新證法）是更有價值的——由此可見，深度思考還有很大的潛力。

如何設(shè)計一個能夠?qū)⑾到y(tǒng) 1 與系統(tǒng) 2、或快思考與慢思考高效結(jié)合的推理模型，成為大模型的下一個重要方向。而武威認(rèn)為，從數(shù)學(xué)的角度出發(fā)，用一個優(yōu)雅的數(shù)學(xué)模型去刻畫人工智能的思維方式或許是終極解法；亦或者，自洽是所有推理系統(tǒng)的最終歸宿。

以下是 AI 科技評論與武威的對話：

1、什么是「推理」？

AI 科技評論：現(xiàn)在圈內(nèi)對于「推理」有各種各樣的定義，還有的觀點將 Reasoning 與 Inference 相混淆。

武威：對。根據(jù)我自己看的文獻(xiàn)，「推理」的定義最早能夠追溯到 2011 年。那一年，機(jī)器學(xué)習(xí)大佬 Leon Bottou 寫了一篇文章，叫「From Machine Learning to Machine Reasoning」。當(dāng)時業(yè)內(nèi)對「Reasoning」還沒有一個清晰的定義，Leon Bottou 就在這篇文章說，他認(rèn)為「Reasoning」（推理）是「代數(shù)地操作已有的知識去解決新的問題」。

螞蟻武威：下一代「推理」模型范式大猜想

論文鏈接：https://arxiv.org/pdf/1102.1808

那什么叫「Reasoning System」（推理系統(tǒng)）呢？Leon Bottou 認(rèn)為，推理系統(tǒng)應(yīng)該包含兩點：一是包含一個函數(shù)的代數(shù)空間，二是任何一個問題都能對應(yīng)到這個代數(shù)空間中的一個函數(shù)組合?！耶?dāng)時看到這個觀點，就覺得跟 Marvin Minsky 在上世紀(jì) 80 年代的一本書《Society of Mind》（心智社會）中對「智能」的觀點是非常吻合的。

什么是真正的智能？Minsky 認(rèn)為，人的意識應(yīng)該是由非常多的小的過程（smaller processes）組成的，他管這些叫「Agent」（智能體）。這些Agent能夠解決非常簡單的問題，而且?guī)缀醪幌哪芰?。?dāng)遇到復(fù)雜問題時，這些Agent一部分會被激活，并且會以一種方式組合在一起——這時候真正的智能就誕生了。

今天再看，Minsky 在上世紀(jì) 80 年代提出的觀點可能有點過于經(jīng)驗性，但同時我又覺得非常有道理，因為它非常符合人的直覺。而 Bottou 的文章是用形式化的語言進(jìn)行了解釋。Bottou 所提到的這個函數(shù)的代數(shù)空間，你可以認(rèn)為是這些智能體的一個集合；而這個函數(shù)的代數(shù)組合，則是 Minsky 所說的智能體之間的連接或組合。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

接著，Leon Bottou 又在文章里提出了一個有趣的猜想。他說，現(xiàn)在有各種各樣的推理系統(tǒng)，包括概率推理、邏輯推理、因果推理等等，那么最終的推理系統(tǒng)會是什么樣的呢？

他認(rèn)為有兩種可能：一種可能是出現(xiàn)一個絕對強(qiáng)的（推理）模型，把這些小的（推理）模型都干掉，而且這個超強(qiáng)模型是能夠擴(kuò)展、能夠計算的，計算成本也是大家能負(fù)擔(dān)得起的；另一種可能是，不同的推理模型互不干涉、各干各的，因果推理做因果推理，概率推理做概率推理，邏輯推理做邏輯推理等等。

今天來看，其實 Bottou 的第一種預(yù)言被驗證了，這個超強(qiáng)的模型就是「大模型」。但即使大模型出現(xiàn)了，「推理」這件事也仍然是模糊的，而如果讓我給一個定義，那么我覺得，推理是指：用邏輯組合知識解決新問題的過程。

AI 科技評論：R1 有「推理」的雛形嗎？

武威：有，因為假設(shè)你讓它去解決數(shù)學(xué)題，第一它有知識，它會說這個問題應(yīng)該用 XX 定理去解；然后它會說，解決這個問題應(yīng)該怎么做、中間的步驟是什么。這其實就是將數(shù)學(xué)知識以一種邏輯整合在一起解決問題。雷峰網(wǎng)

如果將模型應(yīng)用到其它方向上，不再是解決數(shù)學(xué)問題，而是變成旅游規(guī)劃，那么模型就要對旅游目的地的人文、地理、美食等知識有所了解，最后將這些知識以合理的邏輯組合在一起，生成一個旅游方案。

如果沒有足夠的知識，或者正確的邏輯，那就會出錯：比如我跟大模型說要去西北旅游三天，模型輸出結(jié)果告訴我，第一天上午在烏魯木齊、一個小時后就跑到西安，那就不是正確的「推理」了。所以我說，推理是要用邏輯將知識合理地組織在一起，「知識」與「邏輯」缺一不可。

AI 科技評論：是不是 R1 出來后，您才看到「推理」范式有所詮釋？

武威：我覺得 R1 提供了一種「推理」的可擴(kuò)展的實現(xiàn)方式，這很了不起。但我同時覺得，長思維鏈的「推理」并不一定時最優(yōu)的，原因在于能量太高、維度太高。

物理與化學(xué)都是追求「最小能量」，因為能量最小的時候、結(jié)構(gòu)最穩(wěn)定。在化學(xué)中，勢能最低時、結(jié)構(gòu)最穩(wěn)定；在熱力學(xué)中，自由能最低的時候、系統(tǒng)才穩(wěn)定。

但在長思維鏈的推理中，本質(zhì)上是每一個 token 的預(yù)測對應(yīng)詞庫上的一個分布，當(dāng)你有 1 萬個 token 時、其實就是 1 萬維，1 萬乘以這個詞庫維度的向量是非常大的、非常高維的，與之相隨的就是系統(tǒng)不穩(wěn)定。現(xiàn)在的推理模型實際上在訓(xùn)練過程中也很不穩(wěn)定。

所以我覺得，未來在推理模型上應(yīng)該有一個更低維、更穩(wěn)定的系統(tǒng)出現(xiàn)?，F(xiàn)在的長思維鏈推理都太高維、能量也太高，只要用自回歸的方式做長推理都會面臨這個問題。

AI 科技評論：那現(xiàn)在除了自回歸，還有其它的技術(shù)路線去實現(xiàn)模型的推理嗎？

武威：現(xiàn)在大家也在探索。把你的問題繞開一點，首先現(xiàn)在大家又回到了已有的「范式」：當(dāng)「好」出現(xiàn)之后必然會走向「快」和「省」，所以現(xiàn)在研究推理的人在做「高效推理」。但我覺得，「高效推理」也并不是一個本質(zhì)的、系統(tǒng)性的解法。雷峰網(wǎng)

我認(rèn)為真正系統(tǒng)性的解答，應(yīng)該是想辦法用一個模型把「推理」的能量降下來。不管是在強(qiáng)化學(xué)習(xí)里加長度的約束，或者進(jìn)行混合長度微調(diào)，我都覺得不算太優(yōu)雅，不是最終解決方案，因為你最終的范式還是在一個大空間里面去搜索。

o1 是一種相對新的「推理」范式，但步子邁得沒有那么大，本質(zhì)上還是自回歸生成、token by token。只是做得足夠長了，發(fā)現(xiàn)在更長的文本中好像模型能夠去反思、模型效果會變好，但其實還是預(yù)測下一個 token。這就牽引出另外一個問題：預(yù)測下一個 token 會是推理的有效解嗎？

我覺得它可以作為一個解法，但不一定是那個最好的解法。用數(shù)學(xué)的話說就是，梯度確實是在下降，但還沒有下降到局部極小。

2、「推理」為什么重要？

AI 科技評論：您在人工智能領(lǐng)域做了這么多年的研究，您的研究世界觀是怎樣的？

武威：簡單來說就是 8個字： “多快好省，雙商齊備”（智商與情商）。

“多快好省”原是零售里的說法。在零售中，“多”指“品類多”，能在網(wǎng)上買到各種各樣的商品；但在研究中，我們希望的“多”，至少包括兩塊：

一是模型的任務(wù)范圍要廣，解決盡量多的任務(wù)。這很重要，比如現(xiàn)在的大模型推理，大家將其聚焦在數(shù)學(xué)與代碼上，就不夠多，世界上其實很多問題都需要深度思考才能解決；

二是模型處理的信息要足夠多。ChatGPT 剛出來時，上下文長度大約是 4k，到今天 GPT-4.1 發(fā)布時，上下文已經(jīng)達(dá)到 100 萬，看起來模型能處理的信息已經(jīng)很多了，但實際上還不夠多，因為未來我們或許希望人工智能系統(tǒng)能夠處理 Lifelong Memory（終生記憶），能“記住”它在這個世界上經(jīng)歷的所有事情與信息。

第二個“快”，在零售中“快”體現(xiàn)為“送得快”，而在人工智能中的“快”，我覺得是“響應(yīng)要快”。這在今天也是一個共識，現(xiàn)在各家都希望自己的大模型能響應(yīng)地越來越快。“好”與“省”就是模型效果要好、同時要便宜，這也是大家所追求的。

事實上，人工智能的整個發(fā)展歷史就是在不斷地重復(fù)這樣一個“多快好省”的故事。2018 年 BERT 出圈是憑借效果“好”、任務(wù)“多”，接著圈內(nèi)大家基于 BERT 往兩個方向發(fā)展：一是追求更大的模型（如 GPT-3），從結(jié)果上看是效果更好，任務(wù)更多（生成也能做），二是追求模型的輕量化（即“快”與“省”）。

先是“多”與“好”，接著走向“快”與“省”。當(dāng)“多快好省”這四個字都達(dá)到了一個邊際效益很低的水平時，整個人工智能領(lǐng)域在干什么呢？在準(zhǔn)備下一輪的突破。

2022 年，大家覺得 BERT 的“多快好省”已經(jīng)達(dá)到一個瓶頸時，ChatGPT 出來了，也是先“多”（什么都能做）與“好”（解決一些原本做得不太好的任務(wù)，比如長文本生成）。到今天，大模型的追求又變成了要越來越快、越來越省。比如 GPT-4 剛出來時，響應(yīng)是一個字一個字地蹦，后來變得越來越絲滑、流暢。

所以我覺得，無論是需求側(cè)（用戶）、還是供給側(cè)（研發(fā)人員），大家對人工智能的“多快好省”追求都是永恒的。 “多快好省”是基礎(chǔ)， “智商”與“情商”是上層能力。模型能力不強(qiáng)的時候，大家很少討論智商、情商，但現(xiàn)在談得越來越多，解讀也有很多。

在我看來，我想追求的“智商”是：用邏輯組合知識，去解決實際問題。這當(dāng)中有兩個非常重要的概念，一是知識，二是邏輯，而且要有機(jī)地組合在一起。智商的一個外延體現(xiàn)就是 Reasoning（推理）。

情商這塊，我們希望人工智能系統(tǒng)可以理解人的情緒、人的心理狀態(tài)等，在與人交互的過程中能夠共情。這很重要，因為現(xiàn)在的大模型都是大應(yīng)用、都要跟人交互。我們希望沿著這 8 個字的大方向去做一些對行業(yè)和社區(qū)有價值的研究。

AI 科技評論：沿著這個大方向，你們目前有哪些有趣的研究？

武威：比如“多”，我們一個聚焦的點是長上下文，不僅包括文本、還有多模態(tài)。實際上，多模態(tài)比文本更需要長上下文，一條幾分鐘的視頻就可能產(chǎn)生超過百萬的視覺 token。我們剛開源了一個叫 ViLAMP 的 7B 長視頻理解模型，單卡就能處理 3 小時視頻，而且效果在目前的開源模型中也基本是 SOTA 的。

再比如“好”，我們很看重“推理”（Reasoning），因為推理讓人工智能有希望把一些復(fù)雜問題解決好?！巴评怼笔且粋€很模糊的概念。如果你去看不同的領(lǐng)域，會發(fā)現(xiàn)心理學(xué)、哲學(xué)、數(shù)學(xué)與計算機(jī)等不同領(lǐng)域?qū)Α巴评怼钡亩x是不一樣的。而在我看來，“推理”是用邏輯組合知識的過程。在這個大框框下，我們先后做了知識推理智能體 AMOR，基于代碼規(guī)劃的推理范式 CodePlan，以及基于深度思考的問題合成方法 PromptCoT 等。

再比如“情商”，連數(shù)據(jù)都不太完善，因此今年我們也開源了一個包含 130 萬條個性化對齊數(shù)據(jù)的數(shù)據(jù)集 AlignX，至少希望社區(qū)能先玩起來?？偟膩碚f，這塊的研究還沒有收斂，但我覺得“情商“”最終還是要走到模型對人類世界的理解，而這個理解也可以認(rèn)為是某種程度上的 “推理”，只不過可能是對人類偏好或人類情緒的推理。今天大家把“推理”限定在了數(shù)學(xué)與代碼上，最后大模型都變成了做題家與程序員，我覺得范圍限制太死了，實際上大模型還可以是好的產(chǎn)品經(jīng)理、銷售、朋友，有非常大的潛力。所以我說，推理這件事很重要。

AI 科技評論：您入行 15 年，經(jīng)歷了許多重要的技術(shù)浪潮。您認(rèn)為，為什么在現(xiàn)在這個時間點，推理顯得更重要？

武威：我記得在 MSRA 的時候，大約是 2014 年，大家還討論過為什么 NLP 叫“自然語言處理”。因為當(dāng)時大家覺得，機(jī)器都還不能理解人類語言，更別提生成了。

那時深度學(xué)習(xí)開始興起，NLP 也開始擁抱深度學(xué)習(xí)。2015 年，我參加 ACL，當(dāng)時是 Christopher Manning 做了開幕式演講。他當(dāng)時形容，NLP 就像躲在戰(zhàn)壕里的兔子，深度學(xué)習(xí)就像一把機(jī)關(guān)槍或大炮，正在瞄著這些兔子、準(zhǔn)備把它們一掃而平（笑）。

后來發(fā)現(xiàn)，在深度學(xué)習(xí)的幫助下，機(jī)器對語言的理解能力好像還行，后來又發(fā)現(xiàn)竟然還能生成、創(chuàng)造。這是一件了不起的事。深度學(xué)習(xí)不僅在語言理解上展示了非常強(qiáng)大的潛力，更重要的是它讓生成也變成了可能。

到 2018 年 BERT 出來，“預(yù)訓(xùn)練+微調(diào)”又是另一個技術(shù)浪潮，直接改變了整個 NLP 的運作范式，使 NLP 走向了大一統(tǒng)。2020 年 meena出來后，短文本生成已經(jīng)做得很好了。ChatGPT 出來后，長本文生成被突破，這在之前的很長時間里是不可想象的。現(xiàn)在沒有人單獨研究長文本生成，因為被大模型研究囊括了。

所以總的來說，當(dāng)我們在講自然語言處理時，我們在問自然語言是否能理解；BERT 突破了理解后，我們又問自然語言是否能生成。從處理、理解到生成，是計算機(jī)逐漸掌握人類語言的過程。

經(jīng)歷了一波又一波大的發(fā)展之后，我就非常想看推理，因為我覺得現(xiàn)在生成也被突破后，下一步就是推理。推理涉及到要將知識進(jìn)行組合，復(fù)雜度更高，也能解決更復(fù)雜的任務(wù)。

AI 科技評論：您是從什么時候開始思考推理這個問題的？

武威：2016年我們在討論小冰未來的技術(shù)時就覺得推理很重要，因為小冰做不了推理，所以很多任務(wù)解決不了。

說實話，討論推理在當(dāng)時是非常超前的，因為那時候的 Chatbot 不僅做不了推理，也普遍受限于知識不強(qiáng)、無法進(jìn)行深度交流。沒有知識，生成也會受影響。

當(dāng)時我們通過生成的方式創(chuàng)造回復(fù)，只是將海量數(shù)據(jù)里的語言組合在了一起，符合人類的語言表達(dá)習(xí)慣、但沒有知識，效果甚至比不過檢索模型。今天的大模型也會有幻覺，也會在知識上犯錯，但出現(xiàn)的情況已經(jīng)不多。

我在小冰的時候，能想到研究推理，但沒有機(jī)會去做，這多少受限于當(dāng)時的技術(shù)，無法以一種規(guī)模化的方式去推理。當(dāng)時我們甚至也想不清楚什么叫“推理”。

現(xiàn)在我覺得相對清楚了。所以我們團(tuán)隊真正開始研究推理是在我加入螞蟻之后。這也是源于我?guī)啄昵拔幢M的夙愿吧。

3、「推理」的解法猜想

AI 科技評論：2024 年以來，您的一些研究也圍繞推理提出了不同的聲音。您認(rèn)為 o1、R1 之后的下一步推理應(yīng)該怎么發(fā)展？

武威：我剛才提到，大家都在做高效推理。但如果從快思考、慢思考的角度來看的話，這個話題其實也很有意思。

《思考，快與慢》這本書是從心理學(xué)的角度來解釋一些問題，也比較經(jīng)驗、沒有一些形式化的驗證。但我們今天來看，OpenAI 的大模型有兩個版本號，一個是數(shù)字系列（如 GPT-3、GPT-4），另一個是 o 系列（如 o1、o3），兩個系列分別代表快思考與慢思考，就體現(xiàn)了從系統(tǒng) 1 到系統(tǒng) 2 的演進(jìn)。

螞蟻武威：下一代「推理」模型范式大猜想

大家對系統(tǒng) 1 與系統(tǒng) 2 的認(rèn)知基本已經(jīng)達(dá)到共識，系統(tǒng) 1 的特點就是快、自發(fā)、沒有消耗，系統(tǒng) 2 是要把注意力分配給需要花費很大努力的行為與心理活動上。這是作者丹尼爾·卡尼曼認(rèn)為的快與慢的區(qū)別。不過這本書里，我覺得更有趣的是，作者寫了他認(rèn)為快思考與慢思考如何協(xié)調(diào)的問題。

第一個觀點是，書中提到，其實人在每日思考的過程中大部分時間都是系統(tǒng) 1 的快思考占主導(dǎo)。

快思考會產(chǎn)生非常多且復(fù)雜的 idea pattern（觀點模式），并將這些傳遞給系統(tǒng) 2。而大部分情況下，系統(tǒng) 2 不經(jīng)思考就接受了、而不是每個 idea 都檢查一遍。所以日常的思考大多是系統(tǒng) 1 的結(jié)果，系統(tǒng) 2 是懶惰的、只有在個別情況下才會去檢查與思考。同時，系統(tǒng) 1 因為想得快，會有很多錯誤，而且還會為這個錯誤提供一些更深層次的洞見。

那為什么會有錯誤？就像今天大模型為什么會有幻覺？我覺得可以作為對大模型幻覺的一個解釋。說白了還是能量最低，因為系統(tǒng) 1 要追求“認(rèn)知的簡便”（Cognitive Ease）——當(dāng)我把這些信息跟我的認(rèn)知整合在一起時，通順、自洽就可以了，至于有沒有錯，系統(tǒng) 1 是不在乎的。

這是系統(tǒng) 1 喜歡干的事情，這么干確實消耗低。然后這些錯誤又因為系統(tǒng) 2 比較懶、不怎么查，所以導(dǎo)致這些結(jié)果被固化了下來。最后這類錯誤積累越來越多。這種錯誤的根源在于認(rèn)知上的懶惰或簡便，很難避免，但很有意思的點是，作者說：那你又避免不了錯誤，人怎么辦好呢？他說，最好的辦法是盡可能地發(fā)現(xiàn)什么情況下容易出錯，然后對這些高風(fēng)險情況盡量多思考。

最終，作者也沒有就如何發(fā)現(xiàn)高風(fēng)險情況提出解法。他認(rèn)為，許多情況下，人最后就是變成了活在一個自洽的世界里，哪怕有錯誤、但只要自洽就好。

回到大模型。如果援引丹尼爾·卡尼曼的說法，大模型應(yīng)該能將長推理與短推理結(jié)合在一起，合在一起可能是一個模型，也可能是兩個模型，關(guān)鍵在于兩個模型、或兩個系統(tǒng)怎么調(diào)度。目前行業(yè)里也還沒有特別優(yōu)雅的方式，比較優(yōu)雅的方式應(yīng)該是自動分配兩種模式。

AI 科技評論：您提到了核心問題，就是系統(tǒng) 1 與系統(tǒng) 2 怎么結(jié)合起來？單一的 Transformer 架構(gòu)可以實現(xiàn)嗎？這塊似乎也還沒有共識。

武威：我認(rèn)為是還沒有一個很好的模型、或者沒有一個很好的 Equation（公式）來解決這個問題，所以大家都還在做一些嘗試。比如把長思維鏈和短思維鏈的數(shù)據(jù)混合在一起做 SFT，這可能是一種解決方案?；蛘咴趶?qiáng)化學(xué)習(xí)上做長度的 Reward（獎勵）。

但是，它們都還沒有一個模型去刻畫快思考與慢思考，或者說系統(tǒng) 1 與系統(tǒng) 2 之間的協(xié)作。

我覺得歸根結(jié)底還是要有一個模型、最好是一個數(shù)學(xué)模型去刻畫人工智能的思維方式。我的猜想是，這個模型很可能是在低維空間上的一個模型，通過將能量最低進(jìn)行優(yōu)化來實現(xiàn)。

AI 科技評論：那接下來，您計劃從哪些角度進(jìn)一步研究模型的推理問題？

武威：除了自回歸以外，我們也看先規(guī)劃、再推理這樣的層次化結(jié)構(gòu)。

比如，要做一個用戶調(diào)研的方案，這個任務(wù)交給你之后，你是馬上就拿起筆來開寫嗎？不是的，正常情況下是腦海中先有一份草稿，有一個抽象的規(guī)劃，然后再去實現(xiàn)每個步驟?！憧梢哉J(rèn)為，這個抽象的規(guī)劃就是整個推理過程中的一個低維表示，在這個低維下我再說我怎么把它展開變成一個高維的執(zhí)行。這也是一種推理范式。

其實 Yann LeCun 每次采訪都在說，規(guī)劃與推理很重要。但同時，他又說，他覺得現(xiàn)在的推理模型好像不太對、因為太簡單了。至于什么樣的推理模型是對的，LeCun 也沒說。

AI 科技評論：剛剛提到系統(tǒng) 1 與系統(tǒng) 2。業(yè)內(nèi)也有一種討論，即我們在設(shè)計模型時是否一定要模仿人腦？

武威：說實話，我覺得機(jī)器不一定要像人一樣思考。這個問題其實也困擾了我很久，就是我們到底應(yīng)不應(yīng)該按照人腦的方式去設(shè)計人工智能的模型。舉個例子，計算機(jī)能很快計算出 π 的值，但人腦就不行。

比如《思考，快與慢》這本書中，有大段對人的思維方式的描述，但這些描述就一定是對的嗎？大家確實可以通過一些事實去印證書中的說法，但還是這個問題：你不能說第 1 個 case 是對的，第 2 個、第 3 個、第 4 個……到第 100 個也都是對的，第 101 個 case 就一定正確。

這在數(shù)學(xué)上是不成立的，數(shù)學(xué)不允許這種情況出現(xiàn)。如果有例外，數(shù)學(xué)就一定要有一個條件去約束、將這個例外抹掉。換句話說，不完全歸納法是不對的。

所以我想來想去，最后我的觀點是，不管人工智能系統(tǒng)到底應(yīng)不應(yīng)該像人，我只要想辦法去接近這個目標(biāo)就好了。這個目標(biāo)就是我剛才說的 8個字：多快好省，雙商齊備。

AI 科技評論：現(xiàn)在的推理還有一個問題，就是有研究發(fā)現(xiàn)，o1、R1 與 Gemini 等模型在做推理時，更重視結(jié)果的正確率，中間的推理過程可能是錯的。

武威：關(guān)于這個現(xiàn)象，我有兩個觀點。第一個觀點是：我認(rèn)為長思維鏈?zhǔn)且砸环N相對笨拙的方式實現(xiàn)了深度思考。當(dāng)然，它非常有意義，因為它起碼給出了一個實現(xiàn)，即使這個實現(xiàn)是高能耗的。我們不能天天空談深度思考、卻沒有任何實現(xiàn)。

第二個觀點是，當(dāng)模型的能力發(fā)展到最后，思考的過程可能比結(jié)果更重要。因為我們回到數(shù)學(xué)來看，其實很多數(shù)學(xué)問題已經(jīng)有結(jié)果了，只是有些結(jié)果被證實了、有些沒被證實。

比如費馬定理，最早叫費馬猜想，它的結(jié)果早就有了，就是當(dāng)整數(shù) n>2 時，方程 x 的 n 次方加 y 的 n 次方等于 z 的 n 次方?jīng)]有正整數(shù)解。黎曼猜想也是，早就有結(jié)果了，重要的是：你怎么得到從這個假設(shè)到這個結(jié)論的整個求解過程。從數(shù)學(xué)的角度看，推理過程是非常重要的。

所以 Andrew Wiles 的巨大貢獻(xiàn)，一方面是他證明了費馬猜想，將費馬猜想變成費馬定理；更重要的是，在這個證明過程中，數(shù)學(xué)的許多新興方向誕生，比如橢圓曲線、代數(shù)幾何等等，這對數(shù)學(xué)界是巨大的貢獻(xiàn)。

在我看來，推理是利用邏輯對知識進(jìn)行有機(jī)組合。如果我們在不同的問題上都能給出各種各樣的知識組合，那么會不會有一些知識組合是人類未曾觸碰到的、對人類文明進(jìn)步有非常大啟發(fā)的呢？如果有，那么產(chǎn)生這些組合的價值遠(yuǎn)比你解決一個問題還要大，因為你會創(chuàng)造出新的知識來。

從這個角度看，其實深度思考的巨大價值與潛力還沒有被挖掘出來。推理的結(jié)果很重要，但我更重視當(dāng)中的思考過程。現(xiàn)在 R1 已經(jīng)給我們提供了一個高維的實現(xiàn)，我們應(yīng)該在 R1 的基礎(chǔ)上去做更大膽的迭代。

AI 科技評論：R1 出來后，有改變您對推理的看法嗎？您對推理的研究有更興奮嗎？

武威：我覺得還是很令人振奮的，因為R1 讓我們看到了深度思考的一種規(guī)模化實現(xiàn)，不過R1本質(zhì)上仍然是自回歸，我覺得這里面空間還是很大的。

我覺得應(yīng)該有一個通用的模型，但我也不知道這個模型長什么樣子。所以 2023 年我們剛開始研究推理的時候，是先研究 Agent。

為什么是先研究 Agent 呢？就是因為我不知道通用的怎么做，沒辦法，只能先做一個特殊的 Knowledge Agent（知識智能體），看能不能擴(kuò)展。我們把一個任務(wù)拆成一個個模塊，然后再把這些模塊用人工設(shè)計的邏輯串在一起。

就好像我們在解一道數(shù)學(xué)題的時候，你不會解，怎么辦呢？就先找一些具體的 case，加一些條件。比如一個泛函問題，你先把它變成二維空間，二維空間能證明、再看三維空間能不能證明；當(dāng)二維、三維都證明之后，再看中間有沒有共性、能不能拓展到高維。

R1 令人驚艷的地方是直接就到高維了。我覺得更令人興奮的地方在于通過深度思考來創(chuàng)造新的知識，那這一點 R1 還達(dá)不到，因為還沒有辦法保證思考過程是對的。我們也還沒有辦法保證我們的推理過程一定是對的，但我覺得這是一個很重要的問題。

后來我們又探索了 CodePlan，希望用代碼實現(xiàn)先規(guī)劃、后推理。只是我們當(dāng)時做完后，受限于一些資源問題，沒有辦法驗證它的效果是最好的。今年年初 DeepSeek 團(tuán)隊有一個工作，也是先用代碼做規(guī)劃，不同的是他們后來又將代碼變成了自然語言。我猜測可能是因為純代碼的效果不太好。

最近我們又研發(fā)了 PromptCoT，嘗試將深度思考用到問題合成上，也看到了非常驚艷的效果。一個 7B 小模型就可以和 32B 模型比肩。最重要的是，這個工作讓我們看到了深度思考 for 其它任務(wù)的可能性。

其實大家都在想，到底下一代推理模型應(yīng)該是什么樣的，同時又希望追求智能極限。這兩個目標(biāo)都很難，特別是對企業(yè)來說。在企業(yè)里，你不太可能說，你有一個非常大的目標(biāo)、要投入多少資金，還不能確定這個目標(biāo)能不能達(dá)到，這是一個現(xiàn)實問題。理性來說，我們需要更多的 case 去支撐繼續(xù)探索的信念。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

陳彩嫻

編輯

發(fā)私信

當(dāng)月熱門文章