0
R1 之后,長思維鏈成為研究下一代基礎(chǔ)模型中 “推理”(Reasoning)能力的熱門方向。一方面,R1 證明了大模型深度思考的可行性;與此同時,盡管 R1 展現(xiàn)出了強大的性能,大模型推理的序幕實則才剛剛拉開。
此外,R1 在海外掀桌也給國內(nèi)人工智能的研究帶來一個顯著影響,即:越來越多的研究者敢于站在更高視角思考,提出前瞻引領(lǐng)的技術(shù)思想。螞蟻技術(shù)研究院自然語言處理負(fù)責(zé)人武威對推理的思考就是其中一個典型。
武威的本科與博士均畢業(yè)于北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院。2011 年獲微軟學(xué)者后,他于 2012 年加入微軟亞洲研究院,歷任主管研究員、微軟小冰首席科學(xué)家。加入螞蟻前,他還曾任美團 NLP 中心負(fù)責(zé)人。
針對模型的推理,武威從數(shù)學(xué)出發(fā),提出了許多與目前業(yè)內(nèi)主流不同的聲音。
事實上,早在 OpenAI 發(fā)布 o1 之前的 2023 年下半年,武威與團隊就已開始研究大模型的推理問題。武威指出,R1 的實現(xiàn)結(jié)果是令人興奮的,但同時他評價,長思維鏈推理未必最優(yōu),“因為這樣的模型維度太高、能量太高,以致表現(xiàn)不太穩(wěn)定?!?/span>
實際上,物理與化學(xué)中的大量現(xiàn)象均表明,能量最小的結(jié)構(gòu)才最穩(wěn)定。因此,武威猜想,未來的推理模型可能是更低維、更穩(wěn)定的人工智能系統(tǒng)。如果說長思維鏈?zhǔn)窍到y(tǒng) 2,一些研究則顯示,在人的日常思考中,占主導(dǎo)的往往是消耗更低的系統(tǒng) 1。
此外,當(dāng)前的主流推理模型都出現(xiàn)推理結(jié)果正確、但推理過程出錯的現(xiàn)象。在長思維鏈的實現(xiàn)中,糾錯的成本也隨之增加。同樣以數(shù)學(xué)為例,武威指出:當(dāng)推理模型發(fā)展到最后,思考過程或許比結(jié)果更重要;相比解決一個問題,模型在思考中發(fā)現(xiàn)新知識(如經(jīng)典數(shù)學(xué)問題的新證法)是更有價值的——由此可見,深度思考還有很大的潛力。
如何設(shè)計一個能夠?qū)⑾到y(tǒng) 1 與系統(tǒng) 2、或快思考與慢思考高效結(jié)合的推理模型,成為大模型的下一個重要方向。而武威認(rèn)為,從數(shù)學(xué)的角度出發(fā),用一個優(yōu)雅的數(shù)學(xué)模型去刻畫人工智能的思維方式或許是終極解法;亦或者,自洽是所有推理系統(tǒng)的最終歸宿。
以下是 AI 科技評論與武威的對話:
1、什么是「推理」?
AI 科技評論:現(xiàn)在圈內(nèi)對于「推理」有各種各樣的定義,還有的觀點將 Reasoning 與 Inference 相混淆。
武威:對。根據(jù)我自己看的文獻(xiàn),「推理」的定義最早能夠追溯到 2011 年。那一年,機器學(xué)習(xí)大佬 Leon Bottou 寫了一篇文章,叫「From Machine Learning to Machine Reasoning」。當(dāng)時業(yè)內(nèi)對「Reasoning」還沒有一個清晰的定義,Leon Bottou 就在這篇文章說,他認(rèn)為「Reasoning」(推理)是「代數(shù)地操作已有的知識去解決新的問題」。
論文鏈接:https://arxiv.org/pdf/1102.1808
那什么叫「Reasoning System」(推理系統(tǒng))呢?Leon Bottou 認(rèn)為,推理系統(tǒng)應(yīng)該包含兩點:一是包含一個函數(shù)的代數(shù)空間,二是任何一個問題都能對應(yīng)到這個代數(shù)空間中的一個函數(shù)組合?!耶?dāng)時看到這個觀點,就覺得跟 Marvin Minsky 在上世紀(jì) 80 年代的一本書《Society of Mind》(心智社會)中對「智能」的觀點是非常吻合的。
什么是真正的智能?Minsky 認(rèn)為,人的意識應(yīng)該是由非常多的小的過程(smaller processes)組成的,他管這些叫「Agent」(智能體)。這些Agent能夠解決非常簡單的問題,而且?guī)缀醪幌哪芰?。?dāng)遇到復(fù)雜問題時,這些Agent一部分會被激活,并且會以一種方式組合在一起——這時候真正的智能就誕生了。
今天再看,Minsky 在上世紀(jì) 80 年代提出的觀點可能有點過于經(jīng)驗性,但同時我又覺得非常有道理,因為它非常符合人的直覺。而 Bottou 的文章是用形式化的語言進(jìn)行了解釋。Bottou 所提到的這個函數(shù)的代數(shù)空間,你可以認(rèn)為是這些智能體的一個集合;而這個函數(shù)的代數(shù)組合,則是 Minsky 所說的智能體之間的連接或組合。雷峰網(wǎng)(公眾號:雷峰網(wǎng))
接著,Leon Bottou 又在文章里提出了一個有趣的猜想。他說,現(xiàn)在有各種各樣的推理系統(tǒng),包括概率推理、邏輯推理、因果推理等等,那么最終的推理系統(tǒng)會是什么樣的呢?
他認(rèn)為有兩種可能:一種可能是出現(xiàn)一個絕對強的(推理)模型,把這些小的(推理)模型都干掉,而且這個超強模型是能夠擴展、能夠計算的,計算成本也是大家能負(fù)擔(dān)得起的;另一種可能是,不同的推理模型互不干涉、各干各的,因果推理做因果推理,概率推理做概率推理,邏輯推理做邏輯推理等等。
今天來看,其實 Bottou 的第一種預(yù)言被驗證了,這個超強的模型就是「大模型」。但即使大模型出現(xiàn)了,「推理」這件事也仍然是模糊的,而如果讓我給一個定義,那么我覺得,推理是指:用邏輯組合知識解決新問題的過程。
AI 科技評論:R1 有「推理」的雛形嗎?
武威:有,因為假設(shè)你讓它去解決數(shù)學(xué)題,第一它有知識,它會說這個問題應(yīng)該用 XX 定理去解;然后它會說,解決這個問題應(yīng)該怎么做、中間的步驟是什么。這其實就是將數(shù)學(xué)知識以一種邏輯整合在一起解決問題。雷峰網(wǎng)
如果將模型應(yīng)用到其它方向上,不再是解決數(shù)學(xué)問題,而是變成旅游規(guī)劃,那么模型就要對旅游目的地的人文、地理、美食等知識有所了解,最后將這些知識以合理的邏輯組合在一起,生成一個旅游方案。
如果沒有足夠的知識,或者正確的邏輯,那就會出錯:比如我跟大模型說要去西北旅游三天,模型輸出結(jié)果告訴我,第一天上午在烏魯木齊、一個小時后就跑到西安,那就不是正確的「推理」了。所以我說,推理是要用邏輯將知識合理地組織在一起,「知識」與「邏輯」缺一不可。
AI 科技評論:是不是 R1 出來后,您才看到「推理」范式有所詮釋?
武威:我覺得 R1 提供了一種「推理」的可擴展的實現(xiàn)方式,這很了不起。但我同時覺得,長思維鏈的「推理」并不一定時最優(yōu)的,原因在于能量太高、維度太高。
物理與化學(xué)都是追求「最小能量」,因為能量最小的時候、結(jié)構(gòu)最穩(wěn)定。在化學(xué)中,勢能最低時、結(jié)構(gòu)最穩(wěn)定;在熱力學(xué)中,自由能最低的時候、系統(tǒng)才穩(wěn)定。
但在長思維鏈的推理中,本質(zhì)上是每一個 token 的預(yù)測對應(yīng)詞庫上的一個分布,當(dāng)你有 1 萬個 token 時、其實就是 1 萬維,1 萬乘以這個詞庫維度的向量是非常大的、非常高維的,與之相隨的就是系統(tǒng)不穩(wěn)定?,F(xiàn)在的推理模型實際上在訓(xùn)練過程中也很不穩(wěn)定。
所以我覺得,未來在推理模型上應(yīng)該有一個更低維、更穩(wěn)定的系統(tǒng)出現(xiàn)?,F(xiàn)在的長思維鏈推理都太高維、能量也太高,只要用自回歸的方式做長推理都會面臨這個問題。
AI 科技評論:那現(xiàn)在除了自回歸,還有其它的技術(shù)路線去實現(xiàn)模型的推理嗎?
武威:現(xiàn)在大家也在探索。把你的問題繞開一點,首先現(xiàn)在大家又回到了已有的「范式」:當(dāng)「好」出現(xiàn)之后必然會走向「快」和「省」,所以現(xiàn)在研究推理的人在做「高效推理」。但我覺得,「高效推理」也并不是一個本質(zhì)的、系統(tǒng)性的解法。雷峰網(wǎng)
我認(rèn)為真正系統(tǒng)性的解答,應(yīng)該是想辦法用一個模型把「推理」的能量降下來。不管是在強化學(xué)習(xí)里加長度的約束,或者進(jìn)行混合長度微調(diào),我都覺得不算太優(yōu)雅,不是最終解決方案,因為你最終的范式還是在一個大空間里面去搜索。
o1 是一種相對新的「推理」范式,但步子邁得沒有那么大,本質(zhì)上還是自回歸生成、token by token。只是做得足夠長了,發(fā)現(xiàn)在更長的文本中好像模型能夠去反思、模型效果會變好,但其實還是預(yù)測下一個 token。這就牽引出另外一個問題:預(yù)測下一個 token 會是推理的有效解嗎?
我覺得它可以作為一個解法,但不一定是那個最好的解法。用數(shù)學(xué)的話說就是,梯度確實是在下降,但還沒有下降到局部極小。
2、「推理」為什么重要?
AI 科技評論:您在人工智能領(lǐng)域做了這么多年的研究,您的研究世界觀是怎樣的?
武威:簡單來說就是 8個字: “多快好省, 雙商齊備”(智商與情商)。
“多快好省”原是零售里的說法。在零售中,“多”指“品類多”,能在網(wǎng)上買到各種各樣的商品;但在研究中,我們希望的“多”,至少包括兩塊:
一是模型的任務(wù)范圍要廣,解決盡量多的任務(wù)。這很重要,比如現(xiàn)在的大模型推理,大家將其聚焦在數(shù)學(xué)與代碼上,就不夠多,世界上其實很多問題都需要深度思考才能解決;
二是模型處理的信息要足夠多。ChatGPT 剛出來時,上下文長度大約是 4k,到今天 GPT-4.1 發(fā)布時,上下文已經(jīng)達(dá)到 100 萬,看起來模型能處理的信息已經(jīng)很多了,但實際上還不夠多,因為未來我們或許希望人工智能系統(tǒng)能夠處理 Lifelong Memory(終生記憶),能“記住”它在這個世界上經(jīng)歷的所有事情與信息。
第二個“快”,在零售中“快”體現(xiàn)為“送得快”,而在人工智能中的“快”,我覺得是“響應(yīng)要快”。這在今天也是一個共識,現(xiàn)在各家都希望自己的大模型能響應(yīng)地越來越快。“好”與“省”就是模型效果要好、同時要便宜,這也是大家所追求的。
事實上,人工智能的整個發(fā)展歷史就是在不斷地重復(fù)這樣一個“多快好省”的故事。2018 年 BERT 出圈是憑借效果“好”、任務(wù)“多”,接著圈內(nèi)大家基于 BERT 往兩個方向發(fā)展:一是追求更大的模型(如 GPT-3),從結(jié)果上看是效果更好,任務(wù)更多(生成也能做),二是追求模型的輕量化(即“快”與“省”)。
先是“多”與“好”,接著走向“快”與“省”。當(dāng)“多快好省”這四個字都達(dá)到了一個邊際效益很低的水平時,整個人工智能領(lǐng)域在干什么呢?在準(zhǔn)備下一輪的突破。
2022 年,大家覺得 BERT 的“多快好省”已經(jīng)達(dá)到一個瓶頸時,ChatGPT 出來了,也是先“多”(什么都能做)與“好”(解決一些原本做得不太好的任務(wù),比如長文本生成)。到今天,大模型的追求又變成了要越來越快、越來越省。比如 GPT-4 剛出來時,響應(yīng)是一個字一個字地蹦,后來變得越來越絲滑、流暢。
所以我覺得,無論是需求側(cè)(用戶)、還是供給側(cè)(研發(fā)人員),大家對人工智能的“多快好省”追求都是永恒的。 “多快好省”是基礎(chǔ), “智商”與“情商”是上層能力。模型能力不強的時候,大家很少討論智商、情商,但現(xiàn)在談得越來越多,解讀也有很多。
在我看來,我想追求的“智商”是:用邏輯組合知識,去解決實際問題。這當(dāng)中有兩個非常重要的概念,一是知識,二是邏輯,而且要有機地組合在一起。智商的一個外延體現(xiàn)就是 Reasoning(推理)。
情商這塊,我們希望人工智能系統(tǒng)可以理解人的情緒、人的心理狀態(tài)等,在與人交互的過程中能夠共情。這很重要,因為現(xiàn)在的大模型都是大應(yīng)用、都要跟人交互。我們希望沿著這 8 個字的大方向去做一些對行業(yè)和社區(qū)有價值的研究。
AI 科技評論:沿著這個大方向,你們目前有哪些有趣的研究?
武威:比如“多”,我們一個聚焦的點是長上下文,不僅包括文本、還有多模態(tài)。實際上,多模態(tài)比文本更需要長上下文,一條幾分鐘的視頻就可能產(chǎn)生超過百萬的視覺 token。我們剛開源了一個叫 ViLAMP 的 7B 長視頻理解模型,單卡就能處理 3 小時視頻,而且效果在目前的開源模型中也基本是 SOTA 的。
再比如“好”,我們很看重“推理”(Reasoning),因為推理讓人工智能有希望把一些復(fù)雜問題解決好?!巴评怼笔且粋€很模糊的概念。如果你去看不同的領(lǐng)域,會發(fā)現(xiàn)心理學(xué)、哲學(xué)、數(shù)學(xué)與計算機等不同領(lǐng)域?qū)Α巴评怼钡亩x是不一樣的。而在我看來,“推理”是用邏輯組合知識的過程。在這個大框框下,我們先后做了知識推理智能體 AMOR,基于代碼規(guī)劃的推理范式 CodePlan,以及基于深度思考的問題合成方法 PromptCoT 等。
再比如“情商”,連數(shù)據(jù)都不太完善,因此今年我們也開源了一個包含 130 萬條個性化對齊數(shù)據(jù)的數(shù)據(jù)集 AlignX,至少希望社區(qū)能先玩起來??偟膩碚f,這塊的研究還沒有收斂,但我覺得“情商“”最終還是要走到模型對人類世界的理解,而這個理解也可以認(rèn)為是某種程度上的 “推理”,只不過可能是對人類偏好或人類情緒的推理。今天大家把“推理”限定在了數(shù)學(xué)與代碼上,最后大模型都變成了做題家與程序員,我覺得范圍限制太死了,實際上大模型還可以是好的產(chǎn)品經(jīng)理、銷售、朋友,有非常大的潛力。所以我說,推理這件事很重要。
AI 科技評論:您入行 15 年,經(jīng)歷了許多重要的技術(shù)浪潮。您認(rèn)為,為什么在現(xiàn)在這個時間點,推理顯得更重要?
武威:我記得在 MSRA 的時候,大約是 2014 年,大家還討論過為什么 NLP 叫“自然語言處理”。因為當(dāng)時大家覺得,機器都還不能理解人類語言,更別提生成了。
那時深度學(xué)習(xí)開始興起,NLP 也開始擁抱深度學(xué)習(xí)。2015 年,我參加 ACL,當(dāng)時是 Christopher Manning 做了開幕式演講。他當(dāng)時形容,NLP 就像躲在戰(zhàn)壕里的兔子,深度學(xué)習(xí)就像一把機關(guān)槍或大炮,正在瞄著這些兔子、準(zhǔn)備把它們一掃而平(笑)。
后來發(fā)現(xiàn),在深度學(xué)習(xí)的幫助下,機器對語言的理解能力好像還行,后來又發(fā)現(xiàn)竟然還能生成、創(chuàng)造。這是一件了不起的事。深度學(xué)習(xí)不僅在語言理解上展示了非常強大的潛力,更重要的是它讓生成也變成了可能。
到 2018 年 BERT 出來,“預(yù)訓(xùn)練+微調(diào)”又是另一個技術(shù)浪潮,直接改變了整個 NLP 的運作范式,使 NLP 走向了大一統(tǒng)。2020 年 meena出來后,短文本生成已經(jīng)做得很好了。ChatGPT 出來后,長本文生成被突破,這在之前的很長時間里是不可想象的?,F(xiàn)在沒有人單獨研究長文本生成,因為被大模型研究囊括了。
所以總的來說,當(dāng)我們在講自然語言處理時,我們在問自然語言是否能理解;BERT 突破了理解后,我們又問自然語言是否能生成。從處理、理解到生成,是計算機逐漸掌握人類語言的過程。
經(jīng)歷了一波又一波大的發(fā)展之后,我就非常想看推理,因為我覺得現(xiàn)在生成也被突破后,下一步就是推理。推理涉及到要將知識進(jìn)行組合,復(fù)雜度更高,也能解決更復(fù)雜的任務(wù)。
AI 科技評論:您是從什么時候開始思考推理這個問題的?
武威:2016年我們在討論小冰未來的技術(shù)時就覺得推理很重要,因為小冰做不了推理,所以很多任務(wù)解決不了。
說實話,討論推理在當(dāng)時是非常超前的,因為那時候的 Chatbot 不僅做不了推理,也普遍受限于知識不強、無法進(jìn)行深度交流。沒有知識,生成也會受影響。
當(dāng)時我們通過生成的方式創(chuàng)造回復(fù),只是將海量數(shù)據(jù)里的語言組合在了一起,符合人類的語言表達(dá)習(xí)慣、但沒有知識,效果甚至比不過檢索模型。今天的大模型也會有幻覺,也會在知識上犯錯,但出現(xiàn)的情況已經(jīng)不多。
我在小冰的時候,能想到研究推理,但沒有機會去做,這多少受限于當(dāng)時的技術(shù),無法以一種規(guī)?;姆绞饺ネ评?。當(dāng)時我們甚至也想不清楚什么叫“推理”。
現(xiàn)在我覺得相對清楚了。所以我們團隊真正開始研究推理是在我加入螞蟻之后。這也是源于我?guī)啄昵拔幢M的夙愿吧。
3、「推理」的解法猜想
AI 科技評論:2024 年以來,您的一些研究也圍繞推理提出了不同的聲音。您認(rèn)為 o1、R1 之后的下一步推理應(yīng)該怎么發(fā)展?
武威:我剛才提到,大家都在做高效推理。但如果從快思考、慢思考的角度來看的話,這個話題其實也很有意思。
《思考,快與慢》這本書是從心理學(xué)的角度來解釋一些問題,也比較經(jīng)驗、沒有一些形式化的驗證。但我們今天來看,OpenAI 的大模型有兩個版本號,一個是數(shù)字系列(如 GPT-3、GPT-4),另一個是 o 系列(如 o1、o3),兩個系列分別代表快思考與慢思考,就體現(xiàn)了從系統(tǒng) 1 到 系統(tǒng) 2 的演進(jìn)。
大家對系統(tǒng) 1 與系統(tǒng) 2 的認(rèn)知基本已經(jīng)達(dá)到共識,系統(tǒng) 1 的特點就是快、自發(fā)、沒有消耗,系統(tǒng) 2 是要把注意力分配給需要花費很大努力的行為與心理活動上。這是作者丹尼爾·卡尼曼認(rèn)為的快與慢的區(qū)別。不過這本書里,我覺得更有趣的是,作者寫了他認(rèn)為快思考與慢思考如何協(xié)調(diào)的問題。
第一個觀點是,書中提到,其實人在每日思考的過程中大部分時間都是系統(tǒng) 1 的快思考占主導(dǎo)。
快思考會產(chǎn)生非常多且復(fù)雜的 idea pattern(觀點模式),并將這些傳遞給系統(tǒng) 2。而大部分情況下,系統(tǒng) 2 不經(jīng)思考就接受了、而不是每個 idea 都檢查一遍。所以日常的思考大多是系統(tǒng) 1 的結(jié)果,系統(tǒng) 2 是懶惰的、只有在個別情況下才會去檢查與思考。同時,系統(tǒng) 1 因為想得快,會有很多錯誤,而且還會為這個錯誤提供一些更深層次的洞見。
那為什么會有錯誤?就像今天大模型為什么會有幻覺?我覺得可以作為對大模型幻覺的一個解釋。說白了還是能量最低,因為系統(tǒng) 1 要追求“認(rèn)知的簡便”(Cognitive Ease)——當(dāng)我把這些信息跟我的認(rèn)知整合在一起時,通順、自洽就可以了,至于有沒有錯,系統(tǒng) 1 是不在乎的。
這是系統(tǒng) 1 喜歡干的事情,這么干確實消耗低。然后這些錯誤又因為系統(tǒng) 2 比較懶、不怎么查,所以導(dǎo)致這些結(jié)果被固化了下來。最后這類錯誤積累越來越多。這種錯誤的根源在于認(rèn)知上的懶惰或簡便,很難避免,但很有意思的點是,作者說:那你又避免不了錯誤,人怎么辦好呢?他說,最好的辦法是盡可能地發(fā)現(xiàn)什么情況下容易出錯,然后對這些高風(fēng)險情況盡量多思考。
最終,作者也沒有就如何發(fā)現(xiàn)高風(fēng)險情況提出解法。他認(rèn)為,許多情況下,人最后就是變成了活在一個自洽的世界里,哪怕有錯誤、但只要自洽就好。
回到大模型。如果援引丹尼爾·卡尼曼的說法,大模型應(yīng)該能將長推理與短推理結(jié)合在一起,合在一起可能是一個模型,也可能是兩個模型,關(guān)鍵在于兩個模型、或兩個系統(tǒng)怎么調(diào)度。目前行業(yè)里也還沒有特別優(yōu)雅的方式,比較優(yōu)雅的方式應(yīng)該是自動分配兩種模式。
AI 科技評論:您提到了核心問題,就是系統(tǒng) 1 與系統(tǒng) 2 怎么結(jié)合起來?單一的 Transformer 架構(gòu)可以實現(xiàn)嗎?這塊似乎也還沒有共識。
武威:我認(rèn)為是還沒有一個很好的模型、或者沒有一個很好的 Equation(公式)來解決這個問題,所以大家都還在做一些嘗試。比如把長思維鏈和短思維鏈的數(shù)據(jù)混合在一起做 SFT,這可能是一種解決方案。或者在強化學(xué)習(xí)上做長度的 Reward(獎勵)。
但是,它們都還沒有一個模型去刻畫快思考與慢思考,或者說系統(tǒng) 1 與系統(tǒng) 2 之間的協(xié)作。
我覺得歸根結(jié)底還是要有一個模型、最好是一個數(shù)學(xué)模型去刻畫人工智能的思維方式。我的猜想是,這個模型很可能是在低維空間上的一個模型,通過將能量最低進(jìn)行優(yōu)化來實現(xiàn)。
AI 科技評論:那接下來,您計劃從哪些角度進(jìn)一步研究模型的推理問題?
武威:除了自回歸以外,我們也看先規(guī)劃、再推理這樣的層次化結(jié)構(gòu)。
比如,要做一個用戶調(diào)研的方案,這個任務(wù)交給你之后,你是馬上就拿起筆來開寫嗎?不是的,正常情況下是腦海中先有一份草稿,有一個抽象的規(guī)劃,然后再去實現(xiàn)每個步驟。——你可以認(rèn)為,這個抽象的規(guī)劃就是整個推理過程中的一個低維表示,在這個低維下我再說我怎么把它展開變成一個高維的執(zhí)行。這也是一種推理范式。
其實 Yann LeCun 每次采訪都在說,規(guī)劃與推理很重要。但同時,他又說,他覺得現(xiàn)在的推理模型好像不太對、因為太簡單了。至于什么樣的推理模型是對的,LeCun 也沒說。
AI 科技評論:剛剛提到系統(tǒng) 1 與系統(tǒng) 2。業(yè)內(nèi)也有一種討論,即我們在設(shè)計模型時是否一定要模仿人腦?
武威:說實話,我覺得機器不一定要像人一樣思考。這個問題其實也困擾了我很久,就是我們到底應(yīng)不應(yīng)該按照人腦的方式去設(shè)計人工智能的模型。舉個例子,計算機能很快計算出 π 的值,但人腦就不行。
比如《思考,快與慢》這本書中,有大段對人的思維方式的描述,但這些描述就一定是對的嗎?大家確實可以通過一些事實去印證書中的說法,但還是這個問題:你不能說第 1 個 case 是對的,第 2 個、第 3 個、第 4 個……到第 100 個也都是對的,第 101 個 case 就一定正確。
這在數(shù)學(xué)上是不成立的,數(shù)學(xué)不允許這種情況出現(xiàn)。如果有例外,數(shù)學(xué)就一定要有一個條件去約束、將這個例外抹掉。換句話說,不完全歸納法是不對的。
所以我想來想去,最后我的觀點是,不管人工智能系統(tǒng)到底應(yīng)不應(yīng)該像人,我只要想辦法去接近這個目標(biāo)就好了。這個目標(biāo)就是我剛才說的 8個字:多快好省,雙商齊備。
AI 科技評論:現(xiàn)在的推理還有一個問題,就是有研究發(fā)現(xiàn),o1、R1 與 Gemini 等模型在做推理時,更重視結(jié)果的正確率,中間的推理過程可能是錯的。
武威:關(guān)于這個現(xiàn)象,我有兩個觀點。第一個觀點是:我認(rèn)為長思維鏈?zhǔn)且砸环N相對笨拙的方式實現(xiàn)了深度思考。當(dāng)然,它非常有意義,因為它起碼給出了一個實現(xiàn),即使這個實現(xiàn)是高能耗的。我們不能天天空談深度思考、卻沒有任何實現(xiàn)。
第二個觀點是,當(dāng)模型的能力發(fā)展到最后,思考的過程可能比結(jié)果更重要。因為我們回到數(shù)學(xué)來看,其實很多數(shù)學(xué)問題已經(jīng)有結(jié)果了,只是有些結(jié)果被證實了、有些沒被證實。
比如費馬定理,最早叫費馬猜想,它的結(jié)果早就有了,就是當(dāng)整數(shù) n>2 時,方程 x 的 n 次方加 y 的 n 次方等于 z 的 n 次方?jīng)]有正整數(shù)解。黎曼猜想也是,早就有結(jié)果了,重要的是:你怎么得到從這個假設(shè)到這個結(jié)論的整個求解過程。從數(shù)學(xué)的角度看,推理過程是非常重要的。
所以 Andrew Wiles 的巨大貢獻(xiàn),一方面是他證明了費馬猜想,將費馬猜想變成費馬定理;更重要的是,在這個證明過程中,數(shù)學(xué)的許多新興方向誕生,比如橢圓曲線、代數(shù)幾何等等,這對數(shù)學(xué)界是巨大的貢獻(xiàn)。
在我看來,推理是利用邏輯對知識進(jìn)行有機組合。如果我們在不同的問題上都能給出各種各樣的知識組合,那么會不會有一些知識組合是人類未曾觸碰到的、對人類文明進(jìn)步有非常大啟發(fā)的呢?如果有,那么產(chǎn)生這些組合的價值遠(yuǎn)比你解決一個問題還要大,因為你會創(chuàng)造出新的知識來。
從這個角度看,其實深度思考的巨大價值與潛力還沒有被挖掘出來。推理的結(jié)果很重要,但我更重視當(dāng)中的思考過程?,F(xiàn)在 R1 已經(jīng)給我們提供了一個高維的實現(xiàn),我們應(yīng)該在 R1 的基礎(chǔ)上去做更大膽的迭代。
AI 科技評論:R1 出來后,有改變您對推理的看法嗎?您對推理的研究有更興奮嗎?
武威:我覺得還是很令人振奮的,因為R1 讓我們看到了深度思考的一種規(guī)?;瘜崿F(xiàn),不過R1本質(zhì)上仍然是自回歸,我覺得這里面空間還是很大的。
我覺得應(yīng)該有一個通用的模型,但我也不知道這個模型長什么樣子。所以 2023 年我們剛開始研究推理的時候,是先研究 Agent。
為什么是先研究 Agent 呢?就是因為我不知道通用的怎么做,沒辦法,只能先做一個特殊的 Knowledge Agent(知識智能體),看能不能擴展。我們把一個任務(wù)拆成一個個模塊,然后再把這些模塊用人工設(shè)計的邏輯串在一起。
就好像我們在解一道數(shù)學(xué)題的時候,你不會解,怎么辦呢?就先找一些具體的 case,加一些條件。比如一個泛函問題,你先把它變成二維空間,二維空間能證明、再看三維空間能不能證明;當(dāng)二維、三維都證明之后,再看中間有沒有共性、能不能拓展到高維。
R1 令人驚艷的地方是直接就到高維了。我覺得更令人興奮的地方在于通過深度思考來創(chuàng)造新的知識,那這一點 R1 還達(dá)不到,因為還沒有辦法保證思考過程是對的。我們也還沒有辦法保證我們的推理過程一定是對的,但我覺得這是一個很重要的問題。
后來我們又探索了 CodePlan,希望用代碼實現(xiàn)先規(guī)劃、后推理。只是我們當(dāng)時做完后,受限于一些資源問題,沒有辦法驗證它的效果是最好的。今年年初 DeepSeek 團隊有一個工作,也是先用代碼做規(guī)劃,不同的是他們后來又將代碼變成了自然語言。我猜測可能是因為純代碼的效果不太好。
最近我們又研發(fā)了 PromptCoT,嘗試將深度思考用到問題合成上,也看到了非常驚艷的效果。一個 7B 小模型就可以和 32B 模型比肩。最重要的是,這個工作讓我們看到了深度思考 for 其它任務(wù)的可能性。
其實大家都在想,到底下一代推理模型應(yīng)該是什么樣的,同時又希望追求智能極限。這兩個目標(biāo)都很難,特別是對企業(yè)來說。在企業(yè)里,你不太可能說,你有一個非常大的目標(biāo)、要投入多少資金,還不能確定這個目標(biāo)能不能達(dá)到,這是一個現(xiàn)實問題。理性來說,我們需要更多的 case 去支撐繼續(xù)探索的信念。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。