0
本文作者: 陳彩嫻 | 2025-05-21 00:10 |
R1 之后,長(zhǎng)思維鏈成為研究下一代基礎(chǔ)模型中 “推理”(Reasoning)能力的熱門(mén)方向。一方面,R1 證明了大模型深度思考的可行性;與此同時(shí),盡管 R1 展現(xiàn)出了強(qiáng)大的性能,大模型推理的序幕實(shí)則才剛剛拉開(kāi)。
此外,R1 在海外掀桌也給國(guó)內(nèi)人工智能的研究帶來(lái)一個(gè)顯著影響,即:越來(lái)越多的研究者敢于站在更高視角思考,提出前瞻引領(lǐng)的技術(shù)思想。螞蟻技術(shù)研究院自然語(yǔ)言處理負(fù)責(zé)人武威對(duì)推理的思考就是其中一個(gè)典型。
武威的本科與博士均畢業(yè)于北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院。2011 年獲微軟學(xué)者后,他于 2012 年加入微軟亞洲研究院,歷任主管研究員、微軟小冰首席科學(xué)家。加入螞蟻前,他還曾任美團(tuán) NLP 中心負(fù)責(zé)人。
針對(duì)模型的推理,武威從數(shù)學(xué)出發(fā),提出了許多與目前業(yè)內(nèi)主流不同的聲音。
事實(shí)上,早在 OpenAI 發(fā)布 o1 之前的 2023 年下半年,武威與團(tuán)隊(duì)就已開(kāi)始研究大模型的推理問(wèn)題。武威指出,R1 的實(shí)現(xiàn)結(jié)果是令人興奮的,但同時(shí)他評(píng)價(jià),長(zhǎng)思維鏈推理未必最優(yōu),“因?yàn)檫@樣的模型維度太高、能量太高,以致表現(xiàn)不太穩(wěn)定?!?/span>
實(shí)際上,物理與化學(xué)中的大量現(xiàn)象均表明,能量最小的結(jié)構(gòu)才最穩(wěn)定。因此,武威猜想,未來(lái)的推理模型可能是更低維、更穩(wěn)定的人工智能系統(tǒng)。如果說(shuō)長(zhǎng)思維鏈?zhǔn)窍到y(tǒng) 2,一些研究則顯示,在人的日常思考中,占主導(dǎo)的往往是消耗更低的系統(tǒng) 1。
此外,當(dāng)前的主流推理模型都出現(xiàn)推理結(jié)果正確、但推理過(guò)程出錯(cuò)的現(xiàn)象。在長(zhǎng)思維鏈的實(shí)現(xiàn)中,糾錯(cuò)的成本也隨之增加。同樣以數(shù)學(xué)為例,武威指出:當(dāng)推理模型發(fā)展到最后,思考過(guò)程或許比結(jié)果更重要;相比解決一個(gè)問(wèn)題,模型在思考中發(fā)現(xiàn)新知識(shí)(如經(jīng)典數(shù)學(xué)問(wèn)題的新證法)是更有價(jià)值的——由此可見(jiàn),深度思考還有很大的潛力。
如何設(shè)計(jì)一個(gè)能夠?qū)⑾到y(tǒng) 1 與系統(tǒng) 2、或快思考與慢思考高效結(jié)合的推理模型,成為大模型的下一個(gè)重要方向。而武威認(rèn)為,從數(shù)學(xué)的角度出發(fā),用一個(gè)優(yōu)雅的數(shù)學(xué)模型去刻畫(huà)人工智能的思維方式或許是終極解法;亦或者,自洽是所有推理系統(tǒng)的最終歸宿。
以下是 AI 科技評(píng)論與武威的對(duì)話:
1、什么是「推理」?
AI 科技評(píng)論:現(xiàn)在圈內(nèi)對(duì)于「推理」有各種各樣的定義,還有的觀點(diǎn)將 Reasoning 與 Inference 相混淆。
武威:對(duì)。根據(jù)我自己看的文獻(xiàn),「推理」的定義最早能夠追溯到 2011 年。那一年,機(jī)器學(xué)習(xí)大佬 Leon Bottou 寫(xiě)了一篇文章,叫「From Machine Learning to Machine Reasoning」。當(dāng)時(shí)業(yè)內(nèi)對(duì)「Reasoning」還沒(méi)有一個(gè)清晰的定義,Leon Bottou 就在這篇文章說(shuō),他認(rèn)為「Reasoning」(推理)是「代數(shù)地操作已有的知識(shí)去解決新的問(wèn)題」。
論文鏈接:https://arxiv.org/pdf/1102.1808
那什么叫「Reasoning System」(推理系統(tǒng))呢?Leon Bottou 認(rèn)為,推理系統(tǒng)應(yīng)該包含兩點(diǎn):一是包含一個(gè)函數(shù)的代數(shù)空間,二是任何一個(gè)問(wèn)題都能對(duì)應(yīng)到這個(gè)代數(shù)空間中的一個(gè)函數(shù)組合。——我當(dāng)時(shí)看到這個(gè)觀點(diǎn),就覺(jué)得跟 Marvin Minsky 在上世紀(jì) 80 年代的一本書(shū)《Society of Mind》(心智社會(huì))中對(duì)「智能」的觀點(diǎn)是非常吻合的。
什么是真正的智能?Minsky 認(rèn)為,人的意識(shí)應(yīng)該是由非常多的小的過(guò)程(smaller processes)組成的,他管這些叫「Agent」(智能體)。這些Agent能夠解決非常簡(jiǎn)單的問(wèn)題,而且?guī)缀醪幌哪芰俊.?dāng)遇到復(fù)雜問(wèn)題時(shí),這些Agent一部分會(huì)被激活,并且會(huì)以一種方式組合在一起——這時(shí)候真正的智能就誕生了。
今天再看,Minsky 在上世紀(jì) 80 年代提出的觀點(diǎn)可能有點(diǎn)過(guò)于經(jīng)驗(yàn)性,但同時(shí)我又覺(jué)得非常有道理,因?yàn)樗浅7先说闹庇X(jué)。而 Bottou 的文章是用形式化的語(yǔ)言進(jìn)行了解釋。Bottou 所提到的這個(gè)函數(shù)的代數(shù)空間,你可以認(rèn)為是這些智能體的一個(gè)集合;而這個(gè)函數(shù)的代數(shù)組合,則是 Minsky 所說(shuō)的智能體之間的連接或組合。雷峰網(wǎng)
接著,Leon Bottou 又在文章里提出了一個(gè)有趣的猜想。他說(shuō),現(xiàn)在有各種各樣的推理系統(tǒng),包括概率推理、邏輯推理、因果推理等等,那么最終的推理系統(tǒng)會(huì)是什么樣的呢?
他認(rèn)為有兩種可能:一種可能是出現(xiàn)一個(gè)絕對(duì)強(qiáng)的(推理)模型,把這些小的(推理)模型都干掉,而且這個(gè)超強(qiáng)模型是能夠擴(kuò)展、能夠計(jì)算的,計(jì)算成本也是大家能負(fù)擔(dān)得起的;另一種可能是,不同的推理模型互不干涉、各干各的,因果推理做因果推理,概率推理做概率推理,邏輯推理做邏輯推理等等。
今天來(lái)看,其實(shí) Bottou 的第一種預(yù)言被驗(yàn)證了,這個(gè)超強(qiáng)的模型就是「大模型」。但即使大模型出現(xiàn)了,「推理」這件事也仍然是模糊的,而如果讓我給一個(gè)定義,那么我覺(jué)得,推理是指:用邏輯組合知識(shí)解決新問(wèn)題的過(guò)程。
AI 科技評(píng)論:R1 有「推理」的雛形嗎?
武威:有,因?yàn)榧僭O(shè)你讓它去解決數(shù)學(xué)題,第一它有知識(shí),它會(huì)說(shuō)這個(gè)問(wèn)題應(yīng)該用 XX 定理去解;然后它會(huì)說(shuō),解決這個(gè)問(wèn)題應(yīng)該怎么做、中間的步驟是什么。這其實(shí)就是將數(shù)學(xué)知識(shí)以一種邏輯整合在一起解決問(wèn)題。雷峰網(wǎng)
如果將模型應(yīng)用到其它方向上,不再是解決數(shù)學(xué)問(wèn)題,而是變成旅游規(guī)劃,那么模型就要對(duì)旅游目的地的人文、地理、美食等知識(shí)有所了解,最后將這些知識(shí)以合理的邏輯組合在一起,生成一個(gè)旅游方案。
如果沒(méi)有足夠的知識(shí),或者正確的邏輯,那就會(huì)出錯(cuò):比如我跟大模型說(shuō)要去西北旅游三天,模型輸出結(jié)果告訴我,第一天上午在烏魯木齊、一個(gè)小時(shí)后就跑到西安,那就不是正確的「推理」了。所以我說(shuō),推理是要用邏輯將知識(shí)合理地組織在一起,「知識(shí)」與「邏輯」缺一不可。
AI 科技評(píng)論:是不是 R1 出來(lái)后,您才看到「推理」范式有所詮釋?
武威:我覺(jué)得 R1 提供了一種「推理」的可擴(kuò)展的實(shí)現(xiàn)方式,這很了不起。但我同時(shí)覺(jué)得,長(zhǎng)思維鏈的「推理」并不一定時(shí)最優(yōu)的,原因在于能量太高、維度太高。
物理與化學(xué)都是追求「最小能量」,因?yàn)槟芰孔钚〉臅r(shí)候、結(jié)構(gòu)最穩(wěn)定。在化學(xué)中,勢(shì)能最低時(shí)、結(jié)構(gòu)最穩(wěn)定;在熱力學(xué)中,自由能最低的時(shí)候、系統(tǒng)才穩(wěn)定。
但在長(zhǎng)思維鏈的推理中,本質(zhì)上是每一個(gè) token 的預(yù)測(cè)對(duì)應(yīng)詞庫(kù)上的一個(gè)分布,當(dāng)你有 1 萬(wàn)個(gè) token 時(shí)、其實(shí)就是 1 萬(wàn)維,1 萬(wàn)乘以這個(gè)詞庫(kù)維度的向量是非常大的、非常高維的,與之相隨的就是系統(tǒng)不穩(wěn)定。現(xiàn)在的推理模型實(shí)際上在訓(xùn)練過(guò)程中也很不穩(wěn)定。
所以我覺(jué)得,未來(lái)在推理模型上應(yīng)該有一個(gè)更低維、更穩(wěn)定的系統(tǒng)出現(xiàn)。現(xiàn)在的長(zhǎng)思維鏈推理都太高維、能量也太高,只要用自回歸的方式做長(zhǎng)推理都會(huì)面臨這個(gè)問(wèn)題。
AI 科技評(píng)論:那現(xiàn)在除了自回歸,還有其它的技術(shù)路線去實(shí)現(xiàn)模型的推理嗎?
武威:現(xiàn)在大家也在探索。把你的問(wèn)題繞開(kāi)一點(diǎn),首先現(xiàn)在大家又回到了已有的「范式」:當(dāng)「好」出現(xiàn)之后必然會(huì)走向「快」和「省」,所以現(xiàn)在研究推理的人在做「高效推理」。但我覺(jué)得,「高效推理」也并不是一個(gè)本質(zhì)的、系統(tǒng)性的解法。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
我認(rèn)為真正系統(tǒng)性的解答,應(yīng)該是想辦法用一個(gè)模型把「推理」的能量降下來(lái)。不管是在強(qiáng)化學(xué)習(xí)里加長(zhǎng)度的約束,或者進(jìn)行混合長(zhǎng)度微調(diào),我都覺(jué)得不算太優(yōu)雅,不是最終解決方案,因?yàn)槟阕罱K的范式還是在一個(gè)大空間里面去搜索。
o1 是一種相對(duì)新的「推理」范式,但步子邁得沒(méi)有那么大,本質(zhì)上還是自回歸生成、token by token。只是做得足夠長(zhǎng)了,發(fā)現(xiàn)在更長(zhǎng)的文本中好像模型能夠去反思、模型效果會(huì)變好,但其實(shí)還是預(yù)測(cè)下一個(gè) token。這就牽引出另外一個(gè)問(wèn)題:預(yù)測(cè)下一個(gè) token 會(huì)是推理的有效解嗎?
我覺(jué)得它可以作為一個(gè)解法,但不一定是那個(gè)最好的解法。用數(shù)學(xué)的話說(shuō)就是,梯度確實(shí)是在下降,但還沒(méi)有下降到局部極小。
2、「推理」為什么重要?
AI 科技評(píng)論:您在人工智能領(lǐng)域做了這么多年的研究,您的研究世界觀是怎樣的?
武威:簡(jiǎn)單來(lái)說(shuō)就是 8個(gè)字: “多快好省, 雙商齊備”(智商與情商)。
“多快好省”原是零售里的說(shuō)法。在零售中,“多”指“品類多”,能在網(wǎng)上買(mǎi)到各種各樣的商品;但在研究中,我們希望的“多”,至少包括兩塊:
一是模型的任務(wù)范圍要廣,解決盡量多的任務(wù)。這很重要,比如現(xiàn)在的大模型推理,大家將其聚焦在數(shù)學(xué)與代碼上,就不夠多,世界上其實(shí)很多問(wèn)題都需要深度思考才能解決;
二是模型處理的信息要足夠多。ChatGPT 剛出來(lái)時(shí),上下文長(zhǎng)度大約是 4k,到今天 GPT-4.1 發(fā)布時(shí),上下文已經(jīng)達(dá)到 100 萬(wàn),看起來(lái)模型能處理的信息已經(jīng)很多了,但實(shí)際上還不夠多,因?yàn)槲磥?lái)我們或許希望人工智能系統(tǒng)能夠處理 Lifelong Memory(終生記憶),能“記住”它在這個(gè)世界上經(jīng)歷的所有事情與信息。
第二個(gè)“快”,在零售中“快”體現(xiàn)為“送得快”,而在人工智能中的“快”,我覺(jué)得是“響應(yīng)要快”。這在今天也是一個(gè)共識(shí),現(xiàn)在各家都希望自己的大模型能響應(yīng)地越來(lái)越快?!昂谩迸c“省”就是模型效果要好、同時(shí)要便宜,這也是大家所追求的。
事實(shí)上,人工智能的整個(gè)發(fā)展歷史就是在不斷地重復(fù)這樣一個(gè)“多快好省”的故事。2018 年 BERT 出圈是憑借效果“好”、任務(wù)“多”,接著圈內(nèi)大家基于 BERT 往兩個(gè)方向發(fā)展:一是追求更大的模型(如 GPT-3),從結(jié)果上看是效果更好,任務(wù)更多(生成也能做),二是追求模型的輕量化(即“快”與“省”)。
先是“多”與“好”,接著走向“快”與“省”。當(dāng)“多快好省”這四個(gè)字都達(dá)到了一個(gè)邊際效益很低的水平時(shí),整個(gè)人工智能領(lǐng)域在干什么呢?在準(zhǔn)備下一輪的突破。
2022 年,大家覺(jué)得 BERT 的“多快好省”已經(jīng)達(dá)到一個(gè)瓶頸時(shí),ChatGPT 出來(lái)了,也是先“多”(什么都能做)與“好”(解決一些原本做得不太好的任務(wù),比如長(zhǎng)文本生成)。到今天,大模型的追求又變成了要越來(lái)越快、越來(lái)越省。比如 GPT-4 剛出來(lái)時(shí),響應(yīng)是一個(gè)字一個(gè)字地蹦,后來(lái)變得越來(lái)越絲滑、流暢。
所以我覺(jué)得,無(wú)論是需求側(cè)(用戶)、還是供給側(cè)(研發(fā)人員),大家對(duì)人工智能的“多快好省”追求都是永恒的。 “多快好省”是基礎(chǔ), “智商”與“情商”是上層能力。模型能力不強(qiáng)的時(shí)候,大家很少討論智商、情商,但現(xiàn)在談得越來(lái)越多,解讀也有很多。
在我看來(lái),我想追求的“智商”是:用邏輯組合知識(shí),去解決實(shí)際問(wèn)題。這當(dāng)中有兩個(gè)非常重要的概念,一是知識(shí),二是邏輯,而且要有機(jī)地組合在一起。智商的一個(gè)外延體現(xiàn)就是 Reasoning(推理)。
情商這塊,我們希望人工智能系統(tǒng)可以理解人的情緒、人的心理狀態(tài)等,在與人交互的過(guò)程中能夠共情。這很重要,因?yàn)楝F(xiàn)在的大模型都是大應(yīng)用、都要跟人交互。我們希望沿著這 8 個(gè)字的大方向去做一些對(duì)行業(yè)和社區(qū)有價(jià)值的研究。
AI 科技評(píng)論:沿著這個(gè)大方向,你們目前有哪些有趣的研究?
武威:比如“多”,我們一個(gè)聚焦的點(diǎn)是長(zhǎng)上下文,不僅包括文本、還有多模態(tài)。實(shí)際上,多模態(tài)比文本更需要長(zhǎng)上下文,一條幾分鐘的視頻就可能產(chǎn)生超過(guò)百萬(wàn)的視覺(jué) token。我們剛開(kāi)源了一個(gè)叫 ViLAMP 的 7B 長(zhǎng)視頻理解模型,單卡就能處理 3 小時(shí)視頻,而且效果在目前的開(kāi)源模型中也基本是 SOTA 的。
再比如“好”,我們很看重“推理”(Reasoning),因?yàn)橥评碜屓斯ぶ悄苡邢M岩恍?fù)雜問(wèn)題解決好?!巴评怼笔且粋€(gè)很模糊的概念。如果你去看不同的領(lǐng)域,會(huì)發(fā)現(xiàn)心理學(xué)、哲學(xué)、數(shù)學(xué)與計(jì)算機(jī)等不同領(lǐng)域?qū)Α巴评怼钡亩x是不一樣的。而在我看來(lái),“推理”是用邏輯組合知識(shí)的過(guò)程。在這個(gè)大框框下,我們先后做了知識(shí)推理智能體 AMOR,基于代碼規(guī)劃的推理范式 CodePlan,以及基于深度思考的問(wèn)題合成方法 PromptCoT 等。
再比如“情商”,連數(shù)據(jù)都不太完善,因此今年我們也開(kāi)源了一個(gè)包含 130 萬(wàn)條個(gè)性化對(duì)齊數(shù)據(jù)的數(shù)據(jù)集 AlignX,至少希望社區(qū)能先玩起來(lái)。總的來(lái)說(shuō),這塊的研究還沒(méi)有收斂,但我覺(jué)得“情商“”最終還是要走到模型對(duì)人類世界的理解,而這個(gè)理解也可以認(rèn)為是某種程度上的 “推理”,只不過(guò)可能是對(duì)人類偏好或人類情緒的推理。今天大家把“推理”限定在了數(shù)學(xué)與代碼上,最后大模型都變成了做題家與程序員,我覺(jué)得范圍限制太死了,實(shí)際上大模型還可以是好的產(chǎn)品經(jīng)理、銷售、朋友,有非常大的潛力。所以我說(shuō),推理這件事很重要。
AI 科技評(píng)論:您入行 15 年,經(jīng)歷了許多重要的技術(shù)浪潮。您認(rèn)為,為什么在現(xiàn)在這個(gè)時(shí)間點(diǎn),推理顯得更重要?
武威:我記得在 MSRA 的時(shí)候,大約是 2014 年,大家還討論過(guò)為什么 NLP 叫“自然語(yǔ)言處理”。因?yàn)楫?dāng)時(shí)大家覺(jué)得,機(jī)器都還不能理解人類語(yǔ)言,更別提生成了。
那時(shí)深度學(xué)習(xí)開(kāi)始興起,NLP 也開(kāi)始擁抱深度學(xué)習(xí)。2015 年,我參加 ACL,當(dāng)時(shí)是 Christopher Manning 做了開(kāi)幕式演講。他當(dāng)時(shí)形容,NLP 就像躲在戰(zhàn)壕里的兔子,深度學(xué)習(xí)就像一把機(jī)關(guān)槍或大炮,正在瞄著這些兔子、準(zhǔn)備把它們一掃而平(笑)。
后來(lái)發(fā)現(xiàn),在深度學(xué)習(xí)的幫助下,機(jī)器對(duì)語(yǔ)言的理解能力好像還行,后來(lái)又發(fā)現(xiàn)竟然還能生成、創(chuàng)造。這是一件了不起的事。深度學(xué)習(xí)不僅在語(yǔ)言理解上展示了非常強(qiáng)大的潛力,更重要的是它讓生成也變成了可能。
到 2018 年 BERT 出來(lái),“預(yù)訓(xùn)練+微調(diào)”又是另一個(gè)技術(shù)浪潮,直接改變了整個(gè) NLP 的運(yùn)作范式,使 NLP 走向了大一統(tǒng)。2020 年 meena出來(lái)后,短文本生成已經(jīng)做得很好了。ChatGPT 出來(lái)后,長(zhǎng)本文生成被突破,這在之前的很長(zhǎng)時(shí)間里是不可想象的?,F(xiàn)在沒(méi)有人單獨(dú)研究長(zhǎng)文本生成,因?yàn)楸淮竽P脱芯磕依恕?/span>
所以總的來(lái)說(shuō),當(dāng)我們?cè)谥v自然語(yǔ)言處理時(shí),我們?cè)趩?wèn)自然語(yǔ)言是否能理解;BERT 突破了理解后,我們又問(wèn)自然語(yǔ)言是否能生成。從處理、理解到生成,是計(jì)算機(jī)逐漸掌握人類語(yǔ)言的過(guò)程。
經(jīng)歷了一波又一波大的發(fā)展之后,我就非常想看推理,因?yàn)槲矣X(jué)得現(xiàn)在生成也被突破后,下一步就是推理。推理涉及到要將知識(shí)進(jìn)行組合,復(fù)雜度更高,也能解決更復(fù)雜的任務(wù)。
AI 科技評(píng)論:您是從什么時(shí)候開(kāi)始思考推理這個(gè)問(wèn)題的?
武威:2016年我們?cè)谟懻撔”磥?lái)的技術(shù)時(shí)就覺(jué)得推理很重要,因?yàn)樾”霾涣送评?,所以很多任?wù)解決不了。
說(shuō)實(shí)話,討論推理在當(dāng)時(shí)是非常超前的,因?yàn)槟菚r(shí)候的 Chatbot 不僅做不了推理,也普遍受限于知識(shí)不強(qiáng)、無(wú)法進(jìn)行深度交流。沒(méi)有知識(shí),生成也會(huì)受影響。
當(dāng)時(shí)我們通過(guò)生成的方式創(chuàng)造回復(fù),只是將海量數(shù)據(jù)里的語(yǔ)言組合在了一起,符合人類的語(yǔ)言表達(dá)習(xí)慣、但沒(méi)有知識(shí),效果甚至比不過(guò)檢索模型。今天的大模型也會(huì)有幻覺(jué),也會(huì)在知識(shí)上犯錯(cuò),但出現(xiàn)的情況已經(jīng)不多。
我在小冰的時(shí)候,能想到研究推理,但沒(méi)有機(jī)會(huì)去做,這多少受限于當(dāng)時(shí)的技術(shù),無(wú)法以一種規(guī)模化的方式去推理。當(dāng)時(shí)我們甚至也想不清楚什么叫“推理”。
現(xiàn)在我覺(jué)得相對(duì)清楚了。所以我們團(tuán)隊(duì)真正開(kāi)始研究推理是在我加入螞蟻之后。這也是源于我?guī)啄昵拔幢M的夙愿吧。
3、「推理」的解法猜想
AI 科技評(píng)論:2024 年以來(lái),您的一些研究也圍繞推理提出了不同的聲音。您認(rèn)為 o1、R1 之后的下一步推理應(yīng)該怎么發(fā)展?
武威:我剛才提到,大家都在做高效推理。但如果從快思考、慢思考的角度來(lái)看的話,這個(gè)話題其實(shí)也很有意思。
《思考,快與慢》這本書(shū)是從心理學(xué)的角度來(lái)解釋一些問(wèn)題,也比較經(jīng)驗(yàn)、沒(méi)有一些形式化的驗(yàn)證。但我們今天來(lái)看,OpenAI 的大模型有兩個(gè)版本號(hào),一個(gè)是數(shù)字系列(如 GPT-3、GPT-4),另一個(gè)是 o 系列(如 o1、o3),兩個(gè)系列分別代表快思考與慢思考,就體現(xiàn)了從系統(tǒng) 1 到 系統(tǒng) 2 的演進(jìn)。
大家對(duì)系統(tǒng) 1 與系統(tǒng) 2 的認(rèn)知基本已經(jīng)達(dá)到共識(shí),系統(tǒng) 1 的特點(diǎn)就是快、自發(fā)、沒(méi)有消耗,系統(tǒng) 2 是要把注意力分配給需要花費(fèi)很大努力的行為與心理活動(dòng)上。這是作者丹尼爾·卡尼曼認(rèn)為的快與慢的區(qū)別。不過(guò)這本書(shū)里,我覺(jué)得更有趣的是,作者寫(xiě)了他認(rèn)為快思考與慢思考如何協(xié)調(diào)的問(wèn)題。
第一個(gè)觀點(diǎn)是,書(shū)中提到,其實(shí)人在每日思考的過(guò)程中大部分時(shí)間都是系統(tǒng) 1 的快思考占主導(dǎo)。
快思考會(huì)產(chǎn)生非常多且復(fù)雜的 idea pattern(觀點(diǎn)模式),并將這些傳遞給系統(tǒng) 2。而大部分情況下,系統(tǒng) 2 不經(jīng)思考就接受了、而不是每個(gè) idea 都檢查一遍。所以日常的思考大多是系統(tǒng) 1 的結(jié)果,系統(tǒng) 2 是懶惰的、只有在個(gè)別情況下才會(huì)去檢查與思考。同時(shí),系統(tǒng) 1 因?yàn)橄氲每?,?huì)有很多錯(cuò)誤,而且還會(huì)為這個(gè)錯(cuò)誤提供一些更深層次的洞見(jiàn)。
那為什么會(huì)有錯(cuò)誤?就像今天大模型為什么會(huì)有幻覺(jué)?我覺(jué)得可以作為對(duì)大模型幻覺(jué)的一個(gè)解釋。說(shuō)白了還是能量最低,因?yàn)橄到y(tǒng) 1 要追求“認(rèn)知的簡(jiǎn)便”(Cognitive Ease)——當(dāng)我把這些信息跟我的認(rèn)知整合在一起時(shí),通順、自洽就可以了,至于有沒(méi)有錯(cuò),系統(tǒng) 1 是不在乎的。
這是系統(tǒng) 1 喜歡干的事情,這么干確實(shí)消耗低。然后這些錯(cuò)誤又因?yàn)橄到y(tǒng) 2 比較懶、不怎么查,所以導(dǎo)致這些結(jié)果被固化了下來(lái)。最后這類錯(cuò)誤積累越來(lái)越多。這種錯(cuò)誤的根源在于認(rèn)知上的懶惰或簡(jiǎn)便,很難避免,但很有意思的點(diǎn)是,作者說(shuō):那你又避免不了錯(cuò)誤,人怎么辦好呢?他說(shuō),最好的辦法是盡可能地發(fā)現(xiàn)什么情況下容易出錯(cuò),然后對(duì)這些高風(fēng)險(xiǎn)情況盡量多思考。
最終,作者也沒(méi)有就如何發(fā)現(xiàn)高風(fēng)險(xiǎn)情況提出解法。他認(rèn)為,許多情況下,人最后就是變成了活在一個(gè)自洽的世界里,哪怕有錯(cuò)誤、但只要自洽就好。
回到大模型。如果援引丹尼爾·卡尼曼的說(shuō)法,大模型應(yīng)該能將長(zhǎng)推理與短推理結(jié)合在一起,合在一起可能是一個(gè)模型,也可能是兩個(gè)模型,關(guān)鍵在于兩個(gè)模型、或兩個(gè)系統(tǒng)怎么調(diào)度。目前行業(yè)里也還沒(méi)有特別優(yōu)雅的方式,比較優(yōu)雅的方式應(yīng)該是自動(dòng)分配兩種模式。
AI 科技評(píng)論:您提到了核心問(wèn)題,就是系統(tǒng) 1 與系統(tǒng) 2 怎么結(jié)合起來(lái)?單一的 Transformer 架構(gòu)可以實(shí)現(xiàn)嗎?這塊似乎也還沒(méi)有共識(shí)。
武威:我認(rèn)為是還沒(méi)有一個(gè)很好的模型、或者沒(méi)有一個(gè)很好的 Equation(公式)來(lái)解決這個(gè)問(wèn)題,所以大家都還在做一些嘗試。比如把長(zhǎng)思維鏈和短思維鏈的數(shù)據(jù)混合在一起做 SFT,這可能是一種解決方案?;蛘咴趶?qiáng)化學(xué)習(xí)上做長(zhǎng)度的 Reward(獎(jiǎng)勵(lì))。
但是,它們都還沒(méi)有一個(gè)模型去刻畫(huà)快思考與慢思考,或者說(shuō)系統(tǒng) 1 與系統(tǒng) 2 之間的協(xié)作。
我覺(jué)得歸根結(jié)底還是要有一個(gè)模型、最好是一個(gè)數(shù)學(xué)模型去刻畫(huà)人工智能的思維方式。我的猜想是,這個(gè)模型很可能是在低維空間上的一個(gè)模型,通過(guò)將能量最低進(jìn)行優(yōu)化來(lái)實(shí)現(xiàn)。
AI 科技評(píng)論:那接下來(lái),您計(jì)劃從哪些角度進(jìn)一步研究模型的推理問(wèn)題?
武威:除了自回歸以外,我們也看先規(guī)劃、再推理這樣的層次化結(jié)構(gòu)。
比如,要做一個(gè)用戶調(diào)研的方案,這個(gè)任務(wù)交給你之后,你是馬上就拿起筆來(lái)開(kāi)寫(xiě)嗎?不是的,正常情況下是腦海中先有一份草稿,有一個(gè)抽象的規(guī)劃,然后再去實(shí)現(xiàn)每個(gè)步驟。——你可以認(rèn)為,這個(gè)抽象的規(guī)劃就是整個(gè)推理過(guò)程中的一個(gè)低維表示,在這個(gè)低維下我再說(shuō)我怎么把它展開(kāi)變成一個(gè)高維的執(zhí)行。這也是一種推理范式。
其實(shí) Yann LeCun 每次采訪都在說(shuō),規(guī)劃與推理很重要。但同時(shí),他又說(shuō),他覺(jué)得現(xiàn)在的推理模型好像不太對(duì)、因?yàn)樘?jiǎn)單了。至于什么樣的推理模型是對(duì)的,LeCun 也沒(méi)說(shuō)。
AI 科技評(píng)論:剛剛提到系統(tǒng) 1 與系統(tǒng) 2。業(yè)內(nèi)也有一種討論,即我們?cè)谠O(shè)計(jì)模型時(shí)是否一定要模仿人腦?
武威:說(shuō)實(shí)話,我覺(jué)得機(jī)器不一定要像人一樣思考。這個(gè)問(wèn)題其實(shí)也困擾了我很久,就是我們到底應(yīng)不應(yīng)該按照人腦的方式去設(shè)計(jì)人工智能的模型。舉個(gè)例子,計(jì)算機(jī)能很快計(jì)算出 π 的值,但人腦就不行。
比如《思考,快與慢》這本書(shū)中,有大段對(duì)人的思維方式的描述,但這些描述就一定是對(duì)的嗎?大家確實(shí)可以通過(guò)一些事實(shí)去印證書(shū)中的說(shuō)法,但還是這個(gè)問(wèn)題:你不能說(shuō)第 1 個(gè) case 是對(duì)的,第 2 個(gè)、第 3 個(gè)、第 4 個(gè)……到第 100 個(gè)也都是對(duì)的,第 101 個(gè) case 就一定正確。
這在數(shù)學(xué)上是不成立的,數(shù)學(xué)不允許這種情況出現(xiàn)。如果有例外,數(shù)學(xué)就一定要有一個(gè)條件去約束、將這個(gè)例外抹掉。換句話說(shuō),不完全歸納法是不對(duì)的。
所以我想來(lái)想去,最后我的觀點(diǎn)是,不管人工智能系統(tǒng)到底應(yīng)不應(yīng)該像人,我只要想辦法去接近這個(gè)目標(biāo)就好了。這個(gè)目標(biāo)就是我剛才說(shuō)的 8個(gè)字:多快好省,雙商齊備。
AI 科技評(píng)論:現(xiàn)在的推理還有一個(gè)問(wèn)題,就是有研究發(fā)現(xiàn),o1、R1 與 Gemini 等模型在做推理時(shí),更重視結(jié)果的正確率,中間的推理過(guò)程可能是錯(cuò)的。
武威:關(guān)于這個(gè)現(xiàn)象,我有兩個(gè)觀點(diǎn)。第一個(gè)觀點(diǎn)是:我認(rèn)為長(zhǎng)思維鏈?zhǔn)且砸环N相對(duì)笨拙的方式實(shí)現(xiàn)了深度思考。當(dāng)然,它非常有意義,因?yàn)樗鸫a給出了一個(gè)實(shí)現(xiàn),即使這個(gè)實(shí)現(xiàn)是高能耗的。我們不能天天空談深度思考、卻沒(méi)有任何實(shí)現(xiàn)。
第二個(gè)觀點(diǎn)是,當(dāng)模型的能力發(fā)展到最后,思考的過(guò)程可能比結(jié)果更重要。因?yàn)槲覀兓氐綌?shù)學(xué)來(lái)看,其實(shí)很多數(shù)學(xué)問(wèn)題已經(jīng)有結(jié)果了,只是有些結(jié)果被證實(shí)了、有些沒(méi)被證實(shí)。
比如費(fèi)馬定理,最早叫費(fèi)馬猜想,它的結(jié)果早就有了,就是當(dāng)整數(shù) n>2 時(shí),方程 x 的 n 次方加 y 的 n 次方等于 z 的 n 次方?jīng)]有正整數(shù)解。黎曼猜想也是,早就有結(jié)果了,重要的是:你怎么得到從這個(gè)假設(shè)到這個(gè)結(jié)論的整個(gè)求解過(guò)程。從數(shù)學(xué)的角度看,推理過(guò)程是非常重要的。
所以 Andrew Wiles 的巨大貢獻(xiàn),一方面是他證明了費(fèi)馬猜想,將費(fèi)馬猜想變成費(fèi)馬定理;更重要的是,在這個(gè)證明過(guò)程中,數(shù)學(xué)的許多新興方向誕生,比如橢圓曲線、代數(shù)幾何等等,這對(duì)數(shù)學(xué)界是巨大的貢獻(xiàn)。
在我看來(lái),推理是利用邏輯對(duì)知識(shí)進(jìn)行有機(jī)組合。如果我們?cè)诓煌膯?wèn)題上都能給出各種各樣的知識(shí)組合,那么會(huì)不會(huì)有一些知識(shí)組合是人類未曾觸碰到的、對(duì)人類文明進(jìn)步有非常大啟發(fā)的呢?如果有,那么產(chǎn)生這些組合的價(jià)值遠(yuǎn)比你解決一個(gè)問(wèn)題還要大,因?yàn)槟銜?huì)創(chuàng)造出新的知識(shí)來(lái)。
從這個(gè)角度看,其實(shí)深度思考的巨大價(jià)值與潛力還沒(méi)有被挖掘出來(lái)。推理的結(jié)果很重要,但我更重視當(dāng)中的思考過(guò)程?,F(xiàn)在 R1 已經(jīng)給我們提供了一個(gè)高維的實(shí)現(xiàn),我們應(yīng)該在 R1 的基礎(chǔ)上去做更大膽的迭代。
AI 科技評(píng)論:R1 出來(lái)后,有改變您對(duì)推理的看法嗎?您對(duì)推理的研究有更興奮嗎?
武威:我覺(jué)得還是很令人振奮的,因?yàn)镽1 讓我們看到了深度思考的一種規(guī)?;瘜?shí)現(xiàn),不過(guò)R1本質(zhì)上仍然是自回歸,我覺(jué)得這里面空間還是很大的。
我覺(jué)得應(yīng)該有一個(gè)通用的模型,但我也不知道這個(gè)模型長(zhǎng)什么樣子。所以 2023 年我們剛開(kāi)始研究推理的時(shí)候,是先研究 Agent。
為什么是先研究 Agent 呢?就是因?yàn)槲也恢劳ㄓ玫脑趺醋?,沒(méi)辦法,只能先做一個(gè)特殊的 Knowledge Agent(知識(shí)智能體),看能不能擴(kuò)展。我們把一個(gè)任務(wù)拆成一個(gè)個(gè)模塊,然后再把這些模塊用人工設(shè)計(jì)的邏輯串在一起。
就好像我們?cè)诮庖坏罃?shù)學(xué)題的時(shí)候,你不會(huì)解,怎么辦呢?就先找一些具體的 case,加一些條件。比如一個(gè)泛函問(wèn)題,你先把它變成二維空間,二維空間能證明、再看三維空間能不能證明;當(dāng)二維、三維都證明之后,再看中間有沒(méi)有共性、能不能拓展到高維。
R1 令人驚艷的地方是直接就到高維了。我覺(jué)得更令人興奮的地方在于通過(guò)深度思考來(lái)創(chuàng)造新的知識(shí),那這一點(diǎn) R1 還達(dá)不到,因?yàn)檫€沒(méi)有辦法保證思考過(guò)程是對(duì)的。我們也還沒(méi)有辦法保證我們的推理過(guò)程一定是對(duì)的,但我覺(jué)得這是一個(gè)很重要的問(wèn)題。
后來(lái)我們又探索了 CodePlan,希望用代碼實(shí)現(xiàn)先規(guī)劃、后推理。只是我們當(dāng)時(shí)做完后,受限于一些資源問(wèn)題,沒(méi)有辦法驗(yàn)證它的效果是最好的。今年年初 DeepSeek 團(tuán)隊(duì)有一個(gè)工作,也是先用代碼做規(guī)劃,不同的是他們后來(lái)又將代碼變成了自然語(yǔ)言。我猜測(cè)可能是因?yàn)榧兇a的效果不太好。
最近我們又研發(fā)了 PromptCoT,嘗試將深度思考用到問(wèn)題合成上,也看到了非常驚艷的效果。一個(gè) 7B 小模型就可以和 32B 模型比肩。最重要的是,這個(gè)工作讓我們看到了深度思考 for 其它任務(wù)的可能性。
其實(shí)大家都在想,到底下一代推理模型應(yīng)該是什么樣的,同時(shí)又希望追求智能極限。這兩個(gè)目標(biāo)都很難,特別是對(duì)企業(yè)來(lái)說(shuō)。在企業(yè)里,你不太可能說(shuō),你有一個(gè)非常大的目標(biāo)、要投入多少資金,還不能確定這個(gè)目標(biāo)能不能達(dá)到,這是一個(gè)現(xiàn)實(shí)問(wèn)題。理性來(lái)說(shuō),我們需要更多的 case 去支撐繼續(xù)探索的信念。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。