Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

本文作者：劉潔

2024-10-23 10:23

導語：小模型干大事，DeepMind重新審視Transformer推理能力。

DeepMind悶聲干大事，悄悄訓練了一個大小只有270M的Transformer模型，居然不需要搜索，就能實現(xiàn)大師級的下棋水平。

這幾天的推特因為這篇2月份發(fā)布的論文吵得不可開交，DeepMind團隊也趕緊放出了更新后的論文版本，開源了有關數(shù)據(jù)集和代碼，對網(wǎng)上的爭議做了回應。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

最開始，有位網(wǎng)友分享了DeepMind的這項研究，并提出“Transformer也能用于邏輯任務”的觀點，沒想到卻激起了一場關于Transformer能不能推理的爭論。

先是顧全全果斷轉發(fā)表示贊同，“這表明Transformer具有推理和規(guī)劃的能力?！?/p>

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

然而，這一觀點很快遭到了激烈反駁，爭論的火藥味十足。

田淵棟直言，短時策略并不等于推理能力。他認為，“Transformer模型的評估基于閃電戰(zhàn)模式（每局限時5-10分鐘），這更依賴直覺和戰(zhàn)術反應，而非傳統(tǒng)的深度搜索和規(guī)劃?！?/p>

田淵棟還指出，閃電戰(zhàn)下機器人雖然Elo達2713，但未能展示出超越訓練數(shù)據(jù)的能力?！按送?，機器人在短時間內(nèi)的閃電戰(zhàn)Elo分數(shù)比人類選手要低，這可能說明它的表現(xiàn)更多依賴于模式匹配，而非真正的推理?！?/p>

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

很多反對者也指出，論文中明確提到，這種模型的表現(xiàn)仍然高度依賴于訓練數(shù)據(jù)和架構規(guī)模。歸根結底，它只是在進行統(tǒng)計匹配，而非真正的邏輯推理。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

也有很多人認為，這實際上只是一種預測。雖然Transformer能夠精準地計算和預測下一步行動，這看著像是在推理，但與人類推理并非一回事。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

顧全全解釋道，“推理的核心在于蘊涵（entailment）?！币M行推理，首先需要識別一組基本的命題或原子公式，然后再通過一系列推理規(guī)則來推導出結論。

Transformer實現(xiàn)推理的關鍵在于它是否能夠學習推理規(guī)則，這些規(guī)則是推理的組成部分，但并不能構成完整的“推理”。

以往的研究表明，Transformer 能夠學習各種“算法”或規(guī)則，例如線性回歸（Linear Regression）、k 最近鄰（k-Nearest Neighbors）和貝葉斯網(wǎng)絡推理中的 Chow-Liu 算法。

這些算法雖然不是嚴格意義上的邏輯推理規(guī)則，但仍然是一種有邏輯的算法規(guī)則。顧全全認為，DeepMind這次的研究恰恰展示了Transformer學習推理規(guī)則上的潛力。

不過，他也坦言：“盡管大量實證研究表明Transformer可以有效地學習推理規(guī)則，但仍然需要在理論上得到嚴格證明。”

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

換句話說，目前我們只能從實驗數(shù)據(jù)上看到模型的表現(xiàn)，而要真正確認Transformer能不能像人類一樣推理，還需要更多理論研究。

算法到模型的通用方法

DeepMind這篇論文在推特引發(fā)的激烈討論，不僅限于技術本身。

有位網(wǎng)友在深入研究論文細節(jié)后認為，這項研究展示了一個重要突破，即將任意概率算法提煉成神經(jīng)模型的通用方法。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

他還樂觀地表示“我們正處于整個計算機科學從圖靈機的起源開始重寫的邊緣?！?/p>

Gary Macus對此持懷疑態(tài)度，他在與論文作者交流后指出，論文中的Transformer模型雖然在標準國際象棋上取得了成功，但在更復雜的棋盤變體（如Fischer隨機象棋）上表現(xiàn)不佳，也無法推廣到更大的棋盤（如8x12）。這說明了模型在泛化能力上的局限性。

他還指出，這類模型的優(yōu)秀表現(xiàn)往往局限于國際象棋這類封閉的環(huán)境，在更開放、更復雜的環(huán)境中會面臨嚴峻挑戰(zhàn)。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

也有人不贊同這種說法，認為Gary Macus低估了神經(jīng)網(wǎng)絡的繁華能力。雖然模型的適用性不夠廣，但這種方法卻是可以推廣的。像MCTS（蒙特卡洛樹搜索）這樣的算法也可以被蒸餾成模型，這可能也適用于語言處理。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

推特上關于這篇論文的爭論愈演愈烈。DeepMind也于10月21日在arxiv上更新了論文，并推出了名為ChessBench的大規(guī)模數(shù)據(jù)集。

ChessBench數(shù)據(jù)集包含了1000萬個國際象棋局面及其走法與價值注釋，共計超過150億個數(shù)據(jù)點，這些數(shù)據(jù)全部由最先進的國際象棋引擎Stockfish 16提供。

研究團隊還開源了ChessBench數(shù)據(jù)集、模型權重以及所有訓練和評估代碼，方便學術界進行下一步研究。

更新的第二版論文里，也提到了“蒸餾”這件事。

研究人員表示，盡管可以通過監(jiān)督學習將Stockfish的搜索算法的近似版本蒸餾到Transformer中，但完美的蒸餾仍然遙不可及。

這也反映了深度學習領域的一個核心問題：即使模型在某些特定領域（如象棋、圍棋）表現(xiàn)出了卓越的性能，但它們?nèi)匀灰蕾囉诖罅坑嬎阗Y源和規(guī)則化的訓練環(huán)境。

像AlphaZero就是依靠強化學習，通過與自己反復對弈，最終超越了傳統(tǒng)棋類引擎，一旦應用到更復雜、更少規(guī)則約束的環(huán)境，也難免暴露出缺乏泛化能力的問題。

DeepMind的這篇論文就提供了一條可行的路。

論文在結尾強調(diào)Transformer不應該只是單純的統(tǒng)計模式識別器，而應該被當作是一種近似通用算法的強大技術。再結合Transformer模型在實驗中展示的強泛化能力，也許可以被視作AI模型泛化問題的一種解法。

為什么DeepMind重回棋局研究？

也有網(wǎng)友發(fā)問，之前不是已經(jīng)有模型實現(xiàn)過了大師級的下棋水平嗎，為什么DeepMind還要再做一次？

其實在AI行業(yè)里早就有了一個共識：所有的應用都應該用AI大模型重做一遍。

因為AI技術的商業(yè)化落地始終是個難題，要對準具體的業(yè)務肯定是找現(xiàn)成的應用來得快。另外，用大模型重做已有的應用能夠進一步挖掘其商業(yè)價值，個性化的用戶體驗能夠增加用戶粘性搶占更多的市場份額。

在市場的驅動下，微軟和谷歌這樣的大企業(yè)早就付諸行動并且頗有成效了。

微軟往Office辦公三件套引入了Copilot，實現(xiàn)了從文本生成到流程自動化的全面升級。像普通用戶就可以通過提供文字提示或是Word文檔讓Copilot生成幻燈片，企業(yè)用戶還可以直接生成一些簡單的代碼應用。

Google Workspace套件里集成的生成式AI也很實用，用戶可以利用智能助手在Google Docs和Gmail中生成郵件、摘要等內(nèi)容，減少重復勞動大大提高了工作效率。

而且這次研究的重要性不僅僅在于棋類AI的迭代，更在于它為AI推理和學習的未來提供了新方向。

回顧以往的棋類AI研究，博弈樹一直是核心工具。

博弈樹將每一個棋局狀態(tài)表示為節(jié)點，每下一步棋則從一個節(jié)點移動到對應的子節(jié)點，通過窮舉所有可能的步驟，構建出一個龐大的樹狀結構。

然而，棋類游戲的復雜性讓這種全量搜索變得幾乎不可行。

為了解決這個問題，約翰·麥卡錫（John McCarthy）提出了著名的α-β剪枝算法。

這種算法的核心在于，在繪制博弈樹的同時進行計算評估，一旦某一分支的結果無法優(yōu)于已有的最佳結果，就會立即“剪枝”，跳過這個分支的計算。這種方式有效減少了無效計算，大大提升了搜索效率。

1997年，IBM的Deep Blue利用α-β剪枝算法，并結合數(shù)百萬場棋局的數(shù)據(jù)支持，成功實現(xiàn)了深度計算。最終，Deep Blue擊敗了國際象棋世界冠軍加里·卡斯帕羅夫。

這是AI第一次在公開比賽中戰(zhàn)勝頂級人類棋手，也是博弈樹算法與啟發(fā)式規(guī)則結合的巔峰。

2017年，DeepMind發(fā)布了AlphaZero，進一步突破了傳統(tǒng)的博弈樹模型。

與以往AI依賴人類知識庫和啟發(fā)式規(guī)則不同，AlphaZero完全拋棄了這些外部支持，僅通過自我對弈和通用強化學習算法，就在短時間內(nèi)掌握了國際象棋、將棋和圍棋的玩法。

這項突破性研究展示了AI自我優(yōu)化的潛力：無需借助外部知識庫，AI也能達到卓越水平。

這一次，DeepMind在棋類AI的探索上更進一步。與AlphaZero相比，Transformer模型不僅拋棄了人類知識庫和啟發(fā)式規(guī)則，甚至不再使用任何搜索算法，而是通過監(jiān)督學習直接從包含1000萬場國際象棋比賽的數(shù)據(jù)集中學習策略。

DeepMind訓練了三種規(guī)模的Transformer模型，分別為9M、136M和270M參數(shù)，并根據(jù)預測目標（動作值、狀態(tài)值或行為克?。嫿艘粋€預測器。動作值預測器用于生成策略，評估所有合法動作的預測值并選擇期望動作值最大的動作。

實驗結果顯示，最大的270M參數(shù)模型在Lichess閃電戰(zhàn)中達到了2895 Elo的分數(shù)，表明它已經(jīng)具備了大師級的國際象棋策略。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

（動作價值模型與Stockfish 16、Leela Chess Zero的變體、AlphaZero（有無蒙特卡洛樹搜索）以及GPT-3.5-turbo-instruct的比較）

相比AlphaZero依賴深度搜索和自我對弈，這個模型的成功之處在于無需借助任何搜索算法，僅僅基于棋盤狀態(tài)的學習也能達到大師級別的棋藝。并且該模型大幅降低了計算需求——甚至在部分任務中以八倍更少的浮點計算量取得與AlphaZero相當?shù)某煽儭?/p>

這不僅是技術上的突破，更暗示了Transformer模型在泛化和學習推理規(guī)則方面的巨大潛力。

小模型的里程碑

DeepMind這次的研究對LLM尤其是小參數(shù)模型來說，同樣具有里程碑式的意義。

相信很多人都發(fā)現(xiàn)了，現(xiàn)在LLM的研究已經(jīng)到了一個交叉點。

一部分研究者堅信“大即是好”，致力于開發(fā)性能強大的巨型模型；另一部分則選擇“小而美”的方向，專注于小參數(shù)模型的優(yōu)化和應用。

像Meta和蘋果就是小模型賽道的堅定擁護者。

Meta推出的MobileLLM系列，將模型規(guī)?？s小至1B以下，并推出了125M和350M兩個版本。

而一直專注于閉源開發(fā)的蘋果，也在開源領域有所突破，發(fā)布了一系列開源模型OpenELM，參數(shù)規(guī)模集中在270M到3B之間。

270M這個數(shù)字是不是很熟悉？正是DeepMind這次使用的Transformer模型參數(shù)量。這兩家公司都不約而同選擇270M，絕非偶然。

與動輒數(shù)百億參數(shù)的巨型模型相比，蘋果的3B模型在LLM領域已算是“小型”。

然而，對于手機等移動設備而言，3B的模型依然太大。因此，270M成為絕佳選擇——既能在移動設備上順暢運行，又兼顧了模型性能。

類似的趨勢也出現(xiàn)在大型模型領域。

很多主流大模型的參數(shù)設定為7B、13B或65B，其中7B尤其常見。原因在于7B的模型可以在單卡上部署，大大降低了應用的成本和門檻。

這也表明，無論是大模型還是小模型，研究的核心都在于如何實現(xiàn)商業(yè)落地。

行業(yè)趨勢表明，輕量化正逐漸成為市場主流。相比巨型模型，小模型的優(yōu)勢十分明顯：

參數(shù)少、計算量小，推理速度更快；
成本更低，適合更廣泛的部署場景；
對大部分企業(yè)而言，小模型的能力已經(jīng)足以滿足業(yè)務需求。

截至2021年，全球移動設備用戶數(shù)量已達86億，超過了地球總人口。如何滿足如此龐大的移動用戶需求，已經(jīng)成為各大企業(yè)競爭的焦點。

比如，蘋果的最新語音助手就內(nèi)置了270M模型，支持離線語音識別和本地響應。谷歌的TinySpeech也為了能在移動設備上實現(xiàn)更加快速準確的語音識別功能，縮小了參數(shù)規(guī)模。

OpenAI也推出了ChatGPT Lite版本，在保證準確率的同時，通過減少參數(shù)量來降低計算資源的消耗，這使得用戶能夠在資源有限的設備上，享受到流暢的實時聊天和問答系統(tǒng)交互體驗。

在與LLM有關的其他領域，也在積極推動輕量化戰(zhàn)略，包括專注于高性能硬件的英偉達。

英偉達新推出的Jetson系列（如Jetson Nano和Jetson Orin Nano）就是專為嵌入式AI系統(tǒng)設計，將強大的算力嵌入體積小、能耗低的設備中，意在推動物聯(lián)網(wǎng)和邊緣設備的發(fā)展。

這也說明，小模型并非技術上的妥協(xié)，而是商業(yè)化的最優(yōu)選擇。未來更多的AI應用將逐步擺脫云端依賴，通過小模型在本地運行，推動“輕量級AI”進入日常生活。

Transformer“擬直覺”：AI是否能模仿人類思維？

這項研究還引發(fā)了一個有趣的哲學問題：AI是否正在向“直覺型思維”邁進？

傳統(tǒng)的AI系統(tǒng)依賴于窮舉式搜索和策略規(guī)劃，但人類大師的棋藝往往依賴直覺與經(jīng)驗，而非純粹的計算。

在閃電戰(zhàn)模式中，DeepMind的模型能夠在5-10分鐘內(nèi)完成棋局，依靠的是快速判斷而非傳統(tǒng)的窮舉式搜索，這種決策模式看起來和人類的直覺非常相似。

但AI的策略始終還是來自對大量數(shù)據(jù)的學習，這和人類的“下意識反應”存在本質(zhì)區(qū)別。AI的所謂直覺，更像是通過模式識別模擬人類的行為，不能真正等同于“理解”。

這種對人類思維的模擬行為也常見于其他AI領域。

拿下諾貝爾獎的AlphaFold就利用了生物序列與結構之間的復雜關系，模擬生物學家的推理過程，從而快速、準確地預測蛋白質(zhì)結構。

英偉達用于訓練和模擬機器人行為的Isaac Sim仿真平臺，也是通過模擬真實世界中的物理環(huán)境，允許AI學習如何在動態(tài)環(huán)境中做出決策，類似于人類在復雜環(huán)境中的反應方式。

遺憾的是這些表現(xiàn)依然是基于訓練數(shù)據(jù)，而非真正的認知理解。

DeepMind的Transformer模型展示了AI領域的一個重要趨勢：從大模型走向輕量化、從搜索算法轉向直接推理。在未來的AI應用中，效率與規(guī)模的平衡將是關鍵。Transformer的成功不僅改變了我們對AI的認知，也為AI如何在復雜環(huán)境中進行推理提供了新的思路。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

0人收藏

劉潔

編輯

發(fā)私信

當月熱門文章

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

算法到模型的通用方法

為什么DeepMind重回棋局研究？

小模型的里程碑

Transformer“擬直覺”：AI是否能模仿人類思維？

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

為什么DeepMind重回棋局研究？

Transformer“擬直覺”：AI是否能模仿人類思維？