0
本文作者: 劉潔 | 2024-10-23 10:23 |
DeepMind悶聲干大事,悄悄訓練了一個大小只有270M的Transformer模型,居然不需要搜索,就能實現(xiàn)大師級的下棋水平。
這幾天的推特因為這篇2月份發(fā)布的論文吵得不可開交,DeepMind團隊也趕緊放出了更新后的論文版本,開源了有關數(shù)據(jù)集和代碼,對網(wǎng)上的爭議做了回應。
最開始,有位網(wǎng)友分享了DeepMind的這項研究,并提出“Transformer也能用于邏輯任務”的觀點,沒想到卻激起了一場關于Transformer能不能推理的爭論。
先是顧全全果斷轉發(fā)表示贊同,“這表明Transformer具有推理和規(guī)劃的能力?!?/p>
然而,這一觀點很快遭到了激烈反駁,爭論的火藥味十足。
田淵棟直言,短時策略并不等于推理能力。他認為,“Transformer模型的評估基于閃電戰(zhàn)模式(每局限時5-10分鐘),這更依賴直覺和戰(zhàn)術反應,而非傳統(tǒng)的深度搜索和規(guī)劃?!?/p>
田淵棟還指出,閃電戰(zhàn)下機器人雖然Elo達2713,但未能展示出超越訓練數(shù)據(jù)的能力?!按送?,機器人在短時間內(nèi)的閃電戰(zhàn)Elo分數(shù)比人類選手要低,這可能說明它的表現(xiàn)更多依賴于模式匹配,而非真正的推理?!?/p>
很多反對者也指出,論文中明確提到,這種模型的表現(xiàn)仍然高度依賴于訓練數(shù)據(jù)和架構規(guī)模。歸根結底,它只是在進行統(tǒng)計匹配,而非真正的邏輯推理。
也有很多人認為,這實際上只是一種預測。雖然Transformer能夠精準地計算和預測下一步行動,這看著像是在推理,但與人類推理并非一回事。
顧全全解釋道,“推理的核心在于蘊涵(entailment)?!币M行推理,首先需要識別一組基本的命題或原子公式,然后再通過一系列推理規(guī)則來推導出結論。
Transformer實現(xiàn)推理的關鍵在于它是否能夠學習推理規(guī)則,這些規(guī)則是推理的組成部分,但并不能構成完整的“推理”。
以往的研究表明,Transformer 能夠學習各種“算法”或規(guī)則,例如線性回歸(Linear Regression)、k 最近鄰(k-Nearest Neighbors)和貝葉斯網(wǎng)絡推理中的 Chow-Liu 算法。
這些算法雖然不是嚴格意義上的邏輯推理規(guī)則,但仍然是一種有邏輯的算法規(guī)則。顧全全認為,DeepMind這次的研究恰恰展示了Transformer學習推理規(guī)則上的潛力。
不過,他也坦言:“盡管大量實證研究表明Transformer可以有效地學習推理規(guī)則,但仍然需要在理論上得到嚴格證明。”
換句話說,目前我們只能從實驗數(shù)據(jù)上看到模型的表現(xiàn),而要真正確認Transformer能不能像人類一樣推理,還需要更多理論研究。
DeepMind這篇論文在推特引發(fā)的激烈討論,不僅限于技術本身。
有位網(wǎng)友在深入研究論文細節(jié)后認為,這項研究展示了一個重要突破,即將任意概率算法提煉成神經(jīng)模型的通用方法。
他還樂觀地表示“我們正處于整個計算機科學從圖靈機的起源開始重寫的邊緣?!?/p>
Gary Macus對此持懷疑態(tài)度,他在與論文作者交流后指出,論文中的Transformer模型雖然在標準國際象棋上取得了成功,但在更復雜的棋盤變體(如Fischer隨機象棋)上表現(xiàn)不佳,也無法推廣到更大的棋盤(如8x12)。這說明了模型在泛化能力上的局限性。
他還指出,這類模型的優(yōu)秀表現(xiàn)往往局限于國際象棋這類封閉的環(huán)境,在更開放、更復雜的環(huán)境中會面臨嚴峻挑戰(zhàn)。
也有人不贊同這種說法,認為Gary Macus低估了神經(jīng)網(wǎng)絡的繁華能力。雖然模型的適用性不夠廣,但這種方法卻是可以推廣的。像MCTS(蒙特卡洛樹搜索)這樣的算法也可以被蒸餾成模型,這可能也適用于語言處理。
推特上關于這篇論文的爭論愈演愈烈。DeepMind也于10月21日在arxiv上更新了論文,并推出了名為ChessBench的大規(guī)模數(shù)據(jù)集。
ChessBench數(shù)據(jù)集包含了1000萬個國際象棋局面及其走法與價值注釋,共計超過150億個數(shù)據(jù)點,這些數(shù)據(jù)全部由最先進的國際象棋引擎Stockfish 16提供。
研究團隊還開源了ChessBench數(shù)據(jù)集、模型權重以及所有訓練和評估代碼,方便學術界進行下一步研究。
更新的第二版論文里,也提到了“蒸餾”這件事。
研究人員表示,盡管可以通過監(jiān)督學習將Stockfish的搜索算法的近似版本蒸餾到Transformer中,但完美的蒸餾仍然遙不可及。
這也反映了深度學習領域的一個核心問題:即使模型在某些特定領域(如象棋、圍棋)表現(xiàn)出了卓越的性能,但它們?nèi)匀灰蕾囉诖罅坑嬎阗Y源和規(guī)則化的訓練環(huán)境。
像AlphaZero就是依靠強化學習,通過與自己反復對弈,最終超越了傳統(tǒng)棋類引擎,一旦應用到更復雜、更少規(guī)則約束的環(huán)境,也難免暴露出缺乏泛化能力的問題。
DeepMind的這篇論文就提供了一條可行的路。
論文在結尾強調(diào)Transformer不應該只是單純的統(tǒng)計模式識別器,而應該被當作是一種近似通用算法的強大技術。再結合Transformer模型在實驗中展示的強泛化能力,也許可以被視作AI模型泛化問題的一種解法。
也有網(wǎng)友發(fā)問,之前不是已經(jīng)有模型實現(xiàn)過了大師級的下棋水平嗎,為什么DeepMind還要再做一次?
其實在AI行業(yè)里早就有了一個共識:所有的應用都應該用AI大模型重做一遍。
因為AI技術的商業(yè)化落地始終是個難題,要對準具體的業(yè)務肯定是找現(xiàn)成的應用來得快。另外,用大模型重做已有的應用能夠進一步挖掘其商業(yè)價值,個性化的用戶體驗能夠增加用戶粘性搶占更多的市場份額。
在市場的驅動下,微軟和谷歌這樣的大企業(yè)早就付諸行動并且頗有成效了。
微軟往Office辦公三件套引入了Copilot,實現(xiàn)了從文本生成到流程自動化的全面升級。像普通用戶就可以通過提供文字提示或是Word文檔讓Copilot生成幻燈片,企業(yè)用戶還可以直接生成一些簡單的代碼應用。
Google Workspace套件里集成的生成式AI也很實用,用戶可以利用智能助手在Google Docs和Gmail中生成郵件、摘要等內(nèi)容,減少重復勞動大大提高了工作效率。
而且這次研究的重要性不僅僅在于棋類AI的迭代,更在于它為AI推理和學習的未來提供了新方向。
回顧以往的棋類AI研究,博弈樹一直是核心工具。
博弈樹將每一個棋局狀態(tài)表示為節(jié)點,每下一步棋則從一個節(jié)點移動到對應的子節(jié)點,通過窮舉所有可能的步驟,構建出一個龐大的樹狀結構。
然而,棋類游戲的復雜性讓這種全量搜索變得幾乎不可行。
為了解決這個問題,約翰·麥卡錫(John McCarthy)提出了著名的α-β剪枝算法。
這種算法的核心在于,在繪制博弈樹的同時進行計算評估,一旦某一分支的結果無法優(yōu)于已有的最佳結果,就會立即“剪枝”,跳過這個分支的計算。這種方式有效減少了無效計算,大大提升了搜索效率。
1997年,IBM的Deep Blue利用α-β剪枝算法,并結合數(shù)百萬場棋局的數(shù)據(jù)支持,成功實現(xiàn)了深度計算。最終,Deep Blue擊敗了國際象棋世界冠軍加里·卡斯帕羅夫。
這是AI第一次在公開比賽中戰(zhàn)勝頂級人類棋手,也是博弈樹算法與啟發(fā)式規(guī)則結合的巔峰。
2017年,DeepMind發(fā)布了AlphaZero,進一步突破了傳統(tǒng)的博弈樹模型。
與以往AI依賴人類知識庫和啟發(fā)式規(guī)則不同,AlphaZero完全拋棄了這些外部支持,僅通過自我對弈和通用強化學習算法,就在短時間內(nèi)掌握了國際象棋、將棋和圍棋的玩法。
這項突破性研究展示了AI自我優(yōu)化的潛力:無需借助外部知識庫,AI也能達到卓越水平。
這一次,DeepMind在棋類AI的探索上更進一步。與AlphaZero相比,Transformer模型不僅拋棄了人類知識庫和啟發(fā)式規(guī)則,甚至不再使用任何搜索算法,而是通過監(jiān)督學習直接從包含1000萬場國際象棋比賽的數(shù)據(jù)集中學習策略。
DeepMind訓練了三種規(guī)模的Transformer模型,分別為9M、136M和270M參數(shù),并根據(jù)預測目標(動作值、狀態(tài)值或行為克?。嫿艘粋€預測器。動作值預測器用于生成策略,評估所有合法動作的預測值并選擇期望動作值最大的動作。
實驗結果顯示,最大的270M參數(shù)模型在Lichess閃電戰(zhàn)中達到了2895 Elo的分數(shù),表明它已經(jīng)具備了大師級的國際象棋策略。
(動作價值模型與Stockfish 16、Leela Chess Zero的變體、AlphaZero(有無蒙特卡洛樹搜索)以及GPT-3.5-turbo-instruct的比較)
相比AlphaZero依賴深度搜索和自我對弈,這個模型的成功之處在于無需借助任何搜索算法,僅僅基于棋盤狀態(tài)的學習也能達到大師級別的棋藝。并且該模型大幅降低了計算需求——甚至在部分任務中以八倍更少的浮點計算量取得與AlphaZero相當?shù)某煽儭?/p>
這不僅是技術上的突破,更暗示了Transformer模型在泛化和學習推理規(guī)則方面的巨大潛力。
DeepMind這次的研究對LLM尤其是小參數(shù)模型來說,同樣具有里程碑式的意義。
相信很多人都發(fā)現(xiàn)了,現(xiàn)在LLM的研究已經(jīng)到了一個交叉點。
一部分研究者堅信“大即是好”,致力于開發(fā)性能強大的巨型模型;另一部分則選擇“小而美”的方向,專注于小參數(shù)模型的優(yōu)化和應用。
像Meta和蘋果就是小模型賽道的堅定擁護者。
Meta推出的MobileLLM系列,將模型規(guī)??s小至1B以下,并推出了125M和350M兩個版本。
而一直專注于閉源開發(fā)的蘋果,也在開源領域有所突破,發(fā)布了一系列開源模型OpenELM,參數(shù)規(guī)模集中在270M到3B之間。
270M這個數(shù)字是不是很熟悉?正是DeepMind這次使用的Transformer模型參數(shù)量。這兩家公司都不約而同選擇270M,絕非偶然。
與動輒數(shù)百億參數(shù)的巨型模型相比,蘋果的3B模型在LLM領域已算是“小型”。
然而,對于手機等移動設備而言,3B的模型依然太大。因此,270M成為絕佳選擇——既能在移動設備上順暢運行,又兼顧了模型性能。
類似的趨勢也出現(xiàn)在大型模型領域。
很多主流大模型的參數(shù)設定為7B、13B或65B,其中7B尤其常見。原因在于7B的模型可以在單卡上部署,大大降低了應用的成本和門檻。
這也表明,無論是大模型還是小模型,研究的核心都在于如何實現(xiàn)商業(yè)落地。
行業(yè)趨勢表明,輕量化正逐漸成為市場主流。相比巨型模型,小模型的優(yōu)勢十分明顯:
參數(shù)少、計算量小,推理速度更快;
成本更低,適合更廣泛的部署場景;
對大部分企業(yè)而言,小模型的能力已經(jīng)足以滿足業(yè)務需求。
截至2021年,全球移動設備用戶數(shù)量已達86億,超過了地球總人口。如何滿足如此龐大的移動用戶需求,已經(jīng)成為各大企業(yè)競爭的焦點。
比如,蘋果的最新語音助手就內(nèi)置了270M模型,支持離線語音識別和本地響應。谷歌的TinySpeech也為了能在移動設備上實現(xiàn)更加快速準確的語音識別功能,縮小了參數(shù)規(guī)模。
OpenAI也推出了ChatGPT Lite版本,在保證準確率的同時,通過減少參數(shù)量來降低計算資源的消耗,這使得用戶能夠在資源有限的設備上,享受到流暢的實時聊天和問答系統(tǒng)交互體驗。
在與LLM有關的其他領域,也在積極推動輕量化戰(zhàn)略,包括專注于高性能硬件的英偉達。
英偉達新推出的Jetson系列(如Jetson Nano和Jetson Orin Nano)就是專為嵌入式AI系統(tǒng)設計,將強大的算力嵌入體積小、能耗低的設備中,意在推動物聯(lián)網(wǎng)和邊緣設備的發(fā)展。
這也說明,小模型并非技術上的妥協(xié),而是商業(yè)化的最優(yōu)選擇。未來更多的AI應用將逐步擺脫云端依賴,通過小模型在本地運行,推動“輕量級AI”進入日常生活。
這項研究還引發(fā)了一個有趣的哲學問題:AI是否正在向“直覺型思維”邁進?
傳統(tǒng)的AI系統(tǒng)依賴于窮舉式搜索和策略規(guī)劃,但人類大師的棋藝往往依賴直覺與經(jīng)驗,而非純粹的計算。
在閃電戰(zhàn)模式中,DeepMind的模型能夠在5-10分鐘內(nèi)完成棋局,依靠的是快速判斷而非傳統(tǒng)的窮舉式搜索,這種決策模式看起來和人類的直覺非常相似。
但AI的策略始終還是來自對大量數(shù)據(jù)的學習,這和人類的“下意識反應”存在本質(zhì)區(qū)別。AI的所謂直覺,更像是通過模式識別模擬人類的行為,不能真正等同于“理解”。
這種對人類思維的模擬行為也常見于其他AI領域。
拿下諾貝爾獎的AlphaFold就利用了生物序列與結構之間的復雜關系,模擬生物學家的推理過程,從而快速、準確地預測蛋白質(zhì)結構。
英偉達用于訓練和模擬機器人行為的Isaac Sim仿真平臺,也是通過模擬真實世界中的物理環(huán)境,允許AI學習如何在動態(tài)環(huán)境中做出決策,類似于人類在復雜環(huán)境中的反應方式。
遺憾的是這些表現(xiàn)依然是基于訓練數(shù)據(jù),而非真正的認知理解。
DeepMind的Transformer模型展示了AI領域的一個重要趨勢:從大模型走向輕量化、從搜索算法轉向直接推理。在未來的AI應用中,效率與規(guī)模的平衡將是關鍵。Transformer的成功不僅改變了我們對AI的認知,也為AI如何在復雜環(huán)境中進行推理提供了新的思路。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。