0
本文作者: 劉潔 | 2024-10-23 10:23 |
DeepMind悶聲干大事,悄悄訓(xùn)練了一個(gè)大小只有270M的Transformer模型,居然不需要搜索,就能實(shí)現(xiàn)大師級(jí)的下棋水平。
這幾天的推特因?yàn)檫@篇2月份發(fā)布的論文吵得不可開交,DeepMind團(tuán)隊(duì)也趕緊放出了更新后的論文版本,開源了有關(guān)數(shù)據(jù)集和代碼,對(duì)網(wǎng)上的爭(zhēng)議做了回應(yīng)。
最開始,有位網(wǎng)友分享了DeepMind的這項(xiàng)研究,并提出“Transformer也能用于邏輯任務(wù)”的觀點(diǎn),沒(méi)想到卻激起了一場(chǎng)關(guān)于Transformer能不能推理的爭(zhēng)論。
先是顧全全果斷轉(zhuǎn)發(fā)表示贊同,“這表明Transformer具有推理和規(guī)劃的能力?!?/p>
然而,這一觀點(diǎn)很快遭到了激烈反駁,爭(zhēng)論的火藥味十足。
田淵棟直言,短時(shí)策略并不等于推理能力。他認(rèn)為,“Transformer模型的評(píng)估基于閃電戰(zhàn)模式(每局限時(shí)5-10分鐘),這更依賴直覺(jué)和戰(zhàn)術(shù)反應(yīng),而非傳統(tǒng)的深度搜索和規(guī)劃?!?/p>
田淵棟還指出,閃電戰(zhàn)下機(jī)器人雖然Elo達(dá)2713,但未能展示出超越訓(xùn)練數(shù)據(jù)的能力?!按送?,機(jī)器人在短時(shí)間內(nèi)的閃電戰(zhàn)Elo分?jǐn)?shù)比人類選手要低,這可能說(shuō)明它的表現(xiàn)更多依賴于模式匹配,而非真正的推理?!?/p>
很多反對(duì)者也指出,論文中明確提到,這種模型的表現(xiàn)仍然高度依賴于訓(xùn)練數(shù)據(jù)和架構(gòu)規(guī)模。歸根結(jié)底,它只是在進(jìn)行統(tǒng)計(jì)匹配,而非真正的邏輯推理。
也有很多人認(rèn)為,這實(shí)際上只是一種預(yù)測(cè)。雖然Transformer能夠精準(zhǔn)地計(jì)算和預(yù)測(cè)下一步行動(dòng),這看著像是在推理,但與人類推理并非一回事。
顧全全解釋道,“推理的核心在于蘊(yùn)涵(entailment)?!币M(jìn)行推理,首先需要識(shí)別一組基本的命題或原子公式,然后再通過(guò)一系列推理規(guī)則來(lái)推導(dǎo)出結(jié)論。
Transformer實(shí)現(xiàn)推理的關(guān)鍵在于它是否能夠?qū)W習(xí)推理規(guī)則,這些規(guī)則是推理的組成部分,但并不能構(gòu)成完整的“推理”。
以往的研究表明,Transformer 能夠?qū)W習(xí)各種“算法”或規(guī)則,例如線性回歸(Linear Regression)、k 最近鄰(k-Nearest Neighbors)和貝葉斯網(wǎng)絡(luò)推理中的 Chow-Liu 算法。
這些算法雖然不是嚴(yán)格意義上的邏輯推理規(guī)則,但仍然是一種有邏輯的算法規(guī)則。顧全全認(rèn)為,DeepMind這次的研究恰恰展示了Transformer學(xué)習(xí)推理規(guī)則上的潛力。
不過(guò),他也坦言:“盡管大量實(shí)證研究表明Transformer可以有效地學(xué)習(xí)推理規(guī)則,但仍然需要在理論上得到嚴(yán)格證明。”
換句話說(shuō),目前我們只能從實(shí)驗(yàn)數(shù)據(jù)上看到模型的表現(xiàn),而要真正確認(rèn)Transformer能不能像人類一樣推理,還需要更多理論研究。
DeepMind這篇論文在推特引發(fā)的激烈討論,不僅限于技術(shù)本身。
有位網(wǎng)友在深入研究論文細(xì)節(jié)后認(rèn)為,這項(xiàng)研究展示了一個(gè)重要突破,即將任意概率算法提煉成神經(jīng)模型的通用方法。
他還樂(lè)觀地表示“我們正處于整個(gè)計(jì)算機(jī)科學(xué)從圖靈機(jī)的起源開始重寫的邊緣?!?/p>
Gary Macus對(duì)此持懷疑態(tài)度,他在與論文作者交流后指出,論文中的Transformer模型雖然在標(biāo)準(zhǔn)國(guó)際象棋上取得了成功,但在更復(fù)雜的棋盤變體(如Fischer隨機(jī)象棋)上表現(xiàn)不佳,也無(wú)法推廣到更大的棋盤(如8x12)。這說(shuō)明了模型在泛化能力上的局限性。
他還指出,這類模型的優(yōu)秀表現(xiàn)往往局限于國(guó)際象棋這類封閉的環(huán)境,在更開放、更復(fù)雜的環(huán)境中會(huì)面臨嚴(yán)峻挑戰(zhàn)。
也有人不贊同這種說(shuō)法,認(rèn)為Gary Macus低估了神經(jīng)網(wǎng)絡(luò)的繁華能力。雖然模型的適用性不夠廣,但這種方法卻是可以推廣的。像MCTS(蒙特卡洛樹搜索)這樣的算法也可以被蒸餾成模型,這可能也適用于語(yǔ)言處理。
推特上關(guān)于這篇論文的爭(zhēng)論愈演愈烈。DeepMind也于10月21日在arxiv上更新了論文,并推出了名為ChessBench的大規(guī)模數(shù)據(jù)集。
ChessBench數(shù)據(jù)集包含了1000萬(wàn)個(gè)國(guó)際象棋局面及其走法與價(jià)值注釋,共計(jì)超過(guò)150億個(gè)數(shù)據(jù)點(diǎn),這些數(shù)據(jù)全部由最先進(jìn)的國(guó)際象棋引擎Stockfish 16提供。
研究團(tuán)隊(duì)還開源了ChessBench數(shù)據(jù)集、模型權(quán)重以及所有訓(xùn)練和評(píng)估代碼,方便學(xué)術(shù)界進(jìn)行下一步研究。
更新的第二版論文里,也提到了“蒸餾”這件事。
研究人員表示,盡管可以通過(guò)監(jiān)督學(xué)習(xí)將Stockfish的搜索算法的近似版本蒸餾到Transformer中,但完美的蒸餾仍然遙不可及。
這也反映了深度學(xué)習(xí)領(lǐng)域的一個(gè)核心問(wèn)題:即使模型在某些特定領(lǐng)域(如象棋、圍棋)表現(xiàn)出了卓越的性能,但它們?nèi)匀灰蕾囉诖罅坑?jì)算資源和規(guī)則化的訓(xùn)練環(huán)境。
像AlphaZero就是依靠強(qiáng)化學(xué)習(xí),通過(guò)與自己反復(fù)對(duì)弈,最終超越了傳統(tǒng)棋類引擎,一旦應(yīng)用到更復(fù)雜、更少規(guī)則約束的環(huán)境,也難免暴露出缺乏泛化能力的問(wèn)題。
DeepMind的這篇論文就提供了一條可行的路。
論文在結(jié)尾強(qiáng)調(diào)Transformer不應(yīng)該只是單純的統(tǒng)計(jì)模式識(shí)別器,而應(yīng)該被當(dāng)作是一種近似通用算法的強(qiáng)大技術(shù)。再結(jié)合Transformer模型在實(shí)驗(yàn)中展示的強(qiáng)泛化能力,也許可以被視作AI模型泛化問(wèn)題的一種解法。
也有網(wǎng)友發(fā)問(wèn),之前不是已經(jīng)有模型實(shí)現(xiàn)過(guò)了大師級(jí)的下棋水平嗎,為什么DeepMind還要再做一次?
其實(shí)在AI行業(yè)里早就有了一個(gè)共識(shí):所有的應(yīng)用都應(yīng)該用AI大模型重做一遍。
因?yàn)锳I技術(shù)的商業(yè)化落地始終是個(gè)難題,要對(duì)準(zhǔn)具體的業(yè)務(wù)肯定是找現(xiàn)成的應(yīng)用來(lái)得快。另外,用大模型重做已有的應(yīng)用能夠進(jìn)一步挖掘其商業(yè)價(jià)值,個(gè)性化的用戶體驗(yàn)?zāi)軌蛟黾佑脩粽承該屨几嗟氖袌?chǎng)份額。
在市場(chǎng)的驅(qū)動(dòng)下,微軟和谷歌這樣的大企業(yè)早就付諸行動(dòng)并且頗有成效了。
微軟往Office辦公三件套引入了Copilot,實(shí)現(xiàn)了從文本生成到流程自動(dòng)化的全面升級(jí)。像普通用戶就可以通過(guò)提供文字提示或是Word文檔讓Copilot生成幻燈片,企業(yè)用戶還可以直接生成一些簡(jiǎn)單的代碼應(yīng)用。
Google Workspace套件里集成的生成式AI也很實(shí)用,用戶可以利用智能助手在Google Docs和Gmail中生成郵件、摘要等內(nèi)容,減少重復(fù)勞動(dòng)大大提高了工作效率。
而且這次研究的重要性不僅僅在于棋類AI的迭代,更在于它為AI推理和學(xué)習(xí)的未來(lái)提供了新方向。
回顧以往的棋類AI研究,博弈樹一直是核心工具。
博弈樹將每一個(gè)棋局狀態(tài)表示為節(jié)點(diǎn),每下一步棋則從一個(gè)節(jié)點(diǎn)移動(dòng)到對(duì)應(yīng)的子節(jié)點(diǎn),通過(guò)窮舉所有可能的步驟,構(gòu)建出一個(gè)龐大的樹狀結(jié)構(gòu)。
然而,棋類游戲的復(fù)雜性讓這種全量搜索變得幾乎不可行。
為了解決這個(gè)問(wèn)題,約翰·麥卡錫(John McCarthy)提出了著名的α-β剪枝算法。
這種算法的核心在于,在繪制博弈樹的同時(shí)進(jìn)行計(jì)算評(píng)估,一旦某一分支的結(jié)果無(wú)法優(yōu)于已有的最佳結(jié)果,就會(huì)立即“剪枝”,跳過(guò)這個(gè)分支的計(jì)算。這種方式有效減少了無(wú)效計(jì)算,大大提升了搜索效率。
1997年,IBM的Deep Blue利用α-β剪枝算法,并結(jié)合數(shù)百萬(wàn)場(chǎng)棋局的數(shù)據(jù)支持,成功實(shí)現(xiàn)了深度計(jì)算。最終,Deep Blue擊敗了國(guó)際象棋世界冠軍加里·卡斯帕羅夫。
這是AI第一次在公開比賽中戰(zhàn)勝頂級(jí)人類棋手,也是博弈樹算法與啟發(fā)式規(guī)則結(jié)合的巔峰。
2017年,DeepMind發(fā)布了AlphaZero,進(jìn)一步突破了傳統(tǒng)的博弈樹模型。
與以往AI依賴人類知識(shí)庫(kù)和啟發(fā)式規(guī)則不同,AlphaZero完全拋棄了這些外部支持,僅通過(guò)自我對(duì)弈和通用強(qiáng)化學(xué)習(xí)算法,就在短時(shí)間內(nèi)掌握了國(guó)際象棋、將棋和圍棋的玩法。
這項(xiàng)突破性研究展示了AI自我優(yōu)化的潛力:無(wú)需借助外部知識(shí)庫(kù),AI也能達(dá)到卓越水平。
這一次,DeepMind在棋類AI的探索上更進(jìn)一步。與AlphaZero相比,Transformer模型不僅拋棄了人類知識(shí)庫(kù)和啟發(fā)式規(guī)則,甚至不再使用任何搜索算法,而是通過(guò)監(jiān)督學(xué)習(xí)直接從包含1000萬(wàn)場(chǎng)國(guó)際象棋比賽的數(shù)據(jù)集中學(xué)習(xí)策略。
DeepMind訓(xùn)練了三種規(guī)模的Transformer模型,分別為9M、136M和270M參數(shù),并根據(jù)預(yù)測(cè)目標(biāo)(動(dòng)作值、狀態(tài)值或行為克?。?gòu)建了一個(gè)預(yù)測(cè)器。動(dòng)作值預(yù)測(cè)器用于生成策略,評(píng)估所有合法動(dòng)作的預(yù)測(cè)值并選擇期望動(dòng)作值最大的動(dòng)作。
實(shí)驗(yàn)結(jié)果顯示,最大的270M參數(shù)模型在Lichess閃電戰(zhàn)中達(dá)到了2895 Elo的分?jǐn)?shù),表明它已經(jīng)具備了大師級(jí)的國(guó)際象棋策略。
(動(dòng)作價(jià)值模型與Stockfish 16、Leela Chess Zero的變體、AlphaZero(有無(wú)蒙特卡洛樹搜索)以及GPT-3.5-turbo-instruct的比較)
相比AlphaZero依賴深度搜索和自我對(duì)弈,這個(gè)模型的成功之處在于無(wú)需借助任何搜索算法,僅僅基于棋盤狀態(tài)的學(xué)習(xí)也能達(dá)到大師級(jí)別的棋藝。并且該模型大幅降低了計(jì)算需求——甚至在部分任務(wù)中以八倍更少的浮點(diǎn)計(jì)算量取得與AlphaZero相當(dāng)?shù)某煽?jī)。
這不僅是技術(shù)上的突破,更暗示了Transformer模型在泛化和學(xué)習(xí)推理規(guī)則方面的巨大潛力。
DeepMind這次的研究對(duì)LLM尤其是小參數(shù)模型來(lái)說(shuō),同樣具有里程碑式的意義。
相信很多人都發(fā)現(xiàn)了,現(xiàn)在LLM的研究已經(jīng)到了一個(gè)交叉點(diǎn)。
一部分研究者堅(jiān)信“大即是好”,致力于開發(fā)性能強(qiáng)大的巨型模型;另一部分則選擇“小而美”的方向,專注于小參數(shù)模型的優(yōu)化和應(yīng)用。
像Meta和蘋果就是小模型賽道的堅(jiān)定擁護(hù)者。
Meta推出的MobileLLM系列,將模型規(guī)??s小至1B以下,并推出了125M和350M兩個(gè)版本。
而一直專注于閉源開發(fā)的蘋果,也在開源領(lǐng)域有所突破,發(fā)布了一系列開源模型OpenELM,參數(shù)規(guī)模集中在270M到3B之間。
270M這個(gè)數(shù)字是不是很熟悉?正是DeepMind這次使用的Transformer模型參數(shù)量。這兩家公司都不約而同選擇270M,絕非偶然。
與動(dòng)輒數(shù)百億參數(shù)的巨型模型相比,蘋果的3B模型在LLM領(lǐng)域已算是“小型”。
然而,對(duì)于手機(jī)等移動(dòng)設(shè)備而言,3B的模型依然太大。因此,270M成為絕佳選擇——既能在移動(dòng)設(shè)備上順暢運(yùn)行,又兼顧了模型性能。
類似的趨勢(shì)也出現(xiàn)在大型模型領(lǐng)域。
很多主流大模型的參數(shù)設(shè)定為7B、13B或65B,其中7B尤其常見(jiàn)。原因在于7B的模型可以在單卡上部署,大大降低了應(yīng)用的成本和門檻。
這也表明,無(wú)論是大模型還是小模型,研究的核心都在于如何實(shí)現(xiàn)商業(yè)落地。
行業(yè)趨勢(shì)表明,輕量化正逐漸成為市場(chǎng)主流。相比巨型模型,小模型的優(yōu)勢(shì)十分明顯:
參數(shù)少、計(jì)算量小,推理速度更快;
成本更低,適合更廣泛的部署場(chǎng)景;
對(duì)大部分企業(yè)而言,小模型的能力已經(jīng)足以滿足業(yè)務(wù)需求。
截至2021年,全球移動(dòng)設(shè)備用戶數(shù)量已達(dá)86億,超過(guò)了地球總?cè)丝?。如何滿足如此龐大的移動(dòng)用戶需求,已經(jīng)成為各大企業(yè)競(jìng)爭(zhēng)的焦點(diǎn)。
比如,蘋果的最新語(yǔ)音助手就內(nèi)置了270M模型,支持離線語(yǔ)音識(shí)別和本地響應(yīng)。谷歌的TinySpeech也為了能在移動(dòng)設(shè)備上實(shí)現(xiàn)更加快速準(zhǔn)確的語(yǔ)音識(shí)別功能,縮小了參數(shù)規(guī)模。
OpenAI也推出了ChatGPT Lite版本,在保證準(zhǔn)確率的同時(shí),通過(guò)減少參數(shù)量來(lái)降低計(jì)算資源的消耗,這使得用戶能夠在資源有限的設(shè)備上,享受到流暢的實(shí)時(shí)聊天和問(wèn)答系統(tǒng)交互體驗(yàn)。
在與LLM有關(guān)的其他領(lǐng)域,也在積極推動(dòng)輕量化戰(zhàn)略,包括專注于高性能硬件的英偉達(dá)。
英偉達(dá)新推出的Jetson系列(如Jetson Nano和Jetson Orin Nano)就是專為嵌入式AI系統(tǒng)設(shè)計(jì),將強(qiáng)大的算力嵌入體積小、能耗低的設(shè)備中,意在推動(dòng)物聯(lián)網(wǎng)和邊緣設(shè)備的發(fā)展。
這也說(shuō)明,小模型并非技術(shù)上的妥協(xié),而是商業(yè)化的最優(yōu)選擇。未來(lái)更多的AI應(yīng)用將逐步擺脫云端依賴,通過(guò)小模型在本地運(yùn)行,推動(dòng)“輕量級(jí)AI”進(jìn)入日常生活。
這項(xiàng)研究還引發(fā)了一個(gè)有趣的哲學(xué)問(wèn)題:AI是否正在向“直覺(jué)型思維”邁進(jìn)?
傳統(tǒng)的AI系統(tǒng)依賴于窮舉式搜索和策略規(guī)劃,但人類大師的棋藝往往依賴直覺(jué)與經(jīng)驗(yàn),而非純粹的計(jì)算。
在閃電戰(zhàn)模式中,DeepMind的模型能夠在5-10分鐘內(nèi)完成棋局,依靠的是快速判斷而非傳統(tǒng)的窮舉式搜索,這種決策模式看起來(lái)和人類的直覺(jué)非常相似。
但AI的策略始終還是來(lái)自對(duì)大量數(shù)據(jù)的學(xué)習(xí),這和人類的“下意識(shí)反應(yīng)”存在本質(zhì)區(qū)別。AI的所謂直覺(jué),更像是通過(guò)模式識(shí)別模擬人類的行為,不能真正等同于“理解”。
這種對(duì)人類思維的模擬行為也常見(jiàn)于其他AI領(lǐng)域。
拿下諾貝爾獎(jiǎng)的AlphaFold就利用了生物序列與結(jié)構(gòu)之間的復(fù)雜關(guān)系,模擬生物學(xué)家的推理過(guò)程,從而快速、準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。
英偉達(dá)用于訓(xùn)練和模擬機(jī)器人行為的Isaac Sim仿真平臺(tái),也是通過(guò)模擬真實(shí)世界中的物理環(huán)境,允許AI學(xué)習(xí)如何在動(dòng)態(tài)環(huán)境中做出決策,類似于人類在復(fù)雜環(huán)境中的反應(yīng)方式。
遺憾的是這些表現(xiàn)依然是基于訓(xùn)練數(shù)據(jù),而非真正的認(rèn)知理解。
DeepMind的Transformer模型展示了AI領(lǐng)域的一個(gè)重要趨勢(shì):從大模型走向輕量化、從搜索算法轉(zhuǎn)向直接推理。在未來(lái)的AI應(yīng)用中,效率與規(guī)模的平衡將是關(guān)鍵。Transformer的成功不僅改變了我們對(duì)AI的認(rèn)知,也為AI如何在復(fù)雜環(huán)境中進(jìn)行推理提供了新的思路。
雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。