丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給劉潔
發(fā)送

0

Transformer能否推理引爭議,DeepMind連夜更新論文開源數(shù)據(jù)集:Transformer真的很強

本文作者: 劉潔 2024-10-23 10:23
導語:小模型干大事,DeepMind重新審視Transformer推理能力。

DeepMind悶聲干大事,悄悄訓練了一個大小只有270M的Transformer模型,居然不需要搜索,就能實現(xiàn)大師級的下棋水平。

這幾天的推特因為這篇2月份發(fā)布的論文吵得不可開交,DeepMind團隊也趕緊放出了更新后的論文版本,開源了有關數(shù)據(jù)集和代碼,對網(wǎng)上的爭議做了回應。

Transformer能否推理引爭議,DeepMind連夜更新論文開源數(shù)據(jù)集:Transformer真的很強

最開始,有位網(wǎng)友分享了DeepMind的這項研究,并提出“Transformer也能用于邏輯任務”的觀點,沒想到卻激起了一場關于Transformer能不能推理的爭論。

先是顧全全果斷轉發(fā)表示贊同,“這表明Transformer具有推理和規(guī)劃的能力?!?/p>

Transformer能否推理引爭議,DeepMind連夜更新論文開源數(shù)據(jù)集:Transformer真的很強

然而,這一觀點很快遭到了激烈反駁,爭論的火藥味十足。

田淵棟直言,短時策略并不等于推理能力。他認為,“Transformer模型的評估基于閃電戰(zhàn)模式(每局限時5-10分鐘),這更依賴直覺和戰(zhàn)術反應,而非傳統(tǒng)的深度搜索和規(guī)劃?!?/p>

田淵棟還指出,閃電戰(zhàn)下機器人雖然Elo達2713,但未能展示出超越訓練數(shù)據(jù)的能力?!按送?,機器人在短時間內(nèi)的閃電戰(zhàn)Elo分數(shù)比人類選手要低,這可能說明它的表現(xiàn)更多依賴于模式匹配,而非真正的推理?!?/p>

Transformer能否推理引爭議,DeepMind連夜更新論文開源數(shù)據(jù)集:Transformer真的很強

很多反對者也指出,論文中明確提到,這種模型的表現(xiàn)仍然高度依賴于訓練數(shù)據(jù)和架構規(guī)模。歸根結底,它只是在進行統(tǒng)計匹配,而非真正的邏輯推理。

Transformer能否推理引爭議,DeepMind連夜更新論文開源數(shù)據(jù)集:Transformer真的很強

也有很多人認為,這實際上只是一種預測。雖然Transformer能夠精準地計算和預測下一步行動,這看著像是在推理,但與人類推理并非一回事。

Transformer能否推理引爭議,DeepMind連夜更新論文開源數(shù)據(jù)集:Transformer真的很強

Transformer能否推理引爭議,DeepMind連夜更新論文開源數(shù)據(jù)集:Transformer真的很強

顧全全解釋道,“推理的核心在于蘊涵(entailment)?!币M行推理,首先需要識別一組基本的命題或原子公式,然后再通過一系列推理規(guī)則來推導出結論。

Transformer實現(xiàn)推理的關鍵在于它是否能夠學習推理規(guī)則,這些規(guī)則是推理的組成部分,但并不能構成完整的“推理”。

以往的研究表明,Transformer 能夠學習各種“算法”或規(guī)則,例如線性回歸(Linear Regression)、k 最近鄰(k-Nearest Neighbors)和貝葉斯網(wǎng)絡推理中的 Chow-Liu 算法。

這些算法雖然不是嚴格意義上的邏輯推理規(guī)則,但仍然是一種有邏輯的算法規(guī)則。顧全全認為,DeepMind這次的研究恰恰展示了Transformer學習推理規(guī)則上的潛力。

不過,他也坦言:“盡管大量實證研究表明Transformer可以有效地學習推理規(guī)則,但仍然需要在理論上得到嚴格證明。”

Transformer能否推理引爭議,DeepMind連夜更新論文開源數(shù)據(jù)集:Transformer真的很強

換句話說,目前我們只能從實驗數(shù)據(jù)上看到模型的表現(xiàn),而要真正確認Transformer能不能像人類一樣推理,還需要更多理論研究。


算法到模型的通用方法

DeepMind這篇論文在推特引發(fā)的激烈討論,不僅限于技術本身。

有位網(wǎng)友在深入研究論文細節(jié)后認為,這項研究展示了一個重要突破,即將任意概率算法提煉成神經(jīng)模型的通用方法。

Transformer能否推理引爭議,DeepMind連夜更新論文開源數(shù)據(jù)集:Transformer真的很強

他還樂觀地表示“我們正處于整個計算機科學從圖靈機的起源開始重寫的邊緣?!?/p>

Gary Macus對此持懷疑態(tài)度,他在與論文作者交流后指出,論文中的Transformer模型雖然在標準國際象棋上取得了成功,但在更復雜的棋盤變體(如Fischer隨機象棋)上表現(xiàn)不佳,也無法推廣到更大的棋盤(如8x12)。這說明了模型在泛化能力上的局限性。

他還指出,這類模型的優(yōu)秀表現(xiàn)往往局限于國際象棋這類封閉的環(huán)境,在更開放、更復雜的環(huán)境中會面臨嚴峻挑戰(zhàn)。

Transformer能否推理引爭議,DeepMind連夜更新論文開源數(shù)據(jù)集:Transformer真的很強

也有人不贊同這種說法,認為Gary Macus低估了神經(jīng)網(wǎng)絡的繁華能力。雖然模型的適用性不夠廣,但這種方法卻是可以推廣的。像MCTS(蒙特卡洛樹搜索)這樣的算法也可以被蒸餾成模型,這可能也適用于語言處理。

Transformer能否推理引爭議,DeepMind連夜更新論文開源數(shù)據(jù)集:Transformer真的很強

推特上關于這篇論文的爭論愈演愈烈。DeepMind也于10月21日在arxiv上更新了論文,并推出了名為ChessBench的大規(guī)模數(shù)據(jù)集。

ChessBench數(shù)據(jù)集包含了1000萬個國際象棋局面及其走法與價值注釋,共計超過150億個數(shù)據(jù)點,這些數(shù)據(jù)全部由最先進的國際象棋引擎Stockfish 16提供。

研究團隊還開源了ChessBench數(shù)據(jù)集、模型權重以及所有訓練和評估代碼,方便學術界進行下一步研究。

更新的第二版論文里,也提到了“蒸餾”這件事。

研究人員表示,盡管可以通過監(jiān)督學習將Stockfish的搜索算法的近似版本蒸餾到Transformer中,但完美的蒸餾仍然遙不可及。

這也反映了深度學習領域的一個核心問題:即使模型在某些特定領域(如象棋、圍棋)表現(xiàn)出了卓越的性能,但它們?nèi)匀灰蕾囉诖罅坑嬎阗Y源和規(guī)則化的訓練環(huán)境。

像AlphaZero就是依靠強化學習,通過與自己反復對弈,最終超越了傳統(tǒng)棋類引擎,一旦應用到更復雜、更少規(guī)則約束的環(huán)境,也難免暴露出缺乏泛化能力的問題。

DeepMind的這篇論文就提供了一條可行的路。

論文在結尾強調(diào)Transformer不應該只是單純的統(tǒng)計模式識別器,而應該被當作是一種近似通用算法的強大技術。再結合Transformer模型在實驗中展示的強泛化能力,也許可以被視作AI模型泛化問題的一種解法。


為什么DeepMind重回棋局研究?

也有網(wǎng)友發(fā)問,之前不是已經(jīng)有模型實現(xiàn)過了大師級的下棋水平嗎,為什么DeepMind還要再做一次?

其實在AI行業(yè)里早就有了一個共識:所有的應用都應該用AI大模型重做一遍。

因為AI技術的商業(yè)化落地始終是個難題,要對準具體的業(yè)務肯定是找現(xiàn)成的應用來得快。另外,用大模型重做已有的應用能夠進一步挖掘其商業(yè)價值,個性化的用戶體驗能夠增加用戶粘性搶占更多的市場份額。

在市場的驅動下,微軟和谷歌這樣的大企業(yè)早就付諸行動并且頗有成效了。

微軟往Office辦公三件套引入了Copilot,實現(xiàn)了從文本生成到流程自動化的全面升級。像普通用戶就可以通過提供文字提示或是Word文檔讓Copilot生成幻燈片,企業(yè)用戶還可以直接生成一些簡單的代碼應用。

Google Workspace套件里集成的生成式AI也很實用,用戶可以利用智能助手在Google Docs和Gmail中生成郵件、摘要等內(nèi)容,減少重復勞動大大提高了工作效率。

而且這次研究的重要性不僅僅在于棋類AI的迭代,更在于它為AI推理和學習的未來提供了新方向。

回顧以往的棋類AI研究,博弈樹一直是核心工具。

博弈樹將每一個棋局狀態(tài)表示為節(jié)點,每下一步棋則從一個節(jié)點移動到對應的子節(jié)點,通過窮舉所有可能的步驟,構建出一個龐大的樹狀結構。

然而,棋類游戲的復雜性讓這種全量搜索變得幾乎不可行。

為了解決這個問題,約翰·麥卡錫(John McCarthy)提出了著名的α-β剪枝算法。

這種算法的核心在于,在繪制博弈樹的同時進行計算評估,一旦某一分支的結果無法優(yōu)于已有的最佳結果,就會立即“剪枝”,跳過這個分支的計算。這種方式有效減少了無效計算,大大提升了搜索效率。

1997年,IBM的Deep Blue利用α-β剪枝算法,并結合數(shù)百萬場棋局的數(shù)據(jù)支持,成功實現(xiàn)了深度計算。最終,Deep Blue擊敗了國際象棋世界冠軍加里·卡斯帕羅夫。

這是AI第一次在公開比賽中戰(zhàn)勝頂級人類棋手,也是博弈樹算法與啟發(fā)式規(guī)則結合的巔峰。

2017年,DeepMind發(fā)布了AlphaZero,進一步突破了傳統(tǒng)的博弈樹模型。

與以往AI依賴人類知識庫和啟發(fā)式規(guī)則不同,AlphaZero完全拋棄了這些外部支持,僅通過自我對弈和通用強化學習算法,就在短時間內(nèi)掌握了國際象棋、將棋和圍棋的玩法。

這項突破性研究展示了AI自我優(yōu)化的潛力:無需借助外部知識庫,AI也能達到卓越水平。

這一次,DeepMind在棋類AI的探索上更進一步。與AlphaZero相比,Transformer模型不僅拋棄了人類知識庫和啟發(fā)式規(guī)則,甚至不再使用任何搜索算法,而是通過監(jiān)督學習直接從包含1000萬場國際象棋比賽的數(shù)據(jù)集中學習策略。

DeepMind訓練了三種規(guī)模的Transformer模型,分別為9M、136M和270M參數(shù),并根據(jù)預測目標(動作值、狀態(tài)值或行為克?。嫿艘粋€預測器。動作值預測器用于生成策略,評估所有合法動作的預測值并選擇期望動作值最大的動作。

實驗結果顯示,最大的270M參數(shù)模型在Lichess閃電戰(zhàn)中達到了2895 Elo的分數(shù),表明它已經(jīng)具備了大師級的國際象棋策略。

Transformer能否推理引爭議,DeepMind連夜更新論文開源數(shù)據(jù)集:Transformer真的很強

(動作價值模型與Stockfish 16、Leela Chess Zero的變體、AlphaZero(有無蒙特卡洛樹搜索)以及GPT-3.5-turbo-instruct的比較)

相比AlphaZero依賴深度搜索和自我對弈,這個模型的成功之處在于無需借助任何搜索算法,僅僅基于棋盤狀態(tài)的學習也能達到大師級別的棋藝。并且該模型大幅降低了計算需求——甚至在部分任務中以八倍更少的浮點計算量取得與AlphaZero相當?shù)某煽儭?/p>

這不僅是技術上的突破,更暗示了Transformer模型在泛化和學習推理規(guī)則方面的巨大潛力。


小模型的里程碑

DeepMind這次的研究對LLM尤其是小參數(shù)模型來說,同樣具有里程碑式的意義。

相信很多人都發(fā)現(xiàn)了,現(xiàn)在LLM的研究已經(jīng)到了一個交叉點。

一部分研究者堅信“大即是好”,致力于開發(fā)性能強大的巨型模型;另一部分則選擇“小而美”的方向,專注于小參數(shù)模型的優(yōu)化和應用。

像Meta和蘋果就是小模型賽道的堅定擁護者。

Meta推出的MobileLLM系列,將模型規(guī)??s小至1B以下,并推出了125M和350M兩個版本。

而一直專注于閉源開發(fā)的蘋果,也在開源領域有所突破,發(fā)布了一系列開源模型OpenELM,參數(shù)規(guī)模集中在270M到3B之間。

270M這個數(shù)字是不是很熟悉?正是DeepMind這次使用的Transformer模型參數(shù)量。這兩家公司都不約而同選擇270M,絕非偶然。

與動輒數(shù)百億參數(shù)的巨型模型相比,蘋果的3B模型在LLM領域已算是“小型”。

然而,對于手機等移動設備而言,3B的模型依然太大。因此,270M成為絕佳選擇——既能在移動設備上順暢運行,又兼顧了模型性能。

類似的趨勢也出現(xiàn)在大型模型領域。

很多主流大模型的參數(shù)設定為7B、13B或65B,其中7B尤其常見。原因在于7B的模型可以在單卡上部署,大大降低了應用的成本和門檻。

這也表明,無論是大模型還是小模型,研究的核心都在于如何實現(xiàn)商業(yè)落地。

行業(yè)趨勢表明,輕量化正逐漸成為市場主流。相比巨型模型,小模型的優(yōu)勢十分明顯:

  • 參數(shù)少、計算量小,推理速度更快;

  • 成本更低,適合更廣泛的部署場景;

  • 對大部分企業(yè)而言,小模型的能力已經(jīng)足以滿足業(yè)務需求。

截至2021年,全球移動設備用戶數(shù)量已達86億,超過了地球總人口。如何滿足如此龐大的移動用戶需求,已經(jīng)成為各大企業(yè)競爭的焦點。

比如,蘋果的最新語音助手就內(nèi)置了270M模型,支持離線語音識別和本地響應。谷歌的TinySpeech也為了能在移動設備上實現(xiàn)更加快速準確的語音識別功能,縮小了參數(shù)規(guī)模。

OpenAI也推出了ChatGPT Lite版本,在保證準確率的同時,通過減少參數(shù)量來降低計算資源的消耗,這使得用戶能夠在資源有限的設備上,享受到流暢的實時聊天和問答系統(tǒng)交互體驗。

在與LLM有關的其他領域,也在積極推動輕量化戰(zhàn)略,包括專注于高性能硬件的英偉達。

英偉達新推出的Jetson系列(如Jetson Nano和Jetson Orin Nano)就是專為嵌入式AI系統(tǒng)設計,將強大的算力嵌入體積小、能耗低的設備中,意在推動物聯(lián)網(wǎng)和邊緣設備的發(fā)展。

這也說明,小模型并非技術上的妥協(xié),而是商業(yè)化的最優(yōu)選擇。未來更多的AI應用將逐步擺脫云端依賴,通過小模型在本地運行,推動“輕量級AI”進入日常生活。


Transformer“擬直覺”:AI是否能模仿人類思維?

這項研究還引發(fā)了一個有趣的哲學問題:AI是否正在向“直覺型思維”邁進?

傳統(tǒng)的AI系統(tǒng)依賴于窮舉式搜索和策略規(guī)劃,但人類大師的棋藝往往依賴直覺與經(jīng)驗,而非純粹的計算。

在閃電戰(zhàn)模式中,DeepMind的模型能夠在5-10分鐘內(nèi)完成棋局,依靠的是快速判斷而非傳統(tǒng)的窮舉式搜索,這種決策模式看起來和人類的直覺非常相似。

但AI的策略始終還是來自對大量數(shù)據(jù)的學習,這和人類的“下意識反應”存在本質(zhì)區(qū)別。AI的所謂直覺,更像是通過模式識別模擬人類的行為,不能真正等同于“理解”。

這種對人類思維的模擬行為也常見于其他AI領域。

拿下諾貝爾獎的AlphaFold就利用了生物序列與結構之間的復雜關系,模擬生物學家的推理過程,從而快速、準確地預測蛋白質(zhì)結構。

英偉達用于訓練和模擬機器人行為的Isaac Sim仿真平臺,也是通過模擬真實世界中的物理環(huán)境,允許AI學習如何在動態(tài)環(huán)境中做出決策,類似于人類在復雜環(huán)境中的反應方式。

遺憾的是這些表現(xiàn)依然是基于訓練數(shù)據(jù),而非真正的認知理解。

DeepMind的Transformer模型展示了AI領域的一個重要趨勢:從大模型走向輕量化、從搜索算法轉向直接推理。在未來的AI應用中,效率與規(guī)模的平衡將是關鍵。Transformer的成功不僅改變了我們對AI的認知,也為AI如何在復雜環(huán)境中進行推理提供了新的思路。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知

Transformer能否推理引爭議,DeepMind連夜更新論文開源數(shù)據(jù)集:Transformer真的很強

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說