丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給齊鋮湧
發(fā)送

0

沖破 AGI 迷霧,螞蟻看到了一個新路標

本文作者: 齊鋮湧   2025-09-29 11:01
導語:“大模型戰(zhàn)場,走到了新秩序的邊緣。?” ?作者丨齊鋮湧編輯丨陳彩嫻


01

2024年12月14日,溫哥華會展中心座無虛席,ChatGPT之父 Ilya 現(xiàn)身大銀幕,在全球 AI 頂會上, Ilya 向全行業(yè)預(yù)警:

「數(shù)據(jù)壓榨已然到頭,如果無法突破,AGI將難以實現(xiàn)。」

沖破 AGI 迷霧,螞蟻看到了一個新路標

彼時,普羅大眾還沉浸一場AI盛宴中,每天睜開雙眼,就能體驗到各種最新迭代的大模型。但臺下觀眾眉頭緊鎖,作為全球頂尖AI學者,他們早已明白這位AI之神的言外之意。

AI時代,數(shù)據(jù)猶如工業(yè)時代的化石燃料,燃料挖掘殆盡,但AGI并未涌現(xiàn),大模型領(lǐng)域,被迫走向新秩序的邊緣。

通往AGI的路上,亟需找到一些新的方向。

埃隆馬斯克率先出手,2025年中,這位“第一性原理”的忠實信徒,決定開啟重寫人類知識庫的計劃。用“提純數(shù)據(jù)”的方式,嘗試打開通往AGI的大門。

沖破 AGI 迷霧,螞蟻看到了一個新路標

另一些資深學者,則瞄準了多模態(tài)。

斯坦福大學2025春季首次公開課上,AI 頂級研究者李飛飛拋出觀點“視覺不僅是智能的一部分,更是智能的基石”。

不久后,眾多科學家們一呼百應(yīng),逐一驗證“聽說讀寫”等等多種模態(tài),Open AI也發(fā)布GPT-4o ,大家期待模型像人類一樣感知與thinking后,能帶領(lǐng)人類瞥見AGI的大門。

但無論是馬斯克的“提純數(shù)據(jù)”論,還是多模態(tài)的嘗試,都依然沿著現(xiàn)有的自回歸(AR)路徑,在做小步迭代。

業(yè)內(nèi)逐漸出現(xiàn)另一種聲音:自回歸到底是不是通往AGI的唯一路徑?

無人能做出確切回答,但大洋對面,早已有一群年輕學者開始嘗試新范式。

2025年9月11日,上海外灘大會人潮涌動。

在年輕學者含量最高的AGI見解論壇上,藍振忠和李崇軒官宣了 LLaDA-MoE 的發(fā)布。不同于市面上主流模型,這是一個基于擴散理論的新范式。

沖破 AGI 迷霧,螞蟻看到了一個新路標

李崇軒(左)、藍振忠發(fā)布LLaDA-MoE模型

最近一兩年,AI 發(fā)展迅猛卻極端割裂。

曾經(jīng)出現(xiàn)過滑稽一幕,某個大模型一邊已經(jīng)發(fā)展到能秒殺人類博士生和奧數(shù)金牌得主,另一邊卻連簡單的中譯英“美國總統(tǒng)拜登……” ,都翻譯錯誤 “US President Boo-”。

這是因為AI 為了追求速度,翻譯時不得不“邊聽邊猜”,但一旦開頭猜錯就無法收回。

出現(xiàn)人名截斷、語義顛倒尚可接受,但AI 在嚴肅的醫(yī)療診斷領(lǐng)域也時常闖禍。

明明是“左肺下葉見結(jié)節(jié),右肺未見結(jié)節(jié),直徑12 mm”,但由于AI “失憶”屬性,導致左右肺判斷顛倒。這些問題的出現(xiàn),讓很多研究者對當前大語言模型(LLM)的方向提出質(zhì)疑。

上海 AI Lab 的青年科學家付杰,在公開場合直言:“他不覺得當前大語言模型的路子是對的”,因為“現(xiàn)在這樣搞出來的LLM根本不懂它為什么能輸出某些答案,本質(zhì)上可能還是靠記憶”,清華計算機系的崔鵬教授也曾提出質(zhì)疑,LLM是否真能理解什么是“數(shù)”。

這些基本錯誤的出現(xiàn),要歸結(jié)于一個原因:底層架構(gòu)。

當下主流的大模型,底層架構(gòu)幾乎清一色采用自回歸生成范式,它的特性是單向建模。

單向建模的原理,是從前往后吐出一個個 token,用上一個字預(yù)測下一個字,因為只能從左往右的局限,就導致一個嚴重的缺陷:

這樣的大模型,既沒有逆向思維,也無法提前看到事物全貌。

科學家很早就意識到這個巨大缺陷。兩年前,來自英國前沿人工智能工作組、紐約大學、牛津等機構(gòu)的研究小組發(fā)現(xiàn):一個訓練于「A是B」的語言模型,無法推理出「B是A」。

他們向大模型提問,大模型明明知道「湯姆·克魯斯的母親是Mary Lee Pfeiffer」,但就是無法答出「Mary Lee Pfeiffer的孩子是湯姆·克魯斯」。

沖破 AGI 迷霧,螞蟻看到了一個新路標

論文地址:https://owainevans.github.io/reversal_curse.pdf

這個現(xiàn)象被寫成論文發(fā)布后,不少研究者們復(fù)現(xiàn)實驗,并將參數(shù)從350M擴展到175B,但「AB逆轉(zhuǎn)」問題依舊無法解決。

大家逐漸意識到,這是自回歸范式問題,是底層架構(gòu)問題。

后來,靠著堆算力、打補丁,引入深思考 Deep Research 模式,這個缺陷被暫時掩蓋,各大模型頭部廠商還是以日更周更的速度,迭代各種大模型。



02

但隨著深思考模式的出現(xiàn),自回歸范式的缺點不僅無法掩蓋,并被放到更大,藍振忠將自回歸(AR)生成范式的內(nèi)在缺陷,總結(jié)為三點:

01 生成速度正比于輸出長度(長文本速度慢)

02 缺乏雙向建模能力。

03 缺乏直接修正錯誤能力

藍振忠從谷歌回國后,加入西湖大學,后創(chuàng)立西湖心辰,現(xiàn)擔任螞蟻通用人工智能研究中心主任、西湖大學特聘研究員。在意識到自回歸內(nèi)在缺陷無法解決,AGI將“撞墻”后,藍振忠開始思考另辟蹊徑。

他注意到另一個范式:擴散(Diffusion)

藍振忠意識到,自回歸模型是從左往右預(yù)測下一個字,原理是逐步的條件概率;但擴散模型是在去噪過程中逐漸逼近數(shù)據(jù)分布,在并行中由粗到細去動態(tài)修正答案。

二者區(qū)別,類似于分別一根鋼筆單獨畫畫和好幾支鉛筆同時畫畫,鋼筆必須一筆畫成,但在擴散模型里,你可以用多根鉛筆從一個簡單的草圖開始,逐步添加細節(jié),并且隨時可以用橡皮修正畫面。

這意味著擴散生成模型在生成端,有三個特征正好彌補了自回歸生成范式的缺點。

第一,擴散模型能做到并行解碼,長文本的推理迭代和算力利用率都更高效。

第二,能夠雙向建模的優(yōu)點,讓擴散模型不僅避免了翻譯場景下“邊聽邊猜”和自回歸模型無法「AB逆轉(zhuǎn)」的缺陷,在多種模態(tài)場景中表現(xiàn)也更好。

第三,擴散模型能做到迭代修正,在生成代碼等場景下,能夠直接部分片段錯誤,不需要每次都重新生成。

沖破 AGI 迷霧,螞蟻看到了一個新路標

與此同時,在數(shù)據(jù)的預(yù)訓練中,擴散模型也有不少優(yōu)勢。

它類似于完形填空,隨機扔掉一些詞,然后填空。這意味著,同一份數(shù)據(jù),自回歸只能訓一兩遍,但擴散語言模型可以拿掉不同的空,多次訓練。

藍振忠舉了一個例子:

“比如你拿到一本書,如果只是逐字閱讀下一個字,你對書本內(nèi)容的理解是有限的,但是如果每次都能往回看一下,那么你對書本的理解是更深的,你能學到的東西肯定更多的?!?/p>

從生成到訓練都有優(yōu)點,讓藍振忠對擴散語言模型有了極大的信心。

同時關(guān)注到擴散模型優(yōu)點的,還有李崇軒。

李崇軒來自高瓴人工智能學院,連續(xù)做了很多基于擴散理論的文到圖、文到視頻的基礎(chǔ)研究,是擴散模型方面的知名學者。

之前,大家都以為擴散模型是用來生圖的,把擴散模型用到語言上看似不可思議。但在他看來,把擴散模型和語言結(jié)合,是很自然的想法。

李崇軒告訴雷峰網(wǎng):擴散模型第一次提出是2015年,他一開始就關(guān)注并跟進研究,2021年,擴散模型在生圖領(lǐng)域被證明可行后,越來越多學者和教授關(guān)注擴散模型。

沖破 AGI 迷霧,螞蟻看到了一個新路標

“在大語言模型中,主流觀點是從左到右的順序,雖然是實際使用非常優(yōu)的策略,但它的前提是不需要逆向思維,或者不需要反復(fù)打磨的情況下?!钡畛畿庪[約感覺到:

“從左往右,并不一定是理論最優(yōu)解。”

從理論基本準則上看,大語言模型源于生成范式,而非自回歸獨有,存在其他路徑的可能性。

2022年,李崇軒敏銳地覺察到“把擴散模型應(yīng)用到語言領(lǐng)域,理論上是可行的”,于是帶著學生開始了深入的探索,開始嘗試把擴散用到語言上。

“當時在機器學習領(lǐng)域里面,只有很少一部分人在做這個事情。”

2024年,OpenAI華人大牛宋飏靠著擴散模型領(lǐng)域的研究,火爆出圈,同一年,他的博士導師斯坦福大學Stefano Ermon教授也發(fā)了一篇關(guān)于擴散模型的論文,被業(yè)界稱為擴散模型的“GPT2時刻”。

如此多頂尖學者都在關(guān)注擴散模型,讓李崇軒非常興奮,他想站在巨人的肩膀上,將擴散模型在語言方面再向前推進一步。

但要去做一個全新范式的原生大模型,對身處高校的李崇軒來說太難了。高校的算力,工程能力,數(shù)據(jù)資源等方面都非常局限。

但幸運的是,因為一些校企合作中,李崇軒跟螞蟻集團有很多交集,校企合作結(jié)束后,雙方還一直保持很好的聯(lián)系。

去年以來,螞蟻集團持續(xù)加大AGI的基礎(chǔ)研究,在主流模型架構(gòu)基礎(chǔ)上,加強了前沿技術(shù)的實驗。藍振忠出任螞蟻通用人工智能研究中心主任后,開啟了對AGI更純粹的探索之路。

因為把擴散模型用在語言上的想法高度重合,李崇軒和藍振忠開始密切交流,世界線開始收縮。

藍振忠跟雷峰網(wǎng)(公眾號:雷峰網(wǎng))表示:“過去我們(螞蟻)想做這件事情,我其實一直在找這個方向非常優(yōu)秀的人,李崇軒老師我們是一拍即合?!?/p>

2025年 2 月份,螞蟻和高瓴人工智能學院合作推出了 LLaDA 模型,將擴散語言模型(dLLM)擴展至 8B 參數(shù)規(guī)模。

比起現(xiàn)在動輒千億、萬億的模型來說,LLaDA 模型大小和榜單數(shù)據(jù)遠遠落后,但和業(yè)界主流的自回歸(AR)生成范式不同,它是一個原生的擴散語言模型。

“它意味著我們從一個非常非常迷你的原型系統(tǒng),一個根本不能說話的原型系統(tǒng)到一個能說話的東西,其實大概一年多就走完了?!?/p>

李崇軒談到 LLaDA 的誕生過程,眼神堅定,語速很快。

其實,這個從頭開始訓練的新范式模型,不僅“能說話”,還實現(xiàn)上下文學習、指令遵循,在多輪對話方面表現(xiàn)也不錯,性能對標 LLaMA 3 。

LLaDA 的出現(xiàn),像是插在山坡上的一面旗幟,讓業(yè)內(nèi)無數(shù)學者看到,語言模型在自回歸范式外,似乎還有別的路線走得通。

LLaDA 發(fā)布之后,李崇軒和藍振忠?guī)е鴪F隊開始了進一步探索,幾個月后,對齊能力更強的LLaDA1.5和多模態(tài)版本的 LLaDA-V又先后落地。

這些自回歸模型里能做到的,擴散語言模型領(lǐng)域也在慢慢補齊。

用李崇軒的話來說:“我們想把前期能蹚的路都蹚了,這樣才能讓更多優(yōu)秀的人,進入到擴散語言模型?!笔聦嵣险侨绱?,業(yè)內(nèi)越來越多人開始關(guān)注 LLaDA ,并把它作為基礎(chǔ)或主干模型來進一步微調(diào)或擴展。

但“蹚路”并不容易,一個模型想要真正大規(guī)模應(yīng)用,除了模態(tài)和對齊能力等,還必須要做到規(guī)模化擴展(scaling)。

經(jīng)過之前無數(shù)自回歸模型的驗證,要做到 scaling ,MoE 是一個必要環(huán)節(jié)。

MoE 簡稱“混合專家模型”,是最近大模型領(lǐng)域的熱門詞匯,簡單地說是讓不同“專家”回答不同問題,可以在保持相似算力消耗的前提下,讓模型擴容變大。

因此 MoE 模式,也是 LLaDA 做大做強的路上繞不開的難題。

MoE 本身很難訓,外加擴散語言模型不僅是新范式,還是基于稠密架構(gòu)。

“在一個新的東西上疊加一個很難訓的東西,難上加難?!?/p>

李崇軒談到訓練 LLaDA-MoE 的過程提到:“一旦某一行代碼數(shù)據(jù)處理不對就崩了,我們前面拖了兩個月,就是不收斂。”

但好在藍振忠和李崇軒團隊,吸收了諸多此前螞蟻智能探索的經(jīng)驗。

在之前的訓練AI架構(gòu)中,螞蟻的工程團隊有很強的積累,通過自研 ATorch 訓練框架,已經(jīng)具備專家并行(EP)等一系列并行加速技術(shù)。

不久前,螞蟻百靈大模型團隊開源了自回歸MoE大模型Ling2.0,在訓練過程中,產(chǎn)生了一組20T的高質(zhì)量數(shù)據(jù)。

這組數(shù)據(jù),成了藍振忠和李崇軒團隊關(guān)鍵的突破口。

如此高質(zhì)量的數(shù)據(jù)加持,大大加速 LLaDA-MoE 的研發(fā)過程。

2025年9月12日,LLaDA-MoE 正式版發(fā)布。

LLaDA-MoE 的總參數(shù)量為 7B ,激活參數(shù)量為 1.4B。在約20T數(shù)據(jù)上,這個從零訓練 MoE 架構(gòu)的擴散語言模型,驗證了工業(yè)級大規(guī)模訓練的擴展性和穩(wěn)定性。

通向AGI之路,螞蟻踏出了新的一步。也意味著在把 dLLM 訓擴到更大規(guī)模的路上,國內(nèi)團隊又往前走了一步。

在參與 benchmark 測試中,LLaDA-MoE不僅超越了不少開源稠密 dLLM 模型領(lǐng)域前輩,比如 LLaDA1.0/1.5 和 Dream-7B。而且 LLaDA-MoE 還追平了Qwen2.5-3B 。

這意味著,稠密擴散語言模型和同數(shù)量級訓練的稠密自回歸模型,可以坐在同一桌掰手腕了。

沖破 AGI 迷霧,螞蟻看到了一個新路標沖破 AGI 迷霧,螞蟻看到了一個新路標沖破 AGI 迷霧,螞蟻看到了一個新路標

更重要的是,從 1.4B 激活參數(shù)、2 倍多參數(shù)稠密模型的等效比看,LLaDA-MoE 驗證了一件事:

MoE 架構(gòu)的放大效應(yīng),在擴散語言模型上同樣奏效。

這為業(yè)內(nèi)在擴散語言模型的 scaling 上,指出了一條明亮的路。

盡管 LLaDA1.0完成了從零到一, LLaDA-MoE 更是里程碑般的存在,但在登山的路上,LLaDA-MoE 還有太多的路要走,藍振忠談到LLaDA-MoE 需要克服的困難,滔滔不絕。

“比如在速度上,理論上比自回歸好,但現(xiàn)在自回歸每秒能吐300個token,但擴散語言模型開源最好也只能吐50個;再比如規(guī)模上,雖然可以做到 MoE 了,但更大的規(guī)模怎么跑?比如我們這次還沒做類似于block diffusion等等,下一次······”



03

采訪尾聲,李崇軒再次提到了“蹚路”,我們想把前期能蹚的路都蹚了。

“這個方向需要更多聰明的人參與進來,就像自回歸模型的發(fā)展依靠了全世界的貢獻,擴散語言模型的發(fā)展同樣需要借助社區(qū)的力量。”

因此,LLaDA-MoE在發(fā)布的第一時間,就把基礎(chǔ)模型版 LLaDA-MoE-7B-A1B-Base 和指令微調(diào)版 LLaDA-MoE-7B-A1B-Instruct兩個版本全部開源。

沖破 AGI 迷霧,螞蟻看到了一個新路標

HuggingFace 鏈接:https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base

GitHub 鏈接:https://github.com/ML-GSAI/LLaDA

除了模型權(quán)重外,團隊還將同步開源針對 dLLM 并行特性深度優(yōu)化的推理引擎。相比 NVIDIA 官方 fast-dLLM,該引擎實現(xiàn)了顯著加速。

不僅如此,螞蟻還在持續(xù)投入包括基于dLLM的AGI領(lǐng)域,在下一階段,將聯(lián)合學界和全球AI社區(qū)共同推動AGI新的突破。

發(fā)布會結(jié)束后,有媒體問到藍振忠:

“聽下來這是一個非常前沿的探索,螞蟻拿出來資金和精力投入如此前沿的領(lǐng)域,萬一未來種花得豆怎么辦?”

藍振忠這樣回答:“如果不去探索那些在別人眼中可能充滿風險的領(lǐng)域,(我們)就只能永遠跟隨他人已經(jīng)確定的路徑前進。要提升智能的上限,就不能一直 follow?!?/p>

當巨獸仍在摩挲舊地圖,微光已悄然改道。這是螞蟻AGI的回答,也是一位位年輕學者的回答。沖破 AGI 迷霧,螞蟻看到了一個新路標


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

沖破 AGI 迷霧,螞蟻看到了一個新路標

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說