丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給齊鋮湧
發(fā)送

0

沖破 AGI 迷霧,螞蟻看到了一個(gè)新路標(biāo)

本文作者: 齊鋮湧   2025-09-29 11:01
導(dǎo)語(yǔ):“大模型戰(zhàn)場(chǎng),走到了新秩序的邊緣。?” ?作者丨齊鋮湧編輯丨陳彩嫻


01

2024年12月14日,溫哥華會(huì)展中心座無(wú)虛席,ChatGPT之父 Ilya 現(xiàn)身大銀幕,在全球 AI 頂會(huì)上, Ilya 向全行業(yè)預(yù)警:

「數(shù)據(jù)壓榨已然到頭,如果無(wú)法突破,AGI將難以實(shí)現(xiàn)?!?/p>

沖破 AGI 迷霧,螞蟻看到了一個(gè)新路標(biāo)

彼時(shí),普羅大眾還沉浸一場(chǎng)AI盛宴中,每天睜開雙眼,就能體驗(yàn)到各種最新迭代的大模型。但臺(tái)下觀眾眉頭緊鎖,作為全球頂尖AI學(xué)者,他們?cè)缫衙靼走@位AI之神的言外之意。

AI時(shí)代,數(shù)據(jù)猶如工業(yè)時(shí)代的化石燃料,燃料挖掘殆盡,但AGI并未涌現(xiàn),大模型領(lǐng)域,被迫走向新秩序的邊緣。

通往AGI的路上,亟需找到一些新的方向。

埃隆馬斯克率先出手,2025年中,這位“第一性原理”的忠實(shí)信徒,決定開啟重寫人類知識(shí)庫(kù)的計(jì)劃。用“提純數(shù)據(jù)”的方式,嘗試打開通往AGI的大門。

沖破 AGI 迷霧,螞蟻看到了一個(gè)新路標(biāo)

另一些資深學(xué)者,則瞄準(zhǔn)了多模態(tài)。

斯坦福大學(xué)2025春季首次公開課上,AI 頂級(jí)研究者李飛飛拋出觀點(diǎn)“視覺不僅是智能的一部分,更是智能的基石”。

不久后,眾多科學(xué)家們一呼百應(yīng),逐一驗(yàn)證“聽說讀寫”等等多種模態(tài),Open AI也發(fā)布GPT-4o ,大家期待模型像人類一樣感知與thinking后,能帶領(lǐng)人類瞥見AGI的大門。

但無(wú)論是馬斯克的“提純數(shù)據(jù)”論,還是多模態(tài)的嘗試,都依然沿著現(xiàn)有的自回歸(AR)路徑,在做小步迭代。

業(yè)內(nèi)逐漸出現(xiàn)另一種聲音:自回歸到底是不是通往AGI的唯一路徑?

無(wú)人能做出確切回答,但大洋對(duì)面,早已有一群年輕學(xué)者開始嘗試新范式。

2025年9月11日,上海外灘大會(huì)人潮涌動(dòng)。

在年輕學(xué)者含量最高的AGI見解論壇上,藍(lán)振忠和李崇軒官宣了 LLaDA-MoE 的發(fā)布。不同于市面上主流模型,這是一個(gè)基于擴(kuò)散理論的新范式。

沖破 AGI 迷霧,螞蟻看到了一個(gè)新路標(biāo)

李崇軒(左)、藍(lán)振忠發(fā)布LLaDA-MoE模型

最近一兩年,AI 發(fā)展迅猛卻極端割裂。

曾經(jīng)出現(xiàn)過滑稽一幕,某個(gè)大模型一邊已經(jīng)發(fā)展到能秒殺人類博士生和奧數(shù)金牌得主,另一邊卻連簡(jiǎn)單的中譯英“美國(guó)總統(tǒng)拜登……” ,都翻譯錯(cuò)誤 “US President Boo-”。

這是因?yàn)锳I 為了追求速度,翻譯時(shí)不得不“邊聽邊猜”,但一旦開頭猜錯(cuò)就無(wú)法收回。

出現(xiàn)人名截?cái)唷⒄Z(yǔ)義顛倒尚可接受,但AI 在嚴(yán)肅的醫(yī)療診斷領(lǐng)域也時(shí)常闖禍。

明明是“左肺下葉見結(jié)節(jié),右肺未見結(jié)節(jié),直徑12 mm”,但由于AI “失憶”屬性,導(dǎo)致左右肺判斷顛倒。這些問題的出現(xiàn),讓很多研究者對(duì)當(dāng)前大語(yǔ)言模型(LLM)的方向提出質(zhì)疑。

上海 AI Lab 的青年科學(xué)家付杰,在公開場(chǎng)合直言:“他不覺得當(dāng)前大語(yǔ)言模型的路子是對(duì)的”,因?yàn)椤艾F(xiàn)在這樣搞出來(lái)的LLM根本不懂它為什么能輸出某些答案,本質(zhì)上可能還是靠記憶”,清華計(jì)算機(jī)系的崔鵬教授也曾提出質(zhì)疑,LLM是否真能理解什么是“數(shù)”。

這些基本錯(cuò)誤的出現(xiàn),要?dú)w結(jié)于一個(gè)原因:底層架構(gòu)。

當(dāng)下主流的大模型,底層架構(gòu)幾乎清一色采用自回歸生成范式,它的特性是單向建模。

單向建模的原理,是從前往后吐出一個(gè)個(gè) token,用上一個(gè)字預(yù)測(cè)下一個(gè)字,因?yàn)橹荒軓淖笸业木窒?,就?dǎo)致一個(gè)嚴(yán)重的缺陷:

這樣的大模型,既沒有逆向思維,也無(wú)法提前看到事物全貌。

科學(xué)家很早就意識(shí)到這個(gè)巨大缺陷。兩年前,來(lái)自英國(guó)前沿人工智能工作組、紐約大學(xué)、牛津等機(jī)構(gòu)的研究小組發(fā)現(xiàn):一個(gè)訓(xùn)練于「A是B」的語(yǔ)言模型,無(wú)法推理出「B是A」。

他們向大模型提問,大模型明明知道「湯姆·克魯斯的母親是Mary Lee Pfeiffer」,但就是無(wú)法答出「Mary Lee Pfeiffer的孩子是湯姆·克魯斯」。

沖破 AGI 迷霧,螞蟻看到了一個(gè)新路標(biāo)

論文地址:https://owainevans.github.io/reversal_curse.pdf

這個(gè)現(xiàn)象被寫成論文發(fā)布后,不少研究者們復(fù)現(xiàn)實(shí)驗(yàn),并將參數(shù)從350M擴(kuò)展到175B,但「AB逆轉(zhuǎn)」問題依舊無(wú)法解決。

大家逐漸意識(shí)到,這是自回歸范式問題,是底層架構(gòu)問題。

后來(lái),靠著堆算力、打補(bǔ)丁,引入深思考 Deep Research 模式,這個(gè)缺陷被暫時(shí)掩蓋,各大模型頭部廠商還是以日更周更的速度,迭代各種大模型。



02

但隨著深思考模式的出現(xiàn),自回歸范式的缺點(diǎn)不僅無(wú)法掩蓋,并被放到更大,藍(lán)振忠將自回歸(AR)生成范式的內(nèi)在缺陷,總結(jié)為三點(diǎn):

01 生成速度正比于輸出長(zhǎng)度(長(zhǎng)文本速度慢)

02 缺乏雙向建模能力。

03 缺乏直接修正錯(cuò)誤能力

藍(lán)振忠從谷歌回國(guó)后,加入西湖大學(xué),后創(chuàng)立西湖心辰,現(xiàn)擔(dān)任螞蟻通用人工智能研究中心主任、西湖大學(xué)特聘研究員。在意識(shí)到自回歸內(nèi)在缺陷無(wú)法解決,AGI將“撞墻”后,藍(lán)振忠開始思考另辟蹊徑。

他注意到另一個(gè)范式:擴(kuò)散(Diffusion)

藍(lán)振忠意識(shí)到,自回歸模型是從左往右預(yù)測(cè)下一個(gè)字,原理是逐步的條件概率;但擴(kuò)散模型是在去噪過程中逐漸逼近數(shù)據(jù)分布,在并行中由粗到細(xì)去動(dòng)態(tài)修正答案。

二者區(qū)別,類似于分別一根鋼筆單獨(dú)畫畫和好幾支鉛筆同時(shí)畫畫,鋼筆必須一筆畫成,但在擴(kuò)散模型里,你可以用多根鉛筆從一個(gè)簡(jiǎn)單的草圖開始,逐步添加細(xì)節(jié),并且隨時(shí)可以用橡皮修正畫面。

這意味著擴(kuò)散生成模型在生成端,有三個(gè)特征正好彌補(bǔ)了自回歸生成范式的缺點(diǎn)。

第一,擴(kuò)散模型能做到并行解碼,長(zhǎng)文本的推理迭代和算力利用率都更高效。

第二,能夠雙向建模的優(yōu)點(diǎn),讓擴(kuò)散模型不僅避免了翻譯場(chǎng)景下“邊聽邊猜”和自回歸模型無(wú)法「AB逆轉(zhuǎn)」的缺陷,在多種模態(tài)場(chǎng)景中表現(xiàn)也更好。

第三,擴(kuò)散模型能做到迭代修正,在生成代碼等場(chǎng)景下,能夠直接部分片段錯(cuò)誤,不需要每次都重新生成。

沖破 AGI 迷霧,螞蟻看到了一個(gè)新路標(biāo)

與此同時(shí),在數(shù)據(jù)的預(yù)訓(xùn)練中,擴(kuò)散模型也有不少優(yōu)勢(shì)。

它類似于完形填空,隨機(jī)扔掉一些詞,然后填空。這意味著,同一份數(shù)據(jù),自回歸只能訓(xùn)一兩遍,但擴(kuò)散語(yǔ)言模型可以拿掉不同的空,多次訓(xùn)練。

藍(lán)振忠舉了一個(gè)例子:

“比如你拿到一本書,如果只是逐字閱讀下一個(gè)字,你對(duì)書本內(nèi)容的理解是有限的,但是如果每次都能往回看一下,那么你對(duì)書本的理解是更深的,你能學(xué)到的東西肯定更多的?!?/p>

從生成到訓(xùn)練都有優(yōu)點(diǎn),讓藍(lán)振忠對(duì)擴(kuò)散語(yǔ)言模型有了極大的信心。

同時(shí)關(guān)注到擴(kuò)散模型優(yōu)點(diǎn)的,還有李崇軒。

李崇軒來(lái)自高瓴人工智能學(xué)院,連續(xù)做了很多基于擴(kuò)散理論的文到圖、文到視頻的基礎(chǔ)研究,是擴(kuò)散模型方面的知名學(xué)者。

之前,大家都以為擴(kuò)散模型是用來(lái)生圖的,把擴(kuò)散模型用到語(yǔ)言上看似不可思議。但在他看來(lái),把擴(kuò)散模型和語(yǔ)言結(jié)合,是很自然的想法。

李崇軒告訴雷峰網(wǎng):擴(kuò)散模型第一次提出是2015年,他一開始就關(guān)注并跟進(jìn)研究,2021年,擴(kuò)散模型在生圖領(lǐng)域被證明可行后,越來(lái)越多學(xué)者和教授關(guān)注擴(kuò)散模型。

沖破 AGI 迷霧,螞蟻看到了一個(gè)新路標(biāo)

“在大語(yǔ)言模型中,主流觀點(diǎn)是從左到右的順序,雖然是實(shí)際使用非常優(yōu)的策略,但它的前提是不需要逆向思維,或者不需要反復(fù)打磨的情況下。”但李崇軒隱約感覺到:

“從左往右,并不一定是理論最優(yōu)解。”

從理論基本準(zhǔn)則上看,大語(yǔ)言模型源于生成范式,而非自回歸獨(dú)有,存在其他路徑的可能性。

2022年,李崇軒敏銳地覺察到“把擴(kuò)散模型應(yīng)用到語(yǔ)言領(lǐng)域,理論上是可行的”,于是帶著學(xué)生開始了深入的探索,開始嘗試把擴(kuò)散用到語(yǔ)言上。

“當(dāng)時(shí)在機(jī)器學(xué)習(xí)領(lǐng)域里面,只有很少一部分人在做這個(gè)事情?!?/p>

2024年,OpenAI華人大牛宋飏靠著擴(kuò)散模型領(lǐng)域的研究,火爆出圈,同一年,他的博士導(dǎo)師斯坦福大學(xué)Stefano Ermon教授也發(fā)了一篇關(guān)于擴(kuò)散模型的論文,被業(yè)界稱為擴(kuò)散模型的“GPT2時(shí)刻”。

如此多頂尖學(xué)者都在關(guān)注擴(kuò)散模型,讓李崇軒非常興奮,他想站在巨人的肩膀上,將擴(kuò)散模型在語(yǔ)言方面再向前推進(jìn)一步。

但要去做一個(gè)全新范式的原生大模型,對(duì)身處高校的李崇軒來(lái)說太難了。高校的算力,工程能力,數(shù)據(jù)資源等方面都非常局限。

但幸運(yùn)的是,因?yàn)橐恍┬F蠛献髦?,李崇軒跟螞蟻集團(tuán)有很多交集,校企合作結(jié)束后,雙方還一直保持很好的聯(lián)系。

去年以來(lái),螞蟻集團(tuán)持續(xù)加大AGI的基礎(chǔ)研究,在主流模型架構(gòu)基礎(chǔ)上,加強(qiáng)了前沿技術(shù)的實(shí)驗(yàn)。藍(lán)振忠出任螞蟻通用人工智能研究中心主任后,開啟了對(duì)AGI更純粹的探索之路。

因?yàn)榘褦U(kuò)散模型用在語(yǔ)言上的想法高度重合,李崇軒和藍(lán)振忠開始密切交流,世界線開始收縮。

藍(lán)振忠跟雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))表示:“過去我們(螞蟻)想做這件事情,我其實(shí)一直在找這個(gè)方向非常優(yōu)秀的人,李崇軒老師我們是一拍即合?!?/p>

2025年 2 月份,螞蟻和高瓴人工智能學(xué)院合作推出了 LLaDA 模型,將擴(kuò)散語(yǔ)言模型(dLLM)擴(kuò)展至 8B 參數(shù)規(guī)模。

比起現(xiàn)在動(dòng)輒千億、萬(wàn)億的模型來(lái)說,LLaDA 模型大小和榜單數(shù)據(jù)遠(yuǎn)遠(yuǎn)落后,但和業(yè)界主流的自回歸(AR)生成范式不同,它是一個(gè)原生的擴(kuò)散語(yǔ)言模型。

“它意味著我們從一個(gè)非常非常迷你的原型系統(tǒng),一個(gè)根本不能說話的原型系統(tǒng)到一個(gè)能說話的東西,其實(shí)大概一年多就走完了?!?/p>

李崇軒談到 LLaDA 的誕生過程,眼神堅(jiān)定,語(yǔ)速很快。

其實(shí),這個(gè)從頭開始訓(xùn)練的新范式模型,不僅“能說話”,還實(shí)現(xiàn)上下文學(xué)習(xí)、指令遵循,在多輪對(duì)話方面表現(xiàn)也不錯(cuò),性能對(duì)標(biāo) LLaMA 3 。

LLaDA 的出現(xiàn),像是插在山坡上的一面旗幟,讓業(yè)內(nèi)無(wú)數(shù)學(xué)者看到,語(yǔ)言模型在自回歸范式外,似乎還有別的路線走得通。

LLaDA 發(fā)布之后,李崇軒和藍(lán)振忠?guī)е鴪F(tuán)隊(duì)開始了進(jìn)一步探索,幾個(gè)月后,對(duì)齊能力更強(qiáng)的LLaDA1.5和多模態(tài)版本的 LLaDA-V又先后落地。

這些自回歸模型里能做到的,擴(kuò)散語(yǔ)言模型領(lǐng)域也在慢慢補(bǔ)齊。

用李崇軒的話來(lái)說:“我們想把前期能蹚的路都蹚了,這樣才能讓更多優(yōu)秀的人,進(jìn)入到擴(kuò)散語(yǔ)言模型?!笔聦?shí)上正是如此,業(yè)內(nèi)越來(lái)越多人開始關(guān)注 LLaDA ,并把它作為基礎(chǔ)或主干模型來(lái)進(jìn)一步微調(diào)或擴(kuò)展。

但“蹚路”并不容易,一個(gè)模型想要真正大規(guī)模應(yīng)用,除了模態(tài)和對(duì)齊能力等,還必須要做到規(guī)?;瘮U(kuò)展(scaling)。

經(jīng)過之前無(wú)數(shù)自回歸模型的驗(yàn)證,要做到 scaling ,MoE 是一個(gè)必要環(huán)節(jié)。

MoE 簡(jiǎn)稱“混合專家模型”,是最近大模型領(lǐng)域的熱門詞匯,簡(jiǎn)單地說是讓不同“專家”回答不同問題,可以在保持相似算力消耗的前提下,讓模型擴(kuò)容變大。

因此 MoE 模式,也是 LLaDA 做大做強(qiáng)的路上繞不開的難題。

MoE 本身很難訓(xùn),外加擴(kuò)散語(yǔ)言模型不僅是新范式,還是基于稠密架構(gòu)。

“在一個(gè)新的東西上疊加一個(gè)很難訓(xùn)的東西,難上加難?!?/p>

李崇軒談到訓(xùn)練 LLaDA-MoE 的過程提到:“一旦某一行代碼數(shù)據(jù)處理不對(duì)就崩了,我們前面拖了兩個(gè)月,就是不收斂?!?/p>

但好在藍(lán)振忠和李崇軒團(tuán)隊(duì),吸收了諸多此前螞蟻智能探索的經(jīng)驗(yàn)。

在之前的訓(xùn)練AI架構(gòu)中,螞蟻的工程團(tuán)隊(duì)有很強(qiáng)的積累,通過自研 ATorch 訓(xùn)練框架,已經(jīng)具備專家并行(EP)等一系列并行加速技術(shù)。

不久前,螞蟻百靈大模型團(tuán)隊(duì)開源了自回歸MoE大模型Ling2.0,在訓(xùn)練過程中,產(chǎn)生了一組20T的高質(zhì)量數(shù)據(jù)。

這組數(shù)據(jù),成了藍(lán)振忠和李崇軒團(tuán)隊(duì)關(guān)鍵的突破口。

如此高質(zhì)量的數(shù)據(jù)加持,大大加速 LLaDA-MoE 的研發(fā)過程。

2025年9月12日,LLaDA-MoE 正式版發(fā)布。

LLaDA-MoE 的總參數(shù)量為 7B ,激活參數(shù)量為 1.4B。在約20T數(shù)據(jù)上,這個(gè)從零訓(xùn)練 MoE 架構(gòu)的擴(kuò)散語(yǔ)言模型,驗(yàn)證了工業(yè)級(jí)大規(guī)模訓(xùn)練的擴(kuò)展性和穩(wěn)定性。

通向AGI之路,螞蟻踏出了新的一步。也意味著在把 dLLM 訓(xùn)擴(kuò)到更大規(guī)模的路上,國(guó)內(nèi)團(tuán)隊(duì)又往前走了一步。

在參與 benchmark 測(cè)試中,LLaDA-MoE不僅超越了不少開源稠密 dLLM 模型領(lǐng)域前輩,比如 LLaDA1.0/1.5 和 Dream-7B。而且 LLaDA-MoE 還追平了Qwen2.5-3B 。

這意味著,稠密擴(kuò)散語(yǔ)言模型和同數(shù)量級(jí)訓(xùn)練的稠密自回歸模型,可以坐在同一桌掰手腕了。

沖破 AGI 迷霧,螞蟻看到了一個(gè)新路標(biāo)沖破 AGI 迷霧,螞蟻看到了一個(gè)新路標(biāo)沖破 AGI 迷霧,螞蟻看到了一個(gè)新路標(biāo)

更重要的是,從 1.4B 激活參數(shù)、2 倍多參數(shù)稠密模型的等效比看,LLaDA-MoE 驗(yàn)證了一件事:

MoE 架構(gòu)的放大效應(yīng),在擴(kuò)散語(yǔ)言模型上同樣奏效。

這為業(yè)內(nèi)在擴(kuò)散語(yǔ)言模型的 scaling 上,指出了一條明亮的路。

盡管 LLaDA1.0完成了從零到一, LLaDA-MoE 更是里程碑般的存在,但在登山的路上,LLaDA-MoE 還有太多的路要走,藍(lán)振忠談到LLaDA-MoE 需要克服的困難,滔滔不絕。

“比如在速度上,理論上比自回歸好,但現(xiàn)在自回歸每秒能吐300個(gè)token,但擴(kuò)散語(yǔ)言模型開源最好也只能吐50個(gè);再比如規(guī)模上,雖然可以做到 MoE 了,但更大的規(guī)模怎么跑?比如我們這次還沒做類似于block diffusion等等,下一次······”



03

采訪尾聲,李崇軒再次提到了“蹚路”,我們想把前期能蹚的路都蹚了。

“這個(gè)方向需要更多聰明的人參與進(jìn)來(lái),就像自回歸模型的發(fā)展依靠了全世界的貢獻(xiàn),擴(kuò)散語(yǔ)言模型的發(fā)展同樣需要借助社區(qū)的力量。”

因此,LLaDA-MoE在發(fā)布的第一時(shí)間,就把基礎(chǔ)模型版 LLaDA-MoE-7B-A1B-Base 和指令微調(diào)版 LLaDA-MoE-7B-A1B-Instruct兩個(gè)版本全部開源。

沖破 AGI 迷霧,螞蟻看到了一個(gè)新路標(biāo)

HuggingFace 鏈接:https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base

GitHub 鏈接:https://github.com/ML-GSAI/LLaDA

除了模型權(quán)重外,團(tuán)隊(duì)還將同步開源針對(duì) dLLM 并行特性深度優(yōu)化的推理引擎。相比 NVIDIA 官方 fast-dLLM,該引擎實(shí)現(xiàn)了顯著加速。

不僅如此,螞蟻還在持續(xù)投入包括基于dLLM的AGI領(lǐng)域,在下一階段,將聯(lián)合學(xué)界和全球AI社區(qū)共同推動(dòng)AGI新的突破。

發(fā)布會(huì)結(jié)束后,有媒體問到藍(lán)振忠:

“聽下來(lái)這是一個(gè)非常前沿的探索,螞蟻拿出來(lái)資金和精力投入如此前沿的領(lǐng)域,萬(wàn)一未來(lái)種花得豆怎么辦?”

藍(lán)振忠這樣回答:“如果不去探索那些在別人眼中可能充滿風(fēng)險(xiǎn)的領(lǐng)域,(我們)就只能永遠(yuǎn)跟隨他人已經(jīng)確定的路徑前進(jìn)。要提升智能的上限,就不能一直 follow?!?/p>

當(dāng)巨獸仍在摩挲舊地圖,微光已悄然改道。這是螞蟻AGI的回答,也是一位位年輕學(xué)者的回答。沖破 AGI 迷霧,螞蟻看到了一個(gè)新路標(biāo)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

沖破 AGI 迷霧,螞蟻看到了一個(gè)新路標(biāo)

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說