丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給徐咪
發(fā)送

0

美團發(fā)布LongCat-Image圖像生成模型,編輯能力登頂開源SOTA

本文作者: 徐咪   2025-12-08 14:51
導語:我們堅信,真正的技術(shù)進步源于社區(qū)的集體智慧。

盡管近年來AIGC關(guān)鍵技術(shù)不斷突破,但圖像生成領(lǐng)域始終面臨著一個“兩難困境”:閉源模型性能強大但難以私有化部署;開源方案在輕量化與高性能之間難以取舍,且缺乏面向商用的專項能力。

針對這一行業(yè)痛點,美團LongCat團隊近日宣布,開源其最新研發(fā)的LongCat-Image模型。該模型通過高性能模型架構(gòu)設(shè)計、系統(tǒng)性的訓練策略和數(shù)據(jù)工程,以6B的緊湊參數(shù)規(guī)模,在文生圖與圖像編輯核心能力上逼近了更大尺寸的頭部模型,為開發(fā)者與產(chǎn)業(yè)界提供了一個“高性能、低門檻、全開放”的全新選擇。

美團發(fā)布LongCat-Image圖像生成模型,編輯能力登頂開源SOTA ▲模型架構(gòu)

據(jù)介紹,LongCat-Image的核心優(yōu)勢在于其架構(gòu)設(shè)計與訓練策略。

具體來看,模型采用文生圖與圖像編輯同源的架構(gòu),結(jié)合漸進式學習策略,成功在6B參數(shù)下實現(xiàn)了指令遵循精準度、生圖質(zhì)量與文字渲染能力的高效協(xié)同。

在圖像編輯方面,LongCat-Image的“可控性”表現(xiàn)突出,而性能突破的關(guān)鍵在于一套緊密協(xié)同的訓練范式和數(shù)據(jù)策略。

為有效繼承文生圖模型的知識和美感,同時避免文生圖后訓練階段收窄的狀態(tài)空間對編輯指令多樣性的限制,團隊一方面基于文生圖Mid-training階段模型進行初始化,并采用指令編輯與文生圖多任務(wù)聯(lián)合學習機制,深化對復雜多樣化指令的理解;另一方面,通過預訓練階段的多源數(shù)據(jù)及指令改寫策略,以及結(jié)合SFT階段引入的人工精標數(shù)據(jù),最終實現(xiàn)了指令遵循精準度、泛化性和編輯前后視覺一致性的共同提升。

在GEdit-Bench和ImgEdit-Bench等權(quán)威基準測試中,LongCat-Image均達到開源SOTA(當前最佳)水平,可精準響應用戶的多樣化修改需求。

在中文文本渲染這一長期困擾業(yè)界的難題上,LongCat-Image也取得了很大進展,通過課程學習策略提升字符覆蓋度和渲染精準度:預訓練階段基于千萬量級合成數(shù)據(jù)學習字形,覆蓋通用規(guī)范漢字表的8105個漢字;SFT 階段引入真實世界文本圖像數(shù)據(jù),提升在字體、排版布局上的泛化能力;在RL(強化學習)階段,引入OCR與美學雙獎勵模型,進一步提升文本準確性與背景融合自然度。

該模型在ChineseWord評測中以90.7的得分領(lǐng)先同類產(chǎn)品。無論是商業(yè)海報中的復雜筆畫,還是古詩詞插圖中的生僻字,LongCat-Image均能實現(xiàn)精準、自然的渲染,進一步拓展AI在設(shè)計領(lǐng)域的應用邊界。

為了提升生成圖像的審美與真實感,LongCat團隊還構(gòu)建了系統(tǒng)性的數(shù)據(jù)篩選與對抗訓練框架。團隊在預訓練階段嚴格過濾低質(zhì)量AIGC數(shù)據(jù),并在RL階段創(chuàng)新性引入AIGC內(nèi)容檢測器作為獎勵模型,利用其對抗信號逆向引導模型學習真實世界的物理紋理、光影和質(zhì)感,從而顯著改善了AI繪圖常見的“塑料感”紋理。

美團發(fā)布LongCat-Image圖像生成模型,編輯能力登頂開源SOTA ▲客觀基準測試性能對比

全面的客觀與主觀評測數(shù)據(jù)均驗證了LongCat-Image的能力:在客觀基準測試中,其圖像編輯得分與中文渲染能力均領(lǐng)跑參評模型;在文生圖任務(wù)上,GenEval與DPG-Bench的優(yōu)異表現(xiàn)證明了其相比頭部開源與閉源模型依然具備強競爭力。

美團發(fā)布LongCat-Image圖像生成模型,編輯能力登頂開源SOTA ▲人類主觀評分對比& 并列對比評估勝率

在更貼近用戶體驗的主觀評測(文生圖方面采用大規(guī)模的人工主觀評分與圖像編輯方面采用嚴格的并列對比評估)中,LongCat-Image在真實度方面相比主流開閉源模型表現(xiàn)出色,同時在文本-圖像對齊與合理度上達到開源SOTA水平;至于綜合編輯質(zhì)量和視覺一致性方面,雖然與Nano Banana等商業(yè)閉源模型仍有一定差距,但在開源領(lǐng)域已形成領(lǐng)先優(yōu)勢。

值得一提的是,為了構(gòu)建一個更透明、開放、協(xié)作的開源生態(tài)系統(tǒng),美團 LongCat團隊此次全面開源了從Mid-training到Post-training的文生圖多階段模型及圖像編輯模型,旨在支持從前沿研究到商業(yè)應用的全流程。相關(guān)資源已在Hugging Face和GitHub上線,用戶也可在官網(wǎng)longcat.ai上體驗。

與此同時,面向終端用戶的“LongCat APP”也迎來重大升級,全新上線的圖生圖功能與24個零門檻玩法模板,讓普通用戶也能一鍵生成海報、精修人像,實現(xiàn)“專業(yè)AI創(chuàng)作零門檻”。

美團LongCat團隊還表示:“我們堅信,真正的技術(shù)進步源于社區(qū)的集體智慧。現(xiàn)誠邀廣大開發(fā)者體驗模型、參與共建,與我們共同基于這個高效能模型,探索視覺生成的更多可能?!?/p>

相關(guān)鏈接:

· Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image

· GitHub: https://github.com/meituan-longcat/LongCat-Image

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說