0
本文作者: 小七 | 2025-09-16 12:55 | 專題:2025 Inclusion·外灘大會 |
近日,據(jù)百靈大模型公眾號,螞蟻百靈團隊發(fā)布并開源了Ring-mini-2.0推理模型。它是基于此前螞蟻百靈發(fā)布的基礎(chǔ)語言模型 Ling 2.0 架構(gòu),深度優(yōu)化的高性能推理型 MoE 模型。它在總參數(shù)量16B、僅激活1.4B參數(shù)的情況下,即可達到10B級別以下dense 模型的綜合推理能力,尤其在邏輯推理、代碼與數(shù)學(xué)任務(wù)中表現(xiàn)卓越,并支持 128K 長上下文及 300+ token/s 的高速生成。
經(jīng)過 Long-COT SFT、更穩(wěn)定持續(xù)的RLVR以及RLHF聯(lián)合優(yōu)化,Ring-mini-2.0復(fù)雜推理的穩(wěn)定性與泛化性得到顯著提升。在多項高難度基準(zhǔn)(LiveCodeBench、AIME 2025、GPQA、ARC-AGI-v1 等)中,在輸出長度相當(dāng)?shù)那闆r下,Ring-mini-2.0性能顯著超越10B以下dense 模型,甚至媲美更大參數(shù)量的MoE模型(如 gpt-oss-20B-medium),在邏輯推理方面尤為突出。
(Ring-mini-2.0性能表現(xiàn))
據(jù)了解,Ring-mini-2.0繼承了Ling 2.0 系列的高效 MoE 設(shè)計,僅激活 1.4B 參數(shù),通過 1/32 專家激活比、MTP 層等架構(gòu)優(yōu)化,達到約 7–8B dense 模型的等效性能。得益于小激活、高稀疏度的設(shè)計,Ring-mini-2.0 在H20 部署下實現(xiàn) 300+ token/s 的吞吐,結(jié)合 Expert Dual Streaming 推理優(yōu)化后可進一步提升至 500+ token/s,大幅降低高并發(fā)場景下 Thinking 模型的推理成本。同時,借助 YaRN 外推可支持 128K 長上下文,長輸出場景下相對加速比最高可達 7 倍以上。
螞蟻百靈團隊表示將完整開放 Ring-mini-2.0 的模型權(quán)重、訓(xùn)練數(shù)據(jù)和 RLVR+RLHF 訓(xùn)練策略。憑借“小而優(yōu)”的特點,Ring-mini-2.0 有望成為小尺寸推理模型的首選,為學(xué)術(shù)和工業(yè)界提供理想的研究與應(yīng)用起點。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章