螞蟻百靈發(fā)布輕量級推理模型 Ring-mini-2.0，將逐步全面開源

本文作者：小七

2025-09-16 12:55

專題：2025 Inclusion·外灘大會

導(dǎo)語：Ring-mini-2.0：小模型撬動大智慧，推理高效開源。

近日，據(jù)百靈大模型公眾號，螞蟻百靈團隊發(fā)布并開源了Ring-mini-2.0推理模型。它是基于此前螞蟻百靈發(fā)布的基礎(chǔ)語言模型 Ling 2.0 架構(gòu)，深度優(yōu)化的高性能推理型 MoE 模型。它在總參數(shù)量16B、僅激活1.4B參數(shù)的情況下，即可達到10B級別以下dense 模型的綜合推理能力，尤其在邏輯推理、代碼與數(shù)學(xué)任務(wù)中表現(xiàn)卓越，并支持 128K 長上下文及 300+ token/s 的高速生成。

經(jīng)過 Long-COT SFT、更穩(wěn)定持續(xù)的RLVR以及RLHF聯(lián)合優(yōu)化，Ring-mini-2.0復(fù)雜推理的穩(wěn)定性與泛化性得到顯著提升。在多項高難度基準(zhǔn)（LiveCodeBench、AIME 2025、GPQA、ARC-AGI-v1 等）中，在輸出長度相當(dāng)?shù)那闆r下，Ring-mini-2.0性能顯著超越10B以下dense 模型，甚至媲美更大參數(shù)量的MoE模型（如 gpt-oss-20B-medium），在邏輯推理方面尤為突出。

螞蟻百靈發(fā)布輕量級推理模型 Ring-mini-2.0，將逐步全面開源

（Ring-mini-2.0性能表現(xiàn)）

據(jù)了解，Ring-mini-2.0繼承了Ling 2.0 系列的高效 MoE 設(shè)計，僅激活 1.4B 參數(shù)，通過 1/32 專家激活比、MTP 層等架構(gòu)優(yōu)化，達到約 7–8B dense 模型的等效性能。得益于小激活、高稀疏度的設(shè)計，Ring-mini-2.0 在H20 部署下實現(xiàn) 300+ token/s 的吞吐，結(jié)合 Expert Dual Streaming 推理優(yōu)化后可進一步提升至 500+ token/s，大幅降低高并發(fā)場景下 Thinking 模型的推理成本。同時，借助 YaRN 外推可支持 128K 長上下文，長輸出場景下相對加速比最高可達 7 倍以上。

螞蟻百靈團隊表示將完整開放 Ring-mini-2.0 的模型權(quán)重、訓(xùn)練數(shù)據(jù)和 RLVR+RLHF 訓(xùn)練策略。憑借“小而優(yōu)”的特點，Ring-mini-2.0 有望成為小尺寸推理模型的首選，為學(xué)術(shù)和工業(yè)界提供理想的研究與應(yīng)用起點。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章