32B 稠密模型推理能力超越 R1？秘密 AI 團(tuán)隊(duì)發(fā)布推理小模型 AM-Thinking-v1

本文作者：鄭佳美

2025-05-15 14:39

導(dǎo)語(yǔ)：資源有限、專(zhuān)注后訓(xùn)練也能實(shí)現(xiàn)強(qiáng)推理。

在大模型競(jìng)速進(jìn)入推理能力深水區(qū)的 2025 年，一支神秘的團(tuán)隊(duì)悄然登場(chǎng)。他們不是來(lái)自一線大廠的 AI Lab，也沒(méi)有高調(diào)預(yù)熱和融資造勢(shì)，而是在 Hugging Face 低調(diào)開(kāi)源了一款 32B 的推理模型：AM-Thinking-v1。

令人驚訝的是，這個(gè)中等規(guī)模的稠密模型，在多個(gè)關(guān)鍵推理評(píng)測(cè)中擊敗了 DeepSeek-R1，并與超大規(guī)模的 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking 不相上下。

這款模型背后的團(tuán)隊(duì)，是國(guó)內(nèi)一個(gè)從未對(duì)外披露的研究團(tuán)隊(duì)——A-M-team。他們不依賴(lài)私有數(shù)據(jù)、不依賴(lài)海量計(jì)算資源，僅憑開(kāi)源底座和訓(xùn)練管線的極致設(shè)計(jì)，就做出了開(kāi)放社區(qū) 32B 級(jí)別中最強(qiáng)的推理模型。

32B 稠密模型推理能力超越 R1？秘密 AI 團(tuán)隊(duì)發(fā)布推理小模型 AM-Thinking-v1

論文鏈接：https://arxiv.org/pdf/2505.08311

性能全面超越 DeepSeek-R1：32B 模型中的“黑馬”

在當(dāng)前主流評(píng)測(cè)中，AM-Thinking-v1 也交出了極具沖擊力的成績(jī)單，僅 32B 的結(jié)構(gòu)在數(shù)學(xué)推理（AIME 系列）和代碼生成（LiveCodeBench）中分別取得了 85.3 和 70.3 的高分，不僅全面超越了 DeepSeek-R1（671B MoE 架構(gòu)），還逼近甚至追平了 Qwen3-235B-A22B 和 Seed1.5-Thinking 等超大規(guī)模 MoE 模型的成績(jī)。

把“小體積，大推理”的極限范式展現(xiàn)得淋漓盡致。

值得注意的是，AIME 系列題目來(lái)自美國(guó)數(shù)學(xué)邀請(qǐng)賽，結(jié)構(gòu)復(fù)雜、要求精準(zhǔn)，歷來(lái)是衡量模型邏輯思維能力的金標(biāo)準(zhǔn)；LiveCodeBench 則強(qiáng)調(diào)代碼可執(zhí)行性和穩(wěn)健性，數(shù)據(jù)污染難度高，是真實(shí)場(chǎng)景下“思考-編碼-驗(yàn)證”鏈條的嚴(yán)苛考驗(yàn)。

32B 稠密模型推理能力超越 R1？秘密 AI 團(tuán)隊(duì)發(fā)布推理小模型 AM-Thinking-v1

AM-Thinking-v1 模型測(cè)試得分表

32B 稠密模型推理能力超越 R1？秘密 AI 團(tuán)隊(duì)發(fā)布推理小模型 AM-Thinking-v1

AIME2024 不同模型尺寸效果對(duì)比；x 軸為模型尺寸，y 軸為分?jǐn)?shù)

32B 稠密模型推理能力超越 R1？秘密 AI 團(tuán)隊(duì)發(fā)布推理小模型 AM-Thinking-v1

LiveCodeBench 不同模型尺寸效果對(duì)比；x 軸為模型尺寸，y 軸為分?jǐn)?shù)

推特大 V Aran Komatsuzaki 也下場(chǎng)轉(zhuǎn)發(fā)，并配文：AM-Thinking-v1 正以 32B 的規(guī)模推進(jìn)著推理前沿性能的邊界。

32B 稠密模型推理能力超越 R1？秘密 AI 團(tuán)隊(duì)發(fā)布推理小模型 AM-Thinking-v1

分?jǐn)?shù)之外，是更具實(shí)際意義的任務(wù)。當(dāng)研究人員用 AM-Thinking-v1 去解決典型的“旋轉(zhuǎn)三角形中紅球反彈”問(wèn)題時(shí)，AM-Thinking-v1 展現(xiàn)出了多步邏輯極強(qiáng)的理解，給出了完整的運(yùn)動(dòng)軌跡模擬和對(duì)于小球碰撞的判斷。

32B 稠密模型推理能力超越 R1？秘密 AI 團(tuán)隊(duì)發(fā)布推理小模型 AM-Thinking-v1

而在邏輯推理任務(wù)中，AM-Thinking-v1 也能保持非常穩(wěn)定的思考過(guò)程。

32B 稠密模型推理能力超越 R1？秘密 AI 團(tuán)隊(duì)發(fā)布推理小模型 AM-Thinking-v1

在長(zhǎng)文本寫(xiě)作能力的測(cè)試中，AM-Thinking-v1 在表達(dá)邏輯和意象捕捉方面也展現(xiàn)出了初步的組織能力。

32B 稠密模型推理能力超越 R1？秘密 AI 團(tuán)隊(duì)發(fā)布推理小模型 AM-Thinking-v1

32B 模型的新上限，是這樣“訓(xùn)”出來(lái)的

與追求超大規(guī)模和大數(shù)據(jù)堆疊不同，A-M-team 的關(guān)鍵突破在于如何用有限的計(jì)算和開(kāi)源數(shù)據(jù)，最大化32B模型的推理能力。

他們?cè)O(shè)計(jì)了一整套后訓(xùn)練（post-training）方案，其中包括冷啟動(dòng)式監(jiān)督微調(diào)、通過(guò)率引導(dǎo)的數(shù)據(jù)篩選機(jī)制以及雙階段強(qiáng)化學(xué)習(xí)（Dual-stage RL）。

首先在監(jiān)督微調(diào)（SFT）階段，團(tuán)隊(duì)用了一個(gè)相對(duì)激進(jìn)但效果很好的設(shè)置：把學(xué)習(xí)率拉到了 8e-5，batch size 也做了加大，還支持最長(zhǎng) 32K 的輸入長(zhǎng)度。訓(xùn)練樣本被特別設(shè)計(jì)成“先思考再回答”的格式。

這個(gè)設(shè)計(jì)幫助模型建立了“先想清楚、再說(shuō)話(huà)”的好習(xí)慣。而且，訓(xùn)練中還能明顯看到模型越來(lái)越懂得控制長(zhǎng)度、避免啰嗦——這些變化在平均生成長(zhǎng)度和終止率上都有反映

32B 稠密模型推理能力超越 R1？秘密 AI 團(tuán)隊(duì)發(fā)布推理小模型 AM-Thinking-v1

其次在數(shù)據(jù)這塊，團(tuán)隊(duì)完全依靠開(kāi)源資源，從數(shù)學(xué)、代碼、科學(xué)推理到指令跟隨和通用對(duì)話(huà)，總共整理出了五類(lèi)核心任務(wù)的數(shù)據(jù)。

他們花了大量時(shí)間做清洗：不僅去重、改寫(xiě)問(wèn)題，防止和評(píng)測(cè)集“撞題”，還對(duì)數(shù)學(xué)數(shù)據(jù)進(jìn)行嚴(yán)格驗(yàn)證，甚至用 DeepSeek-R1 和 o4-mini 來(lái)交叉比對(duì)標(biāo)準(zhǔn)答案。生成的訓(xùn)練樣本也經(jīng)過(guò)層層篩選，比如用 PPL 算分、檢查重復(fù)短語(yǔ)和結(jié)構(gòu)完整性，最終留下的數(shù)據(jù)干凈又靠譜。

32B 稠密模型推理能力超越 R1？秘密 AI 團(tuán)隊(duì)發(fā)布推理小模型 AM-Thinking-v1

在最后的強(qiáng)化學(xué)習(xí)（RL）階段，團(tuán)隊(duì)選用了 GRPO 這種輕量級(jí)算法，還特別搞了個(gè)“難度感知”的策略，意思是：先挑一些模型做得不太好的題來(lái)練，等熟練了，再加入一些通用對(duì)話(huà)和指令跟隨任務(wù)來(lái)拓展能力。

獎(jiǎng)勵(lì)機(jī)制也挺講究：數(shù)學(xué)和代碼類(lèi)的問(wèn)題用規(guī)則驗(yàn)證或者直接跑沙盒程序驗(yàn)證答案；而像 open-ended 回答這種，就讓 LLM 來(lái)打分，從有用性、準(zhǔn)確性、連貫性這三方面評(píng)估，保證模型在各方面都能進(jìn)步。

當(dāng)然，為了讓整個(gè) RL 訓(xùn)練高效跑得動(dòng)，A-M-team 還在工程上動(dòng)了不少腦筋。比如他們把推理和訓(xùn)練分開(kāi)，用了 streaming rollout 的方式，還配了個(gè)前端負(fù)載均衡器，能根據(jù)每張 GPU 的實(shí)際壓力動(dòng)態(tài)分配任務(wù)，最大限度避免“有的卡閑著、有的卡累死”的情況。不僅訓(xùn)練穩(wěn)，還能大大節(jié)省時(shí)間和算力

32B 稠密模型推理能力超越 R1？秘密 AI 團(tuán)隊(duì)發(fā)布推理小模型 AM-Thinking-v1

總的來(lái)說(shuō)，雖然 AM-Thinking-v1 已經(jīng)在推理上做得很出色，但它目前還不支持函數(shù)調(diào)用、多模態(tài)輸入，對(duì)低資源語(yǔ)言的能力也有待驗(yàn)證。

不過(guò)，即便如此，它已經(jīng)把 32B 模型的性能潛力挖掘到了極致，也為開(kāi)源 LLM 社區(qū)提供了一個(gè)值得借鑒的思路：不靠堆參數(shù)、不靠私有數(shù)據(jù)，通過(guò)細(xì)致訓(xùn)練設(shè)計(jì)，也能做出足夠聰明的模型。

為什么要做一個(gè) 32B 推理模型？

在當(dāng)前大模型發(fā)展趨勢(shì)中，主流路線正不斷追求更大的參數(shù)規(guī)模、更復(fù)雜的架構(gòu)（如 MoE）、更龐大的訓(xùn)練數(shù)據(jù)和更昂貴的訓(xùn)練資源。但這條路線的成本極高，同時(shí)也帶來(lái)了模型部署難、推理延遲高、適配門(mén)檻大等一系列現(xiàn)實(shí)問(wèn)題。

A-M-team 選擇反其道而行之，專(zhuān)注在 32B 這一“中尺度模型”的參數(shù)區(qū)間，其實(shí)背后也有有著明確的考量：他們想探索一種在計(jì)算資源可控、數(shù)據(jù)完全開(kāi)源的條件下，也能實(shí)現(xiàn)強(qiáng)大推理能力的路徑。

具體來(lái)說(shuō)，32B 是一個(gè)對(duì)研究與應(yīng)用都更友好的“黃金尺寸”：

足夠強(qiáng)大：相比 7B 或 13B 模型，32B 在能力上能支持復(fù)雜的數(shù)學(xué)推理和代碼生成，具備執(zhí)行嚴(yán)肅 reasoning 任務(wù)的基礎(chǔ)；

成本可控：相比 100B、200B 甚至 670B 的巨型模型，32B 模型訓(xùn)練與推理資源需求顯著更低，更適合在企業(yè)或研究機(jī)構(gòu)內(nèi)部復(fù)現(xiàn)、部署和迭代；

部署更友好：在單節(jié)點(diǎn)或小規(guī)模集群上即可運(yùn)行，可應(yīng)用于更多落地場(chǎng)景；

MoE 替代探索：它也是對(duì) MoE 路線的替代探索，A-M-team 想要驗(yàn)證，不使用專(zhuān)家模型，僅靠稠密結(jié)構(gòu)和扎實(shí)的后訓(xùn)練設(shè)計(jì)，是否也能達(dá)到甚至超越 MoE 模型的表現(xiàn)。

AM-Thinking-v1 正是在這樣的問(wèn)題驅(qū)動(dòng)下誕生的：一個(gè)不依賴(lài)私有數(shù)據(jù)、沒(méi)有特殊硬件依賴(lài)、完全基于社區(qū)資源訓(xùn)練而成的中尺度模型。

而它的表現(xiàn)也正好印證了這個(gè)方向的潛力——不僅在 AIME 和 LiveCodeBench 等高難度任務(wù)上超越了 DeepSeek-R1，還在多個(gè)維度接近 Qwen3-235B-A22B 這類(lèi)百億級(jí) MoE 模型。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))簡(jiǎn)而言之，AM-Thinking-v1 想要回答的是一個(gè)關(guān)鍵問(wèn)題：“大模型能力的上限，能不能用更小的體量實(shí)現(xiàn)？” 結(jié)果是肯定的。

而這正是 32B 推理模型的價(jià)值所在。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。