0
本文作者: 鄭佳美 | 2025-05-15 14:39 |
在大模型競速進入推理能力深水區(qū)的 2025 年,一支神秘的團隊悄然登場。他們不是來自一線大廠的 AI Lab,也沒有高調(diào)預(yù)熱和融資造勢,而是在 Hugging Face 低調(diào)開源了一款 32B 的推理模型:AM-Thinking-v1。
令人驚訝的是,這個中等規(guī)模的稠密模型,在多個關(guān)鍵推理評測中擊敗了 DeepSeek-R1,并與超大規(guī)模的 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking 不相上下。
這款模型背后的團隊,是國內(nèi)一個從未對外披露的研究團隊——A-M-team。他們不依賴私有數(shù)據(jù)、不依賴海量計算資源,僅憑開源底座和訓(xùn)練管線的極致設(shè)計,就做出了開放社區(qū) 32B 級別中最強的推理模型。
論文鏈接:https://arxiv.org/pdf/2505.08311
在當前主流評測中,AM-Thinking-v1 也交出了極具沖擊力的成績單,僅 32B 的結(jié)構(gòu)在數(shù)學推理(AIME 系列)和代碼生成(LiveCodeBench)中分別取得了 85.3 和 70.3 的高分,不僅全面超越了 DeepSeek-R1(671B MoE 架構(gòu)),還逼近甚至追平了 Qwen3-235B-A22B 和 Seed1.5-Thinking 等超大規(guī)模 MoE 模型的成績。
把“小體積,大推理”的極限范式展現(xiàn)得淋漓盡致。
值得注意的是,AIME 系列題目來自美國數(shù)學邀請賽,結(jié)構(gòu)復(fù)雜、要求精準,歷來是衡量模型邏輯思維能力的金標準;LiveCodeBench 則強調(diào)代碼可執(zhí)行性和穩(wěn)健性,數(shù)據(jù)污染難度高,是真實場景下“思考-編碼-驗證”鏈條的嚴苛考驗。
AM-Thinking-v1 模型測試得分表
AIME2024 不同模型尺寸效果對比;x 軸為模型尺寸,y 軸為分數(shù)
LiveCodeBench 不同模型尺寸效果對比;x 軸為模型尺寸,y 軸為分數(shù)
推特大 V Aran Komatsuzaki 也下場轉(zhuǎn)發(fā),并配文:AM-Thinking-v1 正以 32B 的規(guī)模推進著推理前沿性能的邊界。
分數(shù)之外,是更具實際意義的任務(wù)。當研究人員用 AM-Thinking-v1 去解決典型的“旋轉(zhuǎn)三角形中紅球反彈”問題時,AM-Thinking-v1 展現(xiàn)出了多步邏輯極強的理解,給出了完整的運動軌跡模擬和對于小球碰撞的判斷。
而在邏輯推理任務(wù)中,AM-Thinking-v1 也能保持非常穩(wěn)定的思考過程。
在長文本寫作能力的測試中,AM-Thinking-v1 在表達邏輯和意象捕捉方面也展現(xiàn)出了初步的組織能力。
與追求超大規(guī)模和大數(shù)據(jù)堆疊不同,A-M-team 的關(guān)鍵突破在于如何用有限的計算和開源數(shù)據(jù),最大化32B模型的推理能力。
他們設(shè)計了一整套后訓(xùn)練(post-training)方案,其中包括冷啟動式監(jiān)督微調(diào)、通過率引導(dǎo)的數(shù)據(jù)篩選機制以及雙階段強化學習(Dual-stage RL)。
首先在監(jiān)督微調(diào)(SFT)階段,團隊用了一個相對激進但效果很好的設(shè)置:把學習率拉到了 8e-5,batch size 也做了加大,還支持最長 32K 的輸入長度。訓(xùn)練樣本被特別設(shè)計成“先思考再回答”的格式。
這個設(shè)計幫助模型建立了“先想清楚、再說話”的好習慣。而且,訓(xùn)練中還能明顯看到模型越來越懂得控制長度、避免啰嗦——這些變化在平均生成長度和終止率上都有反映
其次在數(shù)據(jù)這塊,團隊完全依靠開源資源,從數(shù)學、代碼、科學推理到指令跟隨和通用對話,總共整理出了五類核心任務(wù)的數(shù)據(jù)。
他們花了大量時間做清洗:不僅去重、改寫問題,防止和評測集“撞題”,還對數(shù)學數(shù)據(jù)進行嚴格驗證,甚至用 DeepSeek-R1 和 o4-mini 來交叉比對標準答案。生成的訓(xùn)練樣本也經(jīng)過層層篩選,比如用 PPL 算分、檢查重復(fù)短語和結(jié)構(gòu)完整性,最終留下的數(shù)據(jù)干凈又靠譜。
在最后的強化學習(RL)階段,團隊選用了 GRPO 這種輕量級算法,還特別搞了個“難度感知”的策略,意思是:先挑一些模型做得不太好的題來練,等熟練了,再加入一些通用對話和指令跟隨任務(wù)來拓展能力。
獎勵機制也挺講究:數(shù)學和代碼類的問題用規(guī)則驗證或者直接跑沙盒程序驗證答案;而像 open-ended 回答這種,就讓 LLM 來打分,從有用性、準確性、連貫性這三方面評估,保證模型在各方面都能進步。
當然,為了讓整個 RL 訓(xùn)練高效跑得動,A-M-team 還在工程上動了不少腦筋。比如他們把推理和訓(xùn)練分開,用了 streaming rollout 的方式,還配了個前端負載均衡器,能根據(jù)每張 GPU 的實際壓力動態(tài)分配任務(wù),最大限度避免“有的卡閑著、有的卡累死”的情況。不僅訓(xùn)練穩(wěn),還能大大節(jié)省時間和算力
總的來說,雖然 AM-Thinking-v1 已經(jīng)在推理上做得很出色,但它目前還不支持函數(shù)調(diào)用、多模態(tài)輸入,對低資源語言的能力也有待驗證。
不過,即便如此,它已經(jīng)把 32B 模型的性能潛力挖掘到了極致,也為開源 LLM 社區(qū)提供了一個值得借鑒的思路:不靠堆參數(shù)、不靠私有數(shù)據(jù),通過細致訓(xùn)練設(shè)計,也能做出足夠聰明的模型。
在當前大模型發(fā)展趨勢中,主流路線正不斷追求更大的參數(shù)規(guī)模、更復(fù)雜的架構(gòu)(如 MoE)、更龐大的訓(xùn)練數(shù)據(jù)和更昂貴的訓(xùn)練資源。但這條路線的成本極高,同時也帶來了模型部署難、推理延遲高、適配門檻大等一系列現(xiàn)實問題。
A-M-team 選擇反其道而行之,專注在 32B 這一“中尺度模型”的參數(shù)區(qū)間,其實背后也有有著明確的考量:他們想探索一種在計算資源可控、數(shù)據(jù)完全開源的條件下,也能實現(xiàn)強大推理能力的路徑。
具體來說,32B 是一個對研究與應(yīng)用都更友好的“黃金尺寸”:
足夠強大:相比 7B 或 13B 模型,32B 在能力上能支持復(fù)雜的數(shù)學推理和代碼生成,具備執(zhí)行嚴肅 reasoning 任務(wù)的基礎(chǔ);
成本可控:相比 100B、200B 甚至 670B 的巨型模型,32B 模型訓(xùn)練與推理資源需求顯著更低,更適合在企業(yè)或研究機構(gòu)內(nèi)部復(fù)現(xiàn)、部署和迭代;
部署更友好:在單節(jié)點或小規(guī)模集群上即可運行,可應(yīng)用于更多落地場景;
MoE 替代探索:它也是對 MoE 路線的替代探索,A-M-team 想要驗證,不使用專家模型,僅靠稠密結(jié)構(gòu)和扎實的后訓(xùn)練設(shè)計,是否也能達到甚至超越 MoE 模型的表現(xiàn)。
AM-Thinking-v1 正是在這樣的問題驅(qū)動下誕生的:一個不依賴私有數(shù)據(jù)、沒有特殊硬件依賴、完全基于社區(qū)資源訓(xùn)練而成的中尺度模型。
而它的表現(xiàn)也正好印證了這個方向的潛力——不僅在 AIME 和 LiveCodeBench 等高難度任務(wù)上超越了 DeepSeek-R1,還在多個維度接近 Qwen3-235B-A22B 這類百億級 MoE 模型。雷峰網(wǎng)(公眾號:雷峰網(wǎng))簡而言之,AM-Thinking-v1 想要回答的是一個關(guān)鍵問題:“大模型能力的上限,能不能用更小的體量實現(xiàn)?” 結(jié)果是肯定的。
而這正是 32B 推理模型的價值所在。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。