性價(jià)比搏擊：Grok 4 Fast 推理成本直降 98%

本文作者：梁丙鑒

2025-09-29 16:12

導(dǎo)語：打響低成本推理之爭。

雷峰網(wǎng)訊幾乎沒有預(yù)熱，馬斯克不聲不響把模型調(diào)用成本砍掉 98%。

作為低成本推理模型的最新進(jìn)展，xAI 于上周五發(fā)布了其旗艦?zāi)Ｐ偷妮p量化版本 Grok 4 Fast。

通過大規(guī)模強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)智能密度最大化，Grok 4 Fast 在基準(zhǔn)測試上實(shí)現(xiàn)了與 Grok 4 相當(dāng)?shù)谋憩F(xiàn)。同時由于推理任務(wù)的平均 token 消耗減少了 40 %，xAI 此次更新將前沿模型的調(diào)用成本大幅降低。

據(jù)官方測算，Grok 4 Fast 單個推理任務(wù)的成本最低可降至原來的 2%。

這已經(jīng)是一個可以改寫大模型競爭規(guī)則的數(shù)字。

端到端強(qiáng)化學(xué)習(xí)

如果要給 Grok 4 Fast 三個關(guān)鍵詞，那應(yīng)該是 AI 搜索、上下文窗口和統(tǒng)一模型架構(gòu)。

xAI 在一篇博客中介紹，Grok 4 Fast 擁有原生的工具調(diào)用能力，這是指 Grok 4 Fast 通過端到端工具使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，在決定何時調(diào)用代碼或網(wǎng)頁等工具方面表現(xiàn)出色。

由于背靠 X 平臺的豐富數(shù)據(jù)，此舉為 Grok 4 Fast 在自主探索能力方面帶來的優(yōu)勢更為突出。該模型能夠無縫瀏覽網(wǎng)頁和 X 平臺，利用實(shí)時數(shù)據(jù)增強(qiáng)查詢，同時支持跳轉(zhuǎn)鏈接獲取媒體內(nèi)容，并以極快速度綜合生成結(jié)果。

對于外部工具的自主使用能力，Grok 4 Fast 在 BrowseComp（44.9%）和 X Bench Deepsearch（74%）等基準(zhǔn)測試中，表現(xiàn)優(yōu)均于 Grok 4。

在 LMArena 的搜索競技場中，Grok 4 Fast 以 1163 分位列第一，力壓此前 OpenAI 領(lǐng)先的 o3-websearch，更是優(yōu)于 gpt-5-search 和 grok-4-search。在文本競技場中，Grok 4 Fast 則排名第八，以一分之差險(xiǎn)勝 grok-4-0709版本。

可以看到，Grok 4 Fast 已經(jīng)顯著優(yōu)于同等量級的模型，而在搜索相關(guān)任務(wù)中，模型參數(shù)造成的差距則可以被強(qiáng)化學(xué)習(xí)帶來的推理效率和智能密度所追平甚至跨越。

性價(jià)比搏擊：Grok 4 Fast 推理成本直降 98%

即將和 Grok 4 Fast 同期推出的是其兩個版本，grok-4-fast-reasoning 和 grok-4-fast-non-reasoning，即長鏈?zhǔn)剿季S和快速響應(yīng)兩種推理模式，均具備 200 萬 token 的上下文窗口。

值得一提的是，Grok 4 Fast 采用了統(tǒng)一模型架構(gòu)。

此前，在不同推理模式下應(yīng)用不同的獨(dú)立模型已經(jīng)成為業(yè)界通行的選擇。對于僅需要簡單回答和大量推理的任務(wù)，手動切換模型的開關(guān)對于各個模型廠商來說幾乎已是標(biāo)配。

而 Grok 4 Fast 此次更新引入了統(tǒng)一架構(gòu)，其中 reasoning（長鏈?zhǔn)剿季S）和 non-reasoning（快速響應(yīng)）兩種模式由同一模型權(quán)重處理，推理過程中通過系統(tǒng)提示進(jìn)行引導(dǎo)。

這種設(shè)計(jì)進(jìn)一步降低了端到端延遲和 token 成本。可以預(yù)見的結(jié)果是，在壓縮調(diào)用成本之外，Grok 4 Fast 距離那些對即時響應(yīng)存在高需求的場景也更近了一步。

SOTA 性價(jià)比

SOTA 一日三變，市場對模型性能擠牙膏的戲碼早就沒有了耐心。

xAI 也深知這一點(diǎn)，所以比起循例公布的基準(zhǔn)測試結(jié)果，此次更新真正的“軍火展示”其實(shí)是下面這兩張圖。

性價(jià)比搏擊：Grok 4 Fast 推理成本直降 98%

Grok 4 Fast 的 token 效率提升了 40%，加之每個 token 的大幅降價(jià)，最終結(jié)果是開發(fā)者的模型調(diào)用成本顯著降低。而此時的模型性能，仍可以基本保持在 Grok 4 的水平。

根據(jù) Artificial Analysis 的獨(dú)立評測，Grok 4 Fast 相較于其它公開可用的模型，展現(xiàn)出了 SOTA 級別的性價(jià)比。

在官方博客中，xAI 將 Grok 4 Fast 稱為“低成本推理的最近進(jìn)展”。98% 的成本壓縮一出，馬斯克就差把“我們最便宜大碗”寫在臉上。雖然沒能在追求智能上限的路上甩開友商，但“誰都能用”是在“比誰都強(qiáng)”之外，另一種打遍天下的可行方案。

在此前的很長一段時間里，大模型都是一場暴力美學(xué)的軍備競賽，更大的參數(shù)規(guī)模、算力消耗和更強(qiáng)的推理能力成為了模型廠商競爭的硬指標(biāo)。GPT-4、Gemini、Llama系列，乃至 xAI 自家的 Grok 4 Heavy，都是這種極致性能追求下的產(chǎn)物。

然而實(shí)驗(yàn)室之外的世界沒有那么關(guān)注技術(shù)邊界，當(dāng)大模型以一款產(chǎn)品的角色面向市場，過去的技術(shù)路線也在應(yīng)用場景之前留下了一道道坎，其中最為明顯的就是昂貴的推理成本和漫長的響應(yīng)時間。

相比之下，曾經(jīng)被視為閹割性能的小模型，如今卻正在成為應(yīng)用普及的關(guān)鍵角色。

xAI 雖未公布 Grok 4 Fast 的具體參數(shù)，但根據(jù)命名邏輯的行業(yè)慣例，其大概率是在 Grok 4 的基礎(chǔ)上通過蒸餾、架構(gòu)優(yōu)化等技術(shù)降低了計(jì)算負(fù)載與延遲。這意味著它能在更低配置的服務(wù)器甚至邊緣設(shè)備上高效運(yùn)行，并實(shí)現(xiàn)遠(yuǎn)低于 Grok 4 Heavy 每百萬 tokens 輸入 3 美元、輸出 15 美元的“奢侈品”定價(jià)。

“低成本推理”主打的不是推理，而是低成本。在智能上限短期內(nèi)突破無望的背景下，每省下一個 token，每個 token 多便宜一點(diǎn)，都是向落地多邁出了一步。而在這場性價(jià)比搏擊中，馬斯克先揮出了一記重拳。

參考資料：

https://x.ai/news/grok-4-fast#native-tool-use-with-sota-search

雷峰網(wǎng)(公眾號：雷峰網(wǎng))文章

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

梁丙鑒

編輯

發(fā)私信

當(dāng)月熱門文章

人工智能驅(qū)動科研創(chuàng)新，開啟碳硅協(xié)同智能探索新紀(jì)元