丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給梁丙鑒
發(fā)送

0

性價比搏擊:Grok 4 Fast 推理成本直降 98%

本文作者: 梁丙鑒   2025-09-29 16:12
導(dǎo)語:打響低成本推理之爭。

雷峰網(wǎng)訊 幾乎沒有預(yù)熱,馬斯克不聲不響把模型調(diào)用成本砍掉 98%。

作為低成本推理模型的最新進展,xAI 于上周五發(fā)布了其旗艦?zāi)P偷妮p量化版本 Grok 4 Fast。

通過大規(guī)模強化學(xué)習(xí)實現(xiàn)智能密度最大化,Grok 4 Fast 在基準(zhǔn)測試上實現(xiàn)了與 Grok 4 相當(dāng)?shù)谋憩F(xiàn)。同時由于推理任務(wù)的平均 token 消耗減少了 40 %,xAI 此次更新將前沿模型的調(diào)用成本大幅降低。

據(jù)官方測算,Grok 4 Fast 單個推理任務(wù)的成本最低可降至原來的 2%。

這已經(jīng)是一個可以改寫大模型競爭規(guī)則的數(shù)字。

端到端強化學(xué)習(xí)

如果要給 Grok 4 Fast 三個關(guān)鍵詞,那應(yīng)該是 AI 搜索、上下文窗口和統(tǒng)一模型架構(gòu)。

xAI 在一篇博客中介紹,Grok 4 Fast 擁有原生的工具調(diào)用能力,這是指 Grok 4 Fast 通過端到端工具使用強化學(xué)習(xí)進行訓(xùn)練,在決定何時調(diào)用代碼或網(wǎng)頁等工具方面表現(xiàn)出色。

由于背靠 X 平臺的豐富數(shù)據(jù),此舉為 Grok 4 Fast 在自主探索能力方面帶來的優(yōu)勢更為突出。該模型能夠無縫瀏覽網(wǎng)頁和 X 平臺,利用實時數(shù)據(jù)增強查詢,同時支持跳轉(zhuǎn)鏈接獲取媒體內(nèi)容,并以極快速度綜合生成結(jié)果。

對于外部工具的自主使用能力,Grok 4 Fast 在 BrowseComp(44.9%)和 X Bench Deepsearch(74%)等基準(zhǔn)測試中,表現(xiàn)優(yōu)均于 Grok 4。

在 LMArena 的搜索競技場中,Grok 4 Fast 以 1163 分位列第一,力壓此前 OpenAI 領(lǐng)先的 o3-websearch,更是優(yōu)于 gpt-5-search 和 grok-4-search。在文本競技場中,Grok 4 Fast 則排名第八,以一分之差險勝 grok-4-0709版本。

可以看到,Grok 4 Fast 已經(jīng)顯著優(yōu)于同等量級的模型,而在搜索相關(guān)任務(wù)中,模型參數(shù)造成的差距則可以被強化學(xué)習(xí)帶來的推理效率和智能密度所追平甚至跨越。

性價比搏擊:Grok 4 Fast 推理成本直降 98%

即將和 Grok 4 Fast 同期推出的是其兩個版本,grok-4-fast-reasoning 和 grok-4-fast-non-reasoning,即長鏈?zhǔn)剿季S和快速響應(yīng)兩種推理模式,均具備 200 萬 token 的上下文窗口。

值得一提的是,Grok 4 Fast 采用了統(tǒng)一模型架構(gòu)。

此前,在不同推理模式下應(yīng)用不同的獨立模型已經(jīng)成為業(yè)界通行的選擇。對于僅需要簡單回答和大量推理的任務(wù),手動切換模型的開關(guān)對于各個模型廠商來說幾乎已是標(biāo)配。

而 Grok 4 Fast 此次更新引入了統(tǒng)一架構(gòu),其中 reasoning(長鏈?zhǔn)剿季S)和 non-reasoning(快速響應(yīng))兩種模式由同一模型權(quán)重處理,推理過程中通過系統(tǒng)提示進行引導(dǎo)。

這種設(shè)計進一步降低了端到端延遲和 token 成本??梢灶A(yù)見的結(jié)果是,在壓縮調(diào)用成本之外,Grok 4 Fast 距離那些對即時響應(yīng)存在高需求的場景也更近了一步。

SOTA 性價比

SOTA 一日三變,市場對模型性能擠牙膏的戲碼早就沒有了耐心。

xAI 也深知這一點,所以比起循例公布的基準(zhǔn)測試結(jié)果,此次更新真正的“軍火展示”其實是下面這兩張圖。

性價比搏擊:Grok 4 Fast 推理成本直降 98%

性價比搏擊:Grok 4 Fast 推理成本直降 98%

Grok 4 Fast 的 token 效率提升了 40%,加之每個 token 的大幅降價,最終結(jié)果是開發(fā)者的模型調(diào)用成本顯著降低。而此時的模型性能,仍可以基本保持在 Grok 4 的水平。

根據(jù) Artificial Analysis 的獨立評測,Grok 4 Fast 相較于其它公開可用的模型,展現(xiàn)出了 SOTA 級別的性價比。

在官方博客中,xAI 將 Grok 4 Fast 稱為“低成本推理的最近進展”。98% 的成本壓縮一出,馬斯克就差把“我們最便宜大碗”寫在臉上。雖然沒能在追求智能上限的路上甩開友商,但“誰都能用”是在“比誰都強”之外,另一種打遍天下的可行方案。

在此前的很長一段時間里,大模型都是一場暴力美學(xué)的軍備競賽,更大的參數(shù)規(guī)模、算力消耗和更強的推理能力成為了模型廠商競爭的硬指標(biāo)。GPT-4、Gemini、Llama系列,乃至 xAI 自家的 Grok 4 Heavy,都是這種極致性能追求下的產(chǎn)物。

然而實驗室之外的世界沒有那么關(guān)注技術(shù)邊界,當(dāng)大模型以一款產(chǎn)品的角色面向市場,過去的技術(shù)路線也在應(yīng)用場景之前留下了一道道坎,其中最為明顯的就是昂貴的推理成本和漫長的響應(yīng)時間。

相比之下,曾經(jīng)被視為閹割性能的小模型,如今卻正在成為應(yīng)用普及的關(guān)鍵角色。

xAI 雖未公布 Grok 4 Fast 的具體參數(shù),但根據(jù)命名邏輯的行業(yè)慣例,其大概率是在 Grok 4 的基礎(chǔ)上通過蒸餾、架構(gòu)優(yōu)化等技術(shù)降低了計算負(fù)載與延遲。這意味著它能在更低配置的服務(wù)器甚至邊緣設(shè)備上高效運行,并實現(xiàn)遠低于 Grok 4 Heavy 每百萬 tokens 輸入 3 美元、輸出 15 美元的“奢侈品”定價。

“低成本推理”主打的不是推理,而是低成本。在智能上限短期內(nèi)突破無望的背景下,每省下一個 token,每個 token 多便宜一點,都是向落地多邁出了一步。而在這場性價比搏擊中,馬斯克先揮出了一記重拳。

參考資料:

https://x.ai/news/grok-4-fast#native-tool-use-with-sota-search

雷峰網(wǎng)(公眾號:雷峰網(wǎng))文章


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說