OpenAI 終于發(fā)布 GPT-4o mini，但比中國大模型晚了半年

本文作者：朱可軒

2024-07-19 16:07

導語：OpenAI 的入局，更加驗證了“小”模型的未來價值。

美國時間 7 月18 日，OpenAI 正式發(fā)布了多模態(tài)小模型 GPT-4o mini，在海內(nèi)外引起了廣泛關注。

此前，OpenAI 憑借 GPT-3 開拓了 AI 模型的“暴力美學”時代，同時也以訓練超大參數(shù)規(guī)模的模型能力建立起 AGI 同賽道的護城河。但在其推出 GPT-4o 的“Mini”版本之后，OpenAI 似乎走向了原有優(yōu)勢的反方向，開始卷“小模型”，而值得注意的是：

在 Mini 這條路上，歐洲與中國的大模型團隊已經(jīng)率先研究了大半年。

從 2023 年上半年智譜 AI 發(fā)布對話小模型 ChatGLM-6B，10 月 Mistral 發(fā)布 7B 模型，到 2024 年 2 月面壁智能團隊祭出 2.4B 的 MiniCPM，緊接著是多模態(tài)小模型 8B MiniCPM-Llama3-V 2.5，還有商湯的 1.8B SenseChat Lite、上海人工智能實驗室 OpenGV Lab 團隊的 Intern-VL 系列……

基于通用大模型開發(fā)小模型或端側模型的路線，此前已在國內(nèi)發(fā)酵大半年。如今，OpenAI 等世界級頭部 AI 企業(yè)的入局，更表明端側模型、“智能小模型”是大勢所趨。

GPT-4o 發(fā)布后，AI 技術大牛 Andrej Karpathy 也在推特上發(fā)表了自己對“小模型”的看法：

OpenAI 終于發(fā)布 GPT-4o mini，但比中國大模型晚了半年

在 Andrej Karpathy 看來，未來將會出現(xiàn)參數(shù)規(guī)模小、但思考能力強的小模型；小模型才是 AI “大模型”的最終目標。

Andrej Karpathy 指出，現(xiàn)在的 AI 模型之所以“大”，是因為目前模型的訓練仍比較粗放；換言之，即訓練不高效——面壁智能團隊在 3 月與 AI 科技評論的交談中就已表達相似觀點。

如何讓小模型更智能？Andrej 認為關鍵點在于模型的知識，即訓練數(shù)據(jù)。目前來看，無論是 OpenAI、還是面壁智能等團隊，他們的路線都是先將模型“做大”、然后再將模型“做小”，原因在 Andrej 看來，是因為“小模型需要依托大模型來重構理想的合成數(shù)據(jù)”，直到大模型中的高質(zhì)量數(shù)據(jù)被耗盡。

除數(shù)據(jù)考慮外，面壁團隊還告訴 AI 科技評論，從 2023 年下半年開始，他們通過建立一套“用大模型訓練小模型”的沙盒實驗機制，是為了驗證他們所理解的“Scaling Law”，即模型參數(shù)規(guī)模隨著時間推移遞減、但智能水平不斷上升的“面壁定律”——大模型的智能密度每 8 個月翻一倍。

如果模型能在越小的規(guī)模上實現(xiàn)更高的智能，那么模型的訓練與推理成本都將大幅下降。但據(jù) AI 科技評論了解，該方向對算法與數(shù)據(jù)工程的挑戰(zhàn)也十分巨大，中間的技術門檻并不低。

隨著成本下降，英偉達的 GPU 需求量也將受到影響。有業(yè)內(nèi)人士向 AI 科技評論評價，“對英偉達來說，相比 GPT-4o 或 GPT-4o mini，年底的 GPT-5 才是一個關鍵節(jié)點?！?/p>

同時，從商業(yè)上來看，GPT-4o mini 作為一個性價比極高的云端模型，對國內(nèi)外云端 API 市場也將造成沖擊，大規(guī)模的云端模型更難賺錢；相反，端側模型將成為新的市場“顯學”。

GPT-4o mini 能力揭秘

作為 GPT-4o 更小參數(shù)的簡化版本，此次 GPT-4o mini 的發(fā)布意味著 OpenAI 正式“進軍”多模態(tài)小模型。據(jù)官網(wǎng)介紹，目前，在API層面，GPT-4o mini支持128k、16k輸入tokens（圖像和文本），未來還將支持視頻和音頻的輸入和輸出。

但是，OpenAI 并未透露此次新模型的參數(shù)量大小。

數(shù)據(jù)顯示，GPT-4o mini 在文本智能和多模態(tài)推理方面的學術基準測試中超越了 GPT-3.5 Turbo 和其他小模型，并且支持的語言范圍與 GPT-4o 相同。此外， GPT-3.5 Turbo 相比，其長上下文性能也有所提高。

與 GPT-4 相比，GPT-4o mini 在聊天偏好上表現(xiàn)優(yōu)于 GPT-4 ，并在大規(guī)模多任務語言理解（MMLU）測試中獲得了82%的得分。公開資料介紹，MMLU 是一項包含 57 個學科大約 16000 道多項選擇題的考試，得分越高的大模型在各種領域中理解和使用語言的能力越強。

從 OpenAI 提供的數(shù)據(jù)來看，GPT-4o mini 的得分為82%，Google 的 Gemini Flash得分為77.9%，Anthropic 的Claude Haiku 得分為73.8%，GPT-4o mini 能力更強：

OpenAI 終于發(fā)布 GPT-4o mini，但比中國大模型晚了半年

在實現(xiàn)性能優(yōu)化的同時，價格也更便宜。

OpenAI 表示，GPT-4o mini 的成本為每百萬輸入標記（token）15 美分，每百萬輸出標記 60 美分，比 GPT-3.5 Turbo 便宜超過 60%。即日起正式向免費版、Plus 版和團隊版的 ChatGPT 用戶開放，企業(yè)用戶則從下周開始可使用。

OpenAI 終于發(fā)布 GPT-4o mini，但比中國大模型晚了半年

OpenAI 也想在小模型市場“分一杯羹”。

此前，無法承擔 OpenAI 模型昂貴費用的開發(fā)者往往會選擇更便宜的替代，如 Gemini 1.5 Flash 及 Claude 3 Haiku，這或許也是此次 OpenAI 推出小模型的主要原因——為開發(fā)者提供更為輕量且廉價的工具，以創(chuàng)建其無法負擔的大模型（如 GPT-4）的應用程序和工具。

對于此次 GPT-4o mini 的推出，社交平臺上外國網(wǎng)友們似乎存在不少不買賬的聲音，部分網(wǎng)友催促 OpenAI 發(fā)布 GPT-4o 完整版，「No one wants a cheaper 3.5. We want a better 4o.」（沒有人想要更便宜的3.5，我們想要更好的4o），還有網(wǎng)友顯然對于 GPT-4.5 以及 GPT-5 的熱情更盛。

OpenAI 終于發(fā)布 GPT-4o mini，但比中國大模型晚了半年

但也有國產(chǎn)大模型團隊指出，GPT-4o mini 是相對 GPT-4o 的“Mini”版本，具體參數(shù)量不詳，因此如商湯、面壁智能、上海人工智能實驗室等團隊難以與其比拼。

OpenAI 退出中國市場后，對國內(nèi)模型團隊的影響有限。一位端側模型從業(yè)者告訴 AI 科技評論，OpenAI 在 Mini 模型上的這一舉動，或許是為了響應硅谷智能硬件興起的浪潮，同時對蘋果 AI 在端側能力上的需求作出反應。

從今年上半年開始，蘋果 AI 團隊相繼發(fā)布其在手機端側上運用的 AI 成果，如 Ferret-UI、OpenELM、MM1 等等，對模型落到端側起了開頭。相當于，蘋果已經(jīng)在手機 AI 端出了開卷考試，接下來各家模型廠商與手機廠商都要思考如何答題。

國產(chǎn)小模型不輸 OpenAI

而根據(jù)以往成果發(fā)布，國產(chǎn)大模型團隊在文本小模型、乃至多模態(tài)小模型上的能力也表現(xiàn)卓然：

今年 4 月，商湯發(fā)布了1.8B（18億）參數(shù)規(guī)模的 SenseChat-Lite版本，作為端側模型，交互體驗對標GPT-4，當時性能已實現(xiàn)同等尺度性能最優(yōu)。

后來，在 WAIC 期間，商湯又再次進行端側模型的更新，較 4 月推出的版本首包耗時降低 40%，速度更快。

上海人工智能實驗室 OpenGV Lab 的 InternVL 也是中國多模態(tài)小模型的系列典范。從 InternVL-Chat-V1.5 到書生萬象 Intern VL 2.0，OpenGV Lab 團隊開源了從多模態(tài)模型系列，參數(shù)規(guī)模從 1B 到 76B 不等，其中小模型最高 8B、最小 1B，均可單卡部署。據(jù) AI 科技評論了解，其 1B 版本的參數(shù)規(guī)模實際只有 938 M。

值得注意的是，OpenGV Lab InternVL 系列的 26B 自開源以來一直是 Hugging Face 上的當紅炸子雞，以開源不過兩周的 InternVL 2.0 為例，其 26B 在 Hugging Face 上的下載量已超過 6000 次。

OpenAI 終于發(fā)布 GPT-4o mini，但比中國大模型晚了半年

同樣在 Mini 模型上發(fā)力的國產(chǎn)代表團隊還有面壁智能。他們在小模型上的成果包含基座模型與多模態(tài)模型，在 Hugging Face 上的下載量已經(jīng)近 95 萬次，Github 上獲得超過 1 萬星標，這一端側模型系列不僅是開源社區(qū)口碑之作，甚至一度火到全網(wǎng)熱搜第一。

今年 2 月，面壁端側模型“小鋼炮”發(fā)布，具備 GPT-3 同等性能但參數(shù)僅為24億的 MiniCPM-2.4B ，把知識密度提高了大概 86 倍（如下圖所示）：

OpenAI 終于發(fā)布 GPT-4o mini，但比中國大模型晚了半年

而后其又相繼在 4 、5月發(fā)布了2.0和2.5 版本。在 2.5 版本上，面壁 MiniCPM 以 1% 的參數(shù)規(guī)模，形成了可以跟GPT-4V 和 Gemini Pro 多模態(tài)能力對標的性能，模型參數(shù)只有 8B 大小，能夠放到終端上。

今年7月，面壁新發(fā)布的MiniCPM-S 1.2B 知識密度達到同規(guī)模稠密模型 MiniCPM 1.2B 的 2.57 倍，Mistral-7B 的 12.1 倍（如下圖所示）：

OpenAI 終于發(fā)布 GPT-4o mini，但比中國大模型晚了半年

在面壁看來，他們做小模型的目標是“模型變小的同時、效果還能變好”。

當前，面壁有兩條產(chǎn)品線，一條是基座大模型，另一條是給大模型做小模型，在小模型上驗證大模型的技術極限。這兩條產(chǎn)品線，其實是一條路，就是面壁通往 AGI 的道路，大模型與小模型難以分開。一方面，要提升模型的效率，讓每個參數(shù)發(fā)揮更好的效果；另一方面，能在應用支持的成本下做出最好的模型。

而對于大模型，大眾的認知普遍存在偏差，實際上，參數(shù)規(guī)模大不代表模型的能力強。

以馬斯克的 Grok 為例，Grok 的參數(shù)規(guī)模為 3140 億，行內(nèi)對它的評價其實不太好，有技術人員去測過，說 Grok 的效果大概比 Mistral 的 8*7B MoE 稍微好一點。那么大參數(shù)的模型實現(xiàn)這么小的效果，其實是失敗的。

在2021 年到 2022 年期間，國內(nèi)最早做大模型的那批團隊扎堆卷模型參數(shù)量，阿里甚至將模型卷到了 10 萬億參數(shù)規(guī)模（非稠密模型）。

但當時大家對“大模型能做什么”是不清楚的，只是認為“大模型就是參數(shù)要大”，在用戶價值上，也并未達到后來 ChatGPT 的體驗。ChatGPT 發(fā)布后，大家才意識到“提升模型效果”才是大模型訓練的正確方向。

面壁認為，“小”模型的精髓在于高效，將每個參數(shù)發(fā)揮到最大作用——這才是大模型研究的正確方向。不然未來如果達到 AGI，但 AGI 比人還貴，那就沒意義了。

GPT-4o mini 的發(fā)布意味著能用更少的推理算力消耗實現(xiàn)更強更高效的模型，這也恰恰驗證了面壁提出的大模型時代的摩爾定律——模型的知識密度不斷提升，其中，知識密度=模型能力 / 推理算力消耗。

小模型的“新”挑戰(zhàn)

從年初開始，小模型的聲量開始增大。小模型崛起后，無疑帶來了幾個行業(yè)變化：

首先，計算成本更低的 AI 模型落到終端硬件產(chǎn)品上的門檻更低，端側模型興起。在此浪潮中，模型層廠商如面壁智能、手機廠商如蘋果華米OV 等也紛紛入局，端側模型的創(chuàng)業(yè)也迎來更多玩家。

端側模型雖然是“小”模型，但其智能水平也離不開一個基礎的大模型，同時需要具備豐富的訓練數(shù)據(jù)與完善的數(shù)據(jù)工程系統(tǒng)，才能做可控的訓練。因此，端側模型往往要與具體的行業(yè)與特定領域相結合。

與此同時，端側模型需要結合模型、硬件與計算。據(jù)了解，當前主流芯片廠商在端側 AI 芯片上的供給成本仍沒打下來。一位業(yè)者告訴 AI 科技評論，某知名芯片廠商的報價是 300 美金一臺設備，折算下來超過 2000 元人民幣，現(xiàn)階段能支撐起如此高昂的計算成本的硬件設備只有汽車、醫(yī)療等高端行業(yè)。

其次，小模型的開源社區(qū)形成后，有業(yè)者也認為，這將使“大模型的研究進入高?？蒲姓叩氖孢m區(qū)”?！斑^去大模型因為算力成本高昂，只有工業(yè)者能支撐得起，但當小模型的成本降下來后，越來越多高?？蒲腥藛T也能參與這一方向的研究。”

這意味著，小模型團隊的研發(fā)壓力也在加大，競爭或許會變得更加激烈。

此外，也有從業(yè)者指出，OpenAI 發(fā)布 GPT-4o mini 是近日來大模型價格戰(zhàn)的縮影。OpenAI 將云端 API 的價格打下來后，其他海內(nèi)外的云端大模型廠商在 C 端應用上的壓力會更大，“模應一體”的發(fā)展路徑或許會迎來新的變局。

端側大模型興起后，端側設備自己提供智能化的底座并且負擔推理成本，且個人數(shù)據(jù)隱私有保障，一系列的應用公司借助終端設備廠商提供的智能化底座來做應用。對于用到千億參數(shù)模型的應用，將最終也陷入推理成本的拼殺。

李大海猜測，GPT-4o mini 會是一個寬 MOE 的模型、而非一個端側模型?！埃℅PT-4o mini）作為一個性價比很高的云端模型，一方面對云端 API 市場應該會造成沖擊，一方面降低大模型落地產(chǎn)業(yè)成本，讓我們對大規(guī)模行業(yè)應用的興起抱有更強信心。”

言歸正傳。OpenAI 此次發(fā)布 GPT-4o mini，頂級公司的入場再一次驗證了小模型的研究風向與必然趨勢。在這一方向上，中國的大模型研究團隊如面壁智能、上海人工智能實驗室等均領先半年左右提出自己的解決，國產(chǎn)大模型從跟隨到引領，也反應了國產(chǎn)大模型技術的日新月異。

“GPT-4o mini 主打的是更快，大小相對 GPT-4o 來說更加 mini。但由于 GPT-4o 參數(shù)不詳，因此 GPT-4o mini 是否為端側小模型、是否能單卡部署，仍然存疑?！币晃粯I(yè)內(nèi)人士向 AI 科技評論評價。

所以，對待國產(chǎn)大模型的技術成果，我們或許應該多一份“民族自信”。雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

0人收藏

朱可軒

編輯

發(fā)私信

當月熱門文章