商湯坐上大模型核心牌桌

本文作者：陳彩嫻

2025-05-09 11:42

導(dǎo)語：超前一步是瘋子，超前半步是天才。

過去兩年，關(guān)于大模型的討論視角很少從商湯這樣成立不過十年、資源與技術(shù)積累正當(dāng)青壯年的人工智能公司出發(fā)。造成這一現(xiàn)象的主要原因是兩個技術(shù)周期的迥異：

2023 年之前，商湯的人工智能技術(shù)路徑以計(jì)算機(jī)視覺模型為主，不同于 ChatGPT 為代表的新技術(shù)浪潮：以自然語言處理為主、大規(guī)模參數(shù)模型為核心。一個是視覺、一個是語言，在外界看來兩個賽道還沒有發(fā)生直接的關(guān)系。

然而，DeepSeek R1 的發(fā)布讓一切變得“戲劇性”：ChatGPT 之后，各個大語言模型廠商在卷 GPT-4 的路上狂奔兩年后幾乎所有努力被 V3 與 R1 抹平。當(dāng)語言方向的基礎(chǔ)模型出現(xiàn)新的 SOTA，所有人都面臨兩個選擇：要么以 DeepSeek 為靶子、繼續(xù)卷最強(qiáng)語言大模型，要么尋找差異化的競爭點(diǎn)。

且不說 DeepSeek 的目標(biāo)是 AGI、下一代基礎(chǔ)模型未必只卷語言，單從數(shù)據(jù)源來看，根據(jù)權(quán)威研究機(jī)構(gòu) EPOCH AI 的調(diào)查（如下圖），用于訓(xùn)練大語言模型的文本數(shù)據(jù)正在迅速接近危機(jī)點(diǎn)；據(jù)預(yù)測，到 2028 年，語言大模型的訓(xùn)練數(shù)據(jù)集將用完互聯(lián)網(wǎng)的所有可用文本數(shù)量。

商湯坐上大模型核心牌桌

與此同時，近日語言大模型也逐漸體現(xiàn)出性能隨參數(shù)規(guī)模加大提升的邊際效益遞減趨勢。因此，相比大語言模型的競爭，更多頂尖團(tuán)隊(duì)將目光看向了邁向 AGI 的下一階段：多模態(tài)大模型。繼 GPT-4o 后，OpenAI、谷歌與 Meta 等科技巨頭陸續(xù)發(fā)布了 GPT-4.5、Gemini 2.0/2.5 Pro 與 Llama 4 等數(shù)個性能強(qiáng)大的多模態(tài)基礎(chǔ)模型。

當(dāng)語言與視覺融合漸成趨勢，商湯的過去與人工智能的未來聚首，其在國內(nèi)大模型市場格局中的角色也逐漸變得更加舉足輕重：

除了商湯大裝置與過去十年所積累的行業(yè)落地經(jīng)驗(yàn)，商湯在基礎(chǔ)模型的研究上也逐漸占據(jù)優(yōu)勢，經(jīng)過兩年的投入努力，不僅彌平了文本的差距，而且在最新的多模態(tài)大模型中厚積薄發(fā)。

據(jù)商湯 4 月 10 日的發(fā)布，其新一代 6000 億多模態(tài)大模型“日日新 Sense Nova V6” 在多模態(tài)綜合能力上可以向 GPT-4.5 與 Gemini 2.0 Pro 看齊、甚至略微超過。不僅如此，商湯還引入長思維鏈，率先將多模態(tài)與深度思考結(jié)合了起來。

事實(shí)上，商湯從 2024 年年中就開始探索原生融合的多模態(tài)大模型，并早已在今年的 1 月 10 號、R1 發(fā)布并爆火前登上 SuperCLUE 和 OpenCompass 兩大權(quán)威榜單榜首，成為大語言與多模態(tài)能力的“雙冠王”。

前有商湯大裝置領(lǐng)先半步，后有原生多模態(tài)大模型厚積薄發(fā)，商湯在大模型這波浪潮中的綜合競爭力或許被嚴(yán)重低估了。

01、是落后，還是領(lǐng)先？

一個不爭的事實(shí)是：在第一個十年成立的人工智能算法公司中，經(jīng)過兩年的大模型技術(shù)革新，商湯是極少數(shù)能夠迅速轉(zhuǎn)彎、從視覺算法跨越到大模型技術(shù)周期并保持算法創(chuàng)新生命力的 AI 公司之一，手持兩大通行證——大裝置與日日新。

2023 年大模型風(fēng)靡初始時，商湯憑借大裝置拿到了大模型的入場券，在業(yè)內(nèi)創(chuàng)下不到一個月就構(gòu)建起服務(wù)于大模型訓(xùn)練的千卡集群，不僅使商湯在龐大算力上的投入有所回報(bào)、開始盈利，還為商湯在后續(xù)趕超基礎(chǔ)模型的研究上贏得了時間。

如果說商湯的大裝置領(lǐng)先行業(yè)至少 3 年，日日新的正式發(fā)布比行業(yè)最早晚 1 年，將算力與算法協(xié)同、再考慮商湯在過去十年所積累的商業(yè)化實(shí)戰(zhàn)經(jīng)驗(yàn)來看，事實(shí)上商湯大模型的綜合實(shí)力大約領(lǐng)先行業(yè) 1-2 年。而在商湯陸續(xù)發(fā)布原生融合多模態(tài)大模型日日新 SenseNova V6 后，這一差距又被拉長至少半年。

為什么這么說？

因?yàn)楫?dāng)前原生多模態(tài)大模型的技術(shù)難度仍極高，而商湯的日日新 V6 已能達(dá)到對標(biāo)國際頂尖多模態(tài)大模型 GPT-4.5 與 Gemini 2.0 Pro 的水平。

雖說過去兩年海內(nèi)外發(fā)布了大量的多模態(tài)模型成果，但真正能夠在輸入與輸出端同時做到文字、語音、圖像、視頻等至少兩個模態(tài)數(shù)據(jù)融合，并完成從感知、理解、推理到?jīng)Q策、生成等任務(wù)環(huán)節(jié)的多模態(tài)大模型還寥寥無幾。

這要求從底層架構(gòu)、高質(zhì)量數(shù)據(jù)清洗到上層算法的整體創(chuàng)新，如 Transformer 雖擅長文本的長序列表達(dá)、卻久有說法認(rèn)為其在多模態(tài)乃至空間智能中有待提升，且暫無暴力出奇跡的先例，最新案例可參考 Meta 發(fā)布的 Llama 4、即使投入巨大也提升甚微。

目前多模態(tài)模型的廣泛研究方法大體可以分為兩條路線：一條是從語言模型出發(fā)，在語言模型的基礎(chǔ)上疊加其他的語音、圖像等模態(tài)；另一條則是從視覺出發(fā)，在圖像或視頻的基礎(chǔ)上疊加語言、語音、視覺等模態(tài)。此外，多模態(tài)研究在終局上也有追求 AIGC 與追求 AGI 之分，這決定了多模態(tài)模型的研究天差地別。

當(dāng)前多模態(tài)模型仍以百億參數(shù)規(guī)模為主，這背后的原因主要是兩點(diǎn)：一是多模態(tài)大模型所消耗的算力要比純語言大模型更大；其次，當(dāng)多模態(tài)模型的參數(shù)規(guī)模上升到千億級別后，不同模態(tài)之間的數(shù)據(jù)融合、讓彼此相得益彰而非此消彼長的難度也變得更大。

有研究團(tuán)隊(duì)曾向雷峰網(wǎng)描述過這樣的一個研究難題：當(dāng)他們嘗試從百億文本模型擴(kuò)大到超五千億多模態(tài)模型后，后加入的圖像、視頻與語言數(shù)據(jù)出現(xiàn)了拉低文本數(shù)據(jù)表現(xiàn)的現(xiàn)象。由此可見，要獲得一個多模態(tài)數(shù)據(jù)規(guī)模擴(kuò)大到數(shù)千億、且多個模態(tài)之間能相互“提攜”的高水平原生多模態(tài)大模型，難度極高。

據(jù)商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事及人工智能基礎(chǔ)設(shè)施和大模型首席科學(xué)家林達(dá)華介紹，商湯從 2024 年 5 月 GPT-4o 發(fā)布后就開始堅(jiān)信多模態(tài)大模型是未來，于是迅速開始研究。一開始商湯也是采取傳統(tǒng)的“核心模態(tài)+次要模態(tài)”路線，但會出現(xiàn)一個模態(tài)削弱另一個模態(tài)的問題，沒有達(dá)到 1+1>2 的效果，之后投入大量時間攻堅(jiān)兩個以上模態(tài)之間的橋接技術(shù)，12 月訓(xùn)練出“雙冠王”驗(yàn)證了他們的原生融合路線。

在 12 月那版融合模型的基礎(chǔ)上，商湯繼續(xù) Scale Up，實(shí)現(xiàn)了新一代原生融合多模態(tài)大模型 SenseNova V6，參數(shù)規(guī)模 6000 億，且根據(jù)官方評測數(shù)據(jù)披露，V6 不僅在綜合多模態(tài)任務(wù)上對標(biāo) GPT-4.5 與 Gemini 2.0 Pro，且在純文本任務(wù)上也能比擬 DeepSeek V3（看下圖左表）、推理能力比擬 GPT-o1（下圖右表）：

商湯坐上大模型核心牌桌

注：谷歌 Gemini 2.5 Pro 才發(fā)布不到一個月，各項(xiàng)指標(biāo)還未有公開評測分?jǐn)?shù)，暫且不計(jì)

V6 的主要技術(shù)創(chuàng)新性體現(xiàn)在兩塊：一塊是多模態(tài)的關(guān)鍵橋接，在模型的預(yù)訓(xùn)練階段就已經(jīng)將文本、語音、視頻和圖像等數(shù)據(jù)融合在一起訓(xùn)練，使不同模態(tài)之間相輔相成，在同一個上下文窗口對齊；另一塊則是對 DeepSeek 核心思想的借鑒與先前半步，具體表現(xiàn)為多模態(tài)的長思維鏈構(gòu)造與輸出端的融合 RL（強(qiáng)化學(xué)習(xí)）。

DeepSeek 目前仍以文本為主，而商湯從頭到尾都是以開發(fā)多模態(tài)大模型為核心，因此在深度思考與強(qiáng)化學(xué)習(xí)的技術(shù)上也以多模態(tài)為母體，率先探索了多模態(tài)模型的長思維鏈構(gòu)造。

據(jù)了解，目前商湯通過智能體生成的思維鏈總儲備已經(jīng)超過 1000 萬條，日日新 V6 能夠生成長達(dá) 64K 的高質(zhì)量思維鏈，這意味著商湯的多模態(tài)大模型在解答用戶的提問前就已經(jīng)能夠進(jìn)行超過 6 萬字的深度思考，發(fā)展全局記憶。

商湯的獨(dú)特之處是，在構(gòu)建思維鏈的過程中，每一步都會利用前一步的圖文多模態(tài)信息、以及綜合的推理情況來進(jìn)行下一步思考推理。換言之，V6 的每一步推理都有一個形象的思維與一個邏輯的思維混合——這也是與純語言思維鏈的一大不同之處。

而此前無論是人類的成長路徑還是大模型的迭代進(jìn)程，都表明了：多模態(tài)數(shù)據(jù)不僅能彌補(bǔ)純語言大模型的數(shù)據(jù)瓶頸，且多模態(tài)模型的學(xué)習(xí)效率更高。

據(jù)林達(dá)華坦言，V6 并沒有完全消除大模型的幻覺問題，而是通過輸入端的數(shù)據(jù)質(zhì)量嚴(yán)格把關(guān)與輸出端的融合 RL 來緩解幻覺問題。相比 DeepSeek R1，V6 的獎勵信號會更豐富，包含結(jié)果獎勵、RLHF 獎勵以及通過視覺理解判斷模型語言描述與圖像視頻是否一致等；同時在模型的思考過程中分階段進(jìn)行基于事實(shí)、而非獎勵的強(qiáng)化學(xué)習(xí)。

商湯坐上大模型核心牌桌

在多模態(tài)大模型的訓(xùn)練上，由于大裝置與大模型的緊密協(xié)同，商湯日日新 V6 的訓(xùn)練與推理也進(jìn)行了極大的效率優(yōu)化。雷峰網(wǎng)

據(jù)商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆介紹，商湯自己去訓(xùn)練 DeepSeek 模型的訓(xùn)練效率，比原廠發(fā)布出來的指標(biāo)還要好。商湯大裝置可以達(dá)到每卡每秒 1600＋個 token，DeepSeek 官方報(bào)告所披露的數(shù)據(jù)是 1500+ token。

除了大裝置，商湯在自有訓(xùn)練引擎 SenseParrots 上也搭載了最早跑通千卡訓(xùn)練的系統(tǒng)。此外，商湯從 2018 年開始用國產(chǎn)芯片進(jìn)行模型訓(xùn)練，國產(chǎn)芯片數(shù)量至少占比 20%，V6 的一部分訓(xùn)練也是在國產(chǎn)芯片上進(jìn)行的。

在推理上，商湯大裝置采取了 PD 分離、通信計(jì)算折疊、FP8 強(qiáng)化與算子優(yōu)化等方法進(jìn)行效率優(yōu)化，在線服務(wù)推理性能超行業(yè)平均水平 25%；離線推理方面，與開源方案相比，商湯大裝置在 Prefill 階段提速 5 倍、Decode 階段提速 3.5倍。

DeepSeek 在大語言模型賽道的后來居上已經(jīng)表明：AGI 的長跑需要算力與算法的綜合能力。而相比純語言模型，多模態(tài)大模型無論是訓(xùn)練還是推理都需要更高的算力，細(xì)微的進(jìn)步累積起來即是長遠(yuǎn)的差距。技術(shù)無法構(gòu)建堅(jiān)不可摧的壁壘，但能贏得利于競爭的時間差。

商湯日日新 V6 在原生多模態(tài)大模型與多模態(tài)深度思考推理上已領(lǐng)先半步，無疑向大模型行業(yè)傳遞了一個信息：雷峰網(wǎng)(公眾號：雷峰網(wǎng))

穿越兩個技術(shù)周期的商湯，已經(jīng)坐上了大模型的核心牌桌。

02、更全面的競爭

當(dāng)商湯在大模型市場上的位置被重新審視，這家相比 BAT 不大、相比初創(chuàng)公司又不小的 AI 小巨頭就顯現(xiàn)了其獨(dú)特的競爭優(yōu)勢。

技術(shù)上，AGI 是數(shù)據(jù)、算法與算力的并駕齊驅(qū)。數(shù)據(jù)層，商湯的日日新多模態(tài)大模型已經(jīng)體現(xiàn)其融合文本、圖像、3D、視頻等多種模態(tài)數(shù)據(jù)的能力；算法與算力層，商湯的十年積累不遜于同時坐擁云計(jì)算與基礎(chǔ)模型的互聯(lián)網(wǎng)大廠，但兩者雖有諸多相似，卻仍有本質(zhì)的不同。

這種不同體現(xiàn)在「終局思維」的本質(zhì)差異上：

互聯(lián)網(wǎng)大廠研究基礎(chǔ)模型的最終落腳點(diǎn)往往是打造流量聚集的「Super App」；而商湯從成立第一天開始就是一家「人工智能」公司，其終局目標(biāo)是參與構(gòu)建人工智能時代，也因此商湯在大模型的商業(yè)落地上沒有 To B 與 To C 的糾結(jié)。無論是算法還是算力，商湯都愿意成為行業(yè)的一個「擺渡人」。

當(dāng)算法的差距被追平后，技術(shù)的星辰大海終歸回落塵埃大地，在大模型的商業(yè)化落地上，商湯過去十年在各行各業(yè)所積累的經(jīng)驗(yàn)天然降維打擊——創(chuàng)業(yè)公司還在商場學(xué)習(xí)走路的時候，商湯已經(jīng)踩完一遍坑，越過山丘。

與 DeepSeek 不同，商湯對大模型的思考天然不僅是基礎(chǔ)模型的研究突破，還有模型的商業(yè)落地。在過去，商湯本身已觸達(dá)包括手機(jī)、汽車、營銷在內(nèi)的廣泛業(yè)務(wù)，基于業(yè)務(wù)提煉出來的需求也指導(dǎo)了模型能力的優(yōu)化。

以日日新 V6 為例，商湯追求原生的多模態(tài)大模型之余，同時強(qiáng)調(diào)模型的三大能力：推理能力，情感共鳴與實(shí)時交互能力，以及長記憶/全局記憶能力。

根據(jù)商湯日日新 V6 已接入的場景顯示，在大模型的落地場景中，主流的交互方式不單單是文本，實(shí)時視頻通話的流量與十分巨大。與文本類似，視頻交互對長視頻的輸入窗口與模型的長記憶能力有高要求。V6 可以支持長達(dá) 10 分鐘的整段視頻輸入，將語音、文字與視頻形成統(tǒng)一的、與時間軸對齊的上下文表達(dá)，然后進(jìn)行深入的理解、分析與推理。

在流式交互上，商湯從 GPT-4o 發(fā)布后就一直堅(jiān)持打造多模態(tài)的交互入口。在商湯的設(shè)想中，通過終端與人類進(jìn)行多模態(tài)交互的大模型必然是輕量化模型、而非 600B 的基礎(chǔ)模型；此外，與人的實(shí)時交互對模型情感共情、擬人表達(dá)的能力也提出高要求。而據(jù)數(shù)據(jù)統(tǒng)計(jì)，商湯是中國除字節(jié)外在擬人對話引擎上的第二大供應(yīng)商。

基于全新日日新原生多模態(tài)大模型，商湯提出「一基兩翼」的落地方案：所謂「兩翼」，指的是應(yīng)用在具身智能、硬件、眼鏡等方向的智能交互，及應(yīng)用于金融、辦公等領(lǐng)域的生產(chǎn)力工具。

日日新 V6 基礎(chǔ)模型能力的提升，讓 AI 產(chǎn)品的想象空間也有了一個質(zhì)的飛躍。例如，多模態(tài)綜合能力與多模態(tài)深度思考推理疊加高情商的擬人交互方式，在數(shù)學(xué)解題、點(diǎn)讀翻譯、文旅講解、繪本講解等等日常高頻需求的響應(yīng)中都取得了相較于以往多模態(tài)模型更出色的性能表現(xiàn)。

商湯坐上大模型核心牌桌

同樣，在具身智能領(lǐng)域，商湯與傅利葉等機(jī)器人廠商合作，也探索了 V6 與終端結(jié)合的可能性?；谌杖招?V6 多模態(tài)融合能力，機(jī)器人能同時掌握「大腦」、「耳朵」、「眼睛」與「嘴巴」等多個感官，并通過融合信息理解環(huán)境、進(jìn)行深度思考。

而在小浣熊系列，V6 的多模態(tài)深度思考與推理能力使辦公小浣熊的任務(wù)規(guī)劃、數(shù)據(jù)分析、文檔編輯等能力有了更大幅的提升。小浣熊不僅支持excel、數(shù)據(jù)庫等結(jié)構(gòu)化數(shù)據(jù)，還支持word、pdf、txt、圖片等非結(jié)構(gòu)化數(shù)據(jù)解析，并且支持跨數(shù)據(jù)源融合解析，在 Tablebench 和 1000+ 數(shù)據(jù)分析場景評測精度超過 GPT-4o。

商湯坐上大模型核心牌桌

根據(jù)商湯 2024 年的財(cái)報(bào)，商湯生成式 AI 的業(yè)務(wù)收入達(dá)到 24 億元，在總收入中的占比高達(dá) 63.7%，同比漲幅超過 100%。

當(dāng)前大模型在許多場景中的落地還沒有越過產(chǎn)品性價(jià)比的生死線。而商湯作為一家沉浮商海多年的「OG」，無論是大裝置與大模型的協(xié)同，還是更注重 To B 而非 To C 的商業(yè)打法，都死死咬住生存的第一性原理。

以機(jī)器人為例。在多模態(tài)大模型的進(jìn)步下，終端的智能只需一個模型就能達(dá)到多種能力、而非需要一個多模態(tài)模型再加一個語言大模型，性價(jià)比更高。

商湯有自己的 C 端應(yīng)用，但從當(dāng)前的大模型商業(yè)化來看，其重點(diǎn)主要集中在 B 端業(yè)務(wù)上。從構(gòu)建人工智能時代的「終局思維」來看，推動更多行業(yè)、更多需求轉(zhuǎn)向「AI-Native」對商湯來說比加大投入追求 SuperApp 更有價(jià)值。雷峰網(wǎng)

目前，商湯日日新已經(jīng)支撐了包括 WPS、閱文、想法流在內(nèi)的多個明星 C 端應(yīng)用。這在一方面可以使技術(shù)與商業(yè)緊密綁定，同時驅(qū)動數(shù)據(jù)飛輪。

算力、算法、用戶與商業(yè)是一套完整的模型體系，任一環(huán)節(jié)的極速飛轉(zhuǎn)都會帶動其他幾環(huán)的飛躍。在大模型的浪潮中，商湯的啟動飛輪是大裝置與商業(yè)積累；日日新大模型系列發(fā)布后，商湯多模態(tài)大模型的實(shí)力有了極大提升，尤其是 V6 的巨大突破讓算法飛輪也體現(xiàn)出了巨大的潛力。

超前一步是瘋子，超前半步是天才。從大裝置到日日新 V6，商湯都精準(zhǔn)預(yù)判了每一個技術(shù)趨勢、并快速取得里程碑的成就。商湯大模型的下一個巨大飛輪能否由算法主導(dǎo)，絕對值得拭目以待。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

陳彩嫻

編輯

發(fā)私信

當(dāng)月熱門文章