丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳彩嫻
發(fā)送

0

商湯坐上大模型核心牌桌

本文作者: 陳彩嫻   2025-05-09 11:42
導(dǎo)語:超前一步是瘋子,超前半步是天才。

過去兩年,關(guān)于大模型的討論視角很少從商湯這樣成立不過十年、資源與技術(shù)積累正當(dāng)青壯年的人工智能公司出發(fā)。造成這一現(xiàn)象的主要原因是兩個技術(shù)周期的迥異:

2023 年之前,商湯的人工智能技術(shù)路徑以計算機(jī)視覺模型為主,不同于 ChatGPT 為代表的新技術(shù)浪潮:以自然語言處理為主、大規(guī)模參數(shù)模型為核心。一個是視覺、一個是語言,在外界看來兩個賽道還沒有發(fā)生直接的關(guān)系。

然而,DeepSeek R1 的發(fā)布讓一切變得“戲劇性”:ChatGPT 之后,各個大語言模型廠商在卷 GPT-4 的路上狂奔兩年后幾乎所有努力被 V3 與 R1 抹平。當(dāng)語言方向的基礎(chǔ)模型出現(xiàn)新的 SOTA,所有人都面臨兩個選擇:要么以 DeepSeek 為靶子、繼續(xù)卷最強(qiáng)語言大模型,要么尋找差異化的競爭點。

且不說 DeepSeek 的目標(biāo)是 AGI、下一代基礎(chǔ)模型未必只卷語言,單從數(shù)據(jù)源來看,根據(jù)權(quán)威研究機(jī)構(gòu) EPOCH AI 的調(diào)查(如下圖),用于訓(xùn)練大語言模型的文本數(shù)據(jù)正在迅速接近危機(jī)點;據(jù)預(yù)測,到 2028 年,語言大模型的訓(xùn)練數(shù)據(jù)集將用完互聯(lián)網(wǎng)的所有可用文本數(shù)量。

商湯坐上大模型核心牌桌

與此同時,近日語言大模型也逐漸體現(xiàn)出性能隨參數(shù)規(guī)模加大提升的邊際效益遞減趨勢。因此,相比大語言模型的競爭,更多頂尖團(tuán)隊將目光看向了邁向 AGI 的下一階段:多模態(tài)大模型。繼 GPT-4o 后,OpenAI、谷歌與 Meta 等科技巨頭陸續(xù)發(fā)布了 GPT-4.5、Gemini 2.0/2.5 Pro 與 Llama 4 等數(shù)個性能強(qiáng)大的多模態(tài)基礎(chǔ)模型。

當(dāng)語言與視覺融合漸成趨勢,商湯的過去與人工智能的未來聚首,其在國內(nèi)大模型市場格局中的角色也逐漸變得更加舉足輕重:

除了商湯大裝置與過去十年所積累的行業(yè)落地經(jīng)驗,商湯在基礎(chǔ)模型的研究上也逐漸占據(jù)優(yōu)勢,經(jīng)過兩年的投入努力,不僅彌平了文本的差距,而且在最新的多模態(tài)大模型中厚積薄發(fā)。

據(jù)商湯 4 月 10 日的發(fā)布,其新一代 6000 億多模態(tài)大模型“日日新 Sense Nova V6” 在多模態(tài)綜合能力上可以向 GPT-4.5 與 Gemini 2.0 Pro 看齊、甚至略微超過。不僅如此,商湯還引入長思維鏈,率先將多模態(tài)與深度思考結(jié)合了起來。

事實上,商湯從 2024 年年中就開始探索原生融合的多模態(tài)大模型,并早已在今年的 1 月 10 號、R1 發(fā)布并爆火前登上 SuperCLUE 和 OpenCompass 兩大權(quán)威榜單榜首,成為大語言與多模態(tài)能力的“雙冠王”。

前有商湯大裝置領(lǐng)先半步,后有原生多模態(tài)大模型厚積薄發(fā),商湯在大模型這波浪潮中的綜合競爭力或許被嚴(yán)重低估了。


01、是落后,還是領(lǐng)先?

一個不爭的事實是:在第一個十年成立的人工智能算法公司中,經(jīng)過兩年的大模型技術(shù)革新,商湯是極少數(shù)能夠迅速轉(zhuǎn)彎、從視覺算法跨越到大模型技術(shù)周期并保持算法創(chuàng)新生命力的 AI 公司之一,手持兩大通行證——大裝置與日日新。

2023 年大模型風(fēng)靡初始時,商湯憑借大裝置拿到了大模型的入場券,在業(yè)內(nèi)創(chuàng)下不到一個月就構(gòu)建起服務(wù)于大模型訓(xùn)練的千卡集群,不僅使商湯在龐大算力上的投入有所回報、開始盈利,還為商湯在后續(xù)趕超基礎(chǔ)模型的研究上贏得了時間。

如果說商湯的大裝置領(lǐng)先行業(yè)至少 3 年,日日新的正式發(fā)布比行業(yè)最早晚 1 年,將算力與算法協(xié)同、再考慮商湯在過去十年所積累的商業(yè)化實戰(zhàn)經(jīng)驗來看,事實上商湯大模型的綜合實力大約領(lǐng)先行業(yè) 1-2 年。而在商湯陸續(xù)發(fā)布原生融合多模態(tài)大模型日日新 SenseNova V6 后,這一差距又被拉長至少半年。

為什么這么說?

因為當(dāng)前原生多模態(tài)大模型的技術(shù)難度仍極高,而商湯的日日新 V6 已能達(dá)到對標(biāo)國際頂尖多模態(tài)大模型 GPT-4.5 與 Gemini 2.0 Pro 的水平。

雖說過去兩年海內(nèi)外發(fā)布了大量的多模態(tài)模型成果,但真正能夠在輸入與輸出端同時做到文字、語音、圖像、視頻等至少兩個模態(tài)數(shù)據(jù)融合,并完成從感知、理解、推理到?jīng)Q策、生成等任務(wù)環(huán)節(jié)的多模態(tài)大模型還寥寥無幾。

這要求從底層架構(gòu)、高質(zhì)量數(shù)據(jù)清洗到上層算法的整體創(chuàng)新,如 Transformer 雖擅長文本的長序列表達(dá)、卻久有說法認(rèn)為其在多模態(tài)乃至空間智能中有待提升,且暫無暴力出奇跡的先例,最新案例可參考 Meta 發(fā)布的 Llama 4、即使投入巨大也提升甚微。

目前多模態(tài)模型的廣泛研究方法大體可以分為兩條路線:一條是從語言模型出發(fā),在語言模型的基礎(chǔ)上疊加其他的語音、圖像等模態(tài);另一條則是從視覺出發(fā),在圖像或視頻的基礎(chǔ)上疊加語言、語音、視覺等模態(tài)。此外,多模態(tài)研究在終局上也有追求 AIGC 與追求 AGI 之分,這決定了多模態(tài)模型的研究天差地別。

當(dāng)前多模態(tài)模型仍以百億參數(shù)規(guī)模為主,這背后的原因主要是兩點:一是多模態(tài)大模型所消耗的算力要比純語言大模型更大;其次,當(dāng)多模態(tài)模型的參數(shù)規(guī)模上升到千億級別后,不同模態(tài)之間的數(shù)據(jù)融合、讓彼此相得益彰而非此消彼長的難度也變得更大。

有研究團(tuán)隊曾向雷峰網(wǎng)(公眾號:雷峰網(wǎng))描述過這樣的一個研究難題:當(dāng)他們嘗試從百億文本模型擴(kuò)大到超五千億多模態(tài)模型后,后加入的圖像、視頻與語言數(shù)據(jù)出現(xiàn)了拉低文本數(shù)據(jù)表現(xiàn)的現(xiàn)象。由此可見,要獲得一個多模態(tài)數(shù)據(jù)規(guī)模擴(kuò)大到數(shù)千億、且多個模態(tài)之間能相互“提攜”的高水平原生多模態(tài)大模型,難度極高。

據(jù)商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事及人工智能基礎(chǔ)設(shè)施和大模型首席科學(xué)家林達(dá)華介紹,商湯從 2024 年 5 月 GPT-4o 發(fā)布后就開始堅信多模態(tài)大模型是未來,于是迅速開始研究。一開始商湯也是采取傳統(tǒng)的“核心模態(tài)+次要模態(tài)”路線,但會出現(xiàn)一個模態(tài)削弱另一個模態(tài)的問題,沒有達(dá)到 1+1>2 的效果,之后投入大量時間攻堅兩個以上模態(tài)之間的橋接技術(shù),12 月訓(xùn)練出“雙冠王”驗證了他們的原生融合路線。

在 12 月那版融合模型的基礎(chǔ)上,商湯繼續(xù) Scale Up,實現(xiàn)了新一代原生融合多模態(tài)大模型 SenseNova V6,參數(shù)規(guī)模 6000 億,且根據(jù)官方評測數(shù)據(jù)披露,V6 不僅在綜合多模態(tài)任務(wù)上對標(biāo) GPT-4.5 與 Gemini 2.0 Pro,且在純文本任務(wù)上也能比擬 DeepSeek V3(看下圖左表)、推理能力比擬 GPT-o1(下圖右表):

商湯坐上大模型核心牌桌

注:谷歌 Gemini 2.5 Pro 才發(fā)布不到一個月,各項指標(biāo)還未有公開評測分?jǐn)?shù),暫且不計

V6 的主要技術(shù)創(chuàng)新性體現(xiàn)在兩塊:一塊是多模態(tài)的關(guān)鍵橋接,在模型的預(yù)訓(xùn)練階段就已經(jīng)將文本、語音、視頻和圖像等數(shù)據(jù)融合在一起訓(xùn)練,使不同模態(tài)之間相輔相成,在同一個上下文窗口對齊;另一塊則是對 DeepSeek 核心思想的借鑒與先前半步,具體表現(xiàn)為多模態(tài)的長思維鏈構(gòu)造與輸出端的融合 RL(強(qiáng)化學(xué)習(xí))。

DeepSeek 目前仍以文本為主,而商湯從頭到尾都是以開發(fā)多模態(tài)大模型為核心,因此在深度思考與強(qiáng)化學(xué)習(xí)的技術(shù)上也以多模態(tài)為母體,率先探索了多模態(tài)模型的長思維鏈構(gòu)造。

據(jù)了解,目前商湯通過智能體生成的思維鏈總儲備已經(jīng)超過 1000 萬條,日日新 V6 能夠生成長達(dá) 64K 的高質(zhì)量思維鏈,這意味著商湯的多模態(tài)大模型在解答用戶的提問前就已經(jīng)能夠進(jìn)行超過 6 萬字的深度思考,發(fā)展全局記憶。

商湯的獨特之處是,在構(gòu)建思維鏈的過程中,每一步都會利用前一步的圖文多模態(tài)信息、以及綜合的推理情況來進(jìn)行下一步思考推理。換言之,V6 的每一步推理都有一個形象的思維與一個邏輯的思維混合——這也是與純語言思維鏈的一大不同之處。

而此前無論是人類的成長路徑還是大模型的迭代進(jìn)程,都表明了:多模態(tài)數(shù)據(jù)不僅能彌補(bǔ)純語言大模型的數(shù)據(jù)瓶頸,且多模態(tài)模型的學(xué)習(xí)效率更高。

據(jù)林達(dá)華坦言,V6 并沒有完全消除大模型的幻覺問題,而是通過輸入端的數(shù)據(jù)質(zhì)量嚴(yán)格把關(guān)與輸出端的融合 RL 來緩解幻覺問題。相比 DeepSeek R1,V6 的獎勵信號會更豐富,包含結(jié)果獎勵、RLHF 獎勵以及通過視覺理解判斷模型語言描述與圖像視頻是否一致等;同時在模型的思考過程中分階段進(jìn)行基于事實、而非獎勵的強(qiáng)化學(xué)習(xí)。

商湯坐上大模型核心牌桌

在多模態(tài)大模型的訓(xùn)練上,由于大裝置與大模型的緊密協(xié)同,商湯日日新 V6 的訓(xùn)練與推理也進(jìn)行了極大的效率優(yōu)化。雷峰網(wǎng)

據(jù)商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆介紹,商湯自己去訓(xùn)練 DeepSeek 模型的訓(xùn)練效率,比原廠發(fā)布出來的指標(biāo)還要好。商湯大裝置可以達(dá)到每卡每秒 1600+ 個 token,DeepSeek 官方報告所披露的數(shù)據(jù)是 1500+ token。

除了大裝置,商湯在自有訓(xùn)練引擎 SenseParrots 上也搭載了最早跑通千卡訓(xùn)練的系統(tǒng)。此外,商湯從 2018 年開始用國產(chǎn)芯片進(jìn)行模型訓(xùn)練,國產(chǎn)芯片數(shù)量至少占比 20%,V6 的一部分訓(xùn)練也是在國產(chǎn)芯片上進(jìn)行的。

在推理上,商湯大裝置采取了 PD 分離、通信計算折疊、FP8 強(qiáng)化與算子優(yōu)化等方法進(jìn)行效率優(yōu)化,在線服務(wù)推理性能超行業(yè)平均水平 25%;離線推理方面,與開源方案相比,商湯大裝置在 Prefill 階段提速 5 倍、Decode 階段提速 3.5倍。

DeepSeek 在大語言模型賽道的后來居上已經(jīng)表明:AGI 的長跑需要算力與算法的綜合能力。而相比純語言模型,多模態(tài)大模型無論是訓(xùn)練還是推理都需要更高的算力,細(xì)微的進(jìn)步累積起來即是長遠(yuǎn)的差距。技術(shù)無法構(gòu)建堅不可摧的壁壘,但能贏得利于競爭的時間差。

商湯日日新 V6 在原生多模態(tài)大模型與多模態(tài)深度思考推理上已領(lǐng)先半步,無疑向大模型行業(yè)傳遞了一個信息:雷峰網(wǎng)

穿越兩個技術(shù)周期的商湯,已經(jīng)坐上了大模型的核心牌桌。

02、更全面的競爭

當(dāng)商湯在大模型市場上的位置被重新審視,這家相比 BAT 不大、相比初創(chuàng)公司又不小的 AI 小巨頭就顯現(xiàn)了其獨特的競爭優(yōu)勢。

技術(shù)上,AGI 是數(shù)據(jù)、算法與算力的并駕齊驅(qū)。數(shù)據(jù)層,商湯的日日新多模態(tài)大模型已經(jīng)體現(xiàn)其融合文本、圖像、3D、視頻等多種模態(tài)數(shù)據(jù)的能力;算法與算力層,商湯的十年積累不遜于同時坐擁云計算與基礎(chǔ)模型的互聯(lián)網(wǎng)大廠,但兩者雖有諸多相似,卻仍有本質(zhì)的不同。

這種不同體現(xiàn)在「終局思維」的本質(zhì)差異上:

互聯(lián)網(wǎng)大廠研究基礎(chǔ)模型的最終落腳點往往是打造流量聚集的「Super App」;而商湯從成立第一天開始就是一家「人工智能」公司,其終局目標(biāo)是參與構(gòu)建人工智能時代,也因此商湯在大模型的商業(yè)落地上沒有 To B 與 To C 的糾結(jié)。無論是算法還是算力,商湯都愿意成為行業(yè)的一個「擺渡人」。

當(dāng)算法的差距被追平后,技術(shù)的星辰大海終歸回落塵埃大地,在大模型的商業(yè)化落地上,商湯過去十年在各行各業(yè)所積累的經(jīng)驗天然降維打擊——創(chuàng)業(yè)公司還在商場學(xué)習(xí)走路的時候,商湯已經(jīng)踩完一遍坑,越過山丘。

與 DeepSeek 不同,商湯對大模型的思考天然不僅是基礎(chǔ)模型的研究突破,還有模型的商業(yè)落地。在過去,商湯本身已觸達(dá)包括手機(jī)、汽車、營銷在內(nèi)的廣泛業(yè)務(wù),基于業(yè)務(wù)提煉出來的需求也指導(dǎo)了模型能力的優(yōu)化。

以日日新 V6 為例,商湯追求原生的多模態(tài)大模型之余,同時強(qiáng)調(diào)模型的三大能力:推理能力,情感共鳴與實時交互能力,以及長記憶/全局記憶能力。

根據(jù)商湯日日新 V6 已接入的場景顯示,在大模型的落地場景中,主流的交互方式不單單是文本,實時視頻通話的流量與十分巨大。與文本類似,視頻交互對長視頻的輸入窗口與模型的長記憶能力有高要求。V6 可以支持長達(dá) 10 分鐘的整段視頻輸入,將語音、文字與視頻形成統(tǒng)一的、與時間軸對齊的上下文表達(dá),然后進(jìn)行深入的理解、分析與推理。

在流式交互上,商湯從 GPT-4o 發(fā)布后就一直堅持打造多模態(tài)的交互入口。在商湯的設(shè)想中,通過終端與人類進(jìn)行多模態(tài)交互的大模型必然是輕量化模型、而非 600B 的基礎(chǔ)模型;此外,與人的實時交互對模型情感共情、擬人表達(dá)的能力也提出高要求。而據(jù)數(shù)據(jù)統(tǒng)計,商湯是中國除字節(jié)外在擬人對話引擎上的第二大供應(yīng)商。

基于全新日日新原生多模態(tài)大模型,商湯提出「一基兩翼」的落地方案:所謂「兩翼」,指的是應(yīng)用在具身智能、硬件、眼鏡等方向的智能交互,及應(yīng)用于金融、辦公等領(lǐng)域的生產(chǎn)力工具。

日日新 V6 基礎(chǔ)模型能力的提升,讓 AI 產(chǎn)品的想象空間也有了一個質(zhì)的飛躍。例如,多模態(tài)綜合能力與多模態(tài)深度思考推理疊加高情商的擬人交互方式,在數(shù)學(xué)解題、點讀翻譯、文旅講解、繪本講解等等日常高頻需求的響應(yīng)中都取得了相較于以往多模態(tài)模型更出色的性能表現(xiàn)。

商湯坐上大模型核心牌桌

同樣,在具身智能領(lǐng)域,商湯與傅利葉等機(jī)器人廠商合作,也探索了 V6 與終端結(jié)合的可能性?;谌杖招?V6 多模態(tài)融合能力,機(jī)器人能同時掌握「大腦」、「耳朵」、「眼睛」與「嘴巴」等多個感官,并通過融合信息理解環(huán)境、進(jìn)行深度思考。

而在小浣熊系列,V6 的多模態(tài)深度思考與推理能力使辦公小浣熊的任務(wù)規(guī)劃、數(shù)據(jù)分析、文檔編輯等能力有了更大幅的提升。小浣熊不僅支持excel、數(shù)據(jù)庫等結(jié)構(gòu)化數(shù)據(jù),還支持word、pdf、txt、圖片等非結(jié)構(gòu)化數(shù)據(jù)解析,并且支持跨數(shù)據(jù)源融合解析,在 Tablebench 和 1000+ 數(shù)據(jù)分析場景評測精度超過 GPT-4o。

商湯坐上大模型核心牌桌

根據(jù)商湯 2024 年的財報,商湯生成式 AI 的業(yè)務(wù)收入達(dá)到 24 億元,在總收入中的占比高達(dá) 63.7%,同比漲幅超過 100%。

當(dāng)前大模型在許多場景中的落地還沒有越過產(chǎn)品性價比的生死線。而商湯作為一家沉浮商海多年的「OG」,無論是大裝置與大模型的協(xié)同,還是更注重 To B 而非 To C 的商業(yè)打法,都死死咬住生存的第一性原理。

以機(jī)器人為例。在多模態(tài)大模型的進(jìn)步下,終端的智能只需一個模型就能達(dá)到多種能力、而非需要一個多模態(tài)模型再加一個語言大模型,性價比更高。

商湯有自己的 C 端應(yīng)用,但從當(dāng)前的大模型商業(yè)化來看,其重點主要集中在 B 端業(yè)務(wù)上。從構(gòu)建人工智能時代的「終局思維」來看,推動更多行業(yè)、更多需求轉(zhuǎn)向「AI-Native」對商湯來說比加大投入追求 SuperApp 更有價值。雷峰網(wǎng)

目前,商湯日日新已經(jīng)支撐了包括 WPS、閱文、想法流在內(nèi)的多個明星 C 端應(yīng)用。這在一方面可以使技術(shù)與商業(yè)緊密綁定,同時驅(qū)動數(shù)據(jù)飛輪。

算力、算法、用戶與商業(yè)是一套完整的模型體系,任一環(huán)節(jié)的極速飛轉(zhuǎn)都會帶動其他幾環(huán)的飛躍。在大模型的浪潮中,商湯的啟動飛輪是大裝置與商業(yè)積累;日日新大模型系列發(fā)布后, 商湯多模態(tài)大模型的實力有了極大提升,尤其是 V6 的巨大突破讓算法飛輪也體現(xiàn)出了巨大的潛力。

超前一步是瘋子,超前半步是天才。從大裝置到日日新 V6,商湯都精準(zhǔn)預(yù)判了每一個技術(shù)趨勢、并快速取得里程碑的成就。商湯大模型的下一個巨大飛輪能否由算法主導(dǎo),絕對值得拭目以待。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

商湯坐上大模型核心牌桌

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說