0
作者|朱可軒
編輯|陳彩嫻
春節(jié)將近,各家廠商似乎都在爭(zhēng)取休假前的最后一博,此時(shí)步入 2025 年也才半月有余,大模型玩家們已然卷上了新高度。
先是 OpenAI 打響了開年第一“槍”,ChatGPT 上線了新功能“Tasks”,主打提升了任務(wù)執(zhí)行能力,之后國內(nèi)一眾廠商也先后發(fā)布了自家成果——
月之暗面發(fā)布了全新的多模態(tài)圖片理解模型 moonshot-v1-vision-preview;MiniMax 開源了基礎(chǔ)語言模型 MiniMax-Text-01 和視覺多模態(tài)模型 MiniMax-VL-01;生數(shù)科技上新了視頻大模型 Vidu 2.0;
接著,智譜 AI 推出了端到端多模態(tài)大模型 GLM-Realtime;面壁智能帶來了端側(cè)多模態(tài)模型 MiniCPM-o 2.6;DeepSeek 開源了 DeepSeek-R1 推理模型......
剛開年,模型更新便多到讓人眼花繚亂,當(dāng)中也不難發(fā)現(xiàn),多模態(tài)、推理和端側(cè)依舊是今年各家尋求突破的重點(diǎn)方向。
不得不提的是,在這一各廠商密集上新的“黃金節(jié)點(diǎn)”,AI 科技評(píng)論關(guān)注到,階躍星辰一周內(nèi)竟一口氣批量更新了 6 款模型,全方位涵蓋語言、語音、推理、圖片理解、視頻生成等多類別。
階躍的更新速度在國內(nèi)大模型廠商中可以說是非常少見,自 1 月 16 日開始,撇開周末雙休,階躍這波幾乎一天一更,主打保質(zhì)超量完成任務(wù)。
最為值得一提的是,多模態(tài)領(lǐng)域其實(shí)一直都是階躍的舒適區(qū),其去年就已經(jīng)發(fā)布了 8 款相關(guān)模型,且在多個(gè)業(yè)內(nèi)權(quán)威榜單中拿下國內(nèi)第一。
在此次模型上新中,階躍也繼續(xù)帶來了多模態(tài)基座模型的新成果——多模態(tài) Step-1o 系列推出多模態(tài)理解模型 Step-1o vision、語音模型 Steo-1o Audio 升級(jí),視頻生成模型 Step-Video 升級(jí)至 V2 版。
值得關(guān)注的是,階躍在多模態(tài)推理也已開始嶄露頭角,其正式發(fā)布了Step 系列的首款推理模型 Step Reasoner mini (簡(jiǎn)稱“Step R-mini”),同時(shí),正在推進(jìn)視覺推理模型的研發(fā),嘗試將推理能力融入更多交互形態(tài)的大模型中。
除多模態(tài)外,階躍的語言模型能力也不可小覷,文字創(chuàng)作一直是階躍旗下模型的一大優(yōu)勢(shì)所在,此次階躍也同期發(fā)布了小模型 Step R-mini 和 Step-2 文學(xué)大師版,繼續(xù)強(qiáng)化 Step-2 模型的創(chuàng)作能力。
2025 年的模型之戰(zhàn)已然打響,而階躍在開年便已火力全開,在多模態(tài)方面更是呈現(xiàn)出“卷王”之姿,迅速與其他廠商拉開了差距。
多模態(tài)「卷」王之王
多模態(tài)是階躍一直以來在持續(xù)發(fā)力的重點(diǎn)方向,也是階躍的優(yōu)勢(shì)所在,去年成立以來,階躍便已在多模態(tài)領(lǐng)域推出了 8 款大模型:
包括 Step-1V、Step-1.5V 兩款多模態(tài)大模型;Step-1X 圖像生成大模型;Step-1.5v-turbo 視頻理解模型和 Step-Video 視頻生成模型;三款語音大模型——Step-tts-mini 語音復(fù)刻和生成大模型、Step-asr 語音識(shí)別大模型和 Step-1o Audio 語音大模型。
近日,階躍更新了多模態(tài) Step-1o 系列成果,值得一提的是,Step-1o 也在國內(nèi)權(quán)威的大型模型評(píng)估平臺(tái)“司南”(OpenCompass)多模態(tài)模型評(píng)測(cè)實(shí)時(shí)榜單中拿下了第一:
說回新成果,首先,階躍在 Step-1o Audio 的基礎(chǔ)上帶來了升級(jí),這款國內(nèi)首個(gè)千億參數(shù)端到端語音大模型距離首發(fā)剛過去一個(gè)多月,階躍便又迅速迭代了新版本,較之上一版實(shí)現(xiàn)了更低延遲,聲音也更為自然。
在通話過程中,Step-1o Audio 升級(jí)版不僅能感知理解情緒,還能結(jié)合語境,深度理解情感需求,提供最佳回應(yīng):
在向其吐槽生活中瑣碎的事情如“開了一天車感覺很累”,她能在夸獎(jiǎng)我們“真能干”的同時(shí)給出諸如“喝口水、吃點(diǎn)東西補(bǔ)充能量”的建議,再如圍繞“最近接單很多,感覺腰很酸痛”這一問題,她也能一邊感嘆生意紅火,一邊建議我們要注意身體,記得去醫(yī)院看看,人情味滿滿。
此外,升級(jí)版也已支持多語種和多方言的對(duì)話,并能在中英交流中達(dá)到“同傳”。
不止是語音,視覺方向也一并實(shí)現(xiàn)了煥新升級(jí)。
階躍同期推出了 Step-1o Vision 多模態(tài)模型,作為 Step-1o 的視覺版本,與 Step-1V 和 Step-1.5V 兩款更早版本的視覺理解模型相比,實(shí)現(xiàn)了模型架構(gòu)升級(jí),并在在視覺識(shí)別、感知、指令跟隨、推理等任務(wù)上實(shí)現(xiàn)大幅提升,擁有了更強(qiáng)的視覺性能。
此前,在 LMSYS Org 發(fā)布的大模型競(jìng)技場(chǎng) Chatbot Arena 榜單中,Step-1V 便已位列視覺領(lǐng)域國內(nèi)大模型第一,總分同 Gemini-1.5-Flash-8B-Exp-0827 持平。
這次升級(jí)版的 Step-1o Vision 又一戰(zhàn)成名,剛剛發(fā)布便在 1 月 20 日 LMSYS Org 最新榜單中,拿下了國內(nèi)視覺領(lǐng)域大模型第一,超過所有國內(nèi)大模型廠商,保持住了在多模態(tài)領(lǐng)域的領(lǐng)先地位。
LMSYS Org 網(wǎng)址:https://lmarena.ai/
據(jù)階躍官方介紹,Step-1o Vision 能夠更準(zhǔn)確地識(shí)別圖像內(nèi)容,不管是復(fù)雜場(chǎng)景還是相似圖片都能輕松識(shí)別,甚至能精確識(shí)別圖中的多種語言。
此外,Step-1o Vision 不僅能看懂圖片,還能根據(jù)圖片內(nèi)容進(jìn)行推理、輔助答題、激發(fā)靈感:
同 Step-1.5v 相比,Step-1o Vision 所關(guān)注到的細(xì)節(jié)也更多:
圖源階躍星辰
值得一提的是,在推理模型的研發(fā)上,階躍也正在融入其所擅長(zhǎng)的多模態(tài),多模態(tài)推理在此次上新中嶄露頭角,其重磅推出了 Step 系列首款推理模型 Step R-mini,這同時(shí)也意味著階躍成為目前基座模型最全的公司之一。
根據(jù)階躍方面數(shù)據(jù)顯示,Step R-mini 不僅在 AIME 和 Math 等數(shù)學(xué)基準(zhǔn)測(cè)試上,成績(jī)超過了 o1-preview,比肩 OpenAI o1-mini,在 LiveCodeBench 代碼任務(wù)上,也比 o1-preview 效果更佳。
從具體效果上來看,Step R-mini 既擅長(zhǎng)主動(dòng)進(jìn)行規(guī)劃、嘗試和反思,又能通過慢思考和反復(fù)驗(yàn)證的邏輯機(jī)制提供準(zhǔn)確可靠的回復(fù)。
同時(shí),其最鮮明的亮點(diǎn)在于,已經(jīng)通過大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練,并使用 On-Policy(同策略)強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)了“文理兼修”,既擅長(zhǎng)通過超長(zhǎng)推理能力,解決邏輯推理、代碼和數(shù)學(xué)等復(fù)雜問題,也能兼顧文學(xué)創(chuàng)作等通用領(lǐng)域。
在實(shí)際應(yīng)用中,只會(huì)做數(shù)理題的模型其實(shí)是很難實(shí)現(xiàn)推廣落地的,而只有做到“文理雙修”,模型才能在具備較強(qiáng)推理邏輯能力和數(shù)理能力的同時(shí),擁有更通用任務(wù)的解決能力,如此進(jìn)一步提升可用性。
語言推理模型外,階躍也在推進(jìn)視覺推理模型的研發(fā)。
其試圖將推理能力融入更多交互形態(tài)的大模型中,針對(duì)復(fù)雜視覺場(chǎng)景下的 Reasoning 問題,引入慢感知和空間推理的思想,把 Test-Time Scaling 從文本空間轉(zhuǎn)移到視覺空間,實(shí)現(xiàn)在視覺空間下的 Spatial-Slow-Thinking。據(jù) AI 科技評(píng)論了解,這一模型的正式版本將在今年上線。
除了前所述三款模型,階躍此番針對(duì) Step-Video 視頻生成模型也進(jìn)行了升級(jí),推出 Step-Video V2 版本。
Step-Video 是階躍在去年 11 月上新的模型,此次發(fā)布的V2版本在復(fù)雜運(yùn)動(dòng)、美感、簡(jiǎn)單文字生成、中英雙語輸入和鏡頭語言方面具備更強(qiáng)的生成能力。
AI 科技評(píng)論也對(duì)此進(jìn)行了一波實(shí)測(cè)——
我們發(fā)現(xiàn),在輸入“小男孩變身毒液”后,Step-Video V2 能自動(dòng)一鍵潤(rùn)色出細(xì)節(jié)更豐富的內(nèi)容,并補(bǔ)充暗色調(diào)、模糊背景等環(huán)境描寫,自然將這部分融入視頻場(chǎng)景中:
同時(shí),對(duì)于鏡頭語言也進(jìn)行了增添,自動(dòng)幫我們決定了以“特寫鏡頭”展現(xiàn),有效提升了視頻的敘事能力。此外,畫面中的小男孩形象逼真,一整套變身過程也非常流暢、自然。
此外,Step-Video V2 也支持中英雙語輸入,在進(jìn)行復(fù)雜運(yùn)動(dòng)展現(xiàn)這方面也能輕松駕馭。
值得一提的是,生成內(nèi)容的美感也是階躍一直在聚焦突破的方向,這一點(diǎn)從其前面推出的 Step-2 文學(xué)大師版也同樣能窺見,而 AI 生成視頻的美學(xué)素養(yǎng)也是很多現(xiàn)有模型還無法兼具的,對(duì)此,我們也在躍問視頻中進(jìn)行測(cè)試:
以中華傳統(tǒng)文化的展現(xiàn)為例,我們向躍問輸入了“身著傳統(tǒng)服飾、打著傘的女子”“燈籠背景”的提示詞,其能自動(dòng)潤(rùn)色出“穿著一襲紅色的旗袍,上面繡著精致的花紋,手持一把紙傘,傘面是白色的,上面繪有水墨畫,與她的服飾相得益彰?!边@些帶有中國風(fēng)特色元素的內(nèi)容。
所生成的視頻整個(gè)畫面色彩很協(xié)調(diào),當(dāng)中融入了中國紅作為主色調(diào),背景的燈籠也并非死板的單一色彩,并能隱約看到布景中的水墨畫,此外,對(duì)于提示詞中提到的“帶有精致花紋的紅旗袍”“印有水墨畫的傘”這些細(xì)節(jié)也能夠覆蓋還原到。(前述完整測(cè)試視頻見:https://mp.weixin.qq.com/s/UWHM38XoXM13IK-Sf9wY6A)
「文學(xué)素養(yǎng)」領(lǐng)先行業(yè)
多模態(tài)模型儼然成為階躍的拿手好戲,但其自研的語言模型實(shí)力也同樣不容忽視。
去年 3 月,成立之初的階躍發(fā)布萬億參數(shù)語言大模型 Step-2 一鳴驚人。而 Step-2 作為國內(nèi)首個(gè)由創(chuàng)業(yè)公司發(fā)布的萬億參數(shù)大模型,直觀體現(xiàn)了 Scaling Law 定律的紅利。
在階躍看來,對(duì)于語言模型而言,Scaling Law 是重中之重,而模型容量、訓(xùn)練數(shù)據(jù)量是模型語言、文字功底的基石,模型小、預(yù)訓(xùn)練數(shù)據(jù)量小無法實(shí)現(xiàn)智能涌現(xiàn),亦無法把握文字。
Step-2 也曾多次在 LiveBench 等國際權(quán)威榜單上位列國產(chǎn)大模型第一。
去年11月,在 LiveBench 的多項(xiàng)測(cè)評(píng)標(biāo)準(zhǔn)中,Step-2 在 IF Average(指令跟隨)的表現(xiàn)上以 86.57 的分?jǐn)?shù)排在第一,超越包括 o1-preview-2024-09-12 在內(nèi)的所有國內(nèi)外語言大模型。
這一指標(biāo)主要衡量模型對(duì)語言生成細(xì)節(jié)的控制力,而這點(diǎn)在文字創(chuàng)作上的表現(xiàn)尤為顯著。在生成高質(zhì)量、有創(chuàng)意的文字內(nèi)容的同時(shí),Step-2 模型是能夠根據(jù)用戶的指令對(duì)文本進(jìn)行精確調(diào)整和優(yōu)化的。
此次,在 Step-2 的基礎(chǔ)上,階躍又帶來了性價(jià)比和商用性更高的 Step-2mini 語言模型和精于創(chuàng)作的 Step-2 文學(xué)大師版。
據(jù)階躍官方介紹,和萬億參數(shù)大模型 Step-2 相比較,Step-2mini 以 3% 左右的參數(shù)量保有了其 80% 以上的模型性能。
同時(shí),Step-2mini 還擁有更快的生成速度和極高的性價(jià)比——在輸入4000tokens的情況下,Step-2mini 的平均首字時(shí)延僅 0.17 秒,輸入 1 元/百萬 token;輸出 2 元/百萬 token。
從底層技術(shù)上來看,Step-2mini 采用了階躍和清華團(tuán)隊(duì)在《Multi-matrix Factorization Attention》中提出,其自主研發(fā)的新型注意力機(jī)制架構(gòu)——MFA(Multi-matrixFactorizationAttention,多矩陣分解注意力)及其變體 MFA-Key-Reuse。
論文鏈接:https://arxiv.org/abs/2412.19255
此前在 LLM 推理階段,傳統(tǒng)注意力機(jī)制存在著 KV 緩存隨著批處理大小和序列長(zhǎng)度線性增長(zhǎng)的情況,這不僅使得內(nèi)存占用大,推理效率也并不高,常用的 MHA(Multi-HeadAttention,多頭注意力)也一直在嘗試解決這一問題,但其存在性能和資源消耗間的平衡難題。
MFA 則針對(duì)前述問題給出了解法,相比于 MHA 架構(gòu),MFA 節(jié)省了近 94% 的 KV 緩存開銷,擁有更快的推理速度,并大幅降低了推理成本。換言之,MFA 在不增加額外工程復(fù)雜度的前提下,解決了大語言模型高效推理的顯存瓶頸問題。
Step-2 文學(xué)大師版則是階躍專為創(chuàng)作場(chǎng)景研發(fā)的語言模型,沿襲了 Step-2 廣袤的知識(shí)儲(chǔ)備以及對(duì)文字強(qiáng)大的細(xì)節(jié)把控能力,同時(shí)也有著更為強(qiáng)大的內(nèi)容創(chuàng)作能力。
此前,用大模型輔助創(chuàng)作的內(nèi)容就經(jīng)常會(huì)被吐槽一眼 AI,創(chuàng)作出來的內(nèi)容往往缺乏銳度和新意,沒有真情實(shí)感和對(duì)社會(huì)事件的描繪與思考,這本質(zhì)上是模型過度對(duì)齊社會(huì)共識(shí)所致。
而好的內(nèi)容創(chuàng)作模型則是需要充分理解用戶創(chuàng)作需求的,邏輯嚴(yán)密、語言凝練、言之有物、節(jié)奏緊湊,并且擁有深刻思想和和獨(dú)特風(fēng)格,才是這類模型要達(dá)成的目標(biāo),Step-2 文學(xué)大師版的測(cè)試結(jié)果恰恰印證了這點(diǎn):
例如,讓躍問以明朝為背景創(chuàng)作第一人稱懸疑小說,并融入《明書·太祖載記》的內(nèi)容,帶有天災(zāi)、地裂、克蘇魯?shù)仍?。其所?chuàng)作出的內(nèi)容確實(shí)有模有樣,所有關(guān)鍵詞無一遺漏,甚至對(duì)于天災(zāi)、地裂的描述銜接也十分流暢,在克蘇魯這一怪物形象的塑造上也很生動(dòng)。科幻小說其也同樣不在話下:
基模領(lǐng)域「六邊形戰(zhàn)士」
現(xiàn)如今,隨著基座大模型玩家洗牌,競(jìng)爭(zhēng)已進(jìn)入更加白熱化的下半場(chǎng),一邊是對(duì) AGI 理想的堅(jiān)持,一邊是面對(duì)現(xiàn)實(shí)的妥協(xié),部分廠商仍在摸索基座大模型的未來,另外一部分則在技術(shù)和產(chǎn)品間反復(fù)橫跳,亦或是直接改變了方向。
階躍則一直屬于前者,從基座模型來看,階躍其實(shí)也是國內(nèi)為數(shù)不多已形成從理解到生成、從文本、多模態(tài)到推理全系列模型矩陣,并堅(jiān)持預(yù)訓(xùn)練,繼續(xù)沖擊 AGI 的大模型創(chuàng)業(yè)公司之一。
自成立初起,階躍便一直堅(jiān)持認(rèn)為——多模理解和生成的統(tǒng)一是通往 AGI 的必經(jīng)之路,而模型的演化必然會(huì)經(jīng)歷單模->多模->世界模型三個(gè)階段。
其技術(shù)發(fā)展也是沿著“單模態(tài)—多模態(tài)—多模理解和生成的統(tǒng)一—世界模型—AGI(通用人工智能)”這條路徑一步步走來的。
當(dāng)前,階躍的多模態(tài)應(yīng)用已經(jīng)愈發(fā)廣泛,并被業(yè)內(nèi)多數(shù)開發(fā)者所認(rèn)可,持續(xù)領(lǐng)跑行業(yè):
例如,網(wǎng)紅 AI 應(yīng)用胃之書的開發(fā)者趙純想就曾表示,通過 AB 測(cè)試發(fā)現(xiàn),階躍星辰的模型付費(fèi)率最高,而 AI 心理療愈應(yīng)用林間療愈室 CEO 李神龍也在接入階躍的多模態(tài)理解大模型后,實(shí)現(xiàn)了用戶付費(fèi)率的提升。
而從整體上來看,無論是去年一月一更的 11 款基座大模型,還是今年一開年便加大攻勢(shì)推出的 6 款模型,在如此厚積薄發(fā)下,階躍的技術(shù)發(fā)展無疑已駛?cè)肟燔嚨?,而其低調(diào)務(wù)實(shí)的做派下也盡顯追逐 AGI 的野心。
如今的階躍星辰,無疑已經(jīng)成為了基座模型領(lǐng)域的“六邊形戰(zhàn)士”。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。