100天后，階躍星辰交出了第二份答卷

本文作者：曉楠

2024-07-05 21:29

導(dǎo)語：從「走路入場(chǎng)」到「跑步前進(jìn)」，階躍星辰要加速奔向AGI了。

今年 3 月，「借著」 2024 全球開發(fā)者先鋒大會(huì)的場(chǎng)子，「國內(nèi)最后一家通用大模型公司」——階躍星辰發(fā)布了 Step 系列通用大模型，包括 Step-1 千億參數(shù)語言大模型、Step-1V 千億參數(shù)多模態(tài)大模型以及 Step-2 萬億參數(shù) MoE 語言大模型預(yù)覽版，正式進(jìn)入大眾視野，并成功躋身國內(nèi)六大大模型獨(dú)角獸行列。

另外五家分別是月之暗面、智譜、MiniMax、百川、零一萬物。

當(dāng)時(shí)雷峰網(wǎng)就報(bào)道過，階躍星辰給外界的第一印象是低調(diào)、神秘，雖然早在 2023 年就成立，但出現(xiàn)在公眾視野的也只有微軟出身的 CEO 姜大昕，對(duì)于團(tuán)隊(duì)核心成員、技術(shù)進(jìn)展、產(chǎn)品研發(fā)等信息，外界一概不知。直到臨近一周年之際，正式提交第一份成績單的時(shí)候，一切才浮出水面。

當(dāng)然，這一份成績很是亮眼，一舉將國內(nèi)大模型卷到萬億參數(shù)賽道（預(yù)覽版）?？杉幢闳绱?，階躍星辰依舊低調(diào)。

進(jìn)入 2024 年以來，大模型行業(yè)的熱鬧明顯更為多樣化，大模型落地應(yīng)用的主旋律下，行業(yè)模型、端側(cè)模型變熱；世界模擬器 Sora 的亮相，引爆多模態(tài)大模型的流行；走得更早更靠前的 OpenAI 遲遲沒有將 GPT-5 公之于眾，發(fā)布的 GPT-4o，雖然有強(qiáng)大交互能力，但也未能化解大眾對(duì)其技術(shù)進(jìn)化速度放緩的質(zhì)疑、失望……

圍繞「技術(shù)信仰派」VS「市場(chǎng)信仰派」、「模型做大」VS「模型做小」、「Scaling Law 是不是第一性原理」等話題，各路大儒「辯經(jīng)」不止……

仔細(xì)看，階躍星辰的聲音似乎很少。

為此，當(dāng)雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))得知階躍星辰也將出席此次的 WAIC 時(shí)，充滿期待、好奇，希望探究一下階躍星辰是如何看待當(dāng)下關(guān)于 AGI 的各種共識(shí)與非共識(shí)問題。

不過沒想到的是，這次「借著」 WAIC 的場(chǎng)子，階躍星辰又交出了第二份答卷——發(fā)布 Step-2 萬億 MoE 語言大模型正式版、Step-1.5V 多模態(tài)大模型、Step-1X 圖像生成大模型。

而此次的產(chǎn)品升級(jí)，距離上次僅僅過去 100 天。

將國內(nèi)大模型升級(jí)到「萬億參數(shù)時(shí)代」的Step-2長啥樣

3 個(gè)多月前，當(dāng)階躍星辰宣布 Step-2 萬億參數(shù) MoE 語言大模型預(yù)覽版的時(shí)候，大家很是好奇，想一覽其真實(shí)面目。而今天，在 WAIC 大會(huì)現(xiàn)場(chǎng)，吊足了大家胃口的 Step-2 萬億參數(shù) MoE 語言大模型正式版亮相了，它采用當(dāng)前熱門的 MoE （Mixture of Experts）架構(gòu)，又稱「混合專家」，是一種模塊化的稀疏激活，可以讓模型在增大參數(shù)規(guī)模的同時(shí)，計(jì)算成本遠(yuǎn)低于相同參數(shù)規(guī)模下的稠密模型，實(shí)現(xiàn)高效訓(xùn)練。

目前，在通往 AGI 的道路上，業(yè)界大多數(shù)人堅(jiān)信 Scaling Law 定律——模型越大，性能越強(qiáng)，階躍星辰也是其中一家。但是現(xiàn)實(shí)問題是，模型的升級(jí)迭代離不開算力的支撐，而算力的不足和匱乏，顯然是當(dāng)下業(yè)界為數(shù)不多的共識(shí)之一。

因此，在意識(shí)到 MoE 可以解決這一難題時(shí)，一些大模型從業(yè)者相繼推出基于 MoE 架構(gòu)的大模型，比如國外的Mistral AI、 xAI，國內(nèi)的 MiniMax、元象科技、DeepSeek AI、階躍星辰等。而階躍星辰是其中少有的、早早將 MoE 架構(gòu)用在萬億參數(shù)規(guī)模大模型的玩家。

姜大昕告訴雷峰網(wǎng)，階躍星辰在完成 Step 系列千億模型的訓(xùn)練后，就開始開始訓(xùn)練萬億模型。而想把模型參數(shù)擴(kuò)大到萬億的話，MoE 幾乎是一個(gè)必選項(xiàng)?！妇拖褡隹蒲谢蛘咦龉こ蹋芏鄾Q策就是各個(gè)維度之間的最佳平衡，MoE 也是在性能、參數(shù)量、訓(xùn)練成本、推理成本這些維度權(quán)衡下的最佳選擇。」

而在設(shè)計(jì) Step-2 MoE 架構(gòu)的過程中，階躍星辰還對(duì)算法架構(gòu)進(jìn)行了創(chuàng)新。

具體而言，當(dāng)前 MoE 模型的訓(xùn)練方式主要有兩種，一種是基于已有模型通過 upcycle（向上復(fù)用）開始訓(xùn)練，即將一個(gè)已經(jīng)訓(xùn)練好的大模型的前饋神經(jīng)網(wǎng)絡(luò)權(quán)重復(fù)制若干份，每一份作為一個(gè) expert（專家），組合后就可以把一個(gè)非 MoE 模型變成 MoE 模型，參數(shù)量增大的同時(shí)，算力需求會(huì)小幾個(gè)量級(jí)，訓(xùn)練效率高。但弊端是上限低，基于拷貝復(fù)制得到的 MoE 模型容易造成專家同質(zhì)化嚴(yán)重。

另一種是從頭開始訓(xùn)練，很顯然，缺點(diǎn)在于訓(xùn)練難度高，但優(yōu)勢(shì)是能夠獲得更高的模型上限。

而階躍星辰的選擇是完全自主研發(fā)從頭開始訓(xùn)練，通過部分專家共享參數(shù)、異構(gòu)化專家設(shè)計(jì)等創(chuàng)新 MoE 架構(gòu)設(shè)計(jì)，讓 Step-2 中的每個(gè)“專家模型”都得到充分訓(xùn)練。結(jié)果就是不僅總參數(shù)量達(dá)到了萬億級(jí)別，每次訓(xùn)練或推理所激活的參數(shù)量也超過了當(dāng)前市面上的大部分 Dense 模型。

此外，在 Step-2 訓(xùn)練過程中，階躍星辰系統(tǒng)團(tuán)隊(duì)還突破了 6D 并行、極致顯存管理、完全自動(dòng)化運(yùn)維等關(guān)鍵技術(shù)，讓整體的訓(xùn)練過程更為高效。

據(jù)階躍星辰透露，目前，Step-2 萬億參數(shù) MoE 語言大模型在數(shù)理邏輯、編程、中文知識(shí)、英文知識(shí)、指令跟隨等方面體感全面逼近 GPT-4。

100天后，階躍星辰交出了第二份答卷

此次，除了 Step-2 萬億參數(shù) MoE 語言大模型，階躍星辰還發(fā)布了 Step-1.5V 多模態(tài)大模型，在多模理解和生成統(tǒng)一的技術(shù)路線上實(shí)現(xiàn)了快速突破。

在理解上，相較于此前的 Step-1V 多模態(tài)大模型， Step-1.5V 的優(yōu)勢(shì)主要體現(xiàn)在三個(gè)方面。

一是感知能力全面提升，創(chuàng)新圖文混排訓(xùn)練方法；能夠理解復(fù)雜圖表、流程圖、準(zhǔn)確感知物理空間復(fù)雜的幾何位置；能夠處理高分辨率和極限長寬比的圖像。二是基于最新的 Step-2 萬億參數(shù)模型當(dāng)老師，推理能力大幅提升，能夠根據(jù)圖像內(nèi)容進(jìn)行各類高級(jí)推理任務(wù)，如解答數(shù)學(xué)題、編寫代碼、創(chuàng)作詩歌等。三是具備出色的視頻理解能力，不僅能夠準(zhǔn)確識(shí)別視頻中的物體、人物和環(huán)境，還能夠理解視頻的整體氛圍和人物情緒。

在生成上，階躍星辰發(fā)布 Step-1X 圖像生成大模型，全鏈路自研的 DiT（Diffusion Models with transformer）模型架構(gòu)，可支持 600M、2B 和 8B 三種不同的參數(shù)量；具備更好的文本 prompt 和生成圖片的語義對(duì)齊能力、指令跟隨能力。另外，該模型還支持針對(duì)中國元素的深度優(yōu)化，使生成內(nèi)容更適合國人的審美風(fēng)格。

比如，階躍星辰在會(huì)場(chǎng)展示的「AI+大鬧天宮」現(xiàn)場(chǎng)互動(dòng)，游戲背后調(diào)用了多個(gè)階躍星辰自研的 Step 系列大模型，融合了圖像理解、風(fēng)格遷移、圖像生成、劇情創(chuàng)作等多種能力，豐富立體地展現(xiàn)了階躍星辰行業(yè)領(lǐng)先的多模態(tài)水平。

動(dòng)畫片《大鬧天宮》大家一定很熟悉，而今年正是《大鬧天宮》制作完成 60 周年之際。

因此，在這一具有重要紀(jì)念意義的時(shí)刻，階躍星辰團(tuán)隊(duì)聯(lián)合上影推出了「AI+大鬧天宮」這一款 AI 互動(dòng)體驗(yàn)產(chǎn)品，試圖將最先進(jìn)的 AIGC 和大模型技術(shù)與《大鬧天宮》情境深度融合，用當(dāng)代的全新視角來展現(xiàn)中國傳統(tǒng)文化的魅力、回顧經(jīng)典動(dòng)畫作品的藝術(shù)成就，同時(shí)也為廣大創(chuàng)作者打開更為廣闊的想象空間、創(chuàng)作空間。

具體而言，在互動(dòng)過中，用戶需要上傳一張個(gè)人照片，基于大模型生成的劇情選擇角色，并與之交談，算法會(huì)識(shí)別照片的特征，然后結(jié)合《大鬧天宮》的畫風(fēng)和角色進(jìn)行風(fēng)格遷移生成新的肖像。同時(shí)，還將根據(jù)用戶的選擇和回答進(jìn)一步分析用戶的「MBTI」人格，給用戶在天庭「安排」一個(gè)差事。

整體交互過程好玩有趣，且極具個(gè)性化，吸引了現(xiàn)場(chǎng)大量觀眾的參與互動(dòng)。

感興趣的朋友，可以掃描下方圖片二維碼參與互動(dòng)體驗(yàn)，「測(cè)測(cè)你是哪路神仙」。

100天后，階躍星辰交出了第二份答卷

階躍星辰攀頂 AGI 的決心

階躍星辰在 3 月推出的 Step 系列模型，是將近醞釀了一年的成果，而現(xiàn)在距離上一次不過一百天，就實(shí)現(xiàn)了對(duì)Step 系列模型矩陣的全新升級(jí)?？梢钥闯鰜?，在通往 AGI 的漫長旅途中，階躍星辰這是從「走路入場(chǎng)」變?yōu)椤概懿角斑M(jìn)」了。

當(dāng)前，盡管業(yè)界一次次探討、爭論 AGI 的定義、路徑，但不可否認(rèn)，在這兩個(gè)問題上，至今并未形成一個(gè)明確而具體的共識(shí)，甚至在未來的一段時(shí)間內(nèi)也不會(huì)有，每個(gè)路線上的攀登者都認(rèn)為自己將會(huì)是最終達(dá)到 AGI 終點(diǎn)的選手。姜大昕也是這樣認(rèn)為的。

從成立一開始，階躍星辰就明確了自身通往 AGI 的路線圖——單模態(tài)—多模態(tài)—多模態(tài)理解和生成的統(tǒng)一—世界模型—AGI。

換句話說，就是以實(shí)現(xiàn) AGI 為目標(biāo)，專注研發(fā)多模態(tài)基礎(chǔ)大模型，基于自研基礎(chǔ)大模型打造新一代「AI +」應(yīng)用。

在這過程中，姜大昕認(rèn)為，攀登 AGI 巔峰「萬億參數(shù)」和「多模融合」缺一不可！

怎么理解？

一方面，多模態(tài)理解和生成的統(tǒng)一是通向 AGI 的必經(jīng)之路。

另一方面，模型參數(shù)量決定模型能力上限，Scaling Law 全面跨入萬億參數(shù)是通向 AGI 的另一核心。這也是為什么當(dāng)初在完成 Step 系列千億模型的訓(xùn)練后，階躍星辰就馬不停蹄開始訓(xùn)練萬億模型。

據(jù)了解，此次階躍星辰 Step 系列通用大模型獲得了 WAIC 2024 SAIL 之星稱號(hào)。SAIL 獎(jiǎng)（Super AI Leader，卓越人工智能引領(lǐng)者）是 WAIC 最高獎(jiǎng)項(xiàng)，致力于從全球范圍發(fā)掘在人工智能領(lǐng)域中具有高度認(rèn)可和美譽(yù)、并具有提升人類福祉意義的項(xiàng)目。

不僅是模型要做好，在應(yīng)用上，階躍星辰也沒有松懈。從成立之初，階躍星辰的策略就是技術(shù)和產(chǎn)品「兩手抓」。因?yàn)榻箨繄?jiān)信，模型需要應(yīng)用作為牽引和數(shù)據(jù)的補(bǔ)充，具體到某個(gè)應(yīng)用的時(shí)候一定要通過模型與它深度綁定，這樣應(yīng)用才能做到極致，反之亦然。

「我不覺得一個(gè)光做應(yīng)用的公司，沒有一個(gè)模型跟它深度綁定的話，它能做到極致。」

為此，基于 Step 系列大模型，階躍星辰通過自研產(chǎn)品和生態(tài)合作產(chǎn)品逐漸形成豐富的產(chǎn)業(yè)應(yīng)用生態(tài)圈，并在重點(diǎn)行業(yè)領(lǐng)先落地。

比如躍問和冒泡鴨，這是階躍星辰自研產(chǎn)品的兩個(gè)代表。躍問是一款 AI 聊天類應(yīng)用，定位為個(gè)人效率助手；冒泡鴨則是一款由劇情和角色構(gòu)成的 AI 開放世界，可以為用戶提供娛樂和社交。據(jù)了解，目前，兩款產(chǎn)品均已全面開放使用。

而在生態(tài)合作方面，階躍星辰已在金融、網(wǎng)絡(luò)文學(xué)、知識(shí)服務(wù)、游戲、數(shù)字人、影視等領(lǐng)域與合作伙伴達(dá)成深度合作，共同探索面向 C 端用戶的創(chuàng)新應(yīng)用。

比如這次現(xiàn)場(chǎng)展示的「大鬧天宮」AI 互動(dòng)體驗(yàn)，就是階躍攜手上影在影視領(lǐng)域達(dá)成的生態(tài)合作伙伴關(guān)系，全程由AI 多模態(tài)大模型生成，以大鬧天宮 IP 動(dòng)畫為情景，以 AI + IP 生動(dòng)展示多模態(tài)大模型的底座能力。

接下來，階躍星辰還將繼續(xù)積極探索，并持續(xù)擴(kuò)大生態(tài)圈，結(jié)交更多生態(tài)伙伴。

寫在最后

今年 3 月份，階躍星辰作為新星正式亮相時(shí)，憑借在大模型領(lǐng)域的技術(shù)實(shí)力，一舉改變了彼時(shí)大模型的「五虎」格局，成功上位，成為「六大獨(dú)角獸」一員。

如今，階躍星辰的萬億參數(shù)大模型正式亮相，并不斷獲得行業(yè)、資本市場(chǎng)的認(rèn)可，或許在不久后，國內(nèi)大模型的格局、位置，又該動(dòng)一動(dòng)了。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。