0
本文作者: 王悅 | 2024-11-22 10:39 |
在大模型技術(shù)圈里,有一個(gè)獲得不少認(rèn)同的說法:階躍星辰的底層基礎(chǔ)模型能力很強(qiáng),甚至是幾家大模型公司中數(shù)一數(shù)二的。但其實(shí),擁有這種看法的大多是足夠了解國內(nèi)大模型能力現(xiàn)狀的人,對(duì)于圈子之外的人,無法直觀感受到這種潛移默化的底層硬實(shí)力。
然而,在被譽(yù)為「世界上第一個(gè)不可玩弄的 LLM 基準(zhǔn)測試」的 LiveBench 榜單中,階躍星辰給了行業(yè)一次強(qiáng)有力的沖擊。
國際權(quán)威榜單 LiveBench 官網(wǎng)發(fā)布最新的榜單成績顯示,階躍星辰自研的萬億參數(shù)語言大模型 Step-2 在榜單中位列國產(chǎn)基座大模型第一,成績逼近 OpenAI 的 o1-mini-2024-09-12,超越GPT-4o-2024-08-06 、gemini-1.5-pro-002等國際主流模型,目前排在階躍前面的只有OpenAI 和 Anthropic。
本次榜單里,階躍是唯一進(jìn)入榜單前十名的中國大語言模型,位列全球第五。同樣上榜的大模型公司還有通義千問和深度求索,均沒有沖進(jìn)前十,分別位列第十三和第二十三名。
在榜單中的多項(xiàng)測評(píng)標(biāo)準(zhǔn)中,Step-2 在 IF Average(指令跟隨)的表現(xiàn)上以 86.57 的分?jǐn)?shù)排在第一,超越包括 o1-preview-2024-09-12 在內(nèi)的所有國內(nèi)外語言大模型。
從 2024年3月發(fā)布國內(nèi)首個(gè)由創(chuàng)業(yè)公司研發(fā)的萬億參數(shù)語言大模型預(yù)覽版 Step-2 ,到在中文大模型基準(zhǔn)測評(píng)機(jī)構(gòu)SuperCLUE 上登頂國內(nèi)多模態(tài)大模型榜首,到本次在LiveBench 上獲得中國大模型第一,可以說,階躍星辰正在全力提升自身底層實(shí)力并且成效顯著。
基于 Step-2 萬億參數(shù)大模型和 Step-1.5V 多模態(tài)模型能力,其 C 端產(chǎn)品躍問也隨之迭代,推出的通過圖像交互“即拍即問”功能“拍照問”,解決了文字和語音交互中難以準(zhǔn)確描述的痛點(diǎn),獲得用戶好評(píng)。目前,Step-2 已經(jīng)接入躍問 APP 和網(wǎng)頁端(https://yuewen.cn),開發(fā)者可以在階躍星辰開放平臺(tái),通過 API 接入使用 Step-2。
一、LiveBench 測出的第一:含金量仍在上升
Step-2 取得 LiveBench 國產(chǎn)大模型第一名——之所以這件事能證明階躍星辰的模型實(shí)力,是因?yàn)?nbsp;LiveBench 本身具有含金量,不同于針對(duì)特定數(shù)據(jù)集進(jìn)行訓(xùn)練從而拿高分的定向考試。
LiveBench 是由 AI 科學(xué)家楊立昆(Yann LeCun)聯(lián)合 Abacus.AI、紐約大學(xué)等機(jī)構(gòu)聯(lián)合推出,提出了一種創(chuàng)新的基準(zhǔn)測試方法,其中包含6大類18項(xiàng)任務(wù),一向以權(quán)威性、客觀公正、全面評(píng)估而獲得業(yè)界認(rèn)可。甚至把 “A Challenging, Contamination-Free LLM Benchmark” 放在官網(wǎng)最醒目的位置。
并且為了避免大模型“作弊”,LiveBench 每月發(fā)布新問題,并根據(jù)最近發(fā)布的數(shù)據(jù)集、arXiv論文、新聞文章和 IMDb 電影簡介設(shè)計(jì)問題,以限制潛在的數(shù)據(jù)污染。LiveBench 也已評(píng)估全面著稱,可以從包括數(shù)學(xué)、推理、編程、語言理解、指令遵循和數(shù)據(jù)分析在內(nèi)的多個(gè)復(fù)雜維度對(duì)模型進(jìn)行評(píng)估,還能設(shè)計(jì)中立的評(píng)價(jià)體系以避免人類評(píng)價(jià)者受格式偏好和文風(fēng)影響。
根據(jù)過往的榜單情況來看,上榜者多為國外的科技巨頭,極少有國內(nèi)的大模型能沖到排行榜前十,甚至大多難以上榜。2024 年到目前為止的每個(gè)月排名中,只有通義千問的開源大模型 Qwen2-72B 在 6月14 日發(fā)布的 LiveBench 的測評(píng)中上榜,排名位列第八。
令人驚艷的是, Step-2 的 IF Average(指令跟隨得分的平均值)指標(biāo)碾壓所有在榜模型。指令跟隨衡量的是模型對(duì)語言生成細(xì)節(jié)的控制力,通常模型滿足限定要求,諸如必須遵守一項(xiàng)或多項(xiàng)指令,例如字?jǐn)?shù)限制或在回答中納入特定元素。
指令跟隨在文字創(chuàng)作上的表現(xiàn)會(huì)更加顯著,在生成高質(zhì)量、有創(chuàng)意的文字內(nèi)容的同時(shí),Step-2模型能夠根據(jù)用戶的指令對(duì)文本進(jìn)行精確地調(diào)整和優(yōu)化,比如在創(chuàng)作古詩詞時(shí),對(duì)字?jǐn)?shù)、格律、押韻、意境都可以做到精準(zhǔn)把握。
例如,在躍問中輸入:寫一首主題為“愛而不得”的七言律詩,表達(dá)出相愛的人因?yàn)椴荒芟嗷ダ斫舛呱?,充滿對(duì)愛情無力、灰心的意境,得出的回答是:
這一段 prompt 明確要求輸出中國的古詩體、有規(guī)定字?jǐn)?shù)、需要理解其背后的意境,輸出的結(jié)果符合要求,并且能主動(dòng)做到押韻。
不僅文學(xué)創(chuàng)作能考察指令跟隨能力,是否能夠一一應(yīng)對(duì)一個(gè)復(fù)雜 prompt 的多項(xiàng)細(xì)節(jié)指令,也是衡量指令跟隨能力的較好方式。
比如,向躍問提問:設(shè)計(jì)一個(gè)為期一周的社區(qū)環(huán)?;顒?dòng)計(jì)劃?;顒?dòng)計(jì)劃應(yīng)包括每天的具體活動(dòng)安排;確定至少三個(gè)不同的環(huán)保主題,如減少塑料使用、節(jié)約能源和垃圾分類;為每個(gè)主題設(shè)計(jì)一個(gè)互動(dòng)環(huán)節(jié),鼓勵(lì)社區(qū)居民參與,列出所需物資清單,并估算活動(dòng)預(yù)算;描述如何通過社交媒體和社區(qū)公告板宣傳這次活動(dòng);考慮到不同年齡層的居民,設(shè)計(jì)適合兒童、成人和老年人的活動(dòng);確?;顒?dòng)計(jì)劃中包含安全措施和應(yīng)對(duì)突發(fā)情況的預(yù)案。
得到的回答是:
在這一大問題中,包含了八個(gè)子問題,躍問一個(gè)都沒有漏掉,足見其較強(qiáng)的指令跟隨程度。
出眾的指令跟隨能力背后,必然是模型更強(qiáng)大的理解和推理能力在支撐。Step-2 具備出色的理解能力,能夠從上下文中推斷出用戶需求,精準(zhǔn)捕捉用戶在模糊指令中的真實(shí)意圖,提供更準(zhǔn)確、個(gè)性化的響應(yīng),把模糊指令讀得更清晰。
除此之外,數(shù)據(jù)量也是 Step-2 能力強(qiáng)悍的關(guān)鍵因素。其知識(shí)覆蓋范圍和深度都取得顯著突破,不僅能夠處理常見領(lǐng)域知識(shí),還能深入理解和回答在特定領(lǐng)域或邊緣分布中的復(fù)雜問題。
二、階躍不止于萬億參數(shù)大模型
開發(fā)出萬億參數(shù)模型,是各家大模型發(fā)展之路的一個(gè)里程碑。一年左右的時(shí)間內(nèi),號(hào)稱要發(fā)布萬億參數(shù)大模型的公司不下五家,但最終能真正發(fā)出來的卻寥寥無幾。
今年 3 月,階躍星辰發(fā)布了 Step-2 語言大模型預(yù)覽版,這是國內(nèi)首個(gè)由創(chuàng)業(yè)公司發(fā)布的萬億參數(shù)模型,很多成立時(shí)間更早、融資體量更大的公司都沒有成功發(fā)布。
Step-2 萬億參數(shù)語言大模型采用 MoE 架構(gòu)。可以說, MoE 架構(gòu)是萬億參數(shù)模型現(xiàn)階段不可繞開的路,但階躍星辰在開發(fā) Step-2 MoE 架構(gòu)時(shí)候沒有采用相對(duì)成熟的 upcycle(向上復(fù)用)方案,走出對(duì)算力的需求低、訓(xùn)練效率高的舒適區(qū),轉(zhuǎn)而完全自主研發(fā)從頭開始訓(xùn)練。
通過部分專家共享參數(shù)、異構(gòu)化專家設(shè)計(jì)等創(chuàng)新 MoE 架構(gòu)設(shè)計(jì), Step-2 中的每個(gè)“專家模型”都得到充分訓(xùn)練,不僅總參數(shù)量達(dá)到了萬億級(jí)別,每次訓(xùn)練或推理所激活的參數(shù)量也超過了市面上的大部分 Dense 模型。基于創(chuàng)新算法架構(gòu)的 Step-2 萬億參數(shù)大模型,在數(shù)學(xué)、邏輯、編程、知識(shí)、創(chuàng)作、多輪對(duì)話體感全面逼近 GPT-4。
在 Step-2 訓(xùn)練過程中,階躍星辰系統(tǒng)團(tuán)隊(duì)更是突破了 6D 并行、極致顯存管理、完全自動(dòng)化運(yùn)維等關(guān)鍵技術(shù),具備領(lǐng)先的系統(tǒng)能力以支持高效訓(xùn)練。
然而,階躍的「星辰大?!惯h(yuǎn)不止于萬億參數(shù)的大語言模型。
Step-1.5V 是階躍星辰 Step 系列里的多模態(tài)大模型,其視頻理解能力不僅能夠準(zhǔn)確識(shí)別視頻中的物體、人物和環(huán)境,還能夠理解視頻的整體氛圍和人物情緒,因此被應(yīng)用于各種視頻分析和處理任務(wù),如視頻內(nèi)容理解、視頻問答等。
除此之外,Step-1.5V 也具有超強(qiáng)感知能力。通過創(chuàng)新的圖文混排訓(xùn)練方法,Step-1.5V 能夠準(zhǔn)確理解各類圖像、圖表、復(fù)雜圖文混排的長上下文內(nèi)容及其邏輯關(guān)系,也能夠精準(zhǔn)感知圖像中物體的復(fù)雜空間關(guān)系,甚至能夠處理高分辨率和極限長寬比的圖像。
Step 系列中包括 Step-1X 圖像生成大模型。和大語言模型一脈相承,Step-1X 也具備了更強(qiáng)的深度語義對(duì)齊能力和細(xì)節(jié)生成能力與創(chuàng)新力。通過 Step-1V 大模型對(duì)高標(biāo)準(zhǔn)訓(xùn)練圖像實(shí)施精細(xì)化標(biāo)簽處理,可獲得高精度圖文配對(duì)數(shù)據(jù),極大提升了語義匹配的準(zhǔn)確度與深度,即使面對(duì)包含多個(gè)對(duì)象、詳細(xì)屬性、復(fù)雜邏輯關(guān)系的文本指令時(shí),也能確保生成圖像與描述相符和。
Step-1X 生成的圖像不僅具備豐富的細(xì)節(jié)和逼真的質(zhì)感,還針對(duì)中國文化的深度優(yōu)化,使得該模型在處理富含中國元素的內(nèi)容時(shí)展現(xiàn)出獨(dú)特優(yōu)勢,無論是傳統(tǒng)美學(xué)還是現(xiàn)代風(fēng)尚,更能滿足國人獨(dú)特的審美需求。
有了扎實(shí)的底層模型后,階躍星辰的產(chǎn)品開發(fā)應(yīng)更加有底氣。在定位為智能助手的躍問中,加入了智能視覺搜索功能「拍照問」?!概恼諉枴鼓軌蚪鉀Q難以用語音和文字準(zhǔn)確描述的問題,比如,拍一張今日晚餐,躍問就可以計(jì)算卡路里攝入;隨手拍各種物體圖片,躍問就能反饋正確的發(fā)音、例句。
階躍星辰,贊71
基礎(chǔ)模型加持下,階躍星辰的產(chǎn)品能力的想象力還會(huì)進(jìn)一步延展。
三、寫在最后
階躍星辰創(chuàng)始人姜大昕曾表示,他期待的 AI 下一個(gè)里程碑有二:一是強(qiáng)化學(xué)習(xí)模型泛化能力的提升;二是視覺領(lǐng)域理解和生成的一體化。
而今看來,階躍星辰距離里程碑的路程就在不遠(yuǎn)處。登榜LiveBench 的首個(gè)國內(nèi)萬億參數(shù)大模型、全鏈路自研 DiT 架構(gòu)的Step-1X圖像生成大模型、具備超過行業(yè)平均理解能力的Step-1.5V多模態(tài)模型,都是腳下一步步朝上邁的臺(tái)階。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)
以通用大模型為目標(biāo),這家公司正在以階躍之力,奔赴星辰大海。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。