0
2025 年 1 月,豆包大模型 1.5 全面上線火山方舟,其中豆包通用模型 pro 在多個權(quán)威測評集綜合得分優(yōu)于GPT4o、Claude 3.5 Sonnet 等業(yè)界一流模型,模型效果達到全球領先水平。
通用模型 pro 實現(xiàn)了性能與推理成本極致平衡,采用高效的 MoE 模型結(jié)構(gòu),性能杠桿提升至 7 倍,更有自研的高性能推理系統(tǒng),可以達到 10 毫秒級低延遲。并且,豆包大模型 1.5 建了高度自主的數(shù)據(jù)生產(chǎn)體系,未使用任何其他模型生成的數(shù)據(jù)。
除此之外,豆包通用模型 pro、豆包·視覺理解模型均有大幅增強,并發(fā)布豆包·實時語音模型。但豆包大模型 1.5 全產(chǎn)品,加量不加價,仍繼續(xù)保持原有模型價格不變。
本文實測了豆包大模型 1.5 產(chǎn)品家族后,看到了字節(jié)不走捷徑的底氣。
一、綜合能力優(yōu)于業(yè)界一流模型
Doubao-1.5-pro 模型綜合能力顯著增強,在知識(MMLU_PRO、GPQA)、代碼(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)權(quán)威測評基準上獲得最佳成績,綜合得分優(yōu)于GPT-4o、Claude 3.5 Sonnet 等業(yè)界一流模型。
話不多說,先通過和其他行業(yè)內(nèi)領先大模型的對比來直觀感受一下。針對推理能力,設置一個大約在初級和中級水平的代碼問題:問題:使用 Flask 框架創(chuàng)建一個簡單的 Web API,包含以下兩個端點:
/: 返回一個歡迎消息,例如 {"message": "Welcome to the API!"}。/add: 接受兩個整數(shù)參數(shù) a 和 b(通過查詢參數(shù)傳遞),返回它們的和,例如 {"sum": 5}。
要求:
提供可運行的完整代碼。說明如何在本地運行此代碼并進行測試。
這一測試題所傳達的需求明確清晰且聚焦于核心功能,但并未說明如何處理錯誤邏輯或參數(shù)類型。先來看GPT-4o 將如何應對:
可以看到 GPT-4o 的答案相對中規(guī)中矩,并針對問題本身包含的漏洞,給出了一個錯誤處理示例。再來看看 Doubao-1.5-pro 給出的答案:
顯而易見,豆包關(guān)于代碼問題的輸出格式設置,會更貼近原生的編碼界面。相較于 GPT-4o ,能夠進行必要且詳細的代碼說明,并且在這一部分對參數(shù)類型問題就給出了預設和解答,即如果參數(shù)并不有效,狀態(tài)代碼就為400,然后才給出了運行代碼并進行測試的方法。總體而言,Doubao-1.5-pro 相較于 GPT-4o 輸出的代碼會更加精細一點。
針對“知識能力”一項,將 Doubao-1.5-pro 和同為主打中文語境的一個國產(chǎn)模型進行對比,提出的問題是:唐代有哪些古詩中包含“過年”這件事?國內(nèi)某大模型產(chǎn)品給出的答案是:
給出的答案數(shù)量有十個之多,但每個答案的顆粒度不夠,僅包括作者和50字左右的大概介紹,于用戶而言可能無法對提出的問題有深入的了解。
Doubao-1.5-pro 則相對完美地規(guī)避掉了這一問題。先在邏輯上進行了清晰的劃分,給出了體現(xiàn)過年氛圍與習俗與抒發(fā)過年時情感思緒的兩個大方向,并且針對所給出的每一個答案的顆粒度也相對細些,包括了原文和解析,內(nèi)容明顯更豐富。
針對復雜問題的推理能力,Doubao-1.5-pro 在現(xiàn)實的中文語境中展現(xiàn)出了明顯的優(yōu)勢,所提出的問題是:2025年上半年,我有3萬元想進行理財,是選擇中國建設銀行還是選擇中國工商銀行?收益各是多少? Gemini 1.5 Flash 給出的回答如下:
也許是由于數(shù)據(jù)庫的問題,Gemini 推理出的結(jié)果會相對空泛,并沒有給出實質(zhì)性的建議,也沒有給出題目中要求的大致收益。而 Doubao-1.5-pro 的回答則具有針對性,并能夠條理清晰、分門別類的給出針對活期類、定期類、特色理財產(chǎn)品的的不同收益,能夠滿足問題提出者對這一問題的基本需求。
中文能力方面,設置的問題是:請以愛情和輕舟已過萬重山為主題,寫一首七言律詩。Doubao-1.5-pro 的遣詞造句明顯優(yōu)于 GPT-4o 等其他的模型,并能夠更進一步給出首聯(lián)、頷聯(lián)、頸聯(lián)、尾聯(lián)解析。
而 GPT-4o 的中文能力則稍遜一節(jié),回答得相對簡單,詞藻也較為樸素。
除了 Doubao-1.5-pro ,本次也發(fā)布了更加輕量化的 Doubao-1.5-lite 。Doubao-1.5-lite 具備極致的響應速度,適用于對時延有更高要求的場景,模型配合精調(diào)使用可以獲得更優(yōu)質(zhì)的效果,并且在輕量版語言模型中處于領先水平,在綜合(MMLU_pro)、推理(BBH)、數(shù)學(MATH)、專業(yè)知識(GPQA)權(quán)威測評指標持平或超越GPT-4omini,Cluade 3.5 Haiku。先來感受一下極致的推理和響應速度,提問一個中等難度的推理問題:有三個人分別穿著紅、藍、綠三種顏色的衣服,他們分別來自 A、B、C 三個城市。已知:穿紅衣服的人不是來自 A 城市;穿藍衣服的人來自 C 城市;來自 A 城市的人沒有穿綠衣服。請問,這三個人分別來自哪個城市,穿著什么顏色的衣服?
在不省略已知條件、推理過程的情況下, Doubao-1.5-lite 輸出答案僅用了 1.55 秒,這個推理時間確實極致。再提出一個更復雜的專業(yè)問題:請簡述股票估值的三種主要方法(市盈率法、現(xiàn)金流折現(xiàn)法、凈資產(chǎn)法),并分析在不同市場環(huán)境下,哪種方法更適用?
這是一道金融行業(yè)的專業(yè)知識題目。Doubao-1.5-lite 的回答內(nèi)容詳實,能夠 cover 住垂直領域的專業(yè)知識,并且在面對龐雜的、體量大的問題時,總輸出時長只有 6.77 秒,同樣在一個低時延的水平范圍內(nèi)。
值得一提的是,Doubao-1.5-lite 模型效果比肩去年 9 月份發(fā)布的主力模型 Doubao-pro-32k-0828,這意味著用戶可以用 lite 模型的成本,獲得過去 pro 模型的效果。
無論是 Doubao-1.5-pro 還是 Doubao-1.5-lite,都是字節(jié)在追求模型性能與推理性能的極致平衡,也是字節(jié)一路積累下來的基本功的體現(xiàn)。
從訓練和推理效率的角度出發(fā),Doubao-1.5-pro 使用稀疏 MoE 架構(gòu)。在預訓練階段,僅用較小參數(shù)激活的 MoE 模型,性能即可超過 Llama3.1-405B 等超大稠密預訓練模型。豆包團隊通過對稀疏度 Scaling Law 的研究,確定了性能和效率比較平衡的稀疏比例,并根據(jù) MoE Scaling Law 確定了小參數(shù)量激活的模型即可達到世界一流模型的性能,等效 7 倍激活參數(shù)的Dense模型性能,遠超業(yè)內(nèi) MoE 架構(gòu)約 3 倍杠桿的常規(guī)效率。
基于 MoE 模型,豆包搭建了高性能推理系統(tǒng),在 Prefill/Decode 與 Attention/FFN 構(gòu)成的四個計算象限中,表現(xiàn)出顯著不同的計算與訪存特征。針對四個不同象限,采用異構(gòu)硬件結(jié)合不同的低精度優(yōu)化策略,在確保低延遲的同時大幅提升吞吐量,在降低總成本的同時兼顧 TTFT 和 TPOT 的最優(yōu)化目標。
更重要的是,在 PostTraining 階段,豆包團隊構(gòu)建了一套完全自主的數(shù)據(jù)生產(chǎn)體系,將標注團隊與模型 self play 技術(shù)相結(jié)合,提升數(shù)據(jù)標注多樣性和難度,確保數(shù)據(jù)來源的獨立性和可靠性。在豆包大模型1.5的訓練過程中,未使用任何其他模型生成的數(shù)據(jù)。這意味著,字節(jié)在踩踏實大模型訓練的基本功、加大基礎工程投入、放棄短期獲利,這已經(jīng)區(qū)別于世界范圍內(nèi)絕大多數(shù)不肯下“笨功夫”的大模型公司。
二、視覺推理、指令遵循達新高
本次發(fā)布中,豆包的視覺理解能力令人驚艷,具備市面上絕大多數(shù) To C 的 AI Chatbot 并不具備精準的圖像理解、識別、問答能力。Doubao-1.5-vision-pro 在多模態(tài)數(shù)據(jù)合成、動態(tài)分辨率、多模態(tài)對齊、混合訓練上進行了全面的技術(shù)升級,進一步增強了模型在視覺推理、文字文檔識別、細粒度信息理解、指令遵循方面的能力,也擁有了更細膩的視覺描述能力。Doubao-1.5-vision-pro 的視覺能力在多個權(quán)威測評基準上取得了全球領先表現(xiàn):
基于原生動態(tài)分辨率的架構(gòu)設計,Doubao-1.5-vision-pro 能夠支持任意分辨率和極端長寬比圖像識別。因此,無論是高清大圖還是低分辨率的小圖,亦或是極端長寬比例的圖像,模型都能實現(xiàn)精準的特征提取和高效的計算性能。先來看一下針對復雜圖表的理解能力。給出如下圖表,并向 Doubao-1.5-vision-pro 提問:該圖表反映了什么內(nèi)容?
從上述的回答中可以見得, Doubao-1.5-vision-pro 對圖表內(nèi)數(shù)據(jù)內(nèi)容的解讀是準確無誤的,并能針對某些數(shù)值給出基本的關(guān)于趨勢、顯著性的結(jié)論。
針對低清晰度問題,給出如下一張清晰度低、分辨率低的界面,進而考察模型對其中內(nèi)容識別和理解的準確程度。
從上述的回答中可知,Doubao-1.5-vision-pro 同樣能夠準確識別模糊內(nèi)容,并做出基礎的推理判斷:用戶正在為視頻應用創(chuàng)意外觀預設并進行色彩調(diào)整。再上一個難度,針對字跡潦草的手寫圖片,Doubao-1.5-vision-pro 能否準確識別?
不得不說,這個圖片如果不仔細看的話,人眼都不一定能看清,而豆包則能提取道其中 95% 的關(guān)鍵詞和主題,且識別出了部分關(guān)鍵詞用藍色筆標注來突出重點內(nèi)容,并進一步總結(jié)該筆記聚焦于媒體研究領域。除了精準的識別能力,Doubao-1.5-vision-pro 也具備強大的多類型圖片內(nèi)容提取能力。
上傳四張同一時期拍攝的照片,模型能在處理多張圖片時獲取關(guān)鍵要點,并總結(jié)出是“新年慶祝”的主題。復雜指令遵循能力也是 Doubao-1.5-vision-pro 的亮點,通過系統(tǒng)性的原子能力拆解和多維度指令的邏輯組合,在后訓練階段引入了多樣化的視覺指令數(shù)據(jù),從而激發(fā)模型的指令遵循能力,從容應對需要遵循更復雜指令的場景。
不僅視覺大模型的能力得到提升,本次豆包大模型1.5家族中還新推出了實時語音模型。該模型提出了新的 Speech2Speech 的端到端框架,不僅通過原生方法將語音和文本模態(tài)進行深度融合,同時還實現(xiàn)了語音對話中真正意義上的語音理解生成端到端,相比傳統(tǒng)的 ASR+LLM+TTS 的級聯(lián)方式,不僅擁有高理解力(高智商),還具備語音高表現(xiàn)力與高控制力,以及模型整體在回復內(nèi)容和語音上的高情緒承接能力。
在語音多模態(tài)上,我們提出了新的 Speech2Speech 的端到端框架,不僅通過原生方法將語音和文本模態(tài)進行深度融合,同時還實現(xiàn)了語音對話中真正意義上的語音理解生成端到端,相比傳統(tǒng)的 ASR+LLM+TTS 的級聯(lián)方式,在對話效果上有質(zhì)的飛躍。
可以說是一個情緒價值價值拉滿、表現(xiàn)能力生動,也不怕被打斷的豆包了。
三、豆包 1.5 發(fā)布后,AI 更普惠
2024 年 5 月,豆包主力模型就將推理輸入價格降至“厘時代”,12 月火山引擎又讓視覺理解模型價格進入“厘時代”。當下豆包大模型 1.5 繼續(xù)保持原有模型價格不變,加量不加價,也會給火山引擎進一步做大 B 端市場帶來更多可能性。
在這場曠日持久的大模型落地競賽中,字節(jié)給行業(yè)留下的印象是“從容”。支撐豆包大模型全產(chǎn)品價格普惠的原因,是推理成本持續(xù)優(yōu)化、毛利率的逐漸增加。據(jù)了解,豆包大模型去年大幅降價后,毛利率依然為正。其中,字節(jié)跳動最新推出的豆包大模型 1.5,在推理成本優(yōu)化上取得進一步突破,在火山引擎上售賣 API 的 Doubao-1.5-pro,毛利率仍能達到較為可觀的 50%。
不能只看到火山引擎中 API 價格下調(diào)的從容,更需要看到的是,豆包大模型團隊所打造的綜合高效模型架構(gòu)、高性能推理體系、自建數(shù)據(jù)標注工程等深厚的技術(shù)優(yōu)勢,以及對于大模型這條路不走捷徑的長期主義戰(zhàn)略。
更高性價比的服務也讓火山引擎在商業(yè)化落地的過程中跑在前列。2024 年,火山引擎在汽車行業(yè)與梅賽德斯-奔馳、廣汽集團、領克汽車等多家企業(yè)達成合作;在金融行業(yè)與招商銀行、華泰證券、國信證券等企業(yè)進行智能體創(chuàng)新探索;在教育行業(yè)和浙江大學、南京大學打造了 AI 教育示范合作案例。
豆包大模型 1.5 的升級和火山引擎在 B 端市場的進一步拓展,二者生生相息、共同推進 AI 惠普。
雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。