實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

本文作者：王悅

2025-01-31 23:16

導語：效果領先，豆包大模型1.5超越GPT-4o、Claude3.5。

2025 年 1 月，豆包大模型 1.5 全面上線火山方舟，其中豆包通用模型 pro 在多個權(quán)威測評集綜合得分優(yōu)于GPT4o、Claude 3.5 Sonnet 等業(yè)界一流模型，模型效果達到全球領先水平。

通用模型 pro 實現(xiàn)了性能與推理成本極致平衡，采用高效的 MoE 模型結(jié)構(gòu)，性能杠桿提升至 7 倍，更有自研的高性能推理系統(tǒng)，可以達到 10 毫秒級低延遲。并且，豆包大模型 1.5 建了高度自主的數(shù)據(jù)生產(chǎn)體系，未使用任何其他模型生成的數(shù)據(jù)。

除此之外，豆包通用模型 pro、豆包·視覺理解模型均有大幅增強，并發(fā)布豆包·實時語音模型。但豆包大模型 1.5 全產(chǎn)品，加量不加價，仍繼續(xù)保持原有模型價格不變。

本文實測了豆包大模型 1.5 產(chǎn)品家族后，看到了字節(jié)不走捷徑的底氣。

一、綜合能力優(yōu)于業(yè)界一流模型

Doubao-1.5-pro 模型綜合能力顯著增強，在知識（MMLU_PRO、GPQA）、代碼（McEval、FullStackBench）、推理（DROP）、中文（CMMLU、C-Eval）權(quán)威測評基準上獲得最佳成績，綜合得分優(yōu)于GPT-4o、Claude 3.5 Sonnet 等業(yè)界一流模型。

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

話不多說，先通過和其他行業(yè)內(nèi)領先大模型的對比來直觀感受一下。針對推理能力，設置一個大約在初級和中級水平的代碼問題：問題：使用 Flask 框架創(chuàng)建一個簡單的 Web API，包含以下兩個端點：

/: 返回一個歡迎消息，例如 {"message": "Welcome to the API!"}。/add: 接受兩個整數(shù)參數(shù) a 和 b（通過查詢參數(shù)傳遞），返回它們的和，例如 {"sum": 5}。

要求：

提供可運行的完整代碼。說明如何在本地運行此代碼并進行測試。

這一測試題所傳達的需求明確清晰且聚焦于核心功能，但并未說明如何處理錯誤邏輯或參數(shù)類型。先來看GPT-4o 將如何應對：

可以看到 GPT-4o 的答案相對中規(guī)中矩，并針對問題本身包含的漏洞，給出了一個錯誤處理示例。再來看看 Doubao-1.5-pro 給出的答案：

顯而易見，豆包關(guān)于代碼問題的輸出格式設置，會更貼近原生的編碼界面。相較于 GPT-4o ，能夠進行必要且詳細的代碼說明，并且在這一部分對參數(shù)類型問題就給出了預設和解答，即如果參數(shù)并不有效，狀態(tài)代碼就為400，然后才給出了運行代碼并進行測試的方法。總體而言，Doubao-1.5-pro 相較于 GPT-4o 輸出的代碼會更加精細一點。

針對“知識能力”一項，將 Doubao-1.5-pro 和同為主打中文語境的一個國產(chǎn)模型進行對比，提出的問題是：唐代有哪些古詩中包含“過年”這件事？國內(nèi)某大模型產(chǎn)品給出的答案是：

給出的答案數(shù)量有十個之多，但每個答案的顆粒度不夠，僅包括作者和50字左右的大概介紹，于用戶而言可能無法對提出的問題有深入的了解。

Doubao-1.5-pro 則相對完美地規(guī)避掉了這一問題。先在邏輯上進行了清晰的劃分，給出了體現(xiàn)過年氛圍與習俗與抒發(fā)過年時情感思緒的兩個大方向，并且針對所給出的每一個答案的顆粒度也相對細些，包括了原文和解析，內(nèi)容明顯更豐富。

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

針對復雜問題的推理能力，Doubao-1.5-pro 在現(xiàn)實的中文語境中展現(xiàn)出了明顯的優(yōu)勢，所提出的問題是：2025年上半年，我有3萬元想進行理財，是選擇中國建設銀行還是選擇中國工商銀行?收益各是多少? Gemini 1.5 Flash 給出的回答如下：

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

也許是由于數(shù)據(jù)庫的問題，Gemini 推理出的結(jié)果會相對空泛，并沒有給出實質(zhì)性的建議，也沒有給出題目中要求的大致收益。而 Doubao-1.5-pro 的回答則具有針對性，并能夠條理清晰、分門別類的給出針對活期類、定期類、特色理財產(chǎn)品的的不同收益，能夠滿足問題提出者對這一問題的基本需求。

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

中文能力方面，設置的問題是：請以愛情和輕舟已過萬重山為主題，寫一首七言律詩。Doubao-1.5-pro 的遣詞造句明顯優(yōu)于 GPT-4o 等其他的模型，并能夠更進一步給出首聯(lián)、頷聯(lián)、頸聯(lián)、尾聯(lián)解析。

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

而 GPT-4o 的中文能力則稍遜一節(jié)，回答得相對簡單，詞藻也較為樸素。

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

除了 Doubao-1.5-pro ，本次也發(fā)布了更加輕量化的 Doubao-1.5-lite 。Doubao-1.5-lite 具備極致的響應速度，適用于對時延有更高要求的場景，模型配合精調(diào)使用可以獲得更優(yōu)質(zhì)的效果，并且在輕量版語言模型中處于領先水平，在綜合（MMLU_pro）、推理（BBH）、數(shù)學（MATH）、專業(yè)知識（GPQA）權(quán)威測評指標持平或超越GPT-4omini，Cluade 3.5 Haiku。先來感受一下極致的推理和響應速度，提問一個中等難度的推理問題：有三個人分別穿著紅、藍、綠三種顏色的衣服，他們分別來自 A、B、C 三個城市。已知：穿紅衣服的人不是來自 A 城市；穿藍衣服的人來自 C 城市；來自 A 城市的人沒有穿綠衣服。請問，這三個人分別來自哪個城市，穿著什么顏色的衣服？

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

在不省略已知條件、推理過程的情況下， Doubao-1.5-lite 輸出答案僅用了 1.55 秒，這個推理時間確實極致。再提出一個更復雜的專業(yè)問題：請簡述股票估值的三種主要方法(市盈率法、現(xiàn)金流折現(xiàn)法、凈資產(chǎn)法)，并分析在不同市場環(huán)境下，哪種方法更適用？

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

這是一道金融行業(yè)的專業(yè)知識題目。Doubao-1.5-lite 的回答內(nèi)容詳實，能夠 cover 住垂直領域的專業(yè)知識，并且在面對龐雜的、體量大的問題時，總輸出時長只有 6.77 秒，同樣在一個低時延的水平范圍內(nèi)。

值得一提的是，Doubao-1.5-lite 模型效果比肩去年 9 月份發(fā)布的主力模型 Doubao-pro-32k-0828，這意味著用戶可以用 lite 模型的成本，獲得過去 pro 模型的效果。

無論是 Doubao-1.5-pro 還是 Doubao-1.5-lite，都是字節(jié)在追求模型性能與推理性能的極致平衡，也是字節(jié)一路積累下來的基本功的體現(xiàn)。

從訓練和推理效率的角度出發(fā)，Doubao-1.5-pro 使用稀疏 MoE 架構(gòu)。在預訓練階段，僅用較小參數(shù)激活的 MoE 模型，性能即可超過 Llama3.1-405B 等超大稠密預訓練模型。豆包團隊通過對稀疏度 Scaling Law 的研究，確定了性能和效率比較平衡的稀疏比例，并根據(jù) MoE Scaling Law 確定了小參數(shù)量激活的模型即可達到世界一流模型的性能，等效 7 倍激活參數(shù)的Dense模型性能，遠超業(yè)內(nèi) MoE 架構(gòu)約 3 倍杠桿的常規(guī)效率。

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

基于 MoE 模型，豆包搭建了高性能推理系統(tǒng)，在 Prefill/Decode 與 Attention/FFN 構(gòu)成的四個計算象限中，表現(xiàn)出顯著不同的計算與訪存特征。針對四個不同象限，采用異構(gòu)硬件結(jié)合不同的低精度優(yōu)化策略，在確保低延遲的同時大幅提升吞吐量，在降低總成本的同時兼顧 TTFT 和 TPOT 的最優(yōu)化目標。

更重要的是，在 PostTraining 階段，豆包團隊構(gòu)建了一套完全自主的數(shù)據(jù)生產(chǎn)體系，將標注團隊與模型 self play 技術(shù)相結(jié)合，提升數(shù)據(jù)標注多樣性和難度，確保數(shù)據(jù)來源的獨立性和可靠性。在豆包大模型1.5的訓練過程中，未使用任何其他模型生成的數(shù)據(jù)。這意味著，字節(jié)在踩踏實大模型訓練的基本功、加大基礎工程投入、放棄短期獲利，這已經(jīng)區(qū)別于世界范圍內(nèi)絕大多數(shù)不肯下“笨功夫”的大模型公司。

二、視覺推理、指令遵循達新高

本次發(fā)布中，豆包的視覺理解能力令人驚艷，具備市面上絕大多數(shù) To C 的 AI Chatbot 并不具備精準的圖像理解、識別、問答能力。Doubao-1.5-vision-pro 在多模態(tài)數(shù)據(jù)合成、動態(tài)分辨率、多模態(tài)對齊、混合訓練上進行了全面的技術(shù)升級，進一步增強了模型在視覺推理、文字文檔識別、細粒度信息理解、指令遵循方面的能力，也擁有了更細膩的視覺描述能力。Doubao-1.5-vision-pro 的視覺能力在多個權(quán)威測評基準上取得了全球領先表現(xiàn)：

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

基于原生動態(tài)分辨率的架構(gòu)設計，Doubao-1.5-vision-pro 能夠支持任意分辨率和極端長寬比圖像識別。因此，無論是高清大圖還是低分辨率的小圖，亦或是極端長寬比例的圖像，模型都能實現(xiàn)精準的特征提取和高效的計算性能。先來看一下針對復雜圖表的理解能力。給出如下圖表，并向 Doubao-1.5-vision-pro 提問：該圖表反映了什么內(nèi)容？

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

從上述的回答中可以見得， Doubao-1.5-vision-pro 對圖表內(nèi)數(shù)據(jù)內(nèi)容的解讀是準確無誤的，并能針對某些數(shù)值給出基本的關(guān)于趨勢、顯著性的結(jié)論。

針對低清晰度問題，給出如下一張清晰度低、分辨率低的界面，進而考察模型對其中內(nèi)容識別和理解的準確程度。

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

從上述的回答中可知，Doubao-1.5-vision-pro 同樣能夠準確識別模糊內(nèi)容，并做出基礎的推理判斷：用戶正在為視頻應用創(chuàng)意外觀預設并進行色彩調(diào)整。再上一個難度，針對字跡潦草的手寫圖片，Doubao-1.5-vision-pro 能否準確識別？

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

不得不說，這個圖片如果不仔細看的話，人眼都不一定能看清，而豆包則能提取道其中 95% 的關(guān)鍵詞和主題，且識別出了部分關(guān)鍵詞用藍色筆標注來突出重點內(nèi)容，并進一步總結(jié)該筆記聚焦于媒體研究領域。除了精準的識別能力，Doubao-1.5-vision-pro 也具備強大的多類型圖片內(nèi)容提取能力。

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

上傳四張同一時期拍攝的照片，模型能在處理多張圖片時獲取關(guān)鍵要點，并總結(jié)出是“新年慶祝”的主題。復雜指令遵循能力也是 Doubao-1.5-vision-pro 的亮點，通過系統(tǒng)性的原子能力拆解和多維度指令的邏輯組合，在后訓練階段引入了多樣化的視覺指令數(shù)據(jù)，從而激發(fā)模型的指令遵循能力，從容應對需要遵循更復雜指令的場景。

不僅視覺大模型的能力得到提升，本次豆包大模型1.5家族中還新推出了實時語音模型。該模型提出了新的 Speech2Speech 的端到端框架，不僅通過原生方法將語音和文本模態(tài)進行深度融合，同時還實現(xiàn)了語音對話中真正意義上的語音理解生成端到端，相比傳統(tǒng)的 ASR+LLM+TTS 的級聯(lián)方式，不僅擁有高理解力（高智商），還具備語音高表現(xiàn)力與高控制力，以及模型整體在回復內(nèi)容和語音上的高情緒承接能力。

在語音多模態(tài)上，我們提出了新的 Speech2Speech 的端到端框架，不僅通過原生方法將語音和文本模態(tài)進行深度融合，同時還實現(xiàn)了語音對話中真正意義上的語音理解生成端到端，相比傳統(tǒng)的 ASR+LLM+TTS 的級聯(lián)方式，在對話效果上有質(zhì)的飛躍。

可以說是一個情緒價值價值拉滿、表現(xiàn)能力生動，也不怕被打斷的豆包了。

三、豆包 1.5 發(fā)布后，AI 更普惠

2024 年 5 月，豆包主力模型就將推理輸入價格降至“厘時代”，12 月火山引擎又讓視覺理解模型價格進入“厘時代”。當下豆包大模型 1.5 繼續(xù)保持原有模型價格不變，加量不加價，也會給火山引擎進一步做大 B 端市場帶來更多可能性。

在這場曠日持久的大模型落地競賽中，字節(jié)給行業(yè)留下的印象是“從容”。支撐豆包大模型全產(chǎn)品價格普惠的原因，是推理成本持續(xù)優(yōu)化、毛利率的逐漸增加。據(jù)了解，豆包大模型去年大幅降價后，毛利率依然為正。其中，字節(jié)跳動最新推出的豆包大模型 1.5，在推理成本優(yōu)化上取得進一步突破，在火山引擎上售賣 API 的 Doubao-1.5-pro，毛利率仍能達到較為可觀的 50%。

不能只看到火山引擎中 API 價格下調(diào)的從容，更需要看到的是，豆包大模型團隊所打造的綜合高效模型架構(gòu)、高性能推理體系、自建數(shù)據(jù)標注工程等深厚的技術(shù)優(yōu)勢，以及對于大模型這條路不走捷徑的長期主義戰(zhàn)略。

更高性價比的服務也讓火山引擎在商業(yè)化落地的過程中跑在前列。2024 年，火山引擎在汽車行業(yè)與梅賽德斯-奔馳、廣汽集團、領克汽車等多家企業(yè)達成合作；在金融行業(yè)與招商銀行、華泰證券、國信證券等企業(yè)進行智能體創(chuàng)新探索；在教育行業(yè)和浙江大學、南京大學打造了 AI 教育示范合作案例。

豆包大模型 1.5 的升級和火山引擎在 B 端市場的進一步拓展，二者生生相息、共同推進 AI 惠普。

雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

王悅

主筆

發(fā)私信

當月熱門文章

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣

實測豆包1.5后，看到了字節(jié)不走捷徑的底氣