丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給王悅
發(fā)送

0

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

本文作者: 王悅   2025-01-31 23:16
導(dǎo)語:效果領(lǐng)先,豆包大模型1.5超越GPT-4o、Claude3.5。

2025 年 1 月,豆包大模型 1.5 全面上線火山方舟,其中豆包通用模型 pro 在多個(gè)權(quán)威測評集綜合得分優(yōu)于GPT4o、Claude 3.5 Sonnet 等業(yè)界一流模型,模型效果達(dá)到全球領(lǐng)先水平。

通用模型 pro 實(shí)現(xiàn)了性能與推理成本極致平衡,采用高效的 MoE 模型結(jié)構(gòu),性能杠桿提升至 7 倍,更有自研的高性能推理系統(tǒng),可以達(dá)到 10 毫秒級低延遲。并且,豆包大模型 1.5 建了高度自主的數(shù)據(jù)生產(chǎn)體系,未使用任何其他模型生成的數(shù)據(jù)。

除此之外,豆包通用模型 pro、豆包·視覺理解模型均有大幅增強(qiáng),并發(fā)布豆包·實(shí)時(shí)語音模型。但豆包大模型 1.5 全產(chǎn)品,加量不加價(jià),仍繼續(xù)保持原有模型價(jià)格不變。

本文實(shí)測了豆包大模型 1.5 產(chǎn)品家族后,看到了字節(jié)不走捷徑的底氣。

一、綜合能力優(yōu)于業(yè)界一流模型

Doubao-1.5-pro 模型綜合能力顯著增強(qiáng),在知識(MMLU_PRO、GPQA)、代碼(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)權(quán)威測評基準(zhǔn)上獲得最佳成績,綜合得分優(yōu)于GPT-4o、Claude 3.5 Sonnet 等業(yè)界一流模型。

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

話不多說,先通過和其他行業(yè)內(nèi)領(lǐng)先大模型的對比來直觀感受一下。針對推理能力,設(shè)置一個(gè)大約在初級和中級水平的代碼問題:問題:使用 Flask 框架創(chuàng)建一個(gè)簡單的 Web API,包含以下兩個(gè)端點(diǎn):

/: 返回一個(gè)歡迎消息,例如 {"message": "Welcome to the API!"}。/add: 接受兩個(gè)整數(shù)參數(shù) a 和 b(通過查詢參數(shù)傳遞),返回它們的和,例如 {"sum": 5}。

要求:

提供可運(yùn)行的完整代碼。說明如何在本地運(yùn)行此代碼并進(jìn)行測試。

這一測試題所傳達(dá)的需求明確清晰且聚焦于核心功能,但并未說明如何處理錯(cuò)誤邏輯或參數(shù)類型。先來看GPT-4o 將如何應(yīng)對:

可以看到 GPT-4o 的答案相對中規(guī)中矩,并針對問題本身包含的漏洞,給出了一個(gè)錯(cuò)誤處理示例。再來看看 Doubao-1.5-pro 給出的答案:

顯而易見,豆包關(guān)于代碼問題的輸出格式設(shè)置,會(huì)更貼近原生的編碼界面。相較于 GPT-4o ,能夠進(jìn)行必要且詳細(xì)的代碼說明,并且在這一部分對參數(shù)類型問題就給出了預(yù)設(shè)和解答,即如果參數(shù)并不有效,狀態(tài)代碼就為400,然后才給出了運(yùn)行代碼并進(jìn)行測試的方法。總體而言,Doubao-1.5-pro  相較于 GPT-4o 輸出的代碼會(huì)更加精細(xì)一點(diǎn)。

針對“知識能力”一項(xiàng),將 Doubao-1.5-pro 和同為主打中文語境的一個(gè)國產(chǎn)模型進(jìn)行對比,提出的問題是:唐代有哪些古詩中包含“過年”這件事?國內(nèi)某大模型產(chǎn)品給出的答案是:

給出的答案數(shù)量有十個(gè)之多,但每個(gè)答案的顆粒度不夠,僅包括作者和50字左右的大概介紹,于用戶而言可能無法對提出的問題有深入的了解。

Doubao-1.5-pro  則相對完美地規(guī)避掉了這一問題。先在邏輯上進(jìn)行了清晰的劃分,給出了體現(xiàn)過年氛圍與習(xí)俗與抒發(fā)過年時(shí)情感思緒的兩個(gè)大方向,并且針對所給出的每一個(gè)答案的顆粒度也相對細(xì)些,包括了原文和解析,內(nèi)容明顯更豐富。

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

針對復(fù)雜問題的推理能力,Doubao-1.5-pro  在現(xiàn)實(shí)的中文語境中展現(xiàn)出了明顯的優(yōu)勢,所提出的問題是:2025年上半年,我有3萬元想進(jìn)行理財(cái),是選擇中國建設(shè)銀行還是選擇中國工商銀行?收益各是多少? Gemini  1.5 Flash 給出的回答如下:

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

也許是由于數(shù)據(jù)庫的問題,Gemini 推理出的結(jié)果會(huì)相對空泛,并沒有給出實(shí)質(zhì)性的建議,也沒有給出題目中要求的大致收益。而 Doubao-1.5-pro  的回答則具有針對性,并能夠條理清晰、分門別類的給出針對活期類、定期類、特色理財(cái)產(chǎn)品的的不同收益,能夠滿足問題提出者對這一問題的基本需求。

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

中文能力方面,設(shè)置的問題是:請以愛情和輕舟已過萬重山為主題,寫一首七言律詩。Doubao-1.5-pro 的遣詞造句明顯優(yōu)于 GPT-4o 等其他的模型,并能夠更進(jìn)一步給出首聯(lián)、頷聯(lián)、頸聯(lián)、尾聯(lián)解析。

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

而 GPT-4o 的中文能力則稍遜一節(jié),回答得相對簡單,詞藻也較為樸素。

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

除了 Doubao-1.5-pro  ,本次也發(fā)布了更加輕量化的 Doubao-1.5-lite 。Doubao-1.5-lite 具備極致的響應(yīng)速度,適用于對時(shí)延有更高要求的場景,模型配合精調(diào)使用可以獲得更優(yōu)質(zhì)的效果,并且在輕量版語言模型中處于領(lǐng)先水平,在綜合(MMLU_pro)、推理(BBH)、數(shù)學(xué)(MATH)、專業(yè)知識(GPQA)權(quán)威測評指標(biāo)持平或超越GPT-4omini,Cluade 3.5 Haiku。先來感受一下極致的推理和響應(yīng)速度,提問一個(gè)中等難度的推理問題:有三個(gè)人分別穿著紅、藍(lán)、綠三種顏色的衣服,他們分別來自 A、B、C 三個(gè)城市。已知:穿紅衣服的人不是來自 A 城市;穿藍(lán)衣服的人來自 C 城市;來自 A 城市的人沒有穿綠衣服。請問,這三個(gè)人分別來自哪個(gè)城市,穿著什么顏色的衣服?

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

在不省略已知條件、推理過程的情況下, Doubao-1.5-lite 輸出答案僅用了 1.55 秒,這個(gè)推理時(shí)間確實(shí)極致。再提出一個(gè)更復(fù)雜的專業(yè)問題:請簡述股票估值的三種主要方法(市盈率法、現(xiàn)金流折現(xiàn)法、凈資產(chǎn)法),并分析在不同市場環(huán)境下,哪種方法更適用?

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

這是一道金融行業(yè)的專業(yè)知識題目。Doubao-1.5-lite 的回答內(nèi)容詳實(shí),能夠 cover 住垂直領(lǐng)域的專業(yè)知識,并且在面對龐雜的、體量大的問題時(shí),總輸出時(shí)長只有 6.77 秒,同樣在一個(gè)低時(shí)延的水平范圍內(nèi)。

值得一提的是,Doubao-1.5-lite 模型效果比肩去年 9 月份發(fā)布的主力模型 Doubao-pro-32k-0828,這意味著用戶可以用 lite 模型的成本,獲得過去 pro 模型的效果。

無論是 Doubao-1.5-pro 還是 Doubao-1.5-lite,都是字節(jié)在追求模型性能與推理性能的極致平衡,也是字節(jié)一路積累下來的基本功的體現(xiàn)。

從訓(xùn)練和推理效率的角度出發(fā),Doubao-1.5-pro 使用稀疏 MoE 架構(gòu)。在預(yù)訓(xùn)練階段,僅用較小參數(shù)激活的 MoE 模型,性能即可超過 Llama3.1-405B 等超大稠密預(yù)訓(xùn)練模型。豆包團(tuán)隊(duì)通過對稀疏度 Scaling Law 的研究,確定了性能和效率比較平衡的稀疏比例,并根據(jù) MoE Scaling Law 確定了小參數(shù)量激活的模型即可達(dá)到世界一流模型的性能,等效 7 倍激活參數(shù)的Dense模型性能,遠(yuǎn)超業(yè)內(nèi) MoE 架構(gòu)約 3 倍杠桿的常規(guī)效率。

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

基于 MoE 模型,豆包搭建了高性能推理系統(tǒng),在 Prefill/Decode 與 Attention/FFN 構(gòu)成的四個(gè)計(jì)算象限中,表現(xiàn)出顯著不同的計(jì)算與訪存特征。針對四個(gè)不同象限,采用異構(gòu)硬件結(jié)合不同的低精度優(yōu)化策略,在確保低延遲的同時(shí)大幅提升吞吐量,在降低總成本的同時(shí)兼顧 TTFT 和 TPOT 的最優(yōu)化目標(biāo)。

更重要的是,在 PostTraining 階段,豆包團(tuán)隊(duì)構(gòu)建了一套完全自主的數(shù)據(jù)生產(chǎn)體系,將標(biāo)注團(tuán)隊(duì)與模型 self play 技術(shù)相結(jié)合,提升數(shù)據(jù)標(biāo)注多樣性和難度,確保數(shù)據(jù)來源的獨(dú)立性和可靠性。在豆包大模型1.5的訓(xùn)練過程中,未使用任何其他模型生成的數(shù)據(jù)。這意味著,字節(jié)在踩踏實(shí)大模型訓(xùn)練的基本功、加大基礎(chǔ)工程投入、放棄短期獲利,這已經(jīng)區(qū)別于世界范圍內(nèi)絕大多數(shù)不肯下“笨功夫”的大模型公司。

二、視覺推理、指令遵循達(dá)新高

本次發(fā)布中,豆包的視覺理解能力令人驚艷,具備市面上絕大多數(shù) To C 的 AI Chatbot 并不具備精準(zhǔn)的圖像理解、識別、問答能力。Doubao-1.5-vision-pro 在多模態(tài)數(shù)據(jù)合成、動(dòng)態(tài)分辨率、多模態(tài)對齊、混合訓(xùn)練上進(jìn)行了全面的技術(shù)升級,進(jìn)一步增強(qiáng)了模型在視覺推理、文字文檔識別、細(xì)粒度信息理解、指令遵循方面的能力,也擁有了更細(xì)膩的視覺描述能力。Doubao-1.5-vision-pro 的視覺能力在多個(gè)權(quán)威測評基準(zhǔn)上取得了全球領(lǐng)先表現(xiàn):

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

基于原生動(dòng)態(tài)分辨率的架構(gòu)設(shè)計(jì),Doubao-1.5-vision-pro 能夠支持任意分辨率和極端長寬比圖像識別。因此,無論是高清大圖還是低分辨率的小圖,亦或是極端長寬比例的圖像,模型都能實(shí)現(xiàn)精準(zhǔn)的特征提取和高效的計(jì)算性能。先來看一下針對復(fù)雜圖表的理解能力。給出如下圖表,并向 Doubao-1.5-vision-pro 提問:該圖表反映了什么內(nèi)容?

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

從上述的回答中可以見得, Doubao-1.5-vision-pro 對圖表內(nèi)數(shù)據(jù)內(nèi)容的解讀是準(zhǔn)確無誤的,并能針對某些數(shù)值給出基本的關(guān)于趨勢、顯著性的結(jié)論。

針對低清晰度問題,給出如下一張清晰度低、分辨率低的界面,進(jìn)而考察模型對其中內(nèi)容識別和理解的準(zhǔn)確程度。

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

從上述的回答中可知,Doubao-1.5-vision-pro 同樣能夠準(zhǔn)確識別模糊內(nèi)容,并做出基礎(chǔ)的推理判斷:用戶正在為視頻應(yīng)用創(chuàng)意外觀預(yù)設(shè)并進(jìn)行色彩調(diào)整。再上一個(gè)難度,針對字跡潦草的手寫圖片,Doubao-1.5-vision-pro 能否準(zhǔn)確識別?

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

不得不說,這個(gè)圖片如果不仔細(xì)看的話,人眼都不一定能看清,而豆包則能提取道其中 95% 的關(guān)鍵詞和主題,且識別出了部分關(guān)鍵詞用藍(lán)色筆標(biāo)注來突出重點(diǎn)內(nèi)容,并進(jìn)一步總結(jié)該筆記聚焦于媒體研究領(lǐng)域。除了精準(zhǔn)的識別能力,Doubao-1.5-vision-pro 也具備強(qiáng)大的多類型圖片內(nèi)容提取能力。

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

上傳四張同一時(shí)期拍攝的照片,模型能在處理多張圖片時(shí)獲取關(guān)鍵要點(diǎn),并總結(jié)出是“新年慶?!钡闹黝}。復(fù)雜指令遵循能力也是 Doubao-1.5-vision-pro 的亮點(diǎn),通過系統(tǒng)性的原子能力拆解和多維度指令的邏輯組合,在后訓(xùn)練階段引入了多樣化的視覺指令數(shù)據(jù),從而激發(fā)模型的指令遵循能力,從容應(yīng)對需要遵循更復(fù)雜指令的場景。

不僅視覺大模型的能力得到提升,本次豆包大模型1.5家族中還新推出了實(shí)時(shí)語音模型。該模型提出了新的 Speech2Speech 的端到端框架,不僅通過原生方法將語音和文本模態(tài)進(jìn)行深度融合,同時(shí)還實(shí)現(xiàn)了語音對話中真正意義上的語音理解生成端到端,相比傳統(tǒng)的 ASR+LLM+TTS 的級聯(lián)方式,不僅擁有高理解力(高智商),還具備語音高表現(xiàn)力與高控制力,以及模型整體在回復(fù)內(nèi)容和語音上的高情緒承接能力。

在語音多模態(tài)上,我們提出了新的 Speech2Speech 的端到端框架,不僅通過原生方法將語音和文本模態(tài)進(jìn)行深度融合,同時(shí)還實(shí)現(xiàn)了語音對話中真正意義上的語音理解生成端到端,相比傳統(tǒng)的 ASR+LLM+TTS 的級聯(lián)方式,在對話效果上有質(zhì)的飛躍。

可以說是一個(gè)情緒價(jià)值價(jià)值拉滿、表現(xiàn)能力生動(dòng),也不怕被打斷的豆包了。

三、豆包 1.5 發(fā)布后,AI 更普惠

2024 年 5 月,豆包主力模型就將推理輸入價(jià)格降至“厘時(shí)代”,12 月火山引擎又讓視覺理解模型價(jià)格進(jìn)入“厘時(shí)代”。當(dāng)下豆包大模型 1.5 繼續(xù)保持原有模型價(jià)格不變,加量不加價(jià),也會(huì)給火山引擎進(jìn)一步做大 B 端市場帶來更多可能性。

在這場曠日持久的大模型落地競賽中,字節(jié)給行業(yè)留下的印象是“從容”。支撐豆包大模型全產(chǎn)品價(jià)格普惠的原因,是推理成本持續(xù)優(yōu)化、毛利率的逐漸增加。據(jù)了解,豆包大模型去年大幅降價(jià)后,毛利率依然為正。其中,字節(jié)跳動(dòng)最新推出的豆包大模型 1.5,在推理成本優(yōu)化上取得進(jìn)一步突破,在火山引擎上售賣 API 的 Doubao-1.5-pro,毛利率仍能達(dá)到較為可觀的 50%。

不能只看到火山引擎中 API 價(jià)格下調(diào)的從容,更需要看到的是,豆包大模型團(tuán)隊(duì)所打造的綜合高效模型架構(gòu)、高性能推理體系、自建數(shù)據(jù)標(biāo)注工程等深厚的技術(shù)優(yōu)勢,以及對于大模型這條路不走捷徑的長期主義戰(zhàn)略。

更高性價(jià)比的服務(wù)也讓火山引擎在商業(yè)化落地的過程中跑在前列。2024 年,火山引擎在汽車行業(yè)與梅賽德斯-奔馳、廣汽集團(tuán)、領(lǐng)克汽車等多家企業(yè)達(dá)成合作;在金融行業(yè)與招商銀行、華泰證券、國信證券等企業(yè)進(jìn)行智能體創(chuàng)新探索;在教育行業(yè)和浙江大學(xué)、南京大學(xué)打造了 AI 教育示范合作案例。

豆包大模型 1.5 的升級和火山引擎在 B 端市場的進(jìn)一步拓展,二者生生相息、共同推進(jìn) AI 惠普。

雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

實(shí)測豆包1.5后,看到了字節(jié)不走捷徑的底氣

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說