挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

本文作者：星瑤

2024-12-19 19:04

導(dǎo)語(yǔ)：商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的多模態(tài)評(píng)測(cè)中取得榜單第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的多模態(tài)評(píng)測(cè)中取得榜單第一。挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一 OpenCompass多模態(tài)大模型評(píng)測(cè)排名

商湯日日新平均得分達(dá)到77.4，領(lǐng)先GPT-4o、Claude 3.5 Sonnet以及國(guó)內(nèi)所有不同尺寸的開(kāi)源和閉源模型。尤其在涵蓋算術(shù)、統(tǒng)計(jì)、代數(shù)、幾何、數(shù)值常識(shí)、科學(xué)和邏輯的權(quán)威數(shù)據(jù)集MathVista維度上，取得78.4 分的最高分，展現(xiàn)了領(lǐng)先的“數(shù)理”能力。

挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

OpenCompass 多模態(tài)評(píng)測(cè)包含八個(gè)核心數(shù)據(jù)集，從多種視角客觀量化多模態(tài)大模型的能力。此次評(píng)測(cè)中，商湯日日新在幾乎所有維度上都達(dá)到或超過(guò)GPT-4o水平，其中四個(gè)維度上（MMStar、MathVista、OCRBench、MMVet）排名全球第一。

OpenCompass大模型開(kāi)放評(píng)測(cè)體系是上海人工智能實(shí)驗(yàn)室推出的，擁有完整開(kāi)源可復(fù)現(xiàn)的評(píng)測(cè)框架，定期發(fā)布對(duì)各類(lèi)大模型的評(píng)測(cè)成績(jī)和排名。體系覆蓋了語(yǔ)言與理解、常識(shí)與邏輯推理、數(shù)學(xué)計(jì)算與應(yīng)用、多編程語(yǔ)言代碼能力、智能體、創(chuàng)作與對(duì)話(huà)等多個(gè)方面，是對(duì)大模型真實(shí)能力各個(gè)維度的全面診斷。

小試牛刀，商湯多模態(tài)進(jìn)階

作為計(jì)算機(jī)視覺(jué)領(lǐng)域的先行者和領(lǐng)軍企業(yè)，早在幾年前，商湯就確定了多模態(tài)大模型的研究方向，并在研發(fā)中，融合積累的領(lǐng)先算法、豐富數(shù)據(jù)和場(chǎng)景認(rèn)知建立起核心優(yōu)勢(shì)。

2023年4月，商湯率先發(fā)布了行業(yè)領(lǐng)先的多模態(tài)大模型；

2024年2月，基于商湯日日新4.0的多模態(tài)大模型，在當(dāng)時(shí)權(quán)威評(píng)測(cè)基準(zhǔn)測(cè)試集MME Benchmark上位列第一，綜合得分達(dá)2199.5（超過(guò)GPT-4V的1926.57），并應(yīng)用到智能駕駛、智能車(chē)艙、電力行業(yè)等多個(gè)場(chǎng)景；

挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

2024 年7 月，商湯發(fā)布國(guó)內(nèi)首個(gè)交互體驗(yàn)上對(duì)標(biāo)GPT-4o的大模型——日日新 5o，實(shí)現(xiàn)無(wú)延時(shí)的實(shí)時(shí)流式交互。

全新階段，跨模態(tài)深度融合

今年三季度以來(lái)，商湯已跨越初期探索，進(jìn)入了多模態(tài)大模型的研發(fā)新階段——實(shí)現(xiàn)跨模態(tài)深度融合。以此目標(biāo)，商湯打造了全新原生多模態(tài)大模型——日日新SenseNova多模態(tài)大模型。

跨模態(tài)深度融合指能夠跨越不同模態(tài)（自然語(yǔ)言、代碼、語(yǔ)音、圖像、醫(yī)療影像、視頻等）之間的鴻溝，充分利用不同模態(tài)的信息，通過(guò)跨模態(tài)逆渲染、多模態(tài)思維鏈等技術(shù)創(chuàng)新，實(shí)現(xiàn)數(shù)據(jù)之間的集成和交互。由此，模型的感知和理解能力將得到極大增強(qiáng)，并支持多模態(tài)融合推理的實(shí)現(xiàn)。

跨模態(tài)融合有多種方法。例如，通過(guò)融合預(yù)訓(xùn)練以及后訓(xùn)練技術(shù)，商湯日日新多模態(tài)大模型大幅增強(qiáng)了數(shù)理邏輯和推理能力。

評(píng)測(cè)中，當(dāng)我們從“五年高考，三年模擬”里隨機(jī)抽取幾道高考數(shù)學(xué)題，日日新多模態(tài)大模型都可以輕松應(yīng)對(duì)。

提問(wèn)：這道選擇題要怎么做？

挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

商湯日日新輸出結(jié)果，并給出詳細(xì)解題過(guò)程：

挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

提問(wèn)：這道題要怎么解？請(qǐng)告訴我詳細(xì)的思路

挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

商湯日日新輸出結(jié)果：

挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

商湯日日新再次輸出正確結(jié)果。

數(shù)學(xué)回答滿(mǎn)分，再來(lái)看看物理。

挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

商湯日日新輸出結(jié)果：

挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

物理題也答對(duì)啦~

此外，通過(guò)多模態(tài)融合并對(duì)模型進(jìn)行定向優(yōu)化，商湯日日新多模態(tài)大模型還大幅提升了對(duì)統(tǒng)計(jì)圖表和多模態(tài)文檔的理解能力。

評(píng)測(cè)中，當(dāng)難度提升，讓我們看看結(jié)果如何。

提問(wèn)：使用下表中的數(shù)據(jù)，計(jì)算2011年每股FCFE的金額。

挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

商湯日日新輸出推理結(jié)果：

挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

商湯日日新成功輸出推理結(jié)果，效果令人驚嘆。

隨著融合模態(tài)有效提升AI大模型性能，多模態(tài)融合未來(lái)可廣泛應(yīng)用于諸多場(chǎng)景，例如在線上教育、語(yǔ)音客服等場(chǎng)景，結(jié)合語(yǔ)音和自然語(yǔ)言來(lái)提升交互體驗(yàn)；在自動(dòng)駕駛場(chǎng)景，融合視覺(jué)及多種模態(tài)數(shù)據(jù)，來(lái)提升感知精度和決策能力等。

數(shù)理還只是起點(diǎn)。目前，日日新SenseNova多模態(tài)大模型已經(jīng)可以通過(guò)API調(diào)用，即將開(kāi)放普通用戶(hù)體驗(yàn)。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

星瑤

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

挑戰(zhàn)高考數(shù)學(xué)完勝！商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一