商湯又“奪金”！SuperCLUE-V多模態(tài)大模型基準(zhǔn)發(fā)布10月榜單

本文作者： nebula

2024-10-12 17:57

導(dǎo)語(yǔ)：數(shù)理邏輯推理能力世界第一，商湯“奪金”SuperCLUE-V多模態(tài)大模型基準(zhǔn)10月榜單。

在這個(gè)金秋，“日日新·商量”又拿了金牌！

今日，中文多模態(tài)大模型測(cè)評(píng)基準(zhǔn)SuperCLUE-V發(fā)布10月榜單：

商湯日日新·商量多模態(tài)大模型（SenseChat-Vision5.5）憑借多個(gè)任務(wù)上的出色表現(xiàn)，總得分位列國(guó)內(nèi)大模型第一梯隊(duì)，智奪金牌。

商湯又“奪金”！SuperCLUE-V多模態(tài)大模型基準(zhǔn)發(fā)布10月榜單

商量多模態(tài)大模型API入口（限時(shí)免費(fèi)?。篽ttps://platform.sensenova.cn/doc?path=/model/mllm.md

商湯“商量”注冊(cè)體驗(yàn)鏈接：https://chat.sensetime.com/

憑借其卓越的多模態(tài)基礎(chǔ)能力和出色的應(yīng)用能力，商湯SenseChat-Vision 5.5榮獲了總分73.56的高分，并在數(shù)理邏輯維度取得第一，體現(xiàn)其強(qiáng)大的推理能力。

SenseChat-Vision5.5基礎(chǔ)能力突出，數(shù)理邏輯維度超越GPT-4o

本次SuperCLUE-V涵蓋了國(guó)內(nèi)外最具代表性的11個(gè)開(kāi)源/閉源多模態(tài)理解大模型，聚焦多維度能力評(píng)估，包括基礎(chǔ)能力和應(yīng)用能力兩個(gè)大方向，以開(kāi)放式問(wèn)題形式對(duì)多模態(tài)大模型進(jìn)行評(píng)估，涵蓋了8個(gè)一級(jí)維度30個(gè)二級(jí)維度。

報(bào)告稱SenseChat-Vision 5.5在基礎(chǔ)能力-數(shù)理邏輯推理任務(wù)如圖表推理、場(chǎng)景推理方面具備領(lǐng)先優(yōu)勢(shì)。榜單顯示，在數(shù)理邏輯分析能力中，SenseChat-Vision 5.5超越國(guó)內(nèi)外所有參評(píng)模型包括GPT-4o的最新版本，位列第一。

商湯又“奪金”！SuperCLUE-V多模態(tài)大模型基準(zhǔn)發(fā)布10月榜單

SuperCLUE-V采用細(xì)粒度評(píng)估方式，構(gòu)建專用測(cè)評(píng)集，每個(gè)維度進(jìn)行細(xì)粒度的評(píng)估并可以提供詳細(xì)的反饋信息，以下為SenseChat-Vision 5.5測(cè)試案例部分呈現(xiàn)：

商湯又“奪金”！SuperCLUE-V多模態(tài)大模型基準(zhǔn)發(fā)布10月榜單

目前，多模態(tài)大模型能力顯著提升，可提供純語(yǔ)言、多圖理解、語(yǔ)音、文生圖、擬人、端側(cè)模擬、行業(yè)模型等多模態(tài)、多版本、強(qiáng)場(chǎng)景Agent形態(tài)。

前瞻構(gòu)造高階思維邏輯數(shù)據(jù)，用推理能力增強(qiáng)AI大模型智能

如今，復(fù)雜推理成為各模型之間的重要能力壁壘。對(duì)于大模型能力的分層，商湯科技董事長(zhǎng)兼首席執(zhí)行官徐立博士此前就提出三層架構(gòu)(KRE)理論，即:第一層知識(shí)(Knowledge)，世界知識(shí)的全面灌注；第二層推理(Reasoning)，理性思維的質(zhì)變提升；第三層執(zhí)行(Execution)，世界內(nèi)容的互動(dòng)變革。

商湯又“奪金”！SuperCLUE-V多模態(tài)大模型基準(zhǔn)發(fā)布10月榜單