0
本文作者: nebula | 2024-10-12 17:57 |
在這個金秋,“日日新·商量”又拿了金牌!
今日,中文多模態(tài)大模型測評基準SuperCLUE-V發(fā)布10月榜單:
商湯日日新·商量多模態(tài)大模型(SenseChat-Vision5.5)憑借多個任務上的出色表現,總得分位列國內大模型第一梯隊,智奪金牌。
商量多模態(tài)大模型API入口(限時免費?。篽ttps://platform.sensenova.cn/doc?path=/model/mllm.md
商湯“商量”注冊體驗鏈接:https://chat.sensetime.com/
憑借其卓越的多模態(tài)基礎能力和出色的應用能力,商湯SenseChat-Vision 5.5榮獲了總分73.56的高分,并在數理邏輯維度取得第一,體現其強大的推理能力。
SenseChat-Vision5.5基礎能力突出,數理邏輯維度超越GPT-4o
本次SuperCLUE-V涵蓋了國內外最具代表性的11個開源/閉源多模態(tài)理解大模型,聚焦多維度能力評估,包括基礎能力和應用能力兩個大方向,以開放式問題形式對多模態(tài)大模型進行評估,涵蓋了8個一級維度30個二級維度。
報告稱SenseChat-Vision 5.5在基礎能力-數理邏輯推理任務如圖表推理、場景推理方面具備領先優(yōu)勢。榜單顯示,在數理邏輯分析能力中,SenseChat-Vision 5.5超越國內外所有參評模型包括GPT-4o的最新版本,位列第一。
SuperCLUE-V采用細粒度評估方式,構建專用測評集,每個維度進行細粒度的評估并可以提供詳細的反饋信息,以下為SenseChat-Vision 5.5測試案例部分呈現:
目前,多模態(tài)大模型能力顯著提升,可提供純語言、多圖理解、語音、文生圖、擬人、端側模擬、行業(yè)模型等多模態(tài)、多版本、強場景Agent形態(tài)。
前瞻構造高階思維邏輯數據,用推理能力增強AI大模型智能
如今,復雜推理成為各模型之間的重要能力壁壘。對于大模型能力的分層,商湯科技董事長兼首席執(zhí)行官徐立博士此前就提出三層架構(KRE)理論,即:第一層知識(Knowledge),世界知識的全面灌注;第二層推理(Reasoning),理性思維的質變提升;第三層執(zhí)行(Execution),世界內容的互動變革。
這三層可以組成一個對于世界提供生產力工具模型的完備能力,其中提升基礎模型的推理能力是目前人工智能發(fā)展的大方向。徐立博士還提出在垂直行業(yè)里如何構造高階思維邏輯的合成數據,也是制勝關鍵。
今年7月發(fā)布的“日日新5.5”大模型體系就創(chuàng)新使用大量使用合成高階思維鏈數據,提升推理思維能力,在數理邏輯、英文、指令跟隨等方面能力增強明顯,2個多月的時間把基模型的能力提升了30%。
未來,商湯科技將繼續(xù)堅持基礎大模型的持續(xù)研發(fā)與投入,前瞻探索最先進的大模型技術,突破數據與算力的限制,引領大模型的創(chuàng)新與落地。
雷峰網(公眾號:雷峰網)
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。