0
本文作者: nebula | 2024-09-03 21:40 |
9月2日,中文大模型測(cè)評(píng)基準(zhǔn)SuperCLUE發(fā)布《中文大模型基準(zhǔn)測(cè)評(píng)2024年8月報(bào)告》,騰訊混元大模型憑借在多個(gè)核心任務(wù)上的出色表現(xiàn),總得分居國(guó)內(nèi)大模型第一名,成為榜單中進(jìn)步最快的模型之一。
據(jù)SuperCLUE報(bào)告,在11個(gè)能力項(xiàng)的測(cè)評(píng)中,騰訊混元在其中 8 項(xiàng)核心任務(wù)上排名國(guó)內(nèi)第一,綜合來(lái)看,“騰訊混元整體能力不俗,是一個(gè)非常有競(jìng)爭(zhēng)力的通用大模型?!?/p>
SuperCLUE本次測(cè)評(píng)的是騰訊混元新一代大語(yǔ)言模型預(yù)覽版(Turbo-Preview),模型采用全新的混合專家模型(MoE)結(jié)構(gòu),從訓(xùn)練數(shù)據(jù)、模型架構(gòu)、訓(xùn)練策略,訓(xùn)練框架,軟硬件體系等方面實(shí)現(xiàn)了全鏈路自研,模型一方面在性能上實(shí)現(xiàn)大幅提升,另一方面也實(shí)現(xiàn)了推理成本的顯著下降,有著較大的應(yīng)用潛力。
作為獨(dú)立的第三方中文大模型基準(zhǔn)測(cè)評(píng)機(jī)構(gòu),SuperCLUE本次8月報(bào)告聚焦通用能力測(cè)評(píng),測(cè)評(píng)方案由理科、文科和Hard三大維度構(gòu)成。具體來(lái)看,理科能力包括計(jì)算、邏輯推理和代碼能力;文科任務(wù)覆蓋知識(shí)百科、語(yǔ)言理解、長(zhǎng)文本、角色扮演、生成與創(chuàng)作、安全和工具使用七大維度;Hard任務(wù)則側(cè)重精確指令遵循以及復(fù)雜任務(wù)高階推理。
作為國(guó)內(nèi)成績(jī)最好的模型,騰訊混元在理科、文科均居于第一名。Hard任務(wù)上騰訊混元表現(xiàn)出色,取得74.33分,是國(guó)內(nèi)唯一超過(guò)70分的大模型,僅與ChatGPT-4o有微小差距。
值得注意的是,隨著大模型行業(yè)的蓬勃發(fā)展,以騰訊混元為代表的國(guó)產(chǎn)大模型正在加速進(jìn)化,能力升級(jí)速度不斷加快。測(cè)評(píng)報(bào)告數(shù)據(jù)顯示,總體趨勢(shì)上,國(guó)內(nèi)第一名的大模型在中文領(lǐng)域的通用能力與國(guó)外領(lǐng)先模型差距持續(xù)縮小,從2023年5月的 30.12% 的縮小至 2024 年8月的1.29%,總分上僅有 1 分左右的微小差距。
自2023年9月正式亮相以來(lái),騰訊混元通過(guò)在國(guó)內(nèi)率先采用MoE結(jié)構(gòu),模型已擴(kuò)展為萬(wàn)億參數(shù)規(guī)模,總體性能不斷升級(jí),除了通用能力和文生文,在文生圖、圖生文以及視頻生成等多模態(tài)能力上也有比較突出的表現(xiàn)。在此前發(fā)布的中文多模態(tài)大模型SuperCLUE-V基準(zhǔn)榜單中,騰訊混元大模型憑借在多模態(tài)理解方面的卓越表現(xiàn),國(guó)內(nèi)大模型排名第一,穩(wěn)居卓越領(lǐng)導(dǎo)者象限。
基于領(lǐng)先的模型能力積累,騰訊混元大模型正在積極推進(jìn)應(yīng)用落地,讓大模型創(chuàng)造更多價(jià)值。目前騰訊內(nèi)部近700個(gè)業(yè)務(wù)及場(chǎng)景已接入,包含騰訊元寶、騰訊云、QQ、微信讀書(shū)、騰訊新聞、騰訊客服等。此前,騰訊旗下協(xié)作SaaS(軟件即服務(wù))產(chǎn)品全面接入騰訊混元大模型。
騰訊混元大模型在騰訊云上提供了多種尺寸的模型服務(wù),通過(guò)API、專屬模型、精調(diào)模型等接入和使用方式面向企業(yè)及個(gè)人開(kāi)發(fā)者全量開(kāi)放。目前,騰訊混元的云上版本包括Turbo-Preview、Pro,Standard,Lite等多個(gè)版本;在專屬模型上開(kāi)放了代碼生成、角色扮演、Functioncall等;企業(yè)也可以通過(guò)騰訊云TI平臺(tái)對(duì)騰訊混元進(jìn)行精調(diào)。
基于多年深耕產(chǎn)業(yè)互聯(lián)網(wǎng)經(jīng)驗(yàn)和積累,騰訊云已聯(lián)合行業(yè)頭部企業(yè),為20+行業(yè)輸出了超過(guò)50個(gè)解決方案,提供一整套模型服務(wù)工具鏈,幫助企業(yè)高效率、高品質(zhì)、低成本地創(chuàng)建和部署AI應(yīng)用。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。