橫評國內(nèi) 15 個主流大模型，騰訊混元綜合實力領(lǐng)跑第一梯隊

本文作者： nebula

2024-03-26 16:36

導(dǎo)語：測評結(jié)果顯示，騰訊混元在通用基礎(chǔ)能力和專業(yè)應(yīng)用能力上均領(lǐng)先國內(nèi)其他大模型。

近日，全球增長咨詢公司弗若斯特沙利文發(fā)布了《2024年中國大模型能力評測》，對國內(nèi)主流的15個大模型進行了權(quán)威評測。文心一言取得了綜合第一，而緊隨其后的，是亮相后一直低調(diào)的騰訊混元大模型。測評結(jié)果顯示，騰訊混元在通用基礎(chǔ)能力和專業(yè)應(yīng)用能力上均領(lǐng)先國內(nèi)其他大模型。

值得一提的是，文心一言、騰訊混元等排名前四的大模型，不僅處于國內(nèi)第一梯隊，而且高于國際大模型均線，這條均線的設(shè)置，是以Gemini10、GPT4、GPT3.5和Claude2為基準的，可以說意味著這四家大模型具備了國際主流大模型的競爭力水平，含金量十足。

橫評國內(nèi) 15 個主流大模型，騰訊混元綜合實力領(lǐng)跑第一梯隊

沙利文《2024年中國大模型能力評測》：大模型綜合競爭力氣泡圖

據(jù)了解，這份報告以用戶使用體驗和實際使用價值為衡量標準，綜合考量數(shù)理科學(xué)、語言能力、道德責(zé)任、行業(yè)能力及綜合能力等5大核心維度及21個細化二級維度。具體細分的維度目前批露的不多，不過可以看到，在語言能力的評測中，文心一言、通義千問、騰訊混元分別位列前三。

橫評國內(nèi) 15 個主流大模型，騰訊混元綜合實力領(lǐng)跑第一梯隊

中國大語言模型能力評析：語言能力

作為全鏈路自研的通用大語言模型，騰訊混元具備強大的中文創(chuàng)作能力，復(fù)雜語境下的邏輯推理能力，以及可靠的任務(wù)執(zhí)行能力。

在騰訊最新發(fā)布的2023年第四季度及全年業(yè)績報告中，對混元大模型的實力進行了肯定。財報寫到：“騰訊混元已經(jīng)發(fā)展成為領(lǐng)先的基礎(chǔ)模型，在數(shù)學(xué)推導(dǎo)、邏輯推理以及多輪對話中性能卓越?！必攬筮€披露，騰訊混元采用混合專家模型結(jié)構(gòu)，已擴展至萬億參數(shù)規(guī)模。

不僅如此，近日中國電子學(xué)會公布了2023科學(xué)技術(shù)獎，由騰訊主導(dǎo)，北京大學(xué)、北京科技大學(xué)共同參與的聯(lián)合項目Angel機器學(xué)習(xí)平臺獲本年度科技進步一等獎，Angel 機器學(xué)習(xí)平臺是支撐騰訊混元大模型的核心技術(shù)。

除了通用基礎(chǔ)能力外，在大模型落地看重的專業(yè)應(yīng)用能力評測中，騰訊混元也在此次測評中排名領(lǐng)先。據(jù)介紹，目前騰訊內(nèi)部有超過400個業(yè)務(wù)及場景已接入騰訊混元測試。

比如，騰訊廣告基于混元大模型推出了AI廣告創(chuàng)意平臺妙思，有效提高了廣告生產(chǎn)及投放效率。企業(yè)微信和騰訊會議部署了生成式AI功能，增強了商業(yè)化效果。騰訊云還聯(lián)合生態(tài)伙伴，將大模型技術(shù)與20多個行業(yè)結(jié)合，提供超50個行業(yè)大模型解決方案。騰訊自身豐富的業(yè)務(wù)和場景大量接入騰訊混元，也意味著大模型已經(jīng)在應(yīng)用端驗證了價值。

當(dāng)前，國內(nèi)大模型賽道的重點已經(jīng)從通用技術(shù)向落地能力轉(zhuǎn)移，AI的能力逐漸從文生文，到文生圖、文生視頻，圖生圖、圖生視頻等多模態(tài)方向發(fā)展。企業(yè)也將進一步關(guān)注大模型能否真正與應(yīng)用相結(jié)合，助力各行各業(yè)的高質(zhì)量發(fā)展。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

nebula

運營

發(fā)私信

當(dāng)月熱門文章