丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給張進(jìn)
發(fā)送

0

通義千問(wèn)登頂Hugging Face榜首,國(guó)產(chǎn)開源大模型趕超Llama2

本文作者: 張進(jìn) 2023-12-14 16:16
導(dǎo)語(yǔ):國(guó)產(chǎn)開源大模型,有戲!

【雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))消息】上周五,全球最大的開源大模型社區(qū)Hugging Face公布了最新的開源大模型排行榜,阿里云通義千問(wèn)Qwen-72B表現(xiàn)搶眼,以73.6的綜合得分在所有預(yù)訓(xùn)練模型中排名第一,超越Llama2登頂榜首。

 

Hugging Face的開源大模型排行榜(Open LLM Leaderboard)是目前大模型領(lǐng)域最具權(quán)威性的榜單,收錄了全球上百個(gè)開源大模型,測(cè)試維度涵蓋閱讀理解、邏輯推理、數(shù)學(xué)計(jì)算、事實(shí)問(wèn)答等六大測(cè)評(píng)。 

通義千問(wèn)登頂Hugging Face榜首,國(guó)產(chǎn)開源大模型趕超Llama2 

通義千問(wèn)(Qwen-72B)是基于3Ttokens數(shù)據(jù)訓(xùn)練而成,同時(shí)也在10個(gè)權(quán)威基準(zhǔn)測(cè)評(píng)中奪得開源模型最優(yōu)成績(jī),在部分測(cè)評(píng)中超越閉源的GPT-3.5和GPT-4。

 

這是一個(gè)激動(dòng)人心的時(shí)刻,從Llama2開源可商用,迄今5個(gè)月,國(guó)產(chǎn)大模型開源終于有一個(gè)能追上Llama2,大模型開源領(lǐng)域終于不再是Llama2獨(dú)領(lǐng)風(fēng)騷的時(shí)代,國(guó)產(chǎn)大模型開源也由此進(jìn)入新時(shí)代。

 

多個(gè)單項(xiàng)成績(jī)斷層領(lǐng)先其他開源模型

 

從Hugging Face官網(wǎng)公布的開源大模型排行榜(Open LLM Leaderboard)來(lái)看,他們是從ARC、HellaSwag、MMLU、TruthfulQA、Winogrande、GSM8K來(lái)對(duì)當(dāng)前的開源大模型進(jìn)行測(cè)試評(píng)估。

 

從上述截圖我們可以看到通義千問(wèn)Qwen-72B在多個(gè)測(cè)評(píng)中斷層領(lǐng)先其他開源模型,其中MMLU、TruthfulQA、GSM8K三個(gè)維度的得分遠(yuǎn)超Llama-2-70B,分別得分為77.37、60.19、70.43,而Llama-2-70B的得分分別是69.83、44.94、54.06。

 

Qwen-72B得分最高的三大測(cè)評(píng):MMLU考察模型的世界知識(shí)和語(yǔ)言能力,綜合評(píng)測(cè)LLM的英文綜合能力和知識(shí)能力;GSM8K考察的是模型的數(shù)學(xué)推理和計(jì)算關(guān)系大模型的數(shù)學(xué)推理能力;TruthfulQA考察模型的常識(shí)問(wèn)答關(guān)系模型的常識(shí)能力、抗幻覺能力、問(wèn)答能力等。

 

而在其他測(cè)評(píng)ARC、HellaSwag、Winogrande中,通義千問(wèn)Qwen-72B與Llama-2-70B的差距僅有1、2分之差。

 

ARC考察模型閱讀理解,這個(gè)能力關(guān)系大模型的語(yǔ)言理解、文檔問(wèn)答、工具調(diào)用能力;WinoGrande考察模型的語(yǔ)言推理、指代理解關(guān)系大模型的語(yǔ)言理解、語(yǔ)言推理、指代消歧等能力;Hellaswag考察模型的常識(shí)和語(yǔ)言推理關(guān)系模型的常識(shí)和語(yǔ)言推理能力。

 

最終Qwen-72B以73.6的綜合得分在所有預(yù)訓(xùn)練模型中排名第一,在這之前,該榜單長(zhǎng)期被Meta的Llama2占領(lǐng)。同時(shí),除了阿里云開的通義千問(wèn)、Meta的Llama2,榜單上還出現(xiàn)了幻方量化的deepseek-67B、零一萬(wàn)物的Yi-34B、百川的baichuan2-13B等中國(guó)開源大模型。

 

國(guó)產(chǎn)開源大模型勢(shì)頭正猛。

 

在評(píng)分之外,我們用一道高考數(shù)學(xué)題來(lái)粗略測(cè)試下Qwen-72B的表現(xiàn),發(fā)現(xiàn)Qwen-72B解題思路清晰,計(jì)算結(jié)果準(zhǔn)確:

通義千問(wèn)登頂Hugging Face榜首,國(guó)產(chǎn)開源大模型趕超Llama2

同時(shí),還問(wèn)了它一道外國(guó)人看了頭大、極具中國(guó)語(yǔ)言特色的復(fù)雜語(yǔ)義理解題,沒(méi)想到Qwen-72B居然深刻理解了中國(guó)式的職場(chǎng)“拉扯”:

通義千問(wèn)登頂Hugging Face榜首,國(guó)產(chǎn)開源大模型趕超Llama2

在復(fù)雜邏輯推理上,表現(xiàn)同樣不錯(cuò):

通義千問(wèn)登頂Hugging Face榜首,國(guó)產(chǎn)開源大模型趕超Llama2

不僅如此,通義千問(wèn)一經(jīng)發(fā)布,在國(guó)外引起了廣泛討論,不少國(guó)內(nèi)外開發(fā)者進(jìn)行了測(cè)試和應(yīng)用,實(shí)際使用體驗(yàn)在某些領(lǐng)域還超過(guò)了GPT-4:

通義千問(wèn)登頂Hugging Face榜首,國(guó)產(chǎn)開源大模型趕超Llama2

為什么Qwen-72B能有這么出色的性能表現(xiàn)?

 

眾所周知,一個(gè)優(yōu)質(zhì)的模型首先離不開團(tuán)隊(duì)強(qiáng)大的研發(fā)能力,通義千問(wèn)團(tuán)隊(duì)在國(guó)內(nèi)互聯(lián)網(wǎng)公司中最早探索大模型,據(jù)稱是阿里全力投入打造的團(tuán)隊(duì);其次,通義千問(wèn)背靠阿里云,在AI算力基礎(chǔ)設(shè)施上擁有充足補(bǔ)給;還很重要的是,通義千問(wèn)一直在奮力發(fā)展自己的開源生態(tài),來(lái)自應(yīng)用場(chǎng)景和開源社區(qū)的反饋能幫助研發(fā)團(tuán)隊(duì)不斷優(yōu)化基礎(chǔ)模型。


具體到Qwen-72B模型的訓(xùn)練,通義千問(wèn)利用多達(dá)43T的高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,折合7Ttokens(目前訓(xùn)練完成3Ttokens,還在持續(xù)進(jìn)行),涵蓋近20種語(yǔ)言,覆蓋網(wǎng)頁(yè)、新聞、書籍、數(shù)學(xué)、代碼及各個(gè)垂類領(lǐng)域,如金融、法律、醫(yī)療等等。


綜合利用了dp、tp、pp、sp等方法進(jìn)行大規(guī)模分布式并行訓(xùn)練,引入flashattentionv2等高效算子提升訓(xùn)練速度。借助阿里云人工智能平臺(tái)PAI的拓?fù)涓兄{(diào)度機(jī)制,有效降低了大規(guī)模訓(xùn)練時(shí)通信成本,將訓(xùn)練速度提高30%。

 

在訓(xùn)練穩(wěn)定性方面,模型訓(xùn)練過(guò)程中,通義千問(wèn)團(tuán)隊(duì)通過(guò)PAI平臺(tái)AiMaster管理組件監(jiān)控作業(yè)的日志/報(bào)錯(cuò)/metric等信息,區(qū)分用戶錯(cuò)誤和系統(tǒng)錯(cuò)誤,根據(jù)作業(yè)類型和容錯(cuò)場(chǎng)景提供管理能力和全鏈路自動(dòng)化運(yùn)維能力,自動(dòng)剔除故障機(jī)器重啟任務(wù),使訓(xùn)練過(guò)程中人工干預(yù)重啟頻率由日降低到周。


Qwen-72B上場(chǎng),Llama2走下神壇

 

從今年7月Meta宣布Llama2開源可商用以來(lái),Llama2便一直站在全球大模型開源的神壇上,它更是國(guó)產(chǎn)大模型早期蓬勃發(fā)展的救星,元象唯思的創(chuàng)始人姚星曾對(duì)AI科技評(píng)論吐露真言,國(guó)內(nèi)大部分大模型都是基于Llama開源來(lái)做的訓(xùn)練,他認(rèn)為沒(méi)有 Llama 開源,中國(guó)的大模型探索可能還要走很長(zhǎng)一段路。

 

但這背后也要國(guó)內(nèi)開發(fā)者承擔(dān)許多“屈辱”,一位大模型公司的CEO曾無(wú)奈地告訴AI科技評(píng)論,Llama2的中文能力很差。

 

由于此,一些基于Llama2做垂直行業(yè)模型的廠商曾告訴我們,他們要用Llama2必須得先跟國(guó)內(nèi)做Llama2中文化的公司合作,不能直接用Llama2去做訓(xùn)練。

 

而且Llama2對(duì)中國(guó)很不友好,在Llama2的開源協(xié)議里強(qiáng)調(diào)了English tended,其他地區(qū)illegal,意思就是中國(guó)拿它來(lái)做中文的大模型和應(yīng)用是不合法的,但國(guó)內(nèi)又必須得用。

 

因?yàn)樵谕x千問(wèn)Qwen-72B發(fā)布之前,我們并沒(méi)有能跟Llama2比肩的開源大模型,很長(zhǎng)一段時(shí)間Llama2無(wú)與爭(zhēng)鋒。

 

由于各大模型廠商選擇了“小參數(shù)用來(lái)開源,大參數(shù)拿來(lái)商業(yè)化”的策略,導(dǎo)致國(guó)內(nèi)大模型開源一直停留在14B,所以國(guó)產(chǎn)開源大模型看似越來(lái)越卷,實(shí)則中國(guó)大模型市場(chǎng)還沒(méi)有出現(xiàn)足以對(duì)標(biāo)Llama-2-70B的優(yōu)質(zhì)開源模型。

 

但很多開發(fā)者曾對(duì)AI科技評(píng)論表示,雖然大模型開源非常豐富,但他們能真正用起來(lái)的不多。在一些領(lǐng)域,例如金融行業(yè)、醫(yī)療行業(yè),以及一些科研機(jī)構(gòu),14B其實(shí)是遠(yuǎn)遠(yuǎn)不夠的。

 

直到11月、12月,開源大模型Yi-34B、元象XVERSE-65B、Qwen-72B陸續(xù)拋出,國(guó)產(chǎn)開源似乎有了新進(jìn)展,真正跨入了“追趕Llama2”的時(shí)代。

 

而Qwen-72B登頂Hugging Face榜首,超過(guò)Llama2這一事件,意味著國(guó)產(chǎn)大模型開源開始參與全球競(jìng)爭(zhēng),同時(shí),Qwen-72B的出現(xiàn)填補(bǔ)了中國(guó)大模型開源長(zhǎng)期被Llama2所占據(jù)的空白領(lǐng)域。

 

個(gè)人開發(fā)者、中國(guó)能源建設(shè)集團(tuán)浙江省電力設(shè)計(jì)院有限公司系統(tǒng)室專工陶佳,他在想要做大模型應(yīng)用時(shí)遇到的困境應(yīng)該是國(guó)內(nèi)大多數(shù)開發(fā)者都會(huì)遇到的:國(guó)外的模型,如閉源的如OpenAI能力是很強(qiáng),但是API調(diào)用不便,而且我們這種B端用戶更喜歡自己上手定制,API能做的事還是太少;開源的比如Llama2,但是中文能力一般。

 

他試了幾款,試下來(lái)通義千問(wèn)是最好的?!皽?zhǔn)確,而且‘手感’很好,沒(méi)有那些稀奇古怪的 bug”,他說(shuō)。

 

有鹿機(jī)器人公司正在研發(fā)第二代具身智能技術(shù)LPLM大模型,LPLM是融合了LLM大語(yǔ)言模型和物理世界大模型。在創(chuàng)始人、CEO陳俊波看來(lái),LLM本身是一個(gè)偏慢速的、邏輯推理的、有比較完整的結(jié)構(gòu)性思考的智能系統(tǒng),而物理世界大模型是一個(gè)更偏實(shí)時(shí)響應(yīng)、偏直覺的一套思維過(guò)程,比方說(shuō)人類怎么去感知這個(gè)世界,怎么去對(duì)這個(gè)世界做預(yù)判,以及怎么去規(guī)劃我們整個(gè)動(dòng)作思維。LPLM融合了這兩個(gè)系統(tǒng),使它們能夠很好地配合跟協(xié)作,能夠從人類的高層的指令理解、到拆解、再到底層對(duì)物理世界進(jìn)行理解和規(guī)劃。

 

他們把市面上能找到的大模型都做過(guò)實(shí)驗(yàn),最后選擇了通義千問(wèn),創(chuàng)始人、CEO陳俊波認(rèn)為原因主要有以下幾點(diǎn):

第一,它是目前至少在中文領(lǐng)域能找到的智能性表現(xiàn)最好的開源大模型之一。

第二,它提供了非常方便的工具鏈,可以在他們自己的數(shù)據(jù)上快速地去做finetune和各種各樣的實(shí)驗(yàn)。

第三,它提供了一個(gè)特式量化的模型,量化前跟量化后基本上沒(méi)有掉點(diǎn),這對(duì)我們來(lái)說(shuō)非常有吸引力,因?yàn)槲覀冃枰阉渴鹪谝粋€(gè)嵌入式的設(shè)備上。

 

不僅如此,國(guó)外一些網(wǎng)友也對(duì)Qwen-72B等國(guó)產(chǎn)大模型表達(dá)了驚嘆:

通義千問(wèn)登頂Hugging Face榜首,國(guó)產(chǎn)開源大模型趕超Llama2

通義千問(wèn)登頂Hugging Face榜首,國(guó)產(chǎn)開源大模型趕超Llama2


后記

 

通義千問(wèn)還開源了18億參數(shù)模型Qwen-1.8B和音頻大模型Qwen-Audio,至此,通義千問(wèn)共開源了18億、70億、140億、720億參數(shù)的4款大語(yǔ)言模型,以及視覺理解、音頻理解兩款多模態(tài),是業(yè)界首個(gè)“全尺寸、全模態(tài)”開源大模型。

 

阿里云CTO周靖人表示,開源生態(tài)對(duì)促進(jìn)中國(guó)大模型的技術(shù)進(jìn)步與應(yīng)用落地至關(guān)重要,通義千問(wèn)將持續(xù)投入開源,希望成為“AI時(shí)代最開放的大模型”,與伙伴們共同促進(jìn)大模型生態(tài)建設(shè)。

 

開源、開放成為阿里在大模型領(lǐng)域頻頻提到的關(guān)鍵詞,開源Qwen-72B就是其最好的態(tài)度展示。

 

Meta全球事務(wù)主管Nick Clegg曾這樣評(píng)價(jià)開源:開源是消除AI相關(guān)恐懼的最佳解藥,開源有助于Meta追趕競(jìng)爭(zhēng)對(duì)手。

 

正如業(yè)內(nèi)人普遍認(rèn)同的,未來(lái)90%的企業(yè)會(huì)傾向于基于開源大模型發(fā)展,依托于開源生態(tài)。

 

如今,有了Qwen-72B的開源,國(guó)內(nèi)大模型也能接上Llama2的步伐,允許各種規(guī)模的公司在Qwen-72B上改進(jìn)這項(xiàng)技術(shù),并在其上構(gòu)建應(yīng)用程序。

 

7月,Llama2開源蓬勃了全球大模型發(fā)展,12月,通義千問(wèn)Qwen-72B開源,使得國(guó)產(chǎn)開發(fā)者不再“求外”。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

通義千問(wèn)登頂Hugging Face榜首,國(guó)產(chǎn)開源大模型趕超Llama2

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)