最受歡迎開源大模型，為什么是通義？

本文作者：張進(jìn)

2024-09-29 11:15

導(dǎo)語：開源一年，通義千問的血緣模型已經(jīng)達(dá)到 5 萬多個(gè)。

開源與閉源之爭早已非新奇的話題，但毋庸置疑的是，開源極大地促進(jìn)了大模型技術(shù)發(fā)展和生態(tài)繁榮。

大模型被認(rèn)為是最燒錢的技術(shù)，訓(xùn)練一個(gè)大模型往往需要大量的數(shù)據(jù)、計(jì)算資源，導(dǎo)致訓(xùn)練成本巨大，眾所周知GPT-3的訓(xùn)練費(fèi)用據(jù)說超過 4600萬美元，在大模型開源之前，大模型一直是那些有大量資金加持的大廠和明星創(chuàng)業(yè)公司才有資格碰的事情。

隨著如 llama、Mistral、Falcon 這些開源先鋒攪動了整個(gè)大模型競爭浪潮，那些沒有AI積累的企業(yè)、大量中小公司團(tuán)隊(duì)，今天個(gè)人開發(fā)者，都能基于開源底座模型，用很低的成本訓(xùn)練、部署自己的專屬模型，llama 這樣的開源先鋒也因此擁有一眾擁躉。

回到國內(nèi)，在 llama、Mistral 這樣的開源先鋒影響下，國產(chǎn)開源也經(jīng)歷了百家爭鳴階段，如ChatGLM、Baichuan、DeepSeek、Qwen也曾掀起一陣陣開源浪潮。

“百模大戰(zhàn)”至今不過一年多，全球開源格局已幾經(jīng)變換，最出人意料的一件事，莫過于國產(chǎn)開源大模型先發(fā)后至，有了比肩全球頂尖開源模型的影響力。通義千問開源模型，就是“國模開源”的代表角色。

據(jù)AI科技評論了解，根據(jù) Hugging Face的數(shù)據(jù)，Qwen系列血緣模型已經(jīng)高達(dá)5萬多個(gè)，也就是說，全世界的開發(fā)者，基于Qwen系列底座，已經(jīng)二次訓(xùn)練出5萬多個(gè)衍生模型，僅次于Llama系列的7萬左右。這個(gè)數(shù)據(jù)，是判斷一個(gè)模型生態(tài)影響力最有說服力的指標(biāo)。

金沙江創(chuàng)投主管合伙人朱嘯虎就曾在多個(gè)場合表示，國內(nèi)開源模型已經(jīng)不比閉源模型差，尤其是阿里的通義千問，很多創(chuàng)業(yè)公司都拿通義開源模型來訓(xùn)練自己的垂直模型。

據(jù)AI科技評論了解，Qwen系列的衍生模型中，不乏出自面壁等明星大模型公司的微調(diào)模型，根據(jù)GitHub的介紹，面壁的MiniCPM-V2.6多模態(tài)模型就是基于SigLip-400M和Qwen2-7B作為基座。

在今天于杭州舉辦的2024 云棲大會上，通義大模型再推全新開源系列 Qwen2.5，旗艦?zāi)Ｐ陀中愠隽送腊袷降膹?qiáng)勁性能。在這之前，海內(nèi)外開發(fā)者和開源社區(qū)早已躍躍欲試、反復(fù)催更。

如此場景，距離通義去年首次開源不過一年多。通義是怎么做到的？

最受歡迎開源大模型，為什么是通義？

1
Qwen2.5 全球開源第一

2023 年 3 月15 日，OpenAI 發(fā)布了里程碑模型 GPT-4，同時(shí)智譜AI開源了ChatGLM模型，自此拉開了中國大模型開源序幕，緊跟著 6 月百川智能開源了Baichuan，8 月通義千問宣布開源，“百模大戰(zhàn)”進(jìn)入白熱化……23 年整個(gè)行業(yè)經(jīng)歷了一場開源盛宴。

阿里通義千問開源相對晚，但勝在后勁足。23年12月，通義千問第一款開源旗艦?zāi)Ｐ蚎wen-72B 問世，成為當(dāng)時(shí)性能最強(qiáng)的開源模型，一舉超越了開源標(biāo)桿 llama 2-70B，在此之前，中國大模型市場還沒有出現(xiàn)一個(gè)足以對抗 llama 2-70B的開源模型。

自此，通義千問在“全尺寸、全模態(tài)”開源路上狂飆。2024年2月開源Qwen1.5系列、2024年6月開源Qwen2系列，三個(gè)月之后的今天又火速放出Qwen2.5系列，開源模型橫貫大語言、多模態(tài)、數(shù)學(xué)、代碼多個(gè)類別、模型尺寸包含0.5B到110B的完整譜系。幾乎可以說，只要開發(fā)者想要，Qwen都能提供。

這種開源力度在國產(chǎn)模型中前所未有，阿里通義千問在大模型賽道的開源「人設(shè)」逐漸穩(wěn)固，吸引了大波擁躉。

今天云棲大會發(fā)布的全新開源系列 Qwen2.5，模型性能一如既往火力全開。

最受歡迎開源大模型，為什么是通義？

Qwen2.5 有兩大特點(diǎn)，一是性能全球領(lǐng)先，穩(wěn)居全球開源第一。根據(jù)阿里官方數(shù)據(jù)顯示，開源旗艦?zāi)Ｐ蚎wen2.5-72B 在多個(gè)權(quán)威測評集中全面超越同尺寸開源模型，甚至“跨數(shù)量級”超越Llama3.1-405B 模型，以不到1/5的參數(shù)規(guī)模，創(chuàng)下超越Llama 4050 億參數(shù)的整體表現(xiàn)。

最受歡迎開源大模型，為什么是通義？

根據(jù)上圖，Qwen2.5-72B 在14 個(gè)關(guān)鍵基準(zhǔn)測試中，8 項(xiàng)擊敗了 llama3.1-405B 指微調(diào)模型，11 項(xiàng)擊敗了Mistral最新開源的 Large-V2 指令微調(diào)模型，成為目前最強(qiáng)開源模型。

今年 7 月 Meta 發(fā)布了最新開源模型 llama3.1-405B 后，llama3.1-405B 便一舉成為地表最強(qiáng)開源模型，甚至代表開源模型首次超越閉源模型。從基準(zhǔn)測試結(jié)果來看，超大杯 Llama 3.1 405B 全方位碾壓了 GPT-3.5 Turbo、大部分基準(zhǔn)測試得分超過了 GPT-4 0125，面對 OpenAI 此前最強(qiáng)閉源大模型GPT-4o和第一梯隊(duì)的 Claude 3.5 Sonnet，Llama 3.1 405B 依然有能力一戰(zhàn)。

只是，405B雖然強(qiáng)大，但模型參數(shù)實(shí)在太大、部署使用的硬件要求高出天際。對個(gè)人開發(fā)者和預(yù)算有限的中小企業(yè)來說，可望不可及。

Qwen2.5-72B 對 llama3.1-405B的超越，不僅是國產(chǎn)開源模型與美國最強(qiáng)開源模型的一次硬剛，也狠狠削平了“天花板性能”模型的使用成本。

Qwen2.5的第二個(gè)特點(diǎn)，開源模型數(shù)量史無前例，目的是為充分適配開發(fā)者和中小企業(yè)的需求。

Qwen2.5延續(xù)了“全尺寸、多模態(tài)”路線，同步開源了多個(gè)尺寸的大語言模型、多模態(tài)模型、數(shù)學(xué)模型和代碼模型，涵蓋基礎(chǔ)版本、指令跟隨版本、量化版本，總計(jì)上架超過 100 個(gè)開源模型，刷新業(yè)界新紀(jì)錄。

大語言模型共有 0.5B、1.5B、3B、7B、14B、32B、72B 七個(gè)尺寸，在等規(guī)模賽道全都創(chuàng)造了業(yè)界 SOTA，從這幾個(gè)型號尺寸，我們可以看到通義團(tuán)隊(duì)?wèi)?yīng)該是充分考慮了下游應(yīng)用的不同場景需求、從而做出上述開源策略，大致對應(yīng)了當(dāng)下最火的三個(gè)場景：端側(cè)模型、小模型、大模型。

比如，3B 是適配手機(jī)等端側(cè)設(shè)備的黃金尺寸，業(yè)界認(rèn)為 3B-4B這個(gè)大小，意味著模型量化之后可以做到 2G 的體積，非常適合放在手機(jī)里面。端側(cè)則也一直是英偉達(dá)、微軟和各類手機(jī)廠商都非?？粗氐念I(lǐng)域。

32B是最受開發(fā)者期待的“性價(jià)比之王”，可在性能和功耗之間獲得最佳平衡。最讓開發(fā)者驚喜的，則是 140 億和320億兩種參數(shù)模型的重新回歸，14B 和 32B 是最適合本地單卡部署的模型大小。上一代Qwen2系列沒有這兩個(gè)尺寸，一直是開發(fā)者心中遺憾。

這還沒結(jié)束，下一個(gè)類別是多模態(tài)模型。上個(gè)月通義團(tuán)隊(duì)開源了 2B 和 7B 版本的視覺理解模型Qwen2-VL，這次直接把720億參數(shù)的Qwen2-VL-72B 也開源了，Qwen2-VL 能識別不同分辨率和長寬比的圖片，能夠理解20分鐘以上長視頻，還具備自主操作手機(jī)和機(jī)器人的視覺智能體能力。

Qwen2-VL基于Qwen2打造，在多個(gè)視覺理解基準(zhǔn)測試中取得了全球領(lǐng)先的表現(xiàn)，其中包括但不限于考察數(shù)學(xué)推理能力的MathVista、考察文檔圖像理解能力的DocVQA、考察真實(shí)世界空間理解能力的RealWorldQA、考察多語言理解能力的MTVQA。

通義千問從 6 個(gè)方面來評估 Qwen2-VL 分別在72B、7B、2B三種規(guī)模上的視覺能力，包括復(fù)雜的大學(xué)水平問題解決、數(shù)學(xué)能力、文檔和表格的理解、多語言文本圖像的理解、通用場景問答、視頻理解、視覺智能代理（Visual AI Agent）能力。

整體來看，Qwen2-VL-72B在大部分指標(biāo)上都達(dá)到了最優(yōu)，甚至超過了GPT-4o和Claude 3.5 Sonnet等閉源模型。

最后是主攻數(shù)學(xué)和代碼賽道的兩組專項(xiàng)模型，數(shù)學(xué)開源模型Qwen2.5-Math包含1.5B、7B、72B，全部支持中文。Qwen2.5-Math在精心設(shè)計(jì)的數(shù)學(xué)語料庫上進(jìn)行了預(yù)訓(xùn)練，可以處理大學(xué)和競賽級別的數(shù)學(xué)問題。

代碼開源模型Qwen2.5-Coder 是為編程特別設(shè)計(jì)的模型，包含1.5B、7B兩個(gè)版本，通義團(tuán)隊(duì)還預(yù)告了Qwen2.5-Coder -32B也在開源的路上。這組模型最多支持 128K tokens 上下文，支持 92 種編程語言， 7B 版本打敗了更大尺寸的 DeepSeek-Coder-V2-Lite 和 Codestral-20B，成為當(dāng)前最強(qiáng)大的基礎(chǔ)代碼模型之一。

最受歡迎開源大模型，為什么是通義？

與此同時(shí)，一直免費(fèi)對外提供服務(wù)的通義千問旗艦?zāi)Ｐ?Qwen-Max也實(shí)現(xiàn)了全面升級，整體性能比前代有明顯提升。通義千問官網(wǎng)和通義APP的后臺模型均已切換為Qwen-Max，繼續(xù)免費(fèi)為所有用戶提供服務(wù)。

2
模型、生態(tài)兩手抓

自 2023 年 8 月開源以來，通義千問不斷在基座模型上發(fā)力，并將所有模型能力全部開放出來供業(yè)界使用。這背后是阿里云在 AI 大模型時(shí)代的開源開放策略在支撐。開源能夠推動大模型的研發(fā)和應(yīng)用，最終，作為AI基礎(chǔ)設(shè)施的云計(jì)算廠商將是整個(gè)行業(yè)算力需求的最重要承接方。

路徑純粹、目標(biāo)清晰，輕裝上陣、方得致遠(yuǎn)。

不過，開源概念雖然美好，行動卻毫無捷徑可言。在所有模型都免費(fèi)可用、所有用戶都來去自如的開源社區(qū)，開發(fā)者的選擇太多了。模型好，開發(fā)者會駐足，模型不行，開發(fā)者可以毫不猶豫選用別家。

通義團(tuán)隊(duì)總結(jié)了他們的開源經(jīng)驗(yàn)，道理之樸素，幾乎沒有任何驚喜：性能上日拱一卒，不斷訓(xùn)練和迭代模型，不斷提升數(shù)據(jù)處理、模型訓(xùn)練方面的技能，始終跑在模型技術(shù)第一線。生態(tài)上從零起步、開疆拓土，與海內(nèi)外的開源社區(qū)、生態(tài)伙伴、開發(fā)者共建生態(tài)網(wǎng)絡(luò)，融入基模核心競技場。

生態(tài)建設(shè)方面，通義團(tuán)隊(duì)做了幾方面的“細(xì)活”：

一，努力實(shí)現(xiàn)生態(tài)兼容。自Qwen1.5發(fā)布以來，通義團(tuán)隊(duì)就與Hugging Face合作，把模型代碼合并到HuggingFace transformers代碼庫，方便開發(fā)者直接使用 transformers原生代碼；通義團(tuán)隊(duì)還積極溝通生態(tài)伙伴，獲得各類開源框架、開源工具對Qwen系列的兼容和支持，包括vLLM、SGLang、AutoAWQ、AutoGPTQ、Axolotl、LLaMA-Factory、llama.cpp、 Ollama 、LMStudio 等等。

二，做好開發(fā)者服務(wù)。模型開源并不是把模型放到社區(qū)就行，Qwen團(tuán)隊(duì)注重從細(xì)節(jié)處提升開發(fā)者體驗(yàn)。準(zhǔn)備模型文檔（model card）時(shí)，除了主流的英文文檔，還會準(zhǔn)備中文甚至其他語種的文檔；優(yōu)化文檔質(zhì)量，讓開發(fā)者一眼讀懂模型的亮點(diǎn)、效果、demo；準(zhǔn)備代碼片段，幫助開發(fā)者快速部署和使用模型。Qwen團(tuán)隊(duì)還非常重視與開發(fā)者的互動，積極處理開發(fā)者提交的問題和建議。

三、積極吸納研究界和開源社區(qū)的創(chuàng)意。比如為了回應(yīng)開發(fā)者對 14B 和 32B 模型的需求，本次Qwen2.5增加了14B、32B 尺寸的開源模型。

今天我們可以看到通義大模型在開源屆已經(jīng)成功躋身一流之列，比肩國際最強(qiáng)開源模型Llama，多次登頂Hugging Face全球大模型榜單。

最受歡迎開源大模型，為什么是通義？

通義千問開源模型Qwen的衍生模型數(shù)量已經(jīng)超過5萬，僅次于Llama，數(shù)據(jù)來自全球最大的開源社區(qū)Hugging Face

兩個(gè)數(shù)據(jù)最能體現(xiàn)通義作為中國開源大模型的影響力，一是模型下載量，根據(jù)通義官方數(shù)據(jù)，截至 2024 年 9 月初，通義千問開源模型累計(jì)下載量已經(jīng)突破4000萬，這是開發(fā)者和中小企業(yè)用腳投票的結(jié)果；二是衍生模型數(shù)量，截至9月初，通義原生模型和衍生模型總數(shù)超過5萬個(gè)，成為僅次于Llama的世界級模型群。

除了開源模型，通義也提供 API 服務(wù)。據(jù)官方透露，通過阿里云，通義大模型已經(jīng)服務(wù)了30多萬客戶，他們涉及千行百業(yè)。盡管消費(fèi)者市場的超級大模型應(yīng)用還未出現(xiàn)，但在很多垂直領(lǐng)域，大模型正在人們看不見的地方，逐漸生根發(fā)芽。阿里巴巴最新季度業(yè)績報(bào)告顯示，阿里云的AI相關(guān)產(chǎn)品收入實(shí)現(xiàn)三位數(shù)增長。

3
后記

從去年百模大戰(zhàn)中的普通一員，到如今擁有“萬模同源”的模型族群，通義大模型的開源之路，也是中國大模型追趕世界一線水平的縮影。

回顧世界技術(shù)史，在每一次技術(shù)浪潮中，開源對一項(xiàng)新技術(shù)的推動和創(chuàng)新早已經(jīng)過多次驗(yàn)證，開源的價(jià)值和意義毋庸置疑，站在大模型技術(shù)發(fā)展的角度可以說，在過去一年里通義大模型極大地推動了中國大模型的生態(tài)繁榮?！咐追寰W(wǎng)(公眾號：雷峰網(wǎng))」「雷峰網(wǎng)」

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。