0
本文作者: 我在思考中 | 2023-09-11 17:17 |
本土大模型時(shí)代早晚會(huì)到來是業(yè)界共識(shí),但卻沒想到來的這么快!
近日,中國(guó)大模型火了,在全球知名大模型開源社區(qū)HuggingFace上百川智能的兩款開源模型Baichuan7B、Baichuan13B受到了全球開發(fā)者們的熱捧,Baichuan開源系列近一個(gè)月下載量超347萬次,是月下載量最大的開源模型。
其中Baichuan-13B-Base在HuggingFace的下載量高達(dá)167萬次,Baichuan-13B-Chat的下載量超過173萬次,遠(yuǎn)超LLaMA/LLaMA-2-13b-hf的14.9萬。
百川智能并未因此而沾沾自喜,在以開源模型助力中國(guó)大模型生態(tài)發(fā)展愿景的驅(qū)使下,9月6日,百川智能召開主題為“百川匯海,開源共贏”的大模型發(fā)布會(huì),會(huì)上宣布正式開源Baichuan 2系列大模型,包含 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化,并且均為免費(fèi)可商用。
Baichuan 2下載地址:https://github.com/baichuan-inc/Baichuan2
一直備受矚目的百川智能,自成立以來平均 28 天就能發(fā)布一款大模型。如果只是在速度上持續(xù)領(lǐng)先,或許可以理解為本就是一個(gè)“明星”創(chuàng)業(yè)公司的“分內(nèi)之事”。但如果保持研發(fā)速度的同時(shí),在質(zhì)量上還完成了對(duì)LLaMA2的超越甚至是吊打,那必須值得稱贊一番。
本次百川智能發(fā)布的 Baichuan-2 實(shí)現(xiàn)了對(duì) LLaMA2的全面碾壓,這意味著中國(guó)開源大模型進(jìn)入到了本土?xí)r代。
口說無憑,為評(píng)估模型的整體能力,Baichuan 2 系列大模型選擇了包括MMLU、CMMLU、MedQA USMLE在內(nèi)的8個(gè)基準(zhǔn),從總體性能、垂直領(lǐng)域、數(shù)學(xué)和編程、多語言、安全性以及中間檢查點(diǎn)六個(gè)部分進(jìn)行了整體的 LLM 評(píng)估。
結(jié)果顯示 Baichuan 2 系列大模型在大多數(shù)評(píng)估任務(wù)中的表現(xiàn)大幅領(lǐng)先 LLaMA2,緊追 GPT。
相較于此前開源的Baichuan-13B-chat,Baichuan2-13B-Chat在安全、對(duì)話、邏輯推理,語義理解、代碼等方面的能力有顯著提升,其中安全提升29%,對(duì)話提升42%,語義理解提升50%,邏輯推理提升58%,代碼提升70%。
不僅如此,Baichuan2-7B 僅憑70 億參數(shù)在英文基準(zhǔn)上就已經(jīng)能夠與 LLaMA2 的 130 億參數(shù)模型能力持平。這更從側(cè)面證明了Baichuan2系列模型在同參數(shù)級(jí)別下吊打LLaMA2的真實(shí)性。
Baichuan2之所以如此強(qiáng)悍,是因?yàn)榘俅ㄖ悄茉谘邪l(fā)過程中借鑒了很多搜索經(jīng)驗(yàn),對(duì)大量模型訓(xùn)練數(shù)據(jù)進(jìn)行了多粒度內(nèi)容質(zhì)量打分,同時(shí)Baichuan2-7B和Baichuan2-13B訓(xùn)練時(shí)均使用了 2.6 億 T 的語料,并且加入了多語言的支持。
與移動(dòng)互聯(lián)網(wǎng)時(shí)代手機(jī)操作系統(tǒng)比如安卓的開源不同,所謂的大模型開源,通常指的是公開自身的模型權(quán)重,很少有企業(yè)會(huì)選擇開源數(shù)據(jù)比重、數(shù)據(jù)處理等訓(xùn)練細(xì)節(jié)。
科研機(jī)構(gòu)、企業(yè)和開發(fā)者們即使拿到開源權(quán)限,也很難進(jìn)行深入研究。換言之,即使 OpenAI 大發(fā)善心馬上就將 GPT-4 的參數(shù)權(quán)重開源出來,從業(yè)者們能做的也是在其基礎(chǔ)上做一些淺層的微調(diào),想要復(fù)刻一個(gè)一模一樣的GPT-4 根本不可能。
為了更好地助力大模型的學(xué)術(shù)研究,百川智能公布了3000億到2.6萬億Token模型訓(xùn)練全過程的Check Ponit。
等于說,百川智能為大模型訓(xùn)練剖開了一個(gè)完整的切面,讓大家可以更直觀的了解到大模型預(yù)訓(xùn)練中的量化策略和模型的價(jià)值觀對(duì)齊等具體操作方法,這將為國(guó)內(nèi)大模型的科研工作提供極大助力,這種開源方式在中文大模型領(lǐng)域是首創(chuàng)。
不僅如此,百川智能還在發(fā)布會(huì)上公開了 Baichuan2-7B 的技術(shù)報(bào)告。技術(shù)報(bào)告詳細(xì)介紹了Baichuan2-7B 訓(xùn)練的全過程,包括數(shù)據(jù)處理、模型結(jié)構(gòu)優(yōu)化、Scaling Law、過程指標(biāo)等。
這一系列徹底開放的操作,相當(dāng)于重新定義了大模型“開源”,其開源模式或?qū)⒊蔀閲?guó)內(nèi)“開源”的標(biāo)桿。以后,“猶抱琵琶半遮面”式的開源將很難再出現(xiàn)。
另一個(gè)耐人尋味的事情是,在模型參數(shù)和結(jié)構(gòu)設(shè)置上,Baichuan開源大模型在盡可能的靠近 LLaMA系列,這意味著用戶能夠直接從LLaMA換成百川的模型。不難發(fā)現(xiàn),百川智能不僅要在與LLaMA2正面硬剛中完勝,還要來個(gè)“釜底抽薪”,簡(jiǎn)直贏麻了。
“生存還是毀滅,這是一個(gè)值得考慮的問題”,這是《哈姆雷特》中的經(jīng)典獨(dú)白。此前,國(guó)內(nèi)企業(yè)在模型的選擇上面臨著同樣的掙扎。
OpenAI 并不Open,只提供API調(diào)用,讓國(guó)內(nèi)從業(yè)人員頗為頭疼。LLaMA的開源,似乎讓國(guó)內(nèi)企業(yè)看到了更好的道路,尤其對(duì)于中小企業(yè)而言,無需從無到有訓(xùn)練一個(gè)基礎(chǔ)模型,可以極大節(jié)省成本。
但使用LLaMA 也面臨著兩個(gè)無解的問題。首先,LLaMA2在商業(yè)協(xié)議中明確表示不允許英文以外的語言商用,雖然不排除通過合理溝通解決這一問題的可能性,但需要耗費(fèi)巨大的機(jī)會(huì)成本。
其次,LLaMA的中文表現(xiàn)差強(qiáng)人意。由于它并非多語言模型,其預(yù)訓(xùn)練數(shù)據(jù)絕大部分使用的是英文數(shù)據(jù)集,中文預(yù)訓(xùn)練數(shù)據(jù)的占比僅為0.13%,即使使用高質(zhì)量中文數(shù)據(jù)集進(jìn)行微調(diào),中文表現(xiàn)也是慘不忍睹,而且慢得離譜。
除非重新構(gòu)建數(shù)據(jù)集中的語料配比,加大中文數(shù)據(jù)從頭進(jìn)行預(yù)訓(xùn)練,否則很難得到大幅提升。而基于大規(guī)模中文語料進(jìn)行預(yù)訓(xùn)練,基本和自研大模型無異,從實(shí)用的角度來看,LLaMA2并不能滿足中文環(huán)境的應(yīng)用需求。
Baichuan2 的開源,無疑將徹底改變這種兩難的局面。不論小扎愿不愿意承認(rèn),LLaMA在中文世界的時(shí)代都已經(jīng)結(jié)束了。
Baichuan 系列開源模型正在引領(lǐng)開源社區(qū)走向中文開源大模型時(shí)代,百川智能率先在通用人工智能的道路上留下了屬于中國(guó)人的聲音。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。