0
本文作者: 黃楠 | 2023-06-16 17:48 |
2021年,智源發(fā)布了“悟道 1.0 ”與 “悟道 2.0”?!拔虻?1.0”是當(dāng)時中國首個超大模型,“悟道 2.0”發(fā)布時成為全球最大的智能模型,模型參數(shù)規(guī)模達(dá)到 1.75 萬億,是 OpenAI 所發(fā)布的 GPT-3 的 10 倍,受到了國內(nèi)外的矚目。也因此,智源被斯坦福、谷歌等企業(yè)列為大模型的先驅(qū)。
盡管如此,由于早期,大模型還缺乏好的應(yīng)用場景和產(chǎn)品,價值始終無法發(fā)揮,大模型的研發(fā)也曾受到一些爭議。而智源更是在大模型的算法研發(fā)尚未明朗的階段,就已經(jīng)開始了籌備開源與基礎(chǔ)設(shè)施的構(gòu)建,這在當(dāng)時也令不少行業(yè)人士十分詫異。
在過去不到一年的時間里,ChatGPT 帶火了大模型。曾經(jīng)的唱衰者回頭看,才驚覺智源這一舉措的前瞻性。早在大模型的潛力還不為大多數(shù)人所熟悉時,智源是國內(nèi)為數(shù)不多率先關(guān)注 AI 大模型開源與基礎(chǔ)工作的機構(gòu)之一。
作為國內(nèi)最早布局大模型研發(fā)的機構(gòu),智源區(qū)別于其他家的一點是,在大模型的基礎(chǔ)配套系統(tǒng)與設(shè)施上有更早期、更全面的布局。
大模型的范式變革,注定了算法的創(chuàng)新只是第一步,底層算力、網(wǎng)絡(luò)、存儲、大數(shù)據(jù)、AI 框架等等復(fù)雜的系統(tǒng)性工程問題也同等重要,如同電動汽車的普及需要便利的充電樁、針對電車的維修與保養(yǎng)中心等等,需要體系化的基礎(chǔ)設(shè)施支撐。沒有基礎(chǔ)設(shè)施,就相當(dāng)于在馬車時代發(fā)明了汽車,大模型只能停留在“馬拉小車”的階段。
大模型時代的到來,是一場技術(shù)變革解決實際落地問題的重要突破。
那么,全局考慮下的大模型研發(fā),又有著怎樣的過人之處?
今年 6 月的智源大會上,北京智源人工智能研究院交出了一份別開生面的成績單。
黃鐵軍發(fā)布《2023 智源研究院進(jìn)展報告》
“悟道 3.0 ”有哪些開創(chuàng)性的成就?
繼 2021 年悟道大模型項目連創(chuàng)“中國首個+世界最大”紀(jì)錄之后,時隔 2 年多,智源發(fā)布并全面開源“悟道3.0”系列模型。
值得注意的是,智源的關(guān)注點不僅是模型本身,更包括模型背后的算力平臺建設(shè)、數(shù)據(jù)梳理、模型能力評測、算法測試、開源開放組織等體系化工作。
“悟道3.0 ”包括“悟道·天鷹”(Aquila)語言大模型系列、“悟道 · 視界”視覺大模型系列,以及一系列多模態(tài)模型成果。同期,F(xiàn)lagOpen大模型技術(shù)開源體系也上新了天秤(FlagEval)開源大模型評測體系與開放平臺,
智源自研,更新的架構(gòu)
相比于悟道1.0、“悟道2.0 ” 是由智源與多個外部實驗室聯(lián)合發(fā)布的研究成果,悟道3.0 系列大模型是由智源研究院團(tuán)隊自研完成。
2021 年,智源推出了“悟道2.0 ” 系列模型,其語言模型、如 GLM 以及文生圖模型、如 CogView 等,經(jīng)過兩年的發(fā)展在相關(guān)領(lǐng)域已實現(xiàn)進(jìn)一步發(fā)展演進(jìn)。對此,基于過去模型的研究,“悟道3.0”在很多方向進(jìn)行了重構(gòu)。
據(jù)智源研究院副院長兼總工程師林詠華介紹,如語言模型中采用 Decoder-Only 的架構(gòu),已證實在加以更高質(zhì)量的數(shù)據(jù)之上,可在大規(guī)模參數(shù)的基礎(chǔ)模型中獲得更好的生成性能;而在文生圖模型中,智源也改用了基于 difussion 模型來進(jìn)行創(chuàng)新。
悟道·天鷹Aquila基礎(chǔ)模型(7B、33B)則集成了 GPT-3、LLaMA 等模型架構(gòu)設(shè)計優(yōu)點,在替換更高效的底層算子、重新設(shè)計實現(xiàn)了中英雙語 tokenizer 的同時,升級 BMTrain 并行訓(xùn)練方法,從而使 Aquila 訓(xùn)練過程中達(dá)到比LLaMA還要高24%的訓(xùn)練效率。
同時,AquilaChat 還能通過定義可擴展的特殊指令規(guī)范,對其它模型和工具的調(diào)用。舉個例子,對 AquilaChat 給出一個“生成唐裝女性肖像圖”的指令,AquilaChat 通過調(diào)用智源開源的 AltDiffusion 多語言文圖生成模型,可實現(xiàn)流暢的文圖生成能力。
文圖生成
深層次數(shù)據(jù)清洗,更合規(guī)、更干凈
“悟道·天鷹”(Aquila)語言大模型系列由 Aquila 基礎(chǔ)模型、AquilaChat 對話模型和 AquilaCode 文本 - 代碼生成模型構(gòu)成。
今天大模型“智能涌現(xiàn)”能力的出現(xiàn),與其背后海量的數(shù)據(jù)分不開。 語言數(shù)據(jù)本身蘊含著豐富的知識和智能,大模型靠海量數(shù)據(jù)訓(xùn)練,發(fā)現(xiàn)海量數(shù)據(jù)內(nèi)存在的結(jié)構(gòu)和規(guī)律后,出現(xiàn)了涌現(xiàn)能力。
作為首個支持中英雙語知識、開源商用許可的語言大模型,“悟道·天鷹” Aquila 與 LLaMA、OPT 等以英文為主的學(xué)習(xí)模型不同,其“中英雙語”的特性提升了訓(xùn)練難度, 要實現(xiàn)好性能也更具挑戰(zhàn)性。
為此,研究團(tuán)隊在中英文高質(zhì)量語料基礎(chǔ)上從0開始訓(xùn)練悟道·天鷹 Aquila 語言大模型,放入接近 40% 的高質(zhì)量中文語料,包括中文互聯(lián)網(wǎng)數(shù)據(jù)、中文書籍、中文教材、中文文獻(xiàn)及百科等。
此前大部分模型數(shù)據(jù)的主要來源都來自知名的開源數(shù)據(jù)集如 Common Crawl 等。智源在抽取其100 萬條中文數(shù)據(jù)分析其站源情況后發(fā)現(xiàn),來自中國大陸的站源僅占17%,83%站源來自海外的中文網(wǎng)站,在內(nèi)容合規(guī)性、安全性上有很大的風(fēng)險。
相較之下,“悟道·天鷹” Aquila 的中文互聯(lián)網(wǎng)數(shù)據(jù) 99% 來自國內(nèi)網(wǎng)站,并沒有使用 Common Crawl 內(nèi)中文任何預(yù)料,而是使用了智源過去三年多積累的悟道數(shù)據(jù)集,使用戶可以放心地基于它做持續(xù)訓(xùn)練。
與“悟道·天鷹” Aquila 同期發(fā)布的智源 FlagEval 大語言模型評測體系目前涵蓋了 22 個主觀和客觀評測集,84433 道題目,細(xì)粒度刻畫大模型的認(rèn)知能力。基于“悟道 · 天鷹”Aquila 基礎(chǔ)模型(7B)打造的 AquilaChat 對話模型,在 FlagEval 評測榜單(flageval.baai.ac.cn)上,目前暫時在“主觀+客觀”的評測上領(lǐng)先其他同參數(shù)量級別的開源對話模型,包括基于 LLaMA 系列微調(diào)模型 Alpaca 等。在最新評測結(jié)果中,AquilaChat 以大約相當(dāng)于其他模型 50% 的訓(xùn)練數(shù)據(jù)量(SFT 數(shù)據(jù)+預(yù)訓(xùn)練數(shù)據(jù)分別統(tǒng)計)達(dá)到了最優(yōu)性能。但由于當(dāng)前的英文數(shù)據(jù)僅訓(xùn)練了相當(dāng)于 Alpaca 的 40%,所以在英文的客觀評測上還暫時落后于基于 LLaMA 進(jìn)行指令微調(diào)的 Alpaca。隨著后續(xù)訓(xùn)練的進(jìn)行,相信很快可以超越。
林詠華介紹,這個結(jié)果主要得益于數(shù)據(jù)質(zhì)量提升。在 LLaMA 中,開源數(shù)據(jù)集 Common Crawl 占比達(dá)到了 67%,相較之下,智源在預(yù)訓(xùn)練數(shù)據(jù)處理時會對數(shù)據(jù)進(jìn)行深層次清洗,特別是互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行多次清洗,使數(shù)據(jù)更滿足合規(guī)需要、更干凈。
“悟道·天鷹”Aquila 語言大模型通過數(shù)據(jù)質(zhì)量的控制、多種訓(xùn)練的優(yōu)化方法,實現(xiàn)了在更小的數(shù)據(jù)集、更短的訓(xùn)練時間,獲得比其它開源模型更優(yōu)的性能。
基于 Aquila-7B 強大的基礎(chǔ)模型能力,智源推出的AquilaCode-7B “文本-代碼”生成模型,是基于 The Stack 數(shù)據(jù)集進(jìn)行抽取和高質(zhì)量過濾,使用了約 200GB 的數(shù)據(jù)進(jìn)行訓(xùn)練,,以小數(shù)據(jù)集、小參數(shù)量,實現(xiàn)高性能,是目前支持中英雙語的、性能最好的開源代碼模型。此外,AquilaCode-7B 在英偉達(dá)和國產(chǎn)芯片上分別完成了代碼模型的訓(xùn)練,此舉意在通過對多種架構(gòu)的代碼+模型開源,推動芯片創(chuàng)新和百花齊放。
通用性更強,應(yīng)用門檻低
此前業(yè)界討論大模型時,往往焦點都放在了語言大模型。有的看法認(rèn)為,視覺和語音是屬于感知層面的智能,很多動物也具備,因此感知智能是比較基礎(chǔ)、也比較低端的智能,而語言層面則是更高端的“認(rèn)知智能”。
但人的智能行為是多模態(tài)的,視覺作為 AI 重要組成分支,視覺大模型在近半年里也多有突破,例如 Meta 發(fā)布的通用圖像分割模型 SAM、智源推出的 SegGPT 等。
此次悟道3.0 系列模型中,智源也發(fā)布了“悟道·視界”視覺大模型系列,包括在多模態(tài)序列中補全一切的多模態(tài)大模型 Emu,最強十億級視覺基礎(chǔ)模型 EVA,一通百通、分割一切的視界通用分割模型,首創(chuàng)上下文圖像學(xué)習(xí)技術(shù)路徑的通用視覺模型Painter,性能最強開源CLIP模型 EVA-CLIP,簡單prompt(提示)即可視頻編輯的 vid2vid-zero 零樣本視頻編輯技術(shù)。
“悟道·視界”視覺大模型系列模型通用性更強,系統(tǒng)化解決了當(dāng)前視覺領(lǐng)域存在的任務(wù)統(tǒng)一、模型規(guī)?;约皵?shù)據(jù)效率等系列瓶頸問題。
比如此次推出的多模態(tài)大模型 Emu ,可接受多模態(tài)輸入、產(chǎn)生多模態(tài)輸出。通過學(xué)習(xí)圖文、交錯圖文、交錯視頻文本等海量多模態(tài)序列,實現(xiàn)在圖像、文本和視頻等不同模態(tài)間的理解、推理和生成。在完成訓(xùn)練后,Emu 可在多模態(tài)序列的上下文中補全一切,實現(xiàn)多輪圖文對話、視頻理解、精準(zhǔn)圖像認(rèn)知、文圖生成、多模態(tài)上下文學(xué)習(xí)、視頻問答和圖圖生成等多模態(tài)能力。
最強十億級視覺基礎(chǔ)模型 EVA,該模型結(jié)合了語義學(xué)習(xí)模型(CLIP)和幾何結(jié)構(gòu)學(xué)習(xí)(MIM)兩大關(guān)鍵點,在僅使用標(biāo)準(zhǔn) ViT 模型的情況下,使 EVA 擁有了更高效、簡單的兩大優(yōu)點,模型通用性更強。目前已在 ImageNet 分類、COCO 檢測分割、Kinetics 視頻分類等廣泛的視覺感知任務(wù)中取得最優(yōu)性能。
多模態(tài)圖文預(yù)訓(xùn)練大模型 EVA-CLIP 是基于視覺基礎(chǔ)模型 EVA 研發(fā),目前參數(shù)量達(dá)到 50 億參數(shù)。與此前 80.1% 準(zhǔn)確率的 OpenCLIP 相比,EVA-CLIP 5B版本在 ImageNet1K 零樣本top1 準(zhǔn)確率達(dá)到了 82.0%。
智源“悟道·視界”的另一成果是,今年年初發(fā)布的一通百通、分割一切的視界通用分割模型,其與 SAM 模型同時發(fā)布,是首個利用視覺提示(prompt)完成任意分割任務(wù)的通用視覺模型,可從影像中分割出各種各樣的對象,是視覺智能的關(guān)鍵里程碑。
建立科學(xué)、公正、開放的評測基準(zhǔn)
當(dāng)前,大模型仍具有諸多難以透徹理解的黑盒特性,規(guī)模大、結(jié)構(gòu)復(fù)雜,對其所待開發(fā)的“潛力”具體形式和上限尚無法確定,傳統(tǒng)的評測方法和基準(zhǔn)在基礎(chǔ)模型評測上也面臨著失效的問題。
在這種迫切的情況下,我們亟需搭建起一套科學(xué)、公正、開放的大模型評測體系,這有助于在學(xué)術(shù)上拉動大模型創(chuàng)新,構(gòu)建可以衡量大模型的能力和質(zhì)量的尺子。同時在產(chǎn)業(yè)上,為不具備研發(fā)和構(gòu)建基礎(chǔ)大模型的企業(yè)提供一個可信可靠的全面的評測體系,將幫助他們更客觀地選擇適用于自身的大模型。
為此,智源優(yōu)先推出了天秤(FlagEval)大模型評測體系及開放平臺,創(chuàng)新性地構(gòu)建了“能力 - 任務(wù) - 指標(biāo)”的三維評測框架,細(xì)粒度地刻畫基礎(chǔ)模型的認(rèn)知能力邊界,呈現(xiàn)可視化評測結(jié)果,提供 30 + 能力、5 種任務(wù)、4 大類指標(biāo)共 600 + 維全面評測,任務(wù)維度當(dāng)前包括 22 個主客觀評測數(shù)據(jù)集和 84433 道題目,更多維度的評測數(shù)據(jù)集正在陸續(xù)集成。
目前,天秤 FlagEval 大模型評測體系及開放平臺已推出語言大模型評測、多國語言文圖大模型評測及文圖生成評測等工具,并對各種語言基礎(chǔ)模型、跨模態(tài)基礎(chǔ)模型實現(xiàn)評測。后續(xù)將全面覆蓋基礎(chǔ)模型、預(yù)訓(xùn)練算法、微調(diào)算法等三大評測對象,包括自然語言處理、計算機視覺、音頻及多模態(tài)等四大評測場景和豐富的下游任務(wù)。天秤 FlagEval 將繼續(xù)拓展和完善“大模型認(rèn)知能力”框架,集成豐富的數(shù)據(jù)集與評測指標(biāo),并探索與心理學(xué)、教育學(xué)、倫理學(xué)等社會學(xué)科的交叉研究,以期更加科學(xué)、全面地評價語言大模型。
為未來智能運營商提供底層支持
2021 年 3 月,在“悟道 1.0 ”的發(fā)布現(xiàn)場,黃鐵軍表示,人工智能的發(fā)展已經(jīng)從“大煉模型”逐步邁向了“煉大模型”的階段。在此之前,學(xué)術(shù)界稱“大模型”一直是“預(yù)訓(xùn)練模型”,但從這一刻起,智源給了一個更接地氣的叫法,“大模型”概念正式進(jìn)入公眾視野。
不同于國內(nèi)大部分做大模型研發(fā)的公司,可以說,智源是第一個關(guān)注大模型基礎(chǔ)設(shè)施的團(tuán)隊。由張宏江、黃鐵軍首次提出的“大模型是 AI 時代的智能基礎(chǔ)運營商”的說法,如今看來也極具前瞻性。
如果說模型和算法是讓機器得以轉(zhuǎn)動的電力,那么擔(dān)任發(fā)電廠角色的大模型,則非所有機構(gòu)和企業(yè)都能參與角逐的對象。
同時我們也看到,基礎(chǔ)設(shè)施的體系化建設(shè)非一家之力可以完成,需要更多機構(gòu)協(xié)力合作,建立提供數(shù)據(jù)、訓(xùn)練、評測、治理等全套服務(wù)。此前黃鐵軍就曾斷言,“不可能、也不應(yīng)該有任何一家企業(yè)來完全封閉地主導(dǎo)大模型這么一個重要的方向。”
大模型技術(shù)經(jīng)過這幾年的你追我趕,研發(fā)技術(shù)上已較為成熟,而 ChatGPT 和 GPT-4 的火爆,將大模型應(yīng)用拉向了大規(guī)模落地的階段。
這當(dāng)中,開源扮演著重要角色。
林詠華作《悟道·天鷹大模型——工程化打造AI中的“CPU”》主題報告
林詠華認(rèn)為,智源大模型開源的必要點在于,基于大模型本身的特色,需要構(gòu)建一個的開源系統(tǒng)。
從研發(fā)的角度來看,大模型目前還面臨著三個突出的難題。一方面,大模型技術(shù)復(fù)雜,各種開源框架和算法增加了開發(fā)者的學(xué)習(xí)難度,加上許多開源算法的模塊沒有統(tǒng)一接口,以至于在研究時僅適配階段就要花耗很多時間;其次,開源模型質(zhì)量也參差不齊;更重要的是,大模型在系統(tǒng)層面的工程浩大,訓(xùn)練和推理都需要很大的平臺算力去支持。
面對重重困難,智源先于行業(yè)一步開始大模型的開源工作,目前也取得了一定的成果。具體來看,智源不但開源了悟道大模型項目,也打造了大模型技術(shù)開源體系(FlagOpen飛智),對模型、工具、算法代碼等開源。
其中,F(xiàn)lagOpen 的核心 FlagAI 是大模型算法開源項目,當(dāng)中集成了全球各領(lǐng)域的一些明星模型,如語言大模型OPT、T5,視覺大模型 ViT、Swin Transformer,多模態(tài)大模型 CLIP 等,也包含了智源自家的明星大模型,此次發(fā)布的悟道 · 天鷹 Aquila 就集成到了 FlagAI 開源項目中(https://github.com/FlagAI-Open/FlagAI)。
在目前開源項目中,F(xiàn)lagAI 開源最早,從 2022 年 6 月開始,F(xiàn)lagOpen 整個開源體系也是圍繞大模型去建設(shè)。從體系化的角度做大模型生態(tài),智源想將 FlagOpen 打造成新浪潮里的“新Linux”生態(tài)。
在模型之外,智源也做了很多的工作,例如此前推出的混合架構(gòu)云平臺九鼎,不僅滿足了不同模型對算力要求的調(diào)度,作為大模型系統(tǒng)創(chuàng)新的試驗場,可在平臺上率先進(jìn)行 AI 系統(tǒng)創(chuàng)新,九鼎還肩負(fù)著用大模型來拉動多種 AI 加速算力的重任。
目前,國內(nèi)大部分應(yīng)用層公司的普遍思路主要有兩個,一類是直接用大模型將現(xiàn)有的軟件升級一遍,另一類是基于行業(yè) Know-How 訓(xùn)練出自己的模型算法、在此基礎(chǔ)上再提供應(yīng)用服務(wù)。對許多企業(yè)來說,從 0 到 1 不斷訓(xùn)練、優(yōu)化大模型往往并不經(jīng)濟(jì),各行各業(yè)都需要成本足夠低的 AI 基礎(chǔ)設(shè)施。
在開源模式下,企業(yè)憑借公開的源代碼,可以在已有的基礎(chǔ)框架上、基于自身業(yè)務(wù)需求做訓(xùn)練和二次開發(fā),例如在 FlagAI 上,當(dāng)中集成了很多主流大模型算法技術(shù),此外還有多種大模型并行處理和訓(xùn)練加速技術(shù),并且支持微調(diào),開箱即可使用,應(yīng)用門檻低,對企業(yè)應(yīng)用和開發(fā)者創(chuàng)新都非常友好。
這種基于開源模型做自主創(chuàng)新的方式,發(fā)揮了大模型通用性上的優(yōu)勢,模型效果專業(yè)性也更強,從而釋放出遠(yuǎn)超于當(dāng)前的生產(chǎn)力。
智源始終堅持全面開源,在開源體系下豐富算力平臺、大模型服務(wù)等 AI 基礎(chǔ)設(shè)施,讓企業(yè)不必再“重復(fù)造輪子”、陷入對算力和算法無意義內(nèi)卷中去,而是把更多的精力投入到原創(chuàng)的、專屬的模型研發(fā)和應(yīng)用革新中。
對于企業(yè)而言,使用開源的技術(shù)和產(chǎn)品還遠(yuǎn)不止是成本上的考量,同時也是對風(fēng)險的規(guī)避、降低和質(zhì)量的提高。例如 Meta 在今年年初開源的 LLaMa,就規(guī)定了其版權(quán)不可以商用,基于 LLaMa 微調(diào)的新模型也不能商用,而智源所開源的悟道 · 天鷹 Aquila 大模型則是真正在協(xié)議規(guī)定上支持商用。
以大模型為核心的新生態(tài)正在形成,在變革的浪潮里,技術(shù)創(chuàng)新引領(lǐng)不斷向前的方向,而起到支撐性作用的基礎(chǔ)設(shè)施、將決定我們能走得多遠(yuǎn)。智源舉開源之力,促進(jìn)大模型時代的協(xié)同創(chuàng)新,讓更多企業(yè)能放心地把大模型用起來,一起參與到智能未來藍(lán)圖的繪制中去。
(雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。