0
本文作者: 黃楠 | 2023-06-16 17:48 |
2021年,智源發(fā)布了“悟道 1.0 ”與 “悟道 2.0”?!拔虻?1.0”是當(dāng)時(shí)中國(guó)首個(gè)超大模型,“悟道 2.0”發(fā)布時(shí)成為全球最大的智能模型,模型參數(shù)規(guī)模達(dá)到 1.75 萬(wàn)億,是 OpenAI 所發(fā)布的 GPT-3 的 10 倍,受到了國(guó)內(nèi)外的矚目。也因此,智源被斯坦福、谷歌等企業(yè)列為大模型的先驅(qū)。
盡管如此,由于早期,大模型還缺乏好的應(yīng)用場(chǎng)景和產(chǎn)品,價(jià)值始終無(wú)法發(fā)揮,大模型的研發(fā)也曾受到一些爭(zhēng)議。而智源更是在大模型的算法研發(fā)尚未明朗的階段,就已經(jīng)開(kāi)始了籌備開(kāi)源與基礎(chǔ)設(shè)施的構(gòu)建,這在當(dāng)時(shí)也令不少行業(yè)人士十分詫異。
在過(guò)去不到一年的時(shí)間里,ChatGPT 帶火了大模型。曾經(jīng)的唱衰者回頭看,才驚覺(jué)智源這一舉措的前瞻性。早在大模型的潛力還不為大多數(shù)人所熟悉時(shí),智源是國(guó)內(nèi)為數(shù)不多率先關(guān)注 AI 大模型開(kāi)源與基礎(chǔ)工作的機(jī)構(gòu)之一。
作為國(guó)內(nèi)最早布局大模型研發(fā)的機(jī)構(gòu),智源區(qū)別于其他家的一點(diǎn)是,在大模型的基礎(chǔ)配套系統(tǒng)與設(shè)施上有更早期、更全面的布局。
大模型的范式變革,注定了算法的創(chuàng)新只是第一步,底層算力、網(wǎng)絡(luò)、存儲(chǔ)、大數(shù)據(jù)、AI 框架等等復(fù)雜的系統(tǒng)性工程問(wèn)題也同等重要,如同電動(dòng)汽車(chē)的普及需要便利的充電樁、針對(duì)電車(chē)的維修與保養(yǎng)中心等等,需要體系化的基礎(chǔ)設(shè)施支撐。沒(méi)有基礎(chǔ)設(shè)施,就相當(dāng)于在馬車(chē)時(shí)代發(fā)明了汽車(chē),大模型只能停留在“馬拉小車(chē)”的階段。
大模型時(shí)代的到來(lái),是一場(chǎng)技術(shù)變革解決實(shí)際落地問(wèn)題的重要突破。
那么,全局考慮下的大模型研發(fā),又有著怎樣的過(guò)人之處?
今年 6 月的智源大會(huì)上,北京智源人工智能研究院交出了一份別開(kāi)生面的成績(jī)單。
黃鐵軍發(fā)布《2023 智源研究院進(jìn)展報(bào)告》
“悟道 3.0 ”有哪些開(kāi)創(chuàng)性的成就?
繼 2021 年悟道大模型項(xiàng)目連創(chuàng)“中國(guó)首個(gè)+世界最大”紀(jì)錄之后,時(shí)隔 2 年多,智源發(fā)布并全面開(kāi)源“悟道3.0”系列模型。
值得注意的是,智源的關(guān)注點(diǎn)不僅是模型本身,更包括模型背后的算力平臺(tái)建設(shè)、數(shù)據(jù)梳理、模型能力評(píng)測(cè)、算法測(cè)試、開(kāi)源開(kāi)放組織等體系化工作。
“悟道3.0 ”包括“悟道·天鷹”(Aquila)語(yǔ)言大模型系列、“悟道 · 視界”視覺(jué)大模型系列,以及一系列多模態(tài)模型成果。同期,F(xiàn)lagOpen大模型技術(shù)開(kāi)源體系也上新了天秤(FlagEval)開(kāi)源大模型評(píng)測(cè)體系與開(kāi)放平臺(tái),
智源自研,更新的架構(gòu)
相比于悟道1.0、“悟道2.0 ” 是由智源與多個(gè)外部實(shí)驗(yàn)室聯(lián)合發(fā)布的研究成果,悟道3.0 系列大模型是由智源研究院團(tuán)隊(duì)自研完成。
2021 年,智源推出了“悟道2.0 ” 系列模型,其語(yǔ)言模型、如 GLM 以及文生圖模型、如 CogView 等,經(jīng)過(guò)兩年的發(fā)展在相關(guān)領(lǐng)域已實(shí)現(xiàn)進(jìn)一步發(fā)展演進(jìn)。對(duì)此,基于過(guò)去模型的研究,“悟道3.0”在很多方向進(jìn)行了重構(gòu)。
據(jù)智源研究院副院長(zhǎng)兼總工程師林詠華介紹,如語(yǔ)言模型中采用 Decoder-Only 的架構(gòu),已證實(shí)在加以更高質(zhì)量的數(shù)據(jù)之上,可在大規(guī)模參數(shù)的基礎(chǔ)模型中獲得更好的生成性能;而在文生圖模型中,智源也改用了基于 difussion 模型來(lái)進(jìn)行創(chuàng)新。
悟道·天鷹Aquila基礎(chǔ)模型(7B、33B)則集成了 GPT-3、LLaMA 等模型架構(gòu)設(shè)計(jì)優(yōu)點(diǎn),在替換更高效的底層算子、重新設(shè)計(jì)實(shí)現(xiàn)了中英雙語(yǔ) tokenizer 的同時(shí),升級(jí) BMTrain 并行訓(xùn)練方法,從而使 Aquila 訓(xùn)練過(guò)程中達(dá)到比LLaMA還要高24%的訓(xùn)練效率。
同時(shí),AquilaChat 還能通過(guò)定義可擴(kuò)展的特殊指令規(guī)范,對(duì)其它模型和工具的調(diào)用。舉個(gè)例子,對(duì) AquilaChat 給出一個(gè)“生成唐裝女性肖像圖”的指令,AquilaChat 通過(guò)調(diào)用智源開(kāi)源的 AltDiffusion 多語(yǔ)言文圖生成模型,可實(shí)現(xiàn)流暢的文圖生成能力。
文圖生成
深層次數(shù)據(jù)清洗,更合規(guī)、更干凈
“悟道·天鷹”(Aquila)語(yǔ)言大模型系列由 Aquila 基礎(chǔ)模型、AquilaChat 對(duì)話(huà)模型和 AquilaCode 文本 - 代碼生成模型構(gòu)成。
今天大模型“智能涌現(xiàn)”能力的出現(xiàn),與其背后海量的數(shù)據(jù)分不開(kāi)。 語(yǔ)言數(shù)據(jù)本身蘊(yùn)含著豐富的知識(shí)和智能,大模型靠海量數(shù)據(jù)訓(xùn)練,發(fā)現(xiàn)海量數(shù)據(jù)內(nèi)存在的結(jié)構(gòu)和規(guī)律后,出現(xiàn)了涌現(xiàn)能力。
作為首個(gè)支持中英雙語(yǔ)知識(shí)、開(kāi)源商用許可的語(yǔ)言大模型,“悟道·天鷹” Aquila 與 LLaMA、OPT 等以英文為主的學(xué)習(xí)模型不同,其“中英雙語(yǔ)”的特性提升了訓(xùn)練難度, 要實(shí)現(xiàn)好性能也更具挑戰(zhàn)性。
為此,研究團(tuán)隊(duì)在中英文高質(zhì)量語(yǔ)料基礎(chǔ)上從0開(kāi)始訓(xùn)練悟道·天鷹 Aquila 語(yǔ)言大模型,放入接近 40% 的高質(zhì)量中文語(yǔ)料,包括中文互聯(lián)網(wǎng)數(shù)據(jù)、中文書(shū)籍、中文教材、中文文獻(xiàn)及百科等。
此前大部分模型數(shù)據(jù)的主要來(lái)源都來(lái)自知名的開(kāi)源數(shù)據(jù)集如 Common Crawl 等。智源在抽取其100 萬(wàn)條中文數(shù)據(jù)分析其站源情況后發(fā)現(xiàn),來(lái)自中國(guó)大陸的站源僅占17%,83%站源來(lái)自海外的中文網(wǎng)站,在內(nèi)容合規(guī)性、安全性上有很大的風(fēng)險(xiǎn)。
相較之下,“悟道·天鷹” Aquila 的中文互聯(lián)網(wǎng)數(shù)據(jù) 99% 來(lái)自國(guó)內(nèi)網(wǎng)站,并沒(méi)有使用 Common Crawl 內(nèi)中文任何預(yù)料,而是使用了智源過(guò)去三年多積累的悟道數(shù)據(jù)集,使用戶(hù)可以放心地基于它做持續(xù)訓(xùn)練。
與“悟道·天鷹” Aquila 同期發(fā)布的智源 FlagEval 大語(yǔ)言模型評(píng)測(cè)體系目前涵蓋了 22 個(gè)主觀(guān)和客觀(guān)評(píng)測(cè)集,84433 道題目,細(xì)粒度刻畫(huà)大模型的認(rèn)知能力。基于“悟道 · 天鷹”Aquila 基礎(chǔ)模型(7B)打造的 AquilaChat 對(duì)話(huà)模型,在 FlagEval 評(píng)測(cè)榜單(flageval.baai.ac.cn)上,目前暫時(shí)在“主觀(guān)+客觀(guān)”的評(píng)測(cè)上領(lǐng)先其他同參數(shù)量級(jí)別的開(kāi)源對(duì)話(huà)模型,包括基于 LLaMA 系列微調(diào)模型 Alpaca 等。在最新評(píng)測(cè)結(jié)果中,AquilaChat 以大約相當(dāng)于其他模型 50% 的訓(xùn)練數(shù)據(jù)量(SFT 數(shù)據(jù)+預(yù)訓(xùn)練數(shù)據(jù)分別統(tǒng)計(jì))達(dá)到了最優(yōu)性能。但由于當(dāng)前的英文數(shù)據(jù)僅訓(xùn)練了相當(dāng)于 Alpaca 的 40%,所以在英文的客觀(guān)評(píng)測(cè)上還暫時(shí)落后于基于 LLaMA 進(jìn)行指令微調(diào)的 Alpaca。隨著后續(xù)訓(xùn)練的進(jìn)行,相信很快可以超越。
林詠華介紹,這個(gè)結(jié)果主要得益于數(shù)據(jù)質(zhì)量提升。在 LLaMA 中,開(kāi)源數(shù)據(jù)集 Common Crawl 占比達(dá)到了 67%,相較之下,智源在預(yù)訓(xùn)練數(shù)據(jù)處理時(shí)會(huì)對(duì)數(shù)據(jù)進(jìn)行深層次清洗,特別是互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行多次清洗,使數(shù)據(jù)更滿(mǎn)足合規(guī)需要、更干凈。
“悟道·天鷹”Aquila 語(yǔ)言大模型通過(guò)數(shù)據(jù)質(zhì)量的控制、多種訓(xùn)練的優(yōu)化方法,實(shí)現(xiàn)了在更小的數(shù)據(jù)集、更短的訓(xùn)練時(shí)間,獲得比其它開(kāi)源模型更優(yōu)的性能。
基于 Aquila-7B 強(qiáng)大的基礎(chǔ)模型能力,智源推出的AquilaCode-7B “文本-代碼”生成模型,是基于 The Stack 數(shù)據(jù)集進(jìn)行抽取和高質(zhì)量過(guò)濾,使用了約 200GB 的數(shù)據(jù)進(jìn)行訓(xùn)練,,以小數(shù)據(jù)集、小參數(shù)量,實(shí)現(xiàn)高性能,是目前支持中英雙語(yǔ)的、性能最好的開(kāi)源代碼模型。此外,AquilaCode-7B 在英偉達(dá)和國(guó)產(chǎn)芯片上分別完成了代碼模型的訓(xùn)練,此舉意在通過(guò)對(duì)多種架構(gòu)的代碼+模型開(kāi)源,推動(dòng)芯片創(chuàng)新和百花齊放。
通用性更強(qiáng),應(yīng)用門(mén)檻低
此前業(yè)界討論大模型時(shí),往往焦點(diǎn)都放在了語(yǔ)言大模型。有的看法認(rèn)為,視覺(jué)和語(yǔ)音是屬于感知層面的智能,很多動(dòng)物也具備,因此感知智能是比較基礎(chǔ)、也比較低端的智能,而語(yǔ)言層面則是更高端的“認(rèn)知智能”。
但人的智能行為是多模態(tài)的,視覺(jué)作為 AI 重要組成分支,視覺(jué)大模型在近半年里也多有突破,例如 Meta 發(fā)布的通用圖像分割模型 SAM、智源推出的 SegGPT 等。
此次悟道3.0 系列模型中,智源也發(fā)布了“悟道·視界”視覺(jué)大模型系列,包括在多模態(tài)序列中補(bǔ)全一切的多模態(tài)大模型 Emu,最強(qiáng)十億級(jí)視覺(jué)基礎(chǔ)模型 EVA,一通百通、分割一切的視界通用分割模型,首創(chuàng)上下文圖像學(xué)習(xí)技術(shù)路徑的通用視覺(jué)模型Painter,性能最強(qiáng)開(kāi)源CLIP模型 EVA-CLIP,簡(jiǎn)單prompt(提示)即可視頻編輯的 vid2vid-zero 零樣本視頻編輯技術(shù)。
“悟道·視界”視覺(jué)大模型系列模型通用性更強(qiáng),系統(tǒng)化解決了當(dāng)前視覺(jué)領(lǐng)域存在的任務(wù)統(tǒng)一、模型規(guī)?;约皵?shù)據(jù)效率等系列瓶頸問(wèn)題。
比如此次推出的多模態(tài)大模型 Emu ,可接受多模態(tài)輸入、產(chǎn)生多模態(tài)輸出。通過(guò)學(xué)習(xí)圖文、交錯(cuò)圖文、交錯(cuò)視頻文本等海量多模態(tài)序列,實(shí)現(xiàn)在圖像、文本和視頻等不同模態(tài)間的理解、推理和生成。在完成訓(xùn)練后,Emu 可在多模態(tài)序列的上下文中補(bǔ)全一切,實(shí)現(xiàn)多輪圖文對(duì)話(huà)、視頻理解、精準(zhǔn)圖像認(rèn)知、文圖生成、多模態(tài)上下文學(xué)習(xí)、視頻問(wèn)答和圖圖生成等多模態(tài)能力。
最強(qiáng)十億級(jí)視覺(jué)基礎(chǔ)模型 EVA,該模型結(jié)合了語(yǔ)義學(xué)習(xí)模型(CLIP)和幾何結(jié)構(gòu)學(xué)習(xí)(MIM)兩大關(guān)鍵點(diǎn),在僅使用標(biāo)準(zhǔn) ViT 模型的情況下,使 EVA 擁有了更高效、簡(jiǎn)單的兩大優(yōu)點(diǎn),模型通用性更強(qiáng)。目前已在 ImageNet 分類(lèi)、COCO 檢測(cè)分割、Kinetics 視頻分類(lèi)等廣泛的視覺(jué)感知任務(wù)中取得最優(yōu)性能。
多模態(tài)圖文預(yù)訓(xùn)練大模型 EVA-CLIP 是基于視覺(jué)基礎(chǔ)模型 EVA 研發(fā),目前參數(shù)量達(dá)到 50 億參數(shù)。與此前 80.1% 準(zhǔn)確率的 OpenCLIP 相比,EVA-CLIP 5B版本在 ImageNet1K 零樣本top1 準(zhǔn)確率達(dá)到了 82.0%。
智源“悟道·視界”的另一成果是,今年年初發(fā)布的一通百通、分割一切的視界通用分割模型,其與 SAM 模型同時(shí)發(fā)布,是首個(gè)利用視覺(jué)提示(prompt)完成任意分割任務(wù)的通用視覺(jué)模型,可從影像中分割出各種各樣的對(duì)象,是視覺(jué)智能的關(guān)鍵里程碑。
建立科學(xué)、公正、開(kāi)放的評(píng)測(cè)基準(zhǔn)
當(dāng)前,大模型仍具有諸多難以透徹理解的黑盒特性,規(guī)模大、結(jié)構(gòu)復(fù)雜,對(duì)其所待開(kāi)發(fā)的“潛力”具體形式和上限尚無(wú)法確定,傳統(tǒng)的評(píng)測(cè)方法和基準(zhǔn)在基礎(chǔ)模型評(píng)測(cè)上也面臨著失效的問(wèn)題。
在這種迫切的情況下,我們亟需搭建起一套科學(xué)、公正、開(kāi)放的大模型評(píng)測(cè)體系,這有助于在學(xué)術(shù)上拉動(dòng)大模型創(chuàng)新,構(gòu)建可以衡量大模型的能力和質(zhì)量的尺子。同時(shí)在產(chǎn)業(yè)上,為不具備研發(fā)和構(gòu)建基礎(chǔ)大模型的企業(yè)提供一個(gè)可信可靠的全面的評(píng)測(cè)體系,將幫助他們更客觀(guān)地選擇適用于自身的大模型。
為此,智源優(yōu)先推出了天秤(FlagEval)大模型評(píng)測(cè)體系及開(kāi)放平臺(tái),創(chuàng)新性地構(gòu)建了“能力 - 任務(wù) - 指標(biāo)”的三維評(píng)測(cè)框架,細(xì)粒度地刻畫(huà)基礎(chǔ)模型的認(rèn)知能力邊界,呈現(xiàn)可視化評(píng)測(cè)結(jié)果,提供 30 + 能力、5 種任務(wù)、4 大類(lèi)指標(biāo)共 600 + 維全面評(píng)測(cè),任務(wù)維度當(dāng)前包括 22 個(gè)主客觀(guān)評(píng)測(cè)數(shù)據(jù)集和 84433 道題目,更多維度的評(píng)測(cè)數(shù)據(jù)集正在陸續(xù)集成。
目前,天秤 FlagEval 大模型評(píng)測(cè)體系及開(kāi)放平臺(tái)已推出語(yǔ)言大模型評(píng)測(cè)、多國(guó)語(yǔ)言文圖大模型評(píng)測(cè)及文圖生成評(píng)測(cè)等工具,并對(duì)各種語(yǔ)言基礎(chǔ)模型、跨模態(tài)基礎(chǔ)模型實(shí)現(xiàn)評(píng)測(cè)。后續(xù)將全面覆蓋基礎(chǔ)模型、預(yù)訓(xùn)練算法、微調(diào)算法等三大評(píng)測(cè)對(duì)象,包括自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、音頻及多模態(tài)等四大評(píng)測(cè)場(chǎng)景和豐富的下游任務(wù)。天秤 FlagEval 將繼續(xù)拓展和完善“大模型認(rèn)知能力”框架,集成豐富的數(shù)據(jù)集與評(píng)測(cè)指標(biāo),并探索與心理學(xué)、教育學(xué)、倫理學(xué)等社會(huì)學(xué)科的交叉研究,以期更加科學(xué)、全面地評(píng)價(jià)語(yǔ)言大模型。
為未來(lái)智能運(yùn)營(yíng)商提供底層支持
2021 年 3 月,在“悟道 1.0 ”的發(fā)布現(xiàn)場(chǎng),黃鐵軍表示,人工智能的發(fā)展已經(jīng)從“大煉模型”逐步邁向了“煉大模型”的階段。在此之前,學(xué)術(shù)界稱(chēng)“大模型”一直是“預(yù)訓(xùn)練模型”,但從這一刻起,智源給了一個(gè)更接地氣的叫法,“大模型”概念正式進(jìn)入公眾視野。
不同于國(guó)內(nèi)大部分做大模型研發(fā)的公司,可以說(shuō),智源是第一個(gè)關(guān)注大模型基礎(chǔ)設(shè)施的團(tuán)隊(duì)。由張宏江、黃鐵軍首次提出的“大模型是 AI 時(shí)代的智能基礎(chǔ)運(yùn)營(yíng)商”的說(shuō)法,如今看來(lái)也極具前瞻性。
如果說(shuō)模型和算法是讓機(jī)器得以轉(zhuǎn)動(dòng)的電力,那么擔(dān)任發(fā)電廠(chǎng)角色的大模型,則非所有機(jī)構(gòu)和企業(yè)都能參與角逐的對(duì)象。
同時(shí)我們也看到,基礎(chǔ)設(shè)施的體系化建設(shè)非一家之力可以完成,需要更多機(jī)構(gòu)協(xié)力合作,建立提供數(shù)據(jù)、訓(xùn)練、評(píng)測(cè)、治理等全套服務(wù)。此前黃鐵軍就曾斷言,“不可能、也不應(yīng)該有任何一家企業(yè)來(lái)完全封閉地主導(dǎo)大模型這么一個(gè)重要的方向?!?/p>
大模型技術(shù)經(jīng)過(guò)這幾年的你追我趕,研發(fā)技術(shù)上已較為成熟,而 ChatGPT 和 GPT-4 的火爆,將大模型應(yīng)用拉向了大規(guī)模落地的階段。
這當(dāng)中,開(kāi)源扮演著重要角色。
林詠華作《悟道·天鷹大模型——工程化打造AI中的“CPU”》主題報(bào)告
林詠華認(rèn)為,智源大模型開(kāi)源的必要點(diǎn)在于,基于大模型本身的特色,需要構(gòu)建一個(gè)的開(kāi)源系統(tǒng)。
從研發(fā)的角度來(lái)看,大模型目前還面臨著三個(gè)突出的難題。一方面,大模型技術(shù)復(fù)雜,各種開(kāi)源框架和算法增加了開(kāi)發(fā)者的學(xué)習(xí)難度,加上許多開(kāi)源算法的模塊沒(méi)有統(tǒng)一接口,以至于在研究時(shí)僅適配階段就要花耗很多時(shí)間;其次,開(kāi)源模型質(zhì)量也參差不齊;更重要的是,大模型在系統(tǒng)層面的工程浩大,訓(xùn)練和推理都需要很大的平臺(tái)算力去支持。
面對(duì)重重困難,智源先于行業(yè)一步開(kāi)始大模型的開(kāi)源工作,目前也取得了一定的成果。具體來(lái)看,智源不但開(kāi)源了悟道大模型項(xiàng)目,也打造了大模型技術(shù)開(kāi)源體系(FlagOpen飛智),對(duì)模型、工具、算法代碼等開(kāi)源。
其中,F(xiàn)lagOpen 的核心 FlagAI 是大模型算法開(kāi)源項(xiàng)目,當(dāng)中集成了全球各領(lǐng)域的一些明星模型,如語(yǔ)言大模型OPT、T5,視覺(jué)大模型 ViT、Swin Transformer,多模態(tài)大模型 CLIP 等,也包含了智源自家的明星大模型,此次發(fā)布的悟道 · 天鷹 Aquila 就集成到了 FlagAI 開(kāi)源項(xiàng)目中(https://github.com/FlagAI-Open/FlagAI)。
在目前開(kāi)源項(xiàng)目中,F(xiàn)lagAI 開(kāi)源最早,從 2022 年 6 月開(kāi)始,F(xiàn)lagOpen 整個(gè)開(kāi)源體系也是圍繞大模型去建設(shè)。從體系化的角度做大模型生態(tài),智源想將 FlagOpen 打造成新浪潮里的“新Linux”生態(tài)。
在模型之外,智源也做了很多的工作,例如此前推出的混合架構(gòu)云平臺(tái)九鼎,不僅滿(mǎn)足了不同模型對(duì)算力要求的調(diào)度,作為大模型系統(tǒng)創(chuàng)新的試驗(yàn)場(chǎng),可在平臺(tái)上率先進(jìn)行 AI 系統(tǒng)創(chuàng)新,九鼎還肩負(fù)著用大模型來(lái)拉動(dòng)多種 AI 加速算力的重任。
目前,國(guó)內(nèi)大部分應(yīng)用層公司的普遍思路主要有兩個(gè),一類(lèi)是直接用大模型將現(xiàn)有的軟件升級(jí)一遍,另一類(lèi)是基于行業(yè) Know-How 訓(xùn)練出自己的模型算法、在此基礎(chǔ)上再提供應(yīng)用服務(wù)。對(duì)許多企業(yè)來(lái)說(shuō),從 0 到 1 不斷訓(xùn)練、優(yōu)化大模型往往并不經(jīng)濟(jì),各行各業(yè)都需要成本足夠低的 AI 基礎(chǔ)設(shè)施。
在開(kāi)源模式下,企業(yè)憑借公開(kāi)的源代碼,可以在已有的基礎(chǔ)框架上、基于自身業(yè)務(wù)需求做訓(xùn)練和二次開(kāi)發(fā),例如在 FlagAI 上,當(dāng)中集成了很多主流大模型算法技術(shù),此外還有多種大模型并行處理和訓(xùn)練加速技術(shù),并且支持微調(diào),開(kāi)箱即可使用,應(yīng)用門(mén)檻低,對(duì)企業(yè)應(yīng)用和開(kāi)發(fā)者創(chuàng)新都非常友好。
這種基于開(kāi)源模型做自主創(chuàng)新的方式,發(fā)揮了大模型通用性上的優(yōu)勢(shì),模型效果專(zhuān)業(yè)性也更強(qiáng),從而釋放出遠(yuǎn)超于當(dāng)前的生產(chǎn)力。
智源始終堅(jiān)持全面開(kāi)源,在開(kāi)源體系下豐富算力平臺(tái)、大模型服務(wù)等 AI 基礎(chǔ)設(shè)施,讓企業(yè)不必再“重復(fù)造輪子”、陷入對(duì)算力和算法無(wú)意義內(nèi)卷中去,而是把更多的精力投入到原創(chuàng)的、專(zhuān)屬的模型研發(fā)和應(yīng)用革新中。
對(duì)于企業(yè)而言,使用開(kāi)源的技術(shù)和產(chǎn)品還遠(yuǎn)不止是成本上的考量,同時(shí)也是對(duì)風(fēng)險(xiǎn)的規(guī)避、降低和質(zhì)量的提高。例如 Meta 在今年年初開(kāi)源的 LLaMa,就規(guī)定了其版權(quán)不可以商用,基于 LLaMa 微調(diào)的新模型也不能商用,而智源所開(kāi)源的悟道 · 天鷹 Aquila 大模型則是真正在協(xié)議規(guī)定上支持商用。
以大模型為核心的新生態(tài)正在形成,在變革的浪潮里,技術(shù)創(chuàng)新引領(lǐng)不斷向前的方向,而起到支撐性作用的基礎(chǔ)設(shè)施、將決定我們能走得多遠(yuǎn)。智源舉開(kāi)源之力,促進(jìn)大模型時(shí)代的協(xié)同創(chuàng)新,讓更多企業(yè)能放心地把大模型用起來(lái),一起參與到智能未來(lái)藍(lán)圖的繪制中去。
(雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。