0
2024 上半年, OpenAI 的成果從世界模擬器 Sora,到首個實(shí)現(xiàn)多模態(tài) in 到多模態(tài) out 的 GPT-4o ,仍在強(qiáng)勢推進(jìn)著邁向 AGI 的節(jié)奏。面對技術(shù)上的差距,追趕 OpenAI ——是這場人工智能革命浪潮發(fā)展至今, AI 界仍在追求的目標(biāo)和努力的方向。
但其實(shí),當(dāng)下的 AI 技術(shù)尚處于高速迭代的過程,依然有非常多有挑戰(zhàn)性的問題沒有被解決,而其中的研究趨勢和范式也不一定只有 OpenAI 才能引領(lǐng)。國內(nèi)對人工智能對研究不應(yīng)是亦步亦趨,也不應(yīng)止于 OpenAI。
幾乎與 OpenAI 同期捕捉到大模型的機(jī)遇,2018 即年成立的北京智源人工智能研究院推出我國首個大模型「悟道」,并一直承擔(dān)著中國在人工智能行業(yè)原始創(chuàng)新的角色。一位悟道大模型的早期參與者告訴 AI 科技評論,「眼光和魄力」力是智源在在本次大模型浪潮中的可貴之處,甚至在最開始國內(nèi)大模型起步階段,智源會毫不猶豫地給予經(jīng)費(fèi)和算力支持。
如今的智源已走過 6 個年頭,在第六屆北京智源大會上值得注意的是,不同于以往從悟道 1.0 到 3.0 所推出的系列模型,本次智源推出了大模型全家桶,分別是大語言模型系列、多模態(tài)模型系列、具身智能大模型、生物計算大模型。這背后的原因是,今年 2 月王仲遠(yuǎn)接任智源研究院院長,帶領(lǐng)智源團(tuán)隊(duì)基于大模型通往 AGI 的技術(shù)路徑的研判,對未來三到五年的戰(zhàn)略規(guī)劃進(jìn)行了重新的梳理和判斷。
「智源不會去做各企業(yè)已經(jīng)在做的、重復(fù)性事情,而是去做原始性的創(chuàng)新,要去攻克的是業(yè)界的關(guān)鍵痛點(diǎn)抑或是前沿技術(shù)的熱點(diǎn),真正為中國去做技術(shù)突破?!怪窃慈斯ぶ悄苎芯吭涸洪L王仲遠(yuǎn)說道。
基于這一理念,在具身智能、生物計算等十分前沿的領(lǐng)域中,智源起到提前布局的開創(chuàng)性引領(lǐng)作用,打出了「人無我有」的先手,推出了具身大模型,在機(jī)器人泛化動作執(zhí)行和智能大小腦決策控制等方面取得了多項(xiàng)世界級突破性成果。在國內(nèi)發(fā)展尚不成熟的生物計算大模型中,智源研發(fā)了全原子生物分子模型OpenComplex 2。
在國內(nèi)爭相突破萬億語言模型的節(jié)奏下,智源能做到「人有我優(yōu)」,研發(fā)了全球首個低碳單體稠密萬億語言模型 Tele-FLM-1T。多模態(tài)大模型層面,智源并沒有采用 DiT 架構(gòu),而是押注自回歸路線研發(fā)了原生多模態(tài)世界模型 Emu 3,同時也推出了輕量級圖文多模態(tài)模型系列 Bunny-3B/4B/8B。
正如智譜 CEO 張鵬在智源大會上所說,智源從最早被定義成為 NGO 的偏新型研發(fā)機(jī)構(gòu),發(fā)展到今天已成為國內(nèi)甚至國際人工智能領(lǐng)域的一面旗幟。智源也已經(jīng)為中國人工智能界奠定了研究基礎(chǔ),培養(yǎng)了諸多當(dāng)下業(yè)界中的頂尖人才,使得后人能夠站在巨人的肩膀上進(jìn)一步看到更廣闊的 AI 世界。
而當(dāng)下的智源亦堅持初衷,不懈怠腳步。「令人驚艷的東西不能只出現(xiàn)在大洋的彼岸?!雇踔龠h(yuǎn)說道。
一、0-1 的原始性創(chuàng)新
「大模型的思潮和很多技術(shù)都是從智源發(fā)展起來的?!拱俅ㄖ悄軇?chuàng)始人王小川在 2024 智源大會上說道。
當(dāng)下,非營利性科研組織站位使得智源既有技術(shù)高度,又有智庫的角色,能更多的進(jìn)行0-1的原始性創(chuàng)新。
解決萬億參數(shù)模型的收斂痛點(diǎn)
萬億參數(shù)模型,是今年各大模型廠商的必爭之地。
模型規(guī)模的提升,帶來了模型精度的提升,但因?yàn)閰?shù)量規(guī)模過大,也對模型的訓(xùn)練帶來了極大的挑戰(zhàn),包括內(nèi)存需求大、網(wǎng)絡(luò)通信量大、訓(xùn)練或推理性能低等問題,常常難以收斂。因此,今年市面上見到的更多為稀疏激活模型,較少有單體稠密的萬億參數(shù)模型。
可以說,現(xiàn)在的大模型生態(tài)格局中,缺少一個單體稠密萬億參數(shù)模型。王仲遠(yuǎn)告訴 AI 科技評論,智源在做的事是解決這一痛點(diǎn),當(dāng)某家廠商需要訓(xùn)練萬億乃至更大規(guī)模參數(shù)模型的時候,無需從頭去解決收斂等一系列問題,開源社區(qū)中有一個好的初始化的版本,這時再基于更強(qiáng)的算力和數(shù)據(jù)量即可對模型進(jìn)行進(jìn)一步迭代,不再從頭造輪子。
巨大算力消耗是大參數(shù)模型無法避開的問題。對此,智源聯(lián)合中國電信人工智能研究院開發(fā)了基于模型生長和損失預(yù)測等關(guān)鍵技術(shù),推出全球首個低碳單體稠密萬億語言模型 Tele-FLM-1T能夠提高訓(xùn)練效率,降低能耗,實(shí)現(xiàn)低碳生長。該模型與百億級的 52B 版本,千億級的 102B 版本共同構(gòu)成Tele-FLM系列模型。
僅以業(yè)界普通訓(xùn)練方案9%的算力資源,基于112臺A800服務(wù)器,用4個月完成3個模型總計2.3Ttokens的訓(xùn)練,成功訓(xùn)練出萬億稠密模型 Tele-FLM-1T。模型訓(xùn)練全程做到了零調(diào)整零重試,算力能效高且模型收斂性和穩(wěn)定性好。
目前,TeleFLM系列模型已經(jīng)全面開源了52B版本,核心技術(shù)(生長技術(shù)、最優(yōu)超參預(yù)測)、訓(xùn)練細(xì)節(jié)(loss曲線、最優(yōu)超參、數(shù)據(jù)配比和Grad Norm等)均開源,Tele-FLM-1T版本即將開源。
Tele-FLM-52B 版本開源地址https://huggingface.co/CofeAI/Tele-FLM
Tele-FLM-Chat 試用(純模型單輪對話版)地址https://modelscope.cn/studios/FLM/ChatFLM
并且,生長策略也為大模型訓(xùn)練提供了其他可能性,王仲遠(yuǎn)透露,將會將其用于異構(gòu)芯片的異構(gòu)計算上,基于此訓(xùn)練 MoE 模型。
不走 DiT 架構(gòu)的多模態(tài)模型
今年,比萬億參數(shù)模型更火的趨勢是多模態(tài)大模型。而其中在文生視頻這一層面上,國內(nèi)外主流的研究方式均以 Sora 的 DiT 架構(gòu)為主,而智源卻沒有跟隨 OpenAI 。
「DiT 當(dāng)然能達(dá)到一個可用的產(chǎn)品級的模型,這是毫無疑問的。但如果瞄準(zhǔn)的目標(biāo)是真正為 AGI 而使用的多模態(tài)大模型,我們會認(rèn)為自回歸路線才是更佳的技術(shù)路線?!雇踔龠h(yuǎn)如是判斷。
基于此,智源研發(fā)了原生多模態(tài)世界模型 Emu 3,最開始即是為統(tǒng)一的多模態(tài)生成和理解而設(shè)計,采用智源自研的多模態(tài)自回歸技術(shù)路徑,既統(tǒng)一了視頻、圖像、文字,也統(tǒng)一了生成和理解。目前,Emu3在持續(xù)訓(xùn)練中,經(jīng)過安全評估之后將逐步開源。
「這個技術(shù)路線真的很難,但這也恰恰是適合智源研究院來做的。但同時,我們在做原始創(chuàng)新的時候要尊重科學(xué)規(guī)律,也接受它失敗的可能性,但即使失敗也是非常有意義的?!?/p>
同時,為適應(yīng)智能端側(cè)的應(yīng)用,智源研究院推出了輕量級圖文多模態(tài)模型系列 Bunny-3B/4B/8B,該模型系列采用靈活架構(gòu),可支持多種視覺編碼器和語言基座模型。多個榜單的綜合結(jié)果表明,Bunny-8B 的多模態(tài)能力可達(dá)到 GPT-4o 性能的 87%。目前,Bunny 模型參數(shù)、訓(xùn)練代碼、訓(xùn)練數(shù)據(jù)已全部開源。
開源地址:https://github.com/BAAI-DCAI/Bunny
FlagOpen,打造大模型時代的Linux
一直以來,智源的大模型開源有兩條線同時進(jìn)行:一條線是進(jìn)行智源所研發(fā)的悟道系列大模型的開源;第二條線是將整個大模型技術(shù)體系開源,包括模型、工具、算法代碼的開源等,建立了 FlagOpen。
時至今日,F(xiàn)lagOpen 的開源更多需要滿足不斷攀升的訓(xùn)練和推理計算需求,應(yīng)對大規(guī)模AI系統(tǒng)和平臺面臨的集群內(nèi)或集群間異構(gòu)計算、高速互聯(lián)、彈性穩(wěn)定的技術(shù)挑戰(zhàn)。于是,智源研究院推出了面向大模型、支持多種異構(gòu)算力的智算集群軟件棧 FlagOS。
FlagOS 融合了智源長期深耕的面向多元 AI 芯片的關(guān)鍵技術(shù),包括異構(gòu)算力智能調(diào)度管理平臺九鼎、支持多元AI異構(gòu)算力的并行訓(xùn)推框架 FlagScale、支持多種AI芯片架構(gòu)的高性能算子庫 FlagAttention和 FlagGems,集群診斷工具 FlagDiagnose 和 AI 芯片評測工具FlagPerf。
FlagOS 如同“操作系統(tǒng)”一樣,集異構(gòu)算力管理、算力自動遷移、并行訓(xùn)練優(yōu)化、高性能算子于一體。向上支撐大模型訓(xùn)練、推理、評測等重要任務(wù),向下管理底層異構(gòu)算力、高速網(wǎng)絡(luò)、分布式存儲。
目前,F(xiàn)lagOS已支持了超過50個團(tuán)隊(duì)的大模型研發(fā),支持8種芯片,管理超過4600個AI加速卡,穩(wěn)定運(yùn)行20個月,SLA超過99.5%,幫助用戶實(shí)現(xiàn)高效穩(wěn)定的集群管理、資源優(yōu)化、大模型研發(fā)。FlagOS的推出將為中國新一代智算中心的建設(shè)提供助力,顯著提升智算集群的能力水平,加速大模型產(chǎn)業(yè)的發(fā)展。
二、「人無我有」的先手
「大模型變化得非常快,其中確實(shí)有部分工作是商業(yè)公司沒有動力、也沒有資源做的事。」面壁智能 CEO 李大海在 2024 智源大會上探討道。
針對萬億參數(shù)模型、多模態(tài)模型等相對主流且有共識的項(xiàng)目,各大廠商花費(fèi)較大力氣尚可一試,但在在具身智能、生物計算等十分前沿的領(lǐng)域中,并不是任何一家都具備「想做就能做」的條件。對此,智源會打出「人無我有」的先手。
當(dāng)下,我們會將大模型視作通用人工智能的基礎(chǔ)、數(shù)字世界的智能體。未來,數(shù)字世界的智能體也會逐漸進(jìn)入到物理世界,其方法有二:一是進(jìn)入到硬件設(shè)備中,也就是具身智能;二是進(jìn)入到微觀世界,即和生命分子相關(guān),是生物計算大模型。
具身智能大模型
智源研究院具身智能創(chuàng)新中心在機(jī)器人泛化動作執(zhí)行和智能大小腦決策控制等方面取得了多項(xiàng)世界級突破性成果。
在具身智能通用抓取能力方面研發(fā)了泛化抓取技術(shù)ASGrasp,針對跨任意形狀和材質(zhì)的泛化難題,智源率先突破95%的真機(jī)實(shí)驗(yàn)成功率,從而實(shí)現(xiàn)了全球領(lǐng)先的商業(yè)級動作執(zhí)行水平。借助這項(xiàng)技術(shù),即使在復(fù)雜光線透射、反射的情況下,機(jī)器人依然能夠準(zhǔn)確感知包括透明、高反光物體的形狀和姿態(tài),并預(yù)測出高成功率的抓取位姿。
在分級具身大模型系統(tǒng)方面,智源研發(fā)了能夠從失敗中重思考、再嘗試的鉸接物體操作大模型系統(tǒng) SAGE。該系統(tǒng)有效結(jié)合了三維視覺小模型對空間幾何的精確感知能力和通用圖文大模型的通用物體操作知識,使大模型驅(qū)動的機(jī)器人能夠在任務(wù)執(zhí)行失敗時能夠重新思考并再次嘗試新的交互方式。
并且,智源還研發(fā)了全球首個能做到開放指令控制六自由度物體拿取放置的大模型系統(tǒng)Open6DOR。該系統(tǒng)不僅像谷歌RT系列大模型一樣按照自然語言指令中的要求將物體放到指定位置,還能夠進(jìn)一步對物體的姿態(tài)進(jìn)行精細(xì)化控制。
在面向技術(shù)終局的端到端具身大模型層面,智源發(fā)布了全球首個端到端基于視頻的多模態(tài)具身導(dǎo)航大模型 NaVid。該模型可直接將機(jī)器人視角的視頻和用戶的自然語言指令作為輸入,端到端輸出機(jī)器人的移動控制信號。雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)
針對新一輪的具身智能熱,王仲遠(yuǎn)也提出了一些冷思考,要用客觀理性的態(tài)度來看待前沿技術(shù),能夠去接受它存在周期并持續(xù)投入知道跨越周期。
生物計算大模型
此外,智源研究院,還探索了生成式人工智能應(yīng)用于分子生物學(xué)中的應(yīng)用。智源研究院研發(fā)的全原子生物分子模型OpenComplex 2,是世界領(lǐng)先的大分子結(jié)構(gòu)預(yù)測模型,能有效預(yù)測蛋白質(zhì)、RNA、DNA、糖類、小分子等復(fù)合物。在生物分子結(jié)構(gòu)預(yù)測領(lǐng)域國際競賽CAMEO(Continous Automated Model EvaluatiOn)中,OpenComplex 連續(xù)2年穩(wěn)居賽道第一,并獲得了CASP(Critical Assessment of Techniques for Protein Structure Prediction)15 的RNA自動化賽道預(yù)測冠軍。
OpenComplex 2 是基于全原子建模的生命分子基礎(chǔ)模型,科研人員發(fā)現(xiàn)不僅可以預(yù)測大分子的穩(wěn)定結(jié)構(gòu),還初步具備預(yù)測分子多構(gòu)型以及折疊過程的能力?;谶@樣的能力,生命科學(xué)家可以進(jìn)一步探索蛋白質(zhì)的生物學(xué)功能。目前,智源已和研究伙伴在多項(xiàng)重要疾病上展開了研究,提供成藥性和分子機(jī)理研究。
智源研究院構(gòu)建了全球首個實(shí)時孿生心臟計算模型,可實(shí)現(xiàn)高精度的前提下生物時間/仿真時間比小于1。實(shí)時心臟計算模型是虛擬心臟科學(xué)研究的開端,是孿生心臟走向臨床應(yīng)用的基礎(chǔ)?;谶@一模型,智源將創(chuàng)新性地采用物理-數(shù)據(jù)雙驅(qū)動模型,融合第一性原理和人工智能方法,從亞細(xì)胞級、細(xì)胞級、器官級、軀干級仿真出一個“透明心臟”,且能根據(jù)患者的臨床數(shù)據(jù),構(gòu)建出反映患者的個性化生理病理的孿生心臟,從而進(jìn)行藥物篩選、治療方案優(yōu)化、術(shù)前規(guī)劃等臨床應(yīng)用。
三、AI 研究的新范式
「要是三年前問我還需要多長時間可以實(shí)現(xiàn) AGI,我可能會回答50年,但這幾年隨著大模型的發(fā)展,我認(rèn)為這個數(shù)字可以除以 2,20年左右即可能實(shí)現(xiàn)。」在2024智源大會的現(xiàn)場,中國工程院院士、清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)院長張亞勤笑著說道。
圖片
具體來看,信息智能領(lǐng)域 0 至 5 年內(nèi),即可在對語言、圖像、聲音和視頻的理解、生成等方面通過新圖靈測試;物理智能領(lǐng)域 0 至 10年內(nèi),能實(shí)現(xiàn)大模型在物理環(huán)境中的理解與操作能力;生物智能領(lǐng)域 0 至 20 年內(nèi),都會聚焦人體、腦機(jī)接口、生物體、制藥和生命科學(xué),實(shí)現(xiàn)大模型與生物體連結(jié)的生物智能。
AGI 的加速來臨,也側(cè)面要求 AI 有新范式的變動。單純靠 Scaling Law ,做不到 AGI。
在 Sora 及Dall-E團(tuán)隊(duì)負(fù)責(zé)人阿迪蒂亞·拉梅什(Aditya Ramesh)與紐約大學(xué)助理教授謝賽寧的交流過程中,也從技術(shù)的角度傳遞出技底層技術(shù)的變化:AI 行業(yè)正在從依賴手工標(biāo)注的深度學(xué)習(xí)模型轉(zhuǎn)向能夠通過自然語言和描述性文本重建視覺內(nèi)容的高級模型。
快速流變的同時, AI 帶來的失控風(fēng)險和安全問題也需提上日程。對此,零一萬物創(chuàng)始人李開復(fù)博士表示,如果我們越來越依賴Reward model ,完全讓 AI 自己找路徑的話,發(fā)生失控的概率或許會增高,但中長期來看,需要嘗試用“以子之矛攻子之盾”——用更好的技術(shù)解決技術(shù)帶來的挑戰(zhàn)。
盡管到如今 AI 發(fā)展面臨諸多可能性與挑戰(zhàn),但回顧 2020 年開始悟道模型的研發(fā),智源至少是在亞洲地區(qū)最早投入,而且真的投入去做大模型的機(jī)構(gòu)。「最初成立智源、做悟道道想法是非常難得、非常領(lǐng)先的,今后 AI 研究的視野也會更寬廣,智源也會成為促進(jìn)中國 AI 生態(tài)繁榮的平臺?!?/p>
AGI 還有很長的路要走。王仲遠(yuǎn)預(yù)判,GPT-4 之后的突破難度會更大,對算力資源、核心算法的要求都會更高,彼時將不是追趕的過程,而是突破的過程。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。