0
本文作者: 王悅 | 2024-04-16 14:28 |
大約 1 個(gè)月前,馬斯克所創(chuàng)辦的 xAI 團(tuán)隊(duì)宣布開源 Grok-1——一個(gè)參數(shù)量為 3140 億的 MoE 大模型。從參數(shù)量來看,Grok-1 超越了 70B 的 LLaMA 2,是當(dāng)前開源模型中最大的一個(gè),被調(diào)侃為「龐然大物」。
然而,有研究人員測(cè)試卻發(fā)現(xiàn),參數(shù)規(guī)模量如此巨大的 Grok-1 ,效果竟然只與 Mistral AI 的 8x7B MoE 模型相當(dāng)。也因此,業(yè)內(nèi)人士評(píng)價(jià),「Grok-1 在這么大的參數(shù)量規(guī)模上只實(shí)現(xiàn)了這么小的效果,實(shí)際是失敗的?!?/p>
在大模型中,參數(shù)量大、不等于模型性能好。早在 2021 年 6 月,面壁智能初始團(tuán)隊(duì)就發(fā)布了千億 MoE 大模型 CPM-2 ,是最早關(guān)注到這一問題的 AI 團(tuán)隊(duì)之一。
面壁智能 CTO 曾國(guó)洋告訴 AI 科技評(píng)論,他們從 2020 年 GPT-3 出來后開始訓(xùn)練大模型,也是走過一些彎路后才逐漸認(rèn)識(shí)到,“提升模型效果是大模型訓(xùn)練的根本目標(biāo),但這并不意味著一定要通過擴(kuò)大參數(shù)量規(guī)模和燃燒高昂的算力成本來實(shí)現(xiàn)?!?/p>
相反,“讓每一個(gè)參數(shù)發(fā)揮最大的作用”,在同等參數(shù)量上實(shí)現(xiàn)更好的性能,才是解決大模型“高效”訓(xùn)練的核心。這一塊也還有很大的探索空間,值得研究人員不斷挖掘。
2024 年 2 月,面壁發(fā)布 MiniCPM 2B,在更小參數(shù)量的基礎(chǔ)上實(shí)現(xiàn)可以媲美 Mistral-7B 的性能,初步驗(yàn)證了其“低參數(shù)、高性能”的方法論。據(jù)了解,面壁的千億大模型訓(xùn)練成本也由此大幅下降,這也是面壁自天使輪融資、拿了知乎數(shù)千萬(wàn)后仍能擴(kuò)大團(tuán)隊(duì)規(guī)模并不斷迭代千億模型的根本原因。
在 MiniCPM 2B 基礎(chǔ)上,2024 年 4 月 11 日,面壁又推出了新一代端側(cè)旗艦大模型系列:顯著增強(qiáng)OCR能力、甚至部分能力比肩Gemini-Pro的2.8B多模態(tài)模型MiniCPM-V 2.0;僅1.2B,卻強(qiáng)過llama2-13B、推理速度達(dá)到人類語(yǔ)速近25倍的 MiniCPM-1.2B 模型;最小的 128K 長(zhǎng)文本模型MiniCPM-2B-128K ;還有性能增強(qiáng)的MoE架構(gòu)模型。
了解 MiniCPM 2B 詳情信息可點(diǎn)擊:https://github.com/OpenBMB/MiniCPM
更需要格外注意的是:面壁訓(xùn)練小模型,并不單單是為了“訓(xùn)練小模型”、放棄角逐 AGI;恰恰相反,他們訓(xùn)練 MiniCPM 等小模型,就是為了訓(xùn)練能實(shí)現(xiàn) AGI 的通用基座大模型。基于 Scaling Law 的科學(xué)方法論,通過小模型驗(yàn)證大模型的訓(xùn)練投入產(chǎn)出比,是面壁在 2023 年低調(diào)研究一年所探索出的一條獨(dú)特路線。
也是由于這一獨(dú)特路線,過去一年面壁在融資市場(chǎng)上并不“著急”。在已公開披露的天使輪消息中,面壁智能只拿了知乎數(shù)千萬(wàn)元,但在 2023 年,面壁不僅將團(tuán)隊(duì)從十人規(guī)模拓展到百人規(guī)模,而且還在 8 月發(fā)布了稠密(區(qū)分于稀疏)的千億參數(shù)大模型。
近日,面壁智能也完成了新一輪數(shù)億元融資,由春華創(chuàng)投、華為哈勃領(lǐng)投,北京市人工智能產(chǎn)業(yè)投資基金等跟投,知乎作為戰(zhàn)略股東持續(xù)跟投支持。
按照這樣的“燒錢”速度估算,假設(shè)面壁的千億基座模型訓(xùn)練成本只有其他大模型的 1/10,面壁融資 5000 萬(wàn)實(shí)際相當(dāng)于其他在訓(xùn)練上較為粗放的大模型團(tuán)隊(duì)融資 5 個(gè)億。也就是說,在同等量級(jí)的金錢、算力與人才資源下,面壁能比其他團(tuán)隊(duì)走得更遠(yuǎn)。
面壁智能被低估了。
一、面壁的第一性原理:「高效」
2024 年 1 月 ICLR 會(huì)議論文結(jié)果公布,面壁智能團(tuán)隊(duì)的論文“Predicting Emergent Abilities with Infinite Resolution Evaluation”被接收,引起了海內(nèi)外多個(gè)關(guān)注“Scaling Law”的團(tuán)隊(duì)討論,包括 OpenAI。
因?yàn)檫@篇論文是除了 OpenAI 第一個(gè)實(shí)現(xiàn)了用 Scaling Prediction 在下游任務(wù)上做預(yù)測(cè)的工作。
論文鏈接:https://arxiv.org/pdf/2310.03262.pdf
Scaling Prediction 多次出現(xiàn)在 OpenAI 2023 年 3 月發(fā)布的 GPT-4 技術(shù)報(bào)告中。當(dāng)時(shí),這個(gè)技術(shù)話題還鮮少為人關(guān)注,由于微軟也同步強(qiáng)調(diào)其支撐 GPT-4 訓(xùn)練的云基礎(chǔ)設(shè)施,大家的討論更多被轉(zhuǎn)移到 OpenAI 與微軟云的捆綁、大模型離不開大算力等話題上。
但面壁團(tuán)隊(duì)關(guān)注的卻是 GPT-4 的兩個(gè)創(chuàng)新點(diǎn):一是 GPT-4 的輸入文本達(dá)到了 32k 的長(zhǎng)度,而當(dāng)時(shí)國(guó)內(nèi)的大模型能處理的文本長(zhǎng)度只有 512,之后“長(zhǎng)文本”也成為國(guó)內(nèi)外大模型研究的重點(diǎn)對(duì)象;二是 Scaling Law 與 Scaling Prediction,即 OpenAI 淺淺提到了 GPT-4 可以預(yù)測(cè)大模型的能力,但沒有公布預(yù)測(cè)曲線。對(duì)于第二點(diǎn),面壁團(tuán)隊(duì)尤其震撼。
在此之前,面壁研究大模型的第一性原理就是“高效訓(xùn)練”。
雖然面壁成立于 2022 年 8 月,但在此之前,面壁團(tuán)隊(duì)作為北京智源人工智能研究院“悟道”項(xiàng)目的重要組成成員,從 2020 年就開始訓(xùn)練語(yǔ)言大模型。在研究“文源”時(shí),面壁團(tuán)隊(duì)就是在資源受限的條件下展開一系列從 0 到 1 的探索,因此很早使用了分布式加速、參數(shù)微調(diào)等方法來降低模型訓(xùn)練的成本。2022 年,面壁團(tuán)隊(duì)在參數(shù)高效微調(diào)的工作還發(fā)表在 Nature 子刊。
論文鏈接:https://www.nature.com/articles/s42256-023-00626-4
也是由于面壁在高效訓(xùn)練上開發(fā)了許多好用的工具,面壁一度被認(rèn)為是一家做“大模型 Infra”的公司。但實(shí)際上,高效訓(xùn)練工具的開發(fā)也是為了大模型訓(xùn)練所服務(wù);面壁也是國(guó)內(nèi)極少數(shù)兼具大模型算法與 infra 能力的團(tuán)隊(duì)。換言之,從做大模型的第一天起,面壁就把「高效」刻在了基因里。
在 Scaling Prediction 出來后,面壁團(tuán)隊(duì)就認(rèn)為這項(xiàng)技術(shù)“非同尋?!?,因?yàn)槿绻?Scaling Prediction 能夠在一個(gè)大模型還未訓(xùn)練出來時(shí)、就能預(yù)測(cè)它的性能大約在什么水平,那么研究人員就可以先通過小模型做實(shí)驗(yàn)、調(diào)參數(shù),如果失敗就不斷嘗試、如果成功就按照相同的數(shù)據(jù)配比、參數(shù)調(diào)整等方法訓(xùn)練一個(gè)大模型,那么訓(xùn)練時(shí)間與訓(xùn)練成本都會(huì)大幅縮減。這很符合面壁團(tuán)隊(duì)追求“高效”的第一性原理。
所以,從 2023 年開始,面壁團(tuán)隊(duì)開始探索高效的 Scaling Law、用小十倍參數(shù)模型預(yù)測(cè)大十倍參數(shù)模型的性能。
此外,圍繞“高效訓(xùn)練”,面壁不僅僅在模型的訓(xùn)練層發(fā)力,在底層計(jì)算和數(shù)據(jù)層也有深入思考,全面系統(tǒng)地推進(jìn)大模型上下游工程。在國(guó)內(nèi)的諸多大模型團(tuán)隊(duì)中,面壁同時(shí)從算力、數(shù)據(jù)與算法切入的做法也不多見,但卻符合大模型作為“系統(tǒng)工程”的本質(zhì)要求。
面壁智能團(tuán)隊(duì)的核心創(chuàng)始成員認(rèn)為,從人工智能和社會(huì)發(fā)展的關(guān)系來看,如果大模型作為實(shí)現(xiàn) AGI 的關(guān)鍵路徑,但成本卻無(wú)比高昂,那么即使實(shí)現(xiàn) AGI,但AGI 比人還貴、那也沒意義?!改P偷膮?shù)不可能無(wú)休止地堆下去,依賴顯卡的做法也不能無(wú)限重復(fù),尤其在當(dāng)前計(jì)算資源匱乏的情況下,思考如何可持續(xù)訓(xùn)練大模型成為關(guān)鍵。」
「我們追求的是,在同樣的時(shí)間、同等參數(shù)量的條件下,實(shí)現(xiàn)更優(yōu)的 Scaling Law。當(dāng)模型的效率優(yōu)化到一定程度的時(shí)候,如果要繼續(xù)精進(jìn)下去,就需要數(shù)據(jù)、算力與算法多者結(jié)合。」曾國(guó)洋告訴 AI 科技評(píng)論。
以數(shù)據(jù)工程為例。在悟道“文源”時(shí),面壁成員就發(fā)現(xiàn),數(shù)據(jù)的清洗是一個(gè)非常重要的環(huán)節(jié)。比如,最開始他們收集了幾個(gè) T 的數(shù)據(jù),他們將數(shù)據(jù)清洗到只剩 200G 后,訓(xùn)練出來的模型效果反而比幾個(gè) T 的時(shí)候還要優(yōu)秀。2023 年,盡管市場(chǎng)上出現(xiàn)了“百模大戰(zhàn)”,面壁團(tuán)隊(duì)也沒有忽視數(shù)據(jù)這一基礎(chǔ)層的重要性。
據(jù)面壁首席研究員韓旭介紹,數(shù)據(jù)工程是一項(xiàng)非常復(fù)雜且需要大量體力勞動(dòng)的事情。
「處理數(shù)據(jù)的整個(gè)過程,沒有很多技術(shù)性的難度,而是“血與淚”的積累,因?yàn)閿?shù)據(jù)量極大,動(dòng)輒幾十個(gè)P,根本無(wú)法人工處理,只能從海量數(shù)據(jù)里不斷抽樣,根據(jù)樣本寫出那種非常聰明的代碼去處理,然后批量化地一遍又一遍地重復(fù)這個(gè)過程。」韓旭告訴 AI 科技評(píng)論。最后,他們想了辦法,讓大模型像人一樣去觀察數(shù)據(jù)、寫數(shù)據(jù)、清洗代碼,近日也發(fā)表了論文,但這也只是面壁在數(shù)據(jù)工程上投入的“冰山一角”。
目前,面壁所發(fā)表的Ultra系列對(duì)齊數(shù)據(jù)集(UltraChat、UltraFeedback等)在國(guó)際上也廣受歡迎,全球有接近 200 個(gè)大模型都在用面壁的數(shù)據(jù)集做對(duì)齊。
在算力端,面壁團(tuán)隊(duì)也很早開始將大模型與國(guó)產(chǎn)芯片做適配,自研搭建了可以在大部分主流國(guó)產(chǎn)芯片上運(yùn)行大模型的框架,不再受限于英偉達(dá)的芯片限制。在國(guó)產(chǎn)化適配上,結(jié)合自研的推理工具,面壁可以做到“量化不掉點(diǎn)”,進(jìn)一步降低大模型成本。
除了算力和數(shù)據(jù),曾國(guó)洋還透露,面壁大模型的高效訓(xùn)練還體現(xiàn)在模型超參選擇、架構(gòu)選擇上,這些都已經(jīng)在 MiniCPM 的結(jié)果上得到了很好的驗(yàn)證。
回到大模型的算法訓(xùn)練,實(shí)際上 GPT-4 的技術(shù)報(bào)告并沒有披露太多關(guān)于 Scaling Law 的要點(diǎn),面壁在 2023 年從“高效訓(xùn)練”角度出發(fā)探索 Scaling Law,也是從頭開始開展研究。但被 ICLR 2024 接收的論文證明了他們通過小模型預(yù)測(cè)大模型性能的猜想得到了學(xué)術(shù)界與業(yè)界的認(rèn)可。
二、Scaling Law 的點(diǎn)睛之筆
現(xiàn)任面壁 CEO 的李大海曾向身邊人回憶過他加入面壁前的“小調(diào)研”。2023 年 ChatGPT 火爆之后,所有人都在談?wù)?AGI,李大海于是跟面壁所有的核心成員都聊了一遍,為的是確認(rèn)一件事:這家公司是不是在追求 AGI。聊完后,他發(fā)現(xiàn)這是每個(gè)人的信仰,爾后才果斷加入。
從計(jì)算機(jī)的角度來看,AI 發(fā)展起來的目標(biāo)就是為了讓計(jì)算機(jī)更智能,將人從部分機(jī)械的勞動(dòng)中解脫出來。因此,“解放人類”不僅要求 AI 模型的智能水平足夠高,還要更高效。而面壁研究大模型的重要出發(fā)點(diǎn),與李大海的思考不謀而合。
面壁發(fā)布 MiniCPM 后,被外界評(píng)價(jià)為“對(duì)端側(cè)大模型的一大貢獻(xiàn)”,而李大海則認(rèn)為,MiniCPM 恰恰體現(xiàn)了團(tuán)隊(duì)對(duì)科學(xué)的 Scaling Law 的理解。雖然 MiniCPM 的模型參數(shù)只有 2.4B,卻能達(dá)到參數(shù)規(guī)模為 13B 的 LLaMA-2 的水平,與谷歌的 Gemma 7B 相當(dāng),大幅超過 Gemma 2B。
「如果 2B 模型的性能比 7B 的要好,那么以此類推,在同一套訓(xùn)練方法論下,參數(shù)規(guī)模才 7B、70B 的模型也可能會(huì)比 100B 更好。再結(jié)合 MoE 方法,在特定任務(wù)上參數(shù)量比 GPT-4 少的模型或許也能逼近 GPT-4 的水平?!估畲蠛1硎?。
2023 年,面壁一直在探索如何采用更為科學(xué)化的方法去做模型預(yù)測(cè)。
基于高效 Scaling Law 的技術(shù)路線,面壁有兩條產(chǎn)品技術(shù)線:一條是基座大模型,另一條是給大模型做端側(cè)版本。如此一來,一方面可以提升大模型的效率,讓每個(gè)參數(shù)發(fā)揮更好的效果;另一方面也能在與應(yīng)用場(chǎng)景相匹配的成本下做出最好的模型。
「這兩條產(chǎn)品線,其實(shí)是一條路,就是面壁通往 AGI 的道路?!乖鴩?guó)洋說道。
以飛機(jī)的發(fā)展舉例。萊特兄弟打造出了飛機(jī)的范式,但早期的飛機(jī)并不能承載太多的乘客,直到空氣動(dòng)力學(xué)等基礎(chǔ)理論被廣泛發(fā)展后,人們基于空氣動(dòng)力學(xué)才最終設(shè)計(jì)出能耗更低、容納乘客數(shù)量更多、安全系數(shù)更高的飛機(jī)。在面壁看來,大模型也是如此。
OpenAI 的 GPT-3 開創(chuàng)了千億大模型的范式,但從“大模型普惠”的終極目標(biāo)來看,過于強(qiáng)調(diào)“大力出奇跡”的 GPT 系列不一定是最優(yōu)解。大模型的技術(shù)普惠要找到自己的「空氣動(dòng)力學(xué)」,而 Scaling Prediction 提供了一種可能。這也側(cè)面表明 OpenAI 在自我優(yōu)化。
面壁團(tuán)隊(duì)胡聲鼎告訴 AI 科技評(píng)論,在“Predicting Emergent Abilities with Infinite Resolution Evaluation”一文中,他們初步驗(yàn)證了通過小模型預(yù)測(cè)大模型性能的可行性。這是他們探索 Scaling Prediction 征程中的一個(gè)小里程碑,而非終點(diǎn)。
在這個(gè)工作中,胡聲鼎在參數(shù)量規(guī)模為 0.009B 到 0.03B 的模型上做訓(xùn)練,然后將訓(xùn)練的模型外插到 2.4B 的模型上預(yù)測(cè)性能,通過觀察 0.009B 到 0.03B 在特定任務(wù)上的表現(xiàn),來預(yù)測(cè) 2.4B 模型在同類任務(wù)上的泛化情況。最后,他們?cè)儆?xùn)練一個(gè) 2.4B 的模型,發(fā)現(xiàn)該模型的性能確實(shí)在預(yù)測(cè)范圍附近。
用參數(shù)規(guī)模小十倍的模型去預(yù)測(cè)大十倍模型的性能的意義是:如果發(fā)現(xiàn)模型的性能不夠理想,就可以在小模型上做實(shí)驗(yàn)、調(diào)參數(shù),然后重新畫一條線,降低訓(xùn)練成本——如同“數(shù)字孿生”一般,訓(xùn)練了一個(gè)虛擬的大模型,無(wú)需等到實(shí)際的大模型出來,就已經(jīng)能知道它的性能好不好。這個(gè)訓(xùn)練的方法有一套體系規(guī)范的數(shù)據(jù)配比、參數(shù)調(diào)整等配置,形成了一套科學(xué)化的理論。
基于此,面壁團(tuán)隊(duì)核心成員表示,在目前這套方法論的指導(dǎo)下,未來他們有信心訓(xùn)練出一個(gè)性能對(duì)標(biāo) GPT-4 甚至更強(qiáng)的模型,找到更陡峭的模型能力成長(zhǎng)線,“而這才是 AGI 的可持續(xù)發(fā)展方案”。
這個(gè)方法也能解決當(dāng)前市場(chǎng)上大多數(shù)模型即使提升參數(shù)規(guī)模、算力資源也無(wú)法增長(zhǎng)模型性能的困局。
而 MiniCPM 則是科學(xué)的 Scaling Law 的啟示與產(chǎn)物。這也符合大模型還在變化演進(jìn)中、AI 創(chuàng)業(yè)公司要一邊孵化產(chǎn)品一邊迭代技術(shù)的現(xiàn)實(shí)情況。
一方面,是對(duì) Scaling Prediction 的印證,是在小模型上驗(yàn)證大模型的技術(shù)極限:2.4B 表明在 scaling 上能找到一個(gè)更陡峭的路線去靠近最優(yōu)解,這是一個(gè)路徑啟示,能用更小的模型參數(shù)得到更好的模型能力,也就是科學(xué)化的體現(xiàn)。
另一方面,也可以同步孵化端側(cè)產(chǎn)品:
韓旭告訴 AI 科技評(píng)論,端側(cè)是一個(gè)非常重要且有潛力的市場(chǎng),如果一個(gè) 13B 模型的能力可以用一個(gè) 2B 模型達(dá)到且2B模型可以在端側(cè)流暢運(yùn)行,那就沒必要去用笨重的13B 模型。從可持續(xù)發(fā)展、實(shí)際落地的角度講,端側(cè)大模型的潛力沒有被完全釋放,因此 MiniCPM 呈現(xiàn)的效果極有可能就是未來方向。
面壁未來會(huì)在端側(cè)有較多動(dòng)作,團(tuán)隊(duì)已經(jīng)在嘗試用 iPhone 15 Pro 去跑 僅有1.2B參數(shù)的 MiniCPM-1.2B模型,一秒能吐 25 個(gè) token,即人的語(yǔ)速的15~25倍,未來在端側(cè)就能完成的任務(wù)就能與云側(cè)解耦,這可以極大降低成本。
韓旭預(yù)測(cè),端側(cè)大模型在手機(jī)上跑出 GPT 3.5 的效果是一件可預(yù)期的事情,隨著模型能力與芯片性能迭代的雙向奔赴,最快可能一年左右就能實(shí)現(xiàn)。兩年左右,也可以把 GPT-4 放到端側(cè)。
MiniCPM 之后,面壁已經(jīng)將 Scaling prediction 預(yù)測(cè)百億甚至千億大模型的計(jì)劃提上日程,并將技術(shù)報(bào)告的細(xì)節(jié)開源。
雖然這套方法目前還沒有十分完善,即使是 OpenAI 的技術(shù)報(bào)告也只公布了其應(yīng)用 Scaling Prediction 在一個(gè)任務(wù)上的預(yù)測(cè)結(jié)果。原因可能是出于技術(shù)保密,也可能是因?yàn)樵S多任務(wù)還無(wú)法預(yù)測(cè),面壁也一樣。
胡聲鼎告訴 AI 科技評(píng)論,目前面壁的 Scaling Law 路線只能預(yù)測(cè)一部分以生成為主、推理需求沒那么高的任務(wù);由于下游任務(wù)的一些性能有時(shí)是憑空“涌現(xiàn)”的,波動(dòng)大、不如 Loss 穩(wěn)定,所以面壁的預(yù)測(cè)準(zhǔn)確率也只有 95% 左右?,F(xiàn)在,面壁的團(tuán)隊(duì)還在不斷改進(jìn)。
由于 OpenAI 沒有公布自己的預(yù)測(cè)系數(shù)與參數(shù)量等技術(shù)細(xì)節(jié),所以目前面壁團(tuán)隊(duì)無(wú)法將自己的實(shí)驗(yàn)結(jié)果與 OpenAI 的 Scaling Law 曲線進(jìn)行對(duì)比。但對(duì)面壁來說,追趕 OpenAI 已經(jīng)沒有那么重要,他們初步的實(shí)驗(yàn)證明,在提升基座模型的訓(xùn)練效率上,Scaling Prediction 能成為其實(shí)現(xiàn)高效大模型的手段。
換言之,面壁每在小模型上前進(jìn)一步,就意味著它離通用大模型更近一步、離 AGI 更近一步。
三、辯證思考 AGI
大模型出圈一年左右,國(guó)內(nèi)外各家大模型團(tuán)隊(duì)都在競(jìng)相發(fā)布新產(chǎn)品、“秀肌肉”。作為最早入局大模型的中國(guó)團(tuán)隊(duì)之一,盡管 2023 年 8 月就已發(fā)布稠密型千億大模型,但無(wú)論是資本端還是用戶端,面壁的存在感并不高,甚至被外界認(rèn)為“融資與發(fā)展有點(diǎn)慢”。
但據(jù) AI 科技評(píng)論與面壁團(tuán)隊(duì)核心成員的交流,面壁內(nèi)部認(rèn)為,他們?cè)谶^去的 2023 年不僅不慢,而且已經(jīng)非常“快”。
在過去的一年,他們解決了很多問題,如:成功探索 Scaling Law,把整個(gè)沙盒實(shí)驗(yàn)機(jī)制給建立起來;從 0 到 1 訓(xùn)練了多模態(tài)大模型;文本能力達(dá)到了 GPT-3.5 的水平;把模型訓(xùn)練迭代的流程跑通,找到了正確的方向。
韓旭形容,面壁團(tuán)隊(duì)在技術(shù)上更喜歡“打先手”,一直在追求前沿的、引領(lǐng)性的方法。面壁的核心團(tuán)隊(duì)從在清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室(THUNLP)探索大模型開始,就探索過許多開創(chuàng)性的工作,如:早在2021年就開始將大模型與底層系統(tǒng)優(yōu)化的技術(shù)結(jié)合,探索稀疏激活與 MoE 模型架構(gòu);早在2022 年就開始基于 CPM 大模型探索如今火爆的 AI Agent,其代碼生成助手 ChatDev 被吳恩達(dá)多次公開引用……
曾國(guó)洋也告訴 AI 科技評(píng)論,追平技術(shù)差距不能著急,因?yàn)槟P脱邪l(fā)是一件需要長(zhǎng)期投入的事。接下來,達(dá)到 GPT-4 只是一個(gè)參考,內(nèi)部也認(rèn)為跟隨 OpenAI 并不一定最正確?!该姹谟凶约旱南敕?,如果要想實(shí)現(xiàn) AGI,要有自己的路線。」
面向未來,面壁的布局是更大的。
一位核心團(tuán)隊(duì)人員透露,雖然現(xiàn)在 Scaling Prediction 很重要、也很 work,但并不會(huì)把技術(shù)路線局限于此,更不會(huì)把某一問題當(dāng)做 everything。即使是按照 OpenAI 的規(guī)劃,5 年要實(shí)現(xiàn) Super Intelligence(超級(jí)智能),有太多關(guān)鍵問題要解決,而 Scaling Prediction 只是諸多要解決的關(guān)鍵問題之一。
還有一些關(guān)鍵問題,比如當(dāng)大模型在某個(gè)任務(wù)上已經(jīng)超越人類,是否有辦法能讓它繼續(xù)提升,即 OpenAI 提的 Super Alignment;也包括長(zhǎng)文本 Transformer 是否仍是下一代的架構(gòu)等問題。
韓旭更具體地說到,今年團(tuán)隊(duì)的第一個(gè)目標(biāo)就是把 GPT-3.5 塞到PC這些計(jì)算性能相對(duì)較好的端側(cè)設(shè)備上,然后到年底掏出一個(gè)具備 GPT-4 能力的大號(hào)模型,這是非常明確的。未來兩年讓模型生出“眼睛”、“手臂”,形成智能體社群,這些都是目前在發(fā)力的技術(shù)方向。
很多人認(rèn)為,面壁做 MiniCPM 的小模型是在妥協(xié)?!傅鋵?shí)不是,只是想通過小鋼炮證明我們有絕對(duì)的實(shí)力用小幾倍的參數(shù)量、成本做到和其他家大參數(shù)量模型相同的結(jié)果?!?/p>
同為成立一年左右的時(shí)間,其他大模型公司融資 5 億跟面壁融資 5000 萬(wàn)達(dá)到的效果不相上下,因?yàn)榻?jīng)過科學(xué)的 Scaling Law ,面壁訓(xùn)練的成本只需要 1/10。如果將資源拉到同一基準(zhǔn)線上,面壁反而是在大模型技術(shù)上跑得靠前的那個(gè)。
漫漫 AGI 之路,面壁并不慢。相反,它每一步都走得很穩(wěn),長(zhǎng)跑的優(yōu)勢(shì)才初步顯現(xiàn)。
本文作者長(zhǎng)期關(guān)注大模型、 AIGC 落地應(yīng)用、數(shù)字人領(lǐng)域,歡迎添加微信:s1060788086,交流認(rèn)知,互通有無(wú)。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。