丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給王悅
發(fā)送

0

專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

本文作者: 王悅 2024-02-05 14:34
導(dǎo)語:以小博大,面壁MiniCPM在大模型賽場上扔出了重磅炸彈。


2月1日,剛成立一年的面壁智能發(fā)布了兩個在海內(nèi)外大模型領(lǐng)域「炸裂級」的存在——面壁 MiniCPM 2B 旗艦端側(cè)大模型與面壁OmniLMM多模態(tài)大模型。

MiniCPM 2B 有著當之無愧的「小鋼炮」稱號,其炸裂的點在于,從規(guī)模大小和性能來看,僅用2B 規(guī)模和1T tokens精選數(shù)據(jù),便已在多項主流評測榜單、中英文平均成績中超越被稱為“歐洲最佳大模型”的Mistral-7B。

專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

在與其他同等規(guī)模大模型的對比中,面壁MiniCPM表現(xiàn)依舊領(lǐng)先,大幅超越了 Llama2-7B, Mistral7B,Gemini Nano,Qwen-1.8B等一眾模型,甚至還能越級比肩 Llama2-13B、Falcon 40B和Cohere 54B此類比自己龐大數(shù)十倍規(guī)模的模型。

可以說,面壁智能這次扔出的“2B小鋼炮”,炸出了超越Mistral-7B發(fā)布的效果,展示了端側(cè)大語言模型的無限潛力

針對面壁智能本次發(fā)布的大模型成果,AI 科技評論獨家對話面壁智能 CTO 曾國洋后發(fā)現(xiàn),面壁這個剛成立一年的團隊背后,是國內(nèi)頂尖 AI 科學(xué)家更深厚的探索和積累。


“用最小的規(guī)模,做最強的AI”


端側(cè)、高效、以小搏大——這是面壁智能 CTO 曾國洋給出了面壁智能發(fā)布大模型的關(guān)鍵詞。

其中「高效」二字,是刻在面壁智能骨子里的基因,不僅體現(xiàn)在訓(xùn)練和推理上,也體現(xiàn)在參數(shù)上——用更小的參數(shù)達到更好效果。更多關(guān)于面壁智能團隊背后的故事,歡迎添加作者:s1060788086、anna042023 來聊。

Mistral-7B 用 7B 的參數(shù)量戰(zhàn)勝了 13B 參數(shù)量的模型。「為了展現(xiàn)面壁的效率,我們做到了用 2B 干掉Llama 的 13B,高下立見?!?/p>

在過去的幾個月里,面壁智能團隊做了上千次實驗、模型的沙盒,去搜索各種各樣的訓(xùn)練技巧、超參數(shù)等。找到了訓(xùn)練大模型最優(yōu)秀的一組參數(shù),并使用找到的這組參數(shù)訓(xùn)練了一個2B模型作為驗證,最終得到了MiniCPM模型。從實際效果來看,確實也取得了比較好的效果,在 11 項主流測評榜單、中英文平均成績中超越Mistral-7B:


專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

在 與國內(nèi)外同尺寸模型的性能對比上,MiniCPM-2B 的評分同樣處于領(lǐng)先位置。


專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

面壁智能之所以能做到在小尺寸模型技術(shù)的競技場上“以小博大”,首先是因為具有全流程高效的 Infra,為大模型創(chuàng)業(yè)打好了地基。其全流程優(yōu)化加速工具套件平臺面壁ModelForce由訓(xùn)練框架BMTrain、推理框架BMINF、壓縮框架BMCook和微調(diào)框架BMTune構(gòu)成,能降低90%的訓(xùn)練成本,讓推理加速10倍。

再者,面壁「模型沙盒」讓大模型和小模型形成良性循環(huán)、高效訓(xùn)模。小模型預(yù)測大模型性能,大小模型共享超參數(shù)方案,以實現(xiàn)部分調(diào)整接近Cerebras-GPT的超參穩(wěn)定模型規(guī)模擴增,達成最優(yōu)Batchsize、學(xué)習(xí)率。另外固定模型倍增上限,使模型訓(xùn)練隨時可以叫停,獲得階段最優(yōu)的模型增長倍數(shù)。

在數(shù)據(jù)方面,面壁團隊形成從數(shù)據(jù)治理到多維評測的閉環(huán),牽引模型版本快速迭代,堪稱現(xiàn)代化「數(shù)據(jù)工廠」。

在具體應(yīng)用方面,面壁MiniCPM在語言、代碼及多模態(tài)上均表現(xiàn)優(yōu)秀。面壁MiniCPM具有更全面的通用與中文能力,Chat模型對答如流,在和人評最接近的MT-Bench指標中獲得高分。面壁MiniCPM還能夠自己編寫自己的代碼,其編程能力超越Mistral。另外,面壁MiniCPM創(chuàng)新實現(xiàn)了首批多模態(tài)上手機,具有當下同量級模型的最強多模態(tài)能力。

在模型發(fā)布會現(xiàn)場,面壁智能 CEO 李大海也現(xiàn)場演示了 MiniCPM-2B 的具體能力。在對話能力層面, MiniCPM-2B 的反應(yīng)速度和真人反應(yīng)的速度不相上下:

專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

在模型門普遍的短板推理能力上,MiniCPM-2B 也能解決相對復(fù)雜的問題:

專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

「小鋼炮」性能突破至此,但其意義遠不止表面上模型能力的提升,它更使得普通的、配置本身不高的端側(cè)設(shè)備擁有搭載更強大模型的能力,拓展了大模型的應(yīng)用邊界和應(yīng)用空間。

大模型時代,AI  native 是必然的趨勢。面壁智能在 MiniCPM-2B 的性能水到渠成后,選擇用最小的規(guī)模,做最強的 AI。面壁智能還把多模態(tài)版本的MiniCPM-V 部署在手機,首批跑通了多模態(tài)大模型在手機上的部署。

更重要的是,端側(cè)模型有很強的商業(yè)意義。它使得在端側(cè)做應(yīng)用這件事從不可能變成了可能。另外在端上,在智能終端上全天候的特性,讓很多應(yīng)用變得更加落地。

除了小鋼炮之外,多模態(tài)大模型表現(xiàn)得同樣吸睛,“面壁OmniLMM”躋身開源社區(qū)最強多模態(tài)模型之列,同規(guī)模能力領(lǐng)先。

發(fā)布會上,李大海同樣現(xiàn)場展示了端側(cè)模型在離線狀態(tài)下的多模態(tài)問答能力。


12B 多模態(tài)交互問答的石頭、剪刀、布案例驗證下來,模型回答十分準確。

綜合性能有較大優(yōu)勢的前提下,面壁 MiniCPM 的成本不升反降。

省錢也是小鋼炮的核心優(yōu)勢之一,能夠以極低的成本支持CPU推理,1元即可使用 1,700,000 tokens。團隊內(nèi)部更用「廢卡拯救計劃」調(diào)侃他們對顯卡的極致使用能力,僅以 1 張卡全參數(shù)微調(diào),消費級顯卡也能訓(xùn)練大模型。

面壁MiniCPM量化版,在大小上壓縮了75%,但性能基本無損耗,并且跑通國際主流手機與終端CPU芯片,發(fā)布多年以上的老機型也無壓力。

基于足夠強的大模型性能,面壁智能也推出了「大模型+ Agent」雙引擎戰(zhàn)略,目前做了些探索性的工作 XAgent、ChatDev 和 AgentVerse 等,目前還在尋求 Agent 更好的落地形式。

“我們沒有追趕誰,在技術(shù)上我們一直是領(lǐng)先的?!泵姹谥悄艿穆?lián)合創(chuàng)始人、清華大學(xué)長聘副教授劉知遠在發(fā)布會上如是說到。


先踩1000次坑,而后以小搏大


面壁科研團隊由劉知遠帶領(lǐng),一共發(fā)生過4次重要的技術(shù)方向推動,且紛紛經(jīng)過了歷史的考驗:涉及到從深度學(xué)習(xí)、BERT、大模型到Agent的幾次技術(shù)轉(zhuǎn)型。

劉知遠團隊屬于清華大學(xué)自然語言處理實驗室 THUNLP,從 2018 年BERT轟動面世后便開始研究預(yù)訓(xùn)練語言模型, 并于2019 年推出世界第一個知識指導(dǎo)的預(yù)訓(xùn)練語言模型“ERNIE”,也是2020 年 6 月 GPT-3 推出后國內(nèi)第一批大模型的忠實擁躉研究者。

2020 年劉知遠團隊參與智源悟道大模型項目,負責(zé)悟道中的“文源”,主要研究中文大模型,先后推出二十億參數(shù)大模型 CPM 1.0 與千億參數(shù)大模型 CPM 2.0。

2022年,劉知遠團隊將高性能計算與大模型相結(jié)合的方法發(fā)表于 Nature子刊《Nature Communications》,是國內(nèi)最早在大模型訓(xùn)練中引入分布式加速算法的團隊之一。

專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

面壁團隊雖然成立不久,但其中核心成員是身經(jīng)百戰(zhàn)。從最開始的 CPM 1、2、3 到 CPM-Ant 、CPM-Bee 、CPM-Cricket,然后到最近的MiniCPM,面壁團隊的核心成員都參與其中,其實MiniCPM可以看做CPM-D的中間實驗版本。

曾國洋告訴 AI 科技評論,除了現(xiàn)在能發(fā)布的訓(xùn)得不錯的模型之外,背后也訓(xùn)崩了很多模型。

「我們之前其實也經(jīng)常走彎路,大模型訓(xùn)練其實是非常需要積累的。我一直覺得大家都清楚大模型訓(xùn)練的那些技術(shù)點,但是實際上真正去操作的時候有很多不好用技術(shù)來表達出來的內(nèi)容,反而會成為訓(xùn)練大模型成功的重要因素,包括在訓(xùn)練過程中對各種意外的處理,對數(shù)據(jù)模型訓(xùn)練的認知等,這些就是我們在過程中持續(xù)積累到的東西,更像是一種經(jīng)驗性的能力?!?/p>

面壁團隊所積累的處理異常的經(jīng)驗、數(shù)據(jù)的選擇認知——這些是看不到的東西才是內(nèi)功,需要在大模型當中持續(xù)發(fā)力的,才能構(gòu)成真正意義上的壁壘。

被稱為面壁團隊中的「模型料理三星主廚」胡聲鼎在發(fā)布會上說到:即使把「如何訓(xùn)好大模型的步驟」一步一步寫下來,別的團隊也不一定能做出來了,這其中更多的是一種經(jīng)驗。這好比,能拿到米其林三星主廚的菜譜也不一定能做得了三星大廚。

除了長期積累下來的經(jīng)驗,面壁智能團隊自然也開創(chuàng)了新技術(shù),其中比較關(guān)鍵的是WSD的調(diào)度器看,它相對cosine調(diào)度器有一定的優(yōu)勢,不只是讓模型持續(xù)地訓(xùn)練。并且,面壁團隊已經(jīng)探索到這種調(diào)度器全局最優(yōu)和局部最優(yōu)的階段分開了,分開之后可以探索局部最優(yōu)的階段吸收更好的。

其實,于面壁團隊而言,無論是研發(fā)大模型還是小模型,兩者差別并不大,無非是啟動「1000億」和「20億」參數(shù)的區(qū)別而已。

這次發(fā)布2B模型,是驗證面壁「模型沙盒」成千次實驗的結(jié)果,相比于主流優(yōu)秀方案做了很多改進,包括超參的調(diào)整方案,使得不需要在大模型上調(diào)優(yōu)可以獲得優(yōu)秀的大模型,再比如改訓(xùn)練方案等??恐?000次坑再爬起來總結(jié)經(jīng)驗的品質(zhì),面壁團隊打磨出了其他團隊不具備的能力

大模型在國內(nèi)起步的早期階段,曾國洋曾經(jīng)連續(xù)幾個月工作都不覺疲憊,「因為我很相信 AGI 會實現(xiàn)」。

面壁智能團隊對 AGI 有很大的愿景。劉知遠也表示,實現(xiàn) AGI 需要我們做什么,我們就做什么。


對話面壁智能 CTO 曾國洋


AI 科技評論:「高效」是面壁團隊的基因或追求嗎?

曾國洋:我們確實在「高效」這方面一直都有所追求,包括在比較早的時候其實就開始做很多 Infra的工作,算是追求高效的體現(xiàn)吧。因為面壁也是比較早開始做大模型的一家公司,大模型之前在國內(nèi)也是走過一些彎路,就包括大家其實就是在卷模型的參數(shù)量等。2021 年那段時間國內(nèi)都卷得很瘋狂,但卷完之后大家發(fā)現(xiàn)參數(shù)量能訓(xùn)到再大其實也沒有意義,因為沒辦法讓它有效落地。

所以對于大模型落地來說,效率是很關(guān)鍵的問題,需要控制成本來達到更好的效果,這樣才能去擴展大模型的應(yīng)用邊界。換句話說,大模型的應(yīng)用邊界可以理解為它創(chuàng)造的價值減去它的成本。所以在這個過程中我們追求效率,就是為了追求讓成本更低,創(chuàng)造的價值更多,擴展大模型的應(yīng)用邊界。

AI 科技評論:為什么會讓面壁MiniCPM最開始的路徑選擇就是在端側(cè)應(yīng)用?

曾國洋:一方面是我們想要在小規(guī)模模型上驗證『模型沙盒』得到的最優(yōu)參數(shù),另一方面是因為前段時間端側(cè)模型也受到了很多媒體的報道和關(guān)注。我們發(fā)現(xiàn)2B模型正好能夠跑在各種端側(cè)設(shè)備上。其實2B模型本身其實是對我們在模型訓(xùn)練這一側(cè)技術(shù)的驗證,驗證了用之前研究的技術(shù)來訓(xùn)一個模型確實能訓(xùn)好。然后正好也趕上了這個時間點,所以就想能不能讓大模型真的在手機上跑起來,迸發(fā)出一些新的、有趣的應(yīng)用案例。

AI 科技評論:2B模型已經(jīng)能夠滿足或者集成想要的效果的話,是不是沒有必要再做大了?

曾國洋:其實我們想是走兩端。一個是我們做小規(guī)模模型,它其實能做更快的技術(shù)驗證,成本更低。同時我們在更大的模型這一端,會把效率拉到極致,即擴大模型參數(shù)量,然后在大家都可以接受的成本下,看模型能達到的性能效果的上限,這其實是一個比較偏兩端的方案。

AI 科技評論:在未來研究大模型用「以小博大」的方式會是一種趨勢嗎?

曾國洋:我覺得其實各家肯定都在做以小博大的事。因為我們在這方面做得非常突出,所以才做出這個效果。換句話來說,大家都會做大模型的效率優(yōu)化,即達到同樣的效果,要讓模型規(guī)模更小,成本更低,這其實是大家都在做的事。

我覺得我們和其他人都會在這條線上持續(xù)發(fā)力。這一次的2B模型告訴我們,現(xiàn)在大模型還有很多沒有挖掘的潛力,包括現(xiàn)在還沒有充分達到2B模型的極限。也許在未來一到兩年左右的時間,我們就有機會能夠看到一個能在終端設(shè)備上跑起來、對標現(xiàn)在像 GPT 3.5 Turbo 這樣水平的模型。

因為我們做了非常多實驗,發(fā)現(xiàn)可以探索的東西還非常多,做一些探索就能看到模型效果、效率在持續(xù)提升。同時也能感受到,現(xiàn)在在端側(cè)上,包括各大手機廠商其實也開始重視大模型能否運行在手機或終端上。未來一到兩年我們在模型側(cè)會繼續(xù)發(fā)力,在硬件上也會持續(xù)更新迭代,所以我還是對這個事還是挺樂觀的。

AI 科技評論:這些有待挖掘的潛力會體現(xiàn)在哪里呢?

曾國洋:這么多年我也訓(xùn)了挺多模型的,能很明顯感受到,雖然模型規(guī)模一直沒有特別大的變化,但在效果上是在飛速提升的。比如我們在 2020 年底時訓(xùn)練的第一個版本的模型 CPM 1,它其實和今天的 Mini CPM 的參數(shù)量差不多,但是從使用的感受上來說, Mini CPM就能感受到明顯的提升。

在模型訓(xùn)練技術(shù)這一側(cè)持續(xù)挖掘的話,我覺得還有更大的一些提升空間。包括我們現(xiàn)在做一些像Int4之類的量化,會發(fā)現(xiàn)就算把它從 16 bit 變成4 bit,效果都不會下降,也能看出里邊肯定有一些水分之類的還沒有完全榨干的東西。從這里我也能感受到,模型其實還有很多可以挖掘的潛力,包括我們?nèi)プ瞿P皖A(yù)訓(xùn)練和在數(shù)據(jù)上的一些技術(shù)。

AI 科技評論:最開始的悟道模型,您從最初就參與了嗎?

曾國洋:對,我特別早就參與了。其實說實話我覺得我真正被大模型吸引是在完成 CPM 1 的訓(xùn)練之后,當時我第一次感受到我是真正在做一個有智能的東西。雖然之前我也做過 CV 領(lǐng)域和NLP 領(lǐng)域,但那時候大家很多工作都是一些偏認知、識別的東西,但是大模型是真正有創(chuàng)造力。我當時就感覺它才是有智慧的東西。

AI 科技評論:您遇到過哪個非技術(shù)的難題讓您印象深刻的嗎?

曾國洋:模型訓(xùn)練里大家最容易遇到的問題是 loss 不收斂,容易訓(xùn)著訓(xùn)著就飛掉的問題。很多人看到 loss 飛掉會去反思,想去積累各種經(jīng)驗。但我們因為訓(xùn)崩過太多模型,在這個過程發(fā)現(xiàn)了其實往往不會是一種原因?qū)е碌?,而是有可能是好幾種不同意外、缺陷導(dǎo)致了同樣的結(jié)果,很難用一種固定的手段去修掉,因為造成loss 飛掉的原因是多種多樣的。

針對這些原因,我們得一個個去排查,才能找到根本原因。只有把根治了,才能讓這個問題真的修好。但從之前一些公開的經(jīng)驗表明,大家遇到這些問題,通常都會比較籠統(tǒng)的說,跳過一段數(shù)據(jù)或者改一下訓(xùn)練learning rate 等等比較表面的操作。但更根本的其實得靠在這個過程中持續(xù)的積累,包括我昨天想了一個對模型的優(yōu)化,模型崩掉就說明這個優(yōu)化大概率是行不通的。

在這些看不到地方里,我們積累下來很多經(jīng)驗,就像走在路上摔了一跤,可能是因為鞋帶松了,可能是因為地上有個坑,也可能是踩香蕉皮了,只有都踩過之后才知道,原來有這么多方法能讓人摔跤。

AI 科技評論:面壁MiniCPM作為端側(cè)大模型,具有什么獨到優(yōu)勢?

曾國洋:一個模型的能力更強,能發(fā)揮的價值也會更高。我們在2B模型上做出能比肩Mistral-7B的效果,其實也能很大程度擴展模型的應(yīng)用邊界。Mistral-7B這樣的模型在之前是必須在 GPU、云端上跑的,這樣其實也限制了它在實際應(yīng)用中范圍,因為用戶沒有 GPU等設(shè)備,就可能跑不起來。

而對于一個2B模型來說,它是沒有這些問題的,甚至能跑在手機上。2B模型也許以后就能直接內(nèi)嵌在手機或者打包到各個應(yīng)用里,以一種更輕便的方法能跑在更多的設(shè)備上,不用考慮用戶到底有沒有 GPU 這樣的設(shè)備,因為都是能運行的。這樣我們就能讓大模型有更廣闊的實際應(yīng)用的空間。

我以前用Mistral-7B這類模型去做了一個應(yīng)用,需要自己部署服務(wù)器才能讓用戶連上,才能發(fā)揮大模型的能力。而現(xiàn)在我可以把這個2B模型打包到我的應(yīng)用 APP 里,直接發(fā)布到用戶的手機上,用戶都不用聯(lián)網(wǎng)就能直接訪問,大大節(jié)約了作為一個大模型應(yīng)用開發(fā)者的成本,另一方面也能讓模型在更多的場景被使用到,比如手機、汽車、音箱等,讓萬物都擁有智能,且是在非常低功耗的芯片上。這也是「Internet of Agents」的概念,發(fā)揮群體協(xié)作和更強大的智能。

AI 科技評論:為什么面壁會對Agent如此重視?

曾國洋:我們的認知是,一方面我們在降低大模型的成本,訓(xùn)練 Mini CPM,另一方面我們也在擴展它能力的邊界和創(chuàng)造的價值。Agent 的技術(shù)是一個能讓模型創(chuàng)造更多價值的一個技術(shù),所以我們非常看重它。

大模型其實像人的大腦,有智能的決策、認知、判斷能力,但只有大腦的話,它能做的事還不夠。而Agent的技術(shù)相當于給它接上了雙手,讓它能使用外部工具和知識,并且我覺得將來Agent 還會繼續(xù)發(fā)展,讓模型能夠像人一樣真正地思考,接受反饋,自我進化,甚至能實現(xiàn)Agent之間更好的協(xié)作。這其實是我們對于Agent 這條路線未來的展望,我們覺得這是一條非常有前景的路線,因此我們目前在Agent 方面做了非常多的探索和研究,同時也發(fā)出了很多聲音。

但畢竟Agent 是新的技術(shù),所以目前還沒辦法說有一個非常清晰的規(guī)劃,或者很篤定說這個技術(shù)一定這樣做就成了,只是我們相信往這個方向做一定是對的。

AI 科技評論:面壁智能擁有全產(chǎn)品線,涵蓋模型層的AI Infra+大模型,Agent智能體,以及基于「大模型 + Agent 」的上層應(yīng)用。,在這其中是否會有側(cè)重點?

曾國洋:其實雖然說這是幾個產(chǎn)品線,但在我心里是一條線。Infra 支撐我們的模型能更快、更好、更強地訓(xùn)練,模型的能力又更好地支撐了Agent的技術(shù),Agent技術(shù)就像模型能力的放大器一樣,能夠讓模型發(fā)揮更大的價值。同時Infra 又能讓模型成本更低,能運行在更多設(shè)備上,有更大空間,所以它們在我心中就是在一條線上。這也是我們對于「高效」的追求,在全鏈路上都是高效的,整個優(yōu)化目標是為了讓效率更高,讓大模型應(yīng)用空間更廣。雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)

本文作者:s1060788086、anna042023,歡迎添加微信,交流認知,互通有無。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說