丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給王悅
發(fā)送

0

專訪面壁曾國(guó)洋:踩過(guò) 1000 次大模型的坑后 ,造一個(gè)性能小鋼炮

本文作者: 王悅 2024-02-05 14:34
導(dǎo)語(yǔ):以小博大,面壁MiniCPM在大模型賽場(chǎng)上扔出了重磅炸彈。


2月1日,剛成立一年的面壁智能發(fā)布了兩個(gè)在海內(nèi)外大模型領(lǐng)域「炸裂級(jí)」的存在——面壁 MiniCPM 2B 旗艦端側(cè)大模型與面壁OmniLMM多模態(tài)大模型。

MiniCPM 2B 有著當(dāng)之無(wú)愧的「小鋼炮」稱號(hào),其炸裂的點(diǎn)在于,從規(guī)模大小和性能來(lái)看,僅用2B 規(guī)模和1T tokens精選數(shù)據(jù),便已在多項(xiàng)主流評(píng)測(cè)榜單、中英文平均成績(jī)中超越被稱為“歐洲最佳大模型”的Mistral-7B。

專訪面壁曾國(guó)洋:踩過(guò) 1000 次大模型的坑后 ,造一個(gè)性能小鋼炮

在與其他同等規(guī)模大模型的對(duì)比中,面壁MiniCPM表現(xiàn)依舊領(lǐng)先,大幅超越了 Llama2-7B, Mistral7B,Gemini Nano,Qwen-1.8B等一眾模型,甚至還能越級(jí)比肩 Llama2-13B、Falcon 40B和Cohere 54B此類比自己龐大數(shù)十倍規(guī)模的模型。

可以說(shuō),面壁智能這次扔出的“2B小鋼炮”,炸出了超越Mistral-7B發(fā)布的效果,展示了端側(cè)大語(yǔ)言模型的無(wú)限潛力

針對(duì)面壁智能本次發(fā)布的大模型成果,AI 科技評(píng)論獨(dú)家對(duì)話面壁智能 CTO 曾國(guó)洋后發(fā)現(xiàn),面壁這個(gè)剛成立一年的團(tuán)隊(duì)背后,是國(guó)內(nèi)頂尖 AI 科學(xué)家更深厚的探索和積累。


“用最小的規(guī)模,做最強(qiáng)的AI”


端側(cè)、高效、以小搏大——這是面壁智能 CTO 曾國(guó)洋給出了面壁智能發(fā)布大模型的關(guān)鍵詞。

其中「高效」二字,是刻在面壁智能骨子里的基因,不僅體現(xiàn)在訓(xùn)練和推理上,也體現(xiàn)在參數(shù)上——用更小的參數(shù)達(dá)到更好效果。更多關(guān)于面壁智能團(tuán)隊(duì)背后的故事,歡迎添加作者:s1060788086、anna042023 來(lái)聊。

Mistral-7B 用 7B 的參數(shù)量戰(zhàn)勝了 13B 參數(shù)量的模型。「為了展現(xiàn)面壁的效率,我們做到了用 2B 干掉Llama 的 13B,高下立見(jiàn)。」

在過(guò)去的幾個(gè)月里,面壁智能團(tuán)隊(duì)做了上千次實(shí)驗(yàn)、模型的沙盒,去搜索各種各樣的訓(xùn)練技巧、超參數(shù)等。找到了訓(xùn)練大模型最優(yōu)秀的一組參數(shù),并使用找到的這組參數(shù)訓(xùn)練了一個(gè)2B模型作為驗(yàn)證,最終得到了MiniCPM模型。從實(shí)際效果來(lái)看,確實(shí)也取得了比較好的效果,在 11 項(xiàng)主流測(cè)評(píng)榜單、中英文平均成績(jī)中超越Mistral-7B:


專訪面壁曾國(guó)洋:踩過(guò) 1000 次大模型的坑后 ,造一個(gè)性能小鋼炮

在 與國(guó)內(nèi)外同尺寸模型的性能對(duì)比上,MiniCPM-2B 的評(píng)分同樣處于領(lǐng)先位置。


專訪面壁曾國(guó)洋:踩過(guò) 1000 次大模型的坑后 ,造一個(gè)性能小鋼炮

面壁智能之所以能做到在小尺寸模型技術(shù)的競(jìng)技場(chǎng)上“以小博大”,首先是因?yàn)榫哂腥鞒谈咝У?Infra,為大模型創(chuàng)業(yè)打好了地基。其全流程優(yōu)化加速工具套件平臺(tái)面壁ModelForce由訓(xùn)練框架BMTrain、推理框架BMINF、壓縮框架BMCook和微調(diào)框架BMTune構(gòu)成,能降低90%的訓(xùn)練成本,讓推理加速10倍。

再者,面壁「模型沙盒」讓大模型和小模型形成良性循環(huán)、高效訓(xùn)模。小模型預(yù)測(cè)大模型性能,大小模型共享超參數(shù)方案,以實(shí)現(xiàn)部分調(diào)整接近Cerebras-GPT的超參穩(wěn)定模型規(guī)模擴(kuò)增,達(dá)成最優(yōu)Batchsize、學(xué)習(xí)率。另外固定模型倍增上限,使模型訓(xùn)練隨時(shí)可以叫停,獲得階段最優(yōu)的模型增長(zhǎng)倍數(shù)。

在數(shù)據(jù)方面,面壁團(tuán)隊(duì)形成從數(shù)據(jù)治理到多維評(píng)測(cè)的閉環(huán),牽引模型版本快速迭代,堪稱現(xiàn)代化「數(shù)據(jù)工廠」。

在具體應(yīng)用方面,面壁MiniCPM在語(yǔ)言、代碼及多模態(tài)上均表現(xiàn)優(yōu)秀。面壁MiniCPM具有更全面的通用與中文能力,Chat模型對(duì)答如流,在和人評(píng)最接近的MT-Bench指標(biāo)中獲得高分。面壁MiniCPM還能夠自己編寫(xiě)自己的代碼,其編程能力超越Mistral。另外,面壁MiniCPM創(chuàng)新實(shí)現(xiàn)了首批多模態(tài)上手機(jī),具有當(dāng)下同量級(jí)模型的最強(qiáng)多模態(tài)能力。

在模型發(fā)布會(huì)現(xiàn)場(chǎng),面壁智能 CEO 李大海也現(xiàn)場(chǎng)演示了 MiniCPM-2B 的具體能力。在對(duì)話能力層面, MiniCPM-2B 的反應(yīng)速度和真人反應(yīng)的速度不相上下:

專訪面壁曾國(guó)洋:踩過(guò) 1000 次大模型的坑后 ,造一個(gè)性能小鋼炮

在模型門普遍的短板推理能力上,MiniCPM-2B 也能解決相對(duì)復(fù)雜的問(wèn)題:

專訪面壁曾國(guó)洋:踩過(guò) 1000 次大模型的坑后 ,造一個(gè)性能小鋼炮

「小鋼炮」性能突破至此,但其意義遠(yuǎn)不止表面上模型能力的提升,它更使得普通的、配置本身不高的端側(cè)設(shè)備擁有搭載更強(qiáng)大模型的能力,拓展了大模型的應(yīng)用邊界和應(yīng)用空間。

大模型時(shí)代,AI  native 是必然的趨勢(shì)。面壁智能在 MiniCPM-2B 的性能水到渠成后,選擇用最小的規(guī)模,做最強(qiáng)的 AI。面壁智能還把多模態(tài)版本的MiniCPM-V 部署在手機(jī),首批跑通了多模態(tài)大模型在手機(jī)上的部署。

更重要的是,端側(cè)模型有很強(qiáng)的商業(yè)意義。它使得在端側(cè)做應(yīng)用這件事從不可能變成了可能。另外在端上,在智能終端上全天候的特性,讓很多應(yīng)用變得更加落地。

除了小鋼炮之外,多模態(tài)大模型表現(xiàn)得同樣吸睛,“面壁OmniLMM”躋身開(kāi)源社區(qū)最強(qiáng)多模態(tài)模型之列,同規(guī)模能力領(lǐng)先。

發(fā)布會(huì)上,李大海同樣現(xiàn)場(chǎng)展示了端側(cè)模型在離線狀態(tài)下的多模態(tài)問(wèn)答能力。


12B 多模態(tài)交互問(wèn)答的石頭、剪刀、布案例驗(yàn)證下來(lái),模型回答十分準(zhǔn)確。

綜合性能有較大優(yōu)勢(shì)的前提下,面壁 MiniCPM 的成本不升反降。

省錢也是小鋼炮的核心優(yōu)勢(shì)之一,能夠以極低的成本支持CPU推理,1元即可使用 1,700,000 tokens。團(tuán)隊(duì)內(nèi)部更用「廢卡拯救計(jì)劃」調(diào)侃他們對(duì)顯卡的極致使用能力,僅以 1 張卡全參數(shù)微調(diào),消費(fèi)級(jí)顯卡也能訓(xùn)練大模型。

面壁MiniCPM量化版,在大小上壓縮了75%,但性能基本無(wú)損耗,并且跑通國(guó)際主流手機(jī)與終端CPU芯片,發(fā)布多年以上的老機(jī)型也無(wú)壓力。

基于足夠強(qiáng)的大模型性能,面壁智能也推出了「大模型+ Agent」雙引擎戰(zhàn)略,目前做了些探索性的工作 XAgent、ChatDev 和 AgentVerse 等,目前還在尋求 Agent 更好的落地形式。

“我們沒(méi)有追趕誰(shuí),在技術(shù)上我們一直是領(lǐng)先的?!泵姹谥悄艿穆?lián)合創(chuàng)始人、清華大學(xué)長(zhǎng)聘副教授劉知遠(yuǎn)在發(fā)布會(huì)上如是說(shuō)到。


先踩1000次坑,而后以小搏大


面壁科研團(tuán)隊(duì)由劉知遠(yuǎn)帶領(lǐng),一共發(fā)生過(guò)4次重要的技術(shù)方向推動(dòng),且紛紛經(jīng)過(guò)了歷史的考驗(yàn):涉及到從深度學(xué)習(xí)、BERT、大模型到Agent的幾次技術(shù)轉(zhuǎn)型。

劉知遠(yuǎn)團(tuán)隊(duì)屬于清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室 THUNLP,從 2018 年BERT轟動(dòng)面世后便開(kāi)始研究預(yù)訓(xùn)練語(yǔ)言模型, 并于2019 年推出世界第一個(gè)知識(shí)指導(dǎo)的預(yù)訓(xùn)練語(yǔ)言模型“ERNIE”,也是2020 年 6 月 GPT-3 推出后國(guó)內(nèi)第一批大模型的忠實(shí)擁躉研究者。

2020 年劉知遠(yuǎn)團(tuán)隊(duì)參與智源悟道大模型項(xiàng)目,負(fù)責(zé)悟道中的“文源”,主要研究中文大模型,先后推出二十億參數(shù)大模型 CPM 1.0 與千億參數(shù)大模型 CPM 2.0。

2022年,劉知遠(yuǎn)團(tuán)隊(duì)將高性能計(jì)算與大模型相結(jié)合的方法發(fā)表于 Nature子刊《Nature Communications》,是國(guó)內(nèi)最早在大模型訓(xùn)練中引入分布式加速算法的團(tuán)隊(duì)之一。

專訪面壁曾國(guó)洋:踩過(guò) 1000 次大模型的坑后 ,造一個(gè)性能小鋼炮

面壁團(tuán)隊(duì)雖然成立不久,但其中核心成員是身經(jīng)百戰(zhàn)。從最開(kāi)始的 CPM 1、2、3 到 CPM-Ant 、CPM-Bee 、CPM-Cricket,然后到最近的MiniCPM,面壁團(tuán)隊(duì)的核心成員都參與其中,其實(shí)MiniCPM可以看做CPM-D的中間實(shí)驗(yàn)版本。

曾國(guó)洋告訴 AI 科技評(píng)論,除了現(xiàn)在能發(fā)布的訓(xùn)得不錯(cuò)的模型之外,背后也訓(xùn)崩了很多模型。

「我們之前其實(shí)也經(jīng)常走彎路,大模型訓(xùn)練其實(shí)是非常需要積累的。我一直覺(jué)得大家都清楚大模型訓(xùn)練的那些技術(shù)點(diǎn),但是實(shí)際上真正去操作的時(shí)候有很多不好用技術(shù)來(lái)表達(dá)出來(lái)的內(nèi)容,反而會(huì)成為訓(xùn)練大模型成功的重要因素,包括在訓(xùn)練過(guò)程中對(duì)各種意外的處理,對(duì)數(shù)據(jù)模型訓(xùn)練的認(rèn)知等,這些就是我們?cè)谶^(guò)程中持續(xù)積累到的東西,更像是一種經(jīng)驗(yàn)性的能力?!?/p>

面壁團(tuán)隊(duì)所積累的處理異常的經(jīng)驗(yàn)、數(shù)據(jù)的選擇認(rèn)知——這些是看不到的東西才是內(nèi)功,需要在大模型當(dāng)中持續(xù)發(fā)力的,才能構(gòu)成真正意義上的壁壘。

被稱為面壁團(tuán)隊(duì)中的「模型料理三星主廚」胡聲鼎在發(fā)布會(huì)上說(shuō)到:即使把「如何訓(xùn)好大模型的步驟」一步一步寫(xiě)下來(lái),別的團(tuán)隊(duì)也不一定能做出來(lái)了,這其中更多的是一種經(jīng)驗(yàn)。這好比,能拿到米其林三星主廚的菜譜也不一定能做得了三星大廚。

除了長(zhǎng)期積累下來(lái)的經(jīng)驗(yàn),面壁智能團(tuán)隊(duì)自然也開(kāi)創(chuàng)了新技術(shù),其中比較關(guān)鍵的是WSD的調(diào)度器看,它相對(duì)cosine調(diào)度器有一定的優(yōu)勢(shì),不只是讓模型持續(xù)地訓(xùn)練。并且,面壁團(tuán)隊(duì)已經(jīng)探索到這種調(diào)度器全局最優(yōu)和局部最優(yōu)的階段分開(kāi)了,分開(kāi)之后可以探索局部最優(yōu)的階段吸收更好的。

其實(shí),于面壁團(tuán)隊(duì)而言,無(wú)論是研發(fā)大模型還是小模型,兩者差別并不大,無(wú)非是啟動(dòng)「1000億」和「20億」參數(shù)的區(qū)別而已。

這次發(fā)布2B模型,是驗(yàn)證面壁「模型沙盒」成千次實(shí)驗(yàn)的結(jié)果,相比于主流優(yōu)秀方案做了很多改進(jìn),包括超參的調(diào)整方案,使得不需要在大模型上調(diào)優(yōu)可以獲得優(yōu)秀的大模型,再比如改訓(xùn)練方案等??恐?000次坑再爬起來(lái)總結(jié)經(jīng)驗(yàn)的品質(zhì),面壁團(tuán)隊(duì)打磨出了其他團(tuán)隊(duì)不具備的能力

大模型在國(guó)內(nèi)起步的早期階段,曾國(guó)洋曾經(jīng)連續(xù)幾個(gè)月工作都不覺(jué)疲憊,「因?yàn)槲液芟嘈?AGI 會(huì)實(shí)現(xiàn)」。

面壁智能團(tuán)隊(duì)對(duì) AGI 有很大的愿景。劉知遠(yuǎn)也表示,實(shí)現(xiàn) AGI 需要我們做什么,我們就做什么。


對(duì)話面壁智能 CTO 曾國(guó)洋


AI 科技評(píng)論:「高效」是面壁團(tuán)隊(duì)的基因或追求嗎?

曾國(guó)洋:我們確實(shí)在「高效」這方面一直都有所追求,包括在比較早的時(shí)候其實(shí)就開(kāi)始做很多 Infra的工作,算是追求高效的體現(xiàn)吧。因?yàn)槊姹谝彩潜容^早開(kāi)始做大模型的一家公司,大模型之前在國(guó)內(nèi)也是走過(guò)一些彎路,就包括大家其實(shí)就是在卷模型的參數(shù)量等。2021 年那段時(shí)間國(guó)內(nèi)都卷得很瘋狂,但卷完之后大家發(fā)現(xiàn)參數(shù)量能訓(xùn)到再大其實(shí)也沒(méi)有意義,因?yàn)闆](méi)辦法讓它有效落地。

所以對(duì)于大模型落地來(lái)說(shuō),效率是很關(guān)鍵的問(wèn)題,需要控制成本來(lái)達(dá)到更好的效果,這樣才能去擴(kuò)展大模型的應(yīng)用邊界。換句話說(shuō),大模型的應(yīng)用邊界可以理解為它創(chuàng)造的價(jià)值減去它的成本。所以在這個(gè)過(guò)程中我們追求效率,就是為了追求讓成本更低,創(chuàng)造的價(jià)值更多,擴(kuò)展大模型的應(yīng)用邊界。

AI 科技評(píng)論:為什么會(huì)讓面壁MiniCPM最開(kāi)始的路徑選擇就是在端側(cè)應(yīng)用?

曾國(guó)洋:一方面是我們想要在小規(guī)模模型上驗(yàn)證『模型沙盒』得到的最優(yōu)參數(shù),另一方面是因?yàn)榍岸螘r(shí)間端側(cè)模型也受到了很多媒體的報(bào)道和關(guān)注。我們發(fā)現(xiàn)2B模型正好能夠跑在各種端側(cè)設(shè)備上。其實(shí)2B模型本身其實(shí)是對(duì)我們?cè)谀P陀?xùn)練這一側(cè)技術(shù)的驗(yàn)證,驗(yàn)證了用之前研究的技術(shù)來(lái)訓(xùn)一個(gè)模型確實(shí)能訓(xùn)好。然后正好也趕上了這個(gè)時(shí)間點(diǎn),所以就想能不能讓大模型真的在手機(jī)上跑起來(lái),迸發(fā)出一些新的、有趣的應(yīng)用案例。

AI 科技評(píng)論:2B模型已經(jīng)能夠滿足或者集成想要的效果的話,是不是沒(méi)有必要再做大了?

曾國(guó)洋:其實(shí)我們想是走兩端。一個(gè)是我們做小規(guī)模模型,它其實(shí)能做更快的技術(shù)驗(yàn)證,成本更低。同時(shí)我們?cè)诟蟮哪P瓦@一端,會(huì)把效率拉到極致,即擴(kuò)大模型參數(shù)量,然后在大家都可以接受的成本下,看模型能達(dá)到的性能效果的上限,這其實(shí)是一個(gè)比較偏兩端的方案。

AI 科技評(píng)論:在未來(lái)研究大模型用「以小博大」的方式會(huì)是一種趨勢(shì)嗎?

曾國(guó)洋:我覺(jué)得其實(shí)各家肯定都在做以小博大的事。因?yàn)槲覀冊(cè)谶@方面做得非常突出,所以才做出這個(gè)效果。換句話來(lái)說(shuō),大家都會(huì)做大模型的效率優(yōu)化,即達(dá)到同樣的效果,要讓模型規(guī)模更小,成本更低,這其實(shí)是大家都在做的事。

我覺(jué)得我們和其他人都會(huì)在這條線上持續(xù)發(fā)力。這一次的2B模型告訴我們,現(xiàn)在大模型還有很多沒(méi)有挖掘的潛力,包括現(xiàn)在還沒(méi)有充分達(dá)到2B模型的極限。也許在未來(lái)一到兩年左右的時(shí)間,我們就有機(jī)會(huì)能夠看到一個(gè)能在終端設(shè)備上跑起來(lái)、對(duì)標(biāo)現(xiàn)在像 GPT 3.5 Turbo 這樣水平的模型。

因?yàn)槲覀冏隽朔浅6鄬?shí)驗(yàn),發(fā)現(xiàn)可以探索的東西還非常多,做一些探索就能看到模型效果、效率在持續(xù)提升。同時(shí)也能感受到,現(xiàn)在在端側(cè)上,包括各大手機(jī)廠商其實(shí)也開(kāi)始重視大模型能否運(yùn)行在手機(jī)或終端上。未來(lái)一到兩年我們?cè)谀P蛡?cè)會(huì)繼續(xù)發(fā)力,在硬件上也會(huì)持續(xù)更新迭代,所以我還是對(duì)這個(gè)事還是挺樂(lè)觀的。

AI 科技評(píng)論:這些有待挖掘的潛力會(huì)體現(xiàn)在哪里呢?

曾國(guó)洋:這么多年我也訓(xùn)了挺多模型的,能很明顯感受到,雖然模型規(guī)模一直沒(méi)有特別大的變化,但在效果上是在飛速提升的。比如我們?cè)?2020 年底時(shí)訓(xùn)練的第一個(gè)版本的模型 CPM 1,它其實(shí)和今天的 Mini CPM 的參數(shù)量差不多,但是從使用的感受上來(lái)說(shuō), Mini CPM就能感受到明顯的提升。

在模型訓(xùn)練技術(shù)這一側(cè)持續(xù)挖掘的話,我覺(jué)得還有更大的一些提升空間。包括我們現(xiàn)在做一些像Int4之類的量化,會(huì)發(fā)現(xiàn)就算把它從 16 bit 變成4 bit,效果都不會(huì)下降,也能看出里邊肯定有一些水分之類的還沒(méi)有完全榨干的東西。從這里我也能感受到,模型其實(shí)還有很多可以挖掘的潛力,包括我們?nèi)プ瞿P皖A(yù)訓(xùn)練和在數(shù)據(jù)上的一些技術(shù)。

AI 科技評(píng)論:最開(kāi)始的悟道模型,您從最初就參與了嗎?

曾國(guó)洋:對(duì),我特別早就參與了。其實(shí)說(shuō)實(shí)話我覺(jué)得我真正被大模型吸引是在完成 CPM 1 的訓(xùn)練之后,當(dāng)時(shí)我第一次感受到我是真正在做一個(gè)有智能的東西。雖然之前我也做過(guò) CV 領(lǐng)域和NLP 領(lǐng)域,但那時(shí)候大家很多工作都是一些偏認(rèn)知、識(shí)別的東西,但是大模型是真正有創(chuàng)造力。我當(dāng)時(shí)就感覺(jué)它才是有智慧的東西。

AI 科技評(píng)論:您遇到過(guò)哪個(gè)非技術(shù)的難題讓您印象深刻的嗎?

曾國(guó)洋:模型訓(xùn)練里大家最容易遇到的問(wèn)題是 loss 不收斂,容易訓(xùn)著訓(xùn)著就飛掉的問(wèn)題。很多人看到 loss 飛掉會(huì)去反思,想去積累各種經(jīng)驗(yàn)。但我們因?yàn)橛?xùn)崩過(guò)太多模型,在這個(gè)過(guò)程發(fā)現(xiàn)了其實(shí)往往不會(huì)是一種原因?qū)е碌?,而是有可能是好幾種不同意外、缺陷導(dǎo)致了同樣的結(jié)果,很難用一種固定的手段去修掉,因?yàn)樵斐蒷oss 飛掉的原因是多種多樣的。

針對(duì)這些原因,我們得一個(gè)個(gè)去排查,才能找到根本原因。只有把根治了,才能讓這個(gè)問(wèn)題真的修好。但從之前一些公開(kāi)的經(jīng)驗(yàn)表明,大家遇到這些問(wèn)題,通常都會(huì)比較籠統(tǒng)的說(shuō),跳過(guò)一段數(shù)據(jù)或者改一下訓(xùn)練learning rate 等等比較表面的操作。但更根本的其實(shí)得靠在這個(gè)過(guò)程中持續(xù)的積累,包括我昨天想了一個(gè)對(duì)模型的優(yōu)化,模型崩掉就說(shuō)明這個(gè)優(yōu)化大概率是行不通的。

在這些看不到地方里,我們積累下來(lái)很多經(jīng)驗(yàn),就像走在路上摔了一跤,可能是因?yàn)樾瑤闪?,可能是因?yàn)榈厣嫌袀€(gè)坑,也可能是踩香蕉皮了,只有都踩過(guò)之后才知道,原來(lái)有這么多方法能讓人摔跤。

AI 科技評(píng)論:面壁MiniCPM作為端側(cè)大模型,具有什么獨(dú)到優(yōu)勢(shì)?

曾國(guó)洋:一個(gè)模型的能力更強(qiáng),能發(fā)揮的價(jià)值也會(huì)更高。我們?cè)?B模型上做出能比肩Mistral-7B的效果,其實(shí)也能很大程度擴(kuò)展模型的應(yīng)用邊界。Mistral-7B這樣的模型在之前是必須在 GPU、云端上跑的,這樣其實(shí)也限制了它在實(shí)際應(yīng)用中范圍,因?yàn)橛脩魶](méi)有 GPU等設(shè)備,就可能跑不起來(lái)。

而對(duì)于一個(gè)2B模型來(lái)說(shuō),它是沒(méi)有這些問(wèn)題的,甚至能跑在手機(jī)上。2B模型也許以后就能直接內(nèi)嵌在手機(jī)或者打包到各個(gè)應(yīng)用里,以一種更輕便的方法能跑在更多的設(shè)備上,不用考慮用戶到底有沒(méi)有 GPU 這樣的設(shè)備,因?yàn)槎际悄苓\(yùn)行的。這樣我們就能讓大模型有更廣闊的實(shí)際應(yīng)用的空間。

我以前用Mistral-7B這類模型去做了一個(gè)應(yīng)用,需要自己部署服務(wù)器才能讓用戶連上,才能發(fā)揮大模型的能力。而現(xiàn)在我可以把這個(gè)2B模型打包到我的應(yīng)用 APP 里,直接發(fā)布到用戶的手機(jī)上,用戶都不用聯(lián)網(wǎng)就能直接訪問(wèn),大大節(jié)約了作為一個(gè)大模型應(yīng)用開(kāi)發(fā)者的成本,另一方面也能讓模型在更多的場(chǎng)景被使用到,比如手機(jī)、汽車、音箱等,讓萬(wàn)物都擁有智能,且是在非常低功耗的芯片上。這也是「Internet of Agents」的概念,發(fā)揮群體協(xié)作和更強(qiáng)大的智能。

AI 科技評(píng)論:為什么面壁會(huì)對(duì)Agent如此重視?

曾國(guó)洋:我們的認(rèn)知是,一方面我們?cè)诮档痛竽P偷某杀荆?xùn)練 Mini CPM,另一方面我們也在擴(kuò)展它能力的邊界和創(chuàng)造的價(jià)值。Agent 的技術(shù)是一個(gè)能讓模型創(chuàng)造更多價(jià)值的一個(gè)技術(shù),所以我們非??粗厮?/p>

大模型其實(shí)像人的大腦,有智能的決策、認(rèn)知、判斷能力,但只有大腦的話,它能做的事還不夠。而Agent的技術(shù)相當(dāng)于給它接上了雙手,讓它能使用外部工具和知識(shí),并且我覺(jué)得將來(lái)Agent 還會(huì)繼續(xù)發(fā)展,讓模型能夠像人一樣真正地思考,接受反饋,自我進(jìn)化,甚至能實(shí)現(xiàn)Agent之間更好的協(xié)作。這其實(shí)是我們對(duì)于Agent 這條路線未來(lái)的展望,我們覺(jué)得這是一條非常有前景的路線,因此我們目前在Agent 方面做了非常多的探索和研究,同時(shí)也發(fā)出了很多聲音。

但畢竟Agent 是新的技術(shù),所以目前還沒(méi)辦法說(shuō)有一個(gè)非常清晰的規(guī)劃,或者很篤定說(shuō)這個(gè)技術(shù)一定這樣做就成了,只是我們相信往這個(gè)方向做一定是對(duì)的。

AI 科技評(píng)論:面壁智能擁有全產(chǎn)品線,涵蓋模型層的AI Infra+大模型,Agent智能體,以及基于「大模型 + Agent 」的上層應(yīng)用。,在這其中是否會(huì)有側(cè)重點(diǎn)?

曾國(guó)洋:其實(shí)雖然說(shuō)這是幾個(gè)產(chǎn)品線,但在我心里是一條線。Infra 支撐我們的模型能更快、更好、更強(qiáng)地訓(xùn)練,模型的能力又更好地支撐了Agent的技術(shù),Agent技術(shù)就像模型能力的放大器一樣,能夠讓模型發(fā)揮更大的價(jià)值。同時(shí)Infra 又能讓模型成本更低,能運(yùn)行在更多設(shè)備上,有更大空間,所以它們?cè)谖倚闹芯褪窃谝粭l線上。這也是我們對(duì)于「高效」的追求,在全鏈路上都是高效的,整個(gè)優(yōu)化目標(biāo)是為了讓效率更高,讓大模型應(yīng)用空間更廣。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)

本文作者:s1060788086、anna042023,歡迎添加微信,交流認(rèn)知,互通有無(wú)。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

專訪面壁曾國(guó)洋:踩過(guò) 1000 次大模型的坑后 ,造一個(gè)性能小鋼炮

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)