0
本文作者: 張進(jìn) | 2023-09-16 20:47 |
近日,TII研究中心推出的開(kāi)源大模型Falcon 180B一經(jīng)發(fā)布,便被認(rèn)為是當(dāng)前最好的開(kāi)源大模型。
原極狐Gitlab創(chuàng)始人、現(xiàn)大模型解決方案OpenCSG的創(chuàng)始人陳冉&王偉在其發(fā)布后率先試用了,他告訴雷峰網(wǎng),“Falcon 180B能力很強(qiáng)”,但也有一部分大模型創(chuàng)業(yè)者告訴雷峰網(wǎng),還沒(méi)試用,因?yàn)橥评沓杀咎撸居貌黄稹?/p>
從官方發(fā)布的測(cè)評(píng)結(jié)果來(lái)看,F(xiàn)alcon 180B 在自然語(yǔ)言任務(wù)上的表現(xiàn)優(yōu)異。它在 Hugging Face 開(kāi)源大模型榜單上的評(píng)分68.74 ,超過(guò)Meta 的 LlaMA 2 (67.35),是當(dāng)前評(píng)分最高的開(kāi)放式大模型。在MMLU上的表現(xiàn)超過(guò)了 Llama 2 70B 和 OpenAI 的 GPT-3.5,在 HellaSwag、LAMBADA等十余個(gè)測(cè)評(píng)上與谷歌的 PaLM 2-Large 不相上下。
「超越LlaMA 2」「優(yōu)于GPT-3.5」「接近GPT-4」,一個(gè)個(gè)贊美之聲讓Falcon 180B沖上云霄,一時(shí)風(fēng)光無(wú)限。
其背后的TII研究中心總部位于阿聯(lián)酋阿布扎比,今年5月底該研究中心剛開(kāi)源了阿聯(lián)酋第一個(gè)大規(guī)模人工智能模型“Falcon 40B”,供研究和商業(yè)使用,并在發(fā)布Falcon 40B時(shí)便期望在不久后開(kāi)發(fā)和宣布Falcon 180B。
時(shí)隔4個(gè)月時(shí)間,TII便開(kāi)源了Falcon 180B,從架構(gòu)維度來(lái)看,F(xiàn)alcon 180B 是 Falcon 40B 的升級(jí)版本,并在其基礎(chǔ)上進(jìn)行了創(chuàng)新,比如利用 Multi-Query Attention 等來(lái)提高模型的可擴(kuò)展性。
Falcon 系列是由TII的AI and Digital Science Research Center (AIDRC)團(tuán)隊(duì)研發(fā)的成果,該團(tuán)隊(duì)還在去年推出了世界上最大的阿拉伯文NLP模型,即NOOR。一位基金公司的投資人告訴雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)),F(xiàn)alcon團(tuán)隊(duì)中有部分華人,其中幾個(gè)來(lái)自阿里。
當(dāng)我們猜測(cè)Falcon 180B比Llama 2更懂中文是否是團(tuán)隊(duì)刻意為之,Hugging Face 的中國(guó)區(qū)負(fù)責(zé)人王鐵震告訴雷峰網(wǎng),F(xiàn)alcon 180B的作者對(duì)此也很詫異,說(shuō)他們絕對(duì)沒(méi)有在數(shù)據(jù)集里刻意加一些中文的東西,但是他們?cè)谟?xùn)練的過(guò)程中就已經(jīng)發(fā)現(xiàn)這個(gè)模型好像可以做一些簡(jiǎn)單的中英文轉(zhuǎn)換。
在一片贊美聲中,也夾雜著一些質(zhì)疑和疑惑。比如英偉達(dá)的資深研究員Jim Fan就公開(kāi)指出:Falcon-180B的訓(xùn)練數(shù)據(jù)中,代碼只占5%,沒(méi)有代碼能力,就不能聲稱(chēng)「優(yōu)于GPT-3.5」或「接近GPT-4」。上述基金公司投資人也認(rèn)為,F(xiàn)alcon 180B的表現(xiàn)可能并如它官方所宣傳的那樣強(qiáng),鑒于這家公司的往常操作,F(xiàn)alcon 180B的性能可能要打八折后才是它的實(shí)際表現(xiàn)。
同時(shí),國(guó)內(nèi)開(kāi)發(fā)者討論最多的點(diǎn)在于:1、已經(jīng)有Llama 2了,中東土豪再搞一個(gè)Falcon 180B的意義在哪里?2、Falcon 180B到底有沒(méi)有用,因?yàn)橥评沓杀咎撸居貌黄饋?lái)。
除此,我們還關(guān)心如LlaMA 2、Falcon 180B的國(guó)際開(kāi)源大模型接二連三呼嘯而出,會(huì)給國(guó)內(nèi)的大模型創(chuàng)業(yè)環(huán)境帶來(lái)哪些影響?國(guó)內(nèi)的基礎(chǔ)大模型廠(chǎng)商中誰(shuí)會(huì)受到怎樣的沖擊?這會(huì)影響國(guó)內(nèi)大模型的開(kāi)源與閉源走向何方?
在今年年初時(shí),大家看到ChatGPT出來(lái)后還很擔(dān)全世界的大模型,未來(lái)的知識(shí)產(chǎn)出都要被OpenAI一家公司給壟斷了,當(dāng)時(shí)Hugging Face的CEO Clement Delangue就表示過(guò),讓大家不要慌,到年底肯定會(huì)有超越GPT3.5的大模型出來(lái),然后7月Llama2開(kāi)源了,9月Falcon 180B開(kāi)源了,意味著提前小半年便完成了開(kāi)源社區(qū)的任務(wù)。
而每一次大參數(shù)模型開(kāi)源都會(huì)在社區(qū)中引起一陣狂歡,因?yàn)檫@無(wú)疑壯大了整個(gè)開(kāi)源社區(qū),給整個(gè)大模型開(kāi)源注入一股更大的力量。
在hugging face 中國(guó)區(qū)負(fù)責(zé)人王鐵震看來(lái),對(duì)于網(wǎng)上有關(guān)Falcon 180B的一些爭(zhēng)議,他認(rèn)為首先,要訓(xùn)練這樣一個(gè)1800億參數(shù)的大模型,耗費(fèi)肯定在千萬(wàn)美元級(jí)別,它背后的公司愿意開(kāi)源出來(lái)就是一件值得敬佩的事情。
因?yàn)槊總€(gè)模型訓(xùn)練的思路都不一樣,特別是在整個(gè)行業(yè)剛剛上坡的階段,各家愿意分享出自己的訓(xùn)練思路,對(duì)整個(gè)行業(yè)都是一種啟發(fā)。例如TII開(kāi)源便給外界研發(fā)大模型提供了一種新思路、新啟發(fā)。
據(jù)官方消息,F(xiàn)alcon 180B是使用 Amazon SageMaker 在多達(dá) 4096 個(gè) GPU 上同時(shí)對(duì) 3.5 萬(wàn)億個(gè) token 進(jìn)行訓(xùn)練,比Llama 2多了近一倍的數(shù)據(jù)集,是最多token的一個(gè)大模型。
Falcon 180B用的主要是RefinedWe數(shù)據(jù)集(大約占85%),王鐵震告訴雷峰網(wǎng),F(xiàn)alcon 180B的出現(xiàn)也告訴行業(yè)不僅特別精細(xì)地去清洗數(shù)據(jù)會(huì)提高模型的效果,數(shù)據(jù)量夠多也會(huì)對(duì)模型效果有一個(gè)明顯的提升。
另一個(gè)討論是Falcon 180B到底有沒(méi)有用,因?yàn)橥评沓杀咎?,根本用不起?lái)。
王鐵震的看法是,先把模型能力做上去是最重要,大家知道最遠(yuǎn)的邊界在哪里,再通過(guò)開(kāi)源社區(qū)的力量,群策群力來(lái)降低模型的推理成本。
“大家普遍預(yù)測(cè)gpt3.5可能是一個(gè)在175B左右的模型尺寸,所以理論上來(lái)說(shuō),OpenAI能做到什么樣的推理成本,開(kāi)源社區(qū)就能做到什么樣的推理成本,甚至說(shuō)還能往下壓?!?/p>
在王鐵震看來(lái),如果在開(kāi)源模型的尺寸跟chatgpt3.5的模型尺寸差不多的情況下,那么開(kāi)源模型的推理成本有可能會(huì)比openAI的更低,這樣自然而然會(huì)改變現(xiàn)在的大模型開(kāi)發(fā)流程。
一旦入Falcon 180B這樣的大模型能做到跟OpenAI的gpt3.5模型一樣的推理成本,甚至更低,那么企業(yè)一上來(lái)就會(huì)愿意選擇在開(kāi)源模型上去跑,而不是都選擇gpt3.5。
而且,王鐵震還告訴雷峰網(wǎng),一位資深的開(kāi)源社區(qū)開(kāi)發(fā)者GGML的Georgi Gerganov已經(jīng)在4比特壓縮時(shí),成功地把180B 跑在了蘋(píng)果電腦上,這意味著180B并沒(méi)有想象中的那么大,他還預(yù)測(cè)蘋(píng)果電腦可能是未來(lái)個(gè)人開(kāi)發(fā)者做大模型的一個(gè)最好的工具。
在另一位受訪(fǎng)者看來(lái),F(xiàn)alcon似乎想要成為參數(shù)、性能、實(shí)用落地的難易程度均衡的“六邊形戰(zhàn)士”,之前的Falcon 40B的表現(xiàn)超過(guò)了65B的LLaMA,而且所需的顯存也低于LLaMA 65B。如果180B與40B的指導(dǎo)思想還是一致的,那么從長(zhǎng)期來(lái)看對(duì)開(kāi)發(fā)者的吸引力還是很大的。
相較于上述幾點(diǎn)爭(zhēng)論,王鐵震更擔(dān)心的是Falcon 180B已經(jīng)用到了3.5萬(wàn)億個(gè)token,因?yàn)楦鶕?jù)Falcon 180B的經(jīng)驗(yàn),只要堆數(shù)據(jù),給它喂更多更好的數(shù)據(jù),模型就會(huì)變得更好。如果未來(lái)網(wǎng)上公開(kāi)的數(shù)據(jù)集不能再有更大的規(guī)模,這個(gè)模型要如何scale?
同時(shí),隨著越來(lái)越多大模型出現(xiàn),未來(lái)大模型很快會(huì)吞噬掉全世界能找到的高質(zhì)量數(shù)據(jù),數(shù)據(jù)之爭(zhēng)將會(huì)變得更激烈。
而在大模型創(chuàng)業(yè)者蔣磊看來(lái),F(xiàn)alcon 180B架子搭建的這么大,竟然只用了3.5萬(wàn)億的token?
在他看來(lái),Llama 2接受了2萬(wàn)億個(gè)token訓(xùn)練,剛剛推出的baichuan2是在2.6萬(wàn)億的token上訓(xùn)練的,而Falcon 180B的規(guī)模是 Llama 2 的 2.5 倍,baichuan2的規(guī)模只有13B,連Falcon 180B的十分之一都不到。
所以蔣磊覺(jué)得Falcon 180B很可能跟Bloom一樣是欠擬合的,當(dāng)然參數(shù)增大以后,CoT,涌現(xiàn)等能力還需要更復(fù)雜的實(shí)驗(yàn)才能看出來(lái)。
同時(shí),因?yàn)槭窃诙嘤?Llama 2兩倍的token上訓(xùn)練的,F(xiàn)alcon 180B比Llama 2更懂中文。因?yàn)橹形暮懿?,?dǎo)致國(guó)內(nèi)應(yīng)用用Llama 2用不起來(lái)。
雖然作者聲稱(chēng)并沒(méi)有刻意在數(shù)據(jù)集中添加中文的東西,但王鐵震猜測(cè)是因?yàn)樗昧烁鄑oken或者使用了跟Llama 2不同的數(shù)據(jù)集的緣故。
Llama 2在研究論文中幾乎沒(méi)有透露使用了哪些數(shù)據(jù),F(xiàn)alcon 180B 訓(xùn)練數(shù)據(jù)主要來(lái)自 RefinedWeb 數(shù)據(jù)集 (大約占 85%)。
這也是讓蔣磊非常驚訝的一點(diǎn),作為一個(gè)誕生在中東的LLM,竟然沒(méi)有使用阿拉伯語(yǔ)作為主要訓(xùn)練語(yǔ)料,甚至不是次要訓(xùn)練語(yǔ)料,在他看來(lái)Falcon 180B跟當(dāng)年的BLOOM一樣充滿(mǎn)理想光輝。BLOOM刻意避免英文稱(chēng)為最主要的訓(xùn)練語(yǔ)料,使用了大量不同語(yǔ)言的語(yǔ)料,還發(fā)布了自己的數(shù)據(jù)集,甚至檢索工具,可惜訓(xùn)練不足,模型處于欠擬合的狀態(tài)。
除了來(lái)自開(kāi)發(fā)者的一些爭(zhēng)議,我們更關(guān)心的是,這樣一個(gè)大模型開(kāi)源會(huì)對(duì)國(guó)內(nèi)大模型圈產(chǎn)生什么樣的影響呢?它的出現(xiàn)是一種怎樣的力量?
在蔣磊看來(lái),F(xiàn)alcon 180B對(duì)于中國(guó)公司影響有限,F(xiàn)alcon 180B主要是在英語(yǔ)、德語(yǔ)、西班牙語(yǔ)和法語(yǔ)上進(jìn)行訓(xùn)練的,如果要擴(kuò)展其中文能力,還需要做大量的工作,即使使用LoRA或者QLoRA等方式,小的團(tuán)隊(duì)和開(kāi)源社區(qū)也很難進(jìn)行擴(kuò)展。
面壁智能CTO&OpenBMB開(kāi)源社區(qū)主要發(fā)起人之一的曾國(guó)洋告訴雷峰網(wǎng),F(xiàn)alcon 180B模型因?yàn)閰?shù)量非常大,要微調(diào)和使用它對(duì)于普通人和中小型企業(yè)來(lái)說(shuō)成本很高。對(duì)于一些想用大模型的大廠(chǎng)可能是一個(gè)還不錯(cuò)的選擇。
原極狐Gitlab創(chuàng)始人、現(xiàn)大模型解決方案OpenCSG的創(chuàng)始人陳冉&王偉認(rèn)為,F(xiàn)alcon 180B對(duì)國(guó)內(nèi)大模型廠(chǎng)商的短期影響并不會(huì)太直接,雖然Falcon這次的模型規(guī)格和打榜效果都很驚艷,比之前40B提升明顯, 但目前看來(lái)不少場(chǎng)景還有提升空間, 實(shí)測(cè)微調(diào)效果也還需要更多的驗(yàn)證。
短期的影響主要是技術(shù)層面,中長(zhǎng)期看,對(duì)國(guó)內(nèi)大模型廠(chǎng)商的小規(guī)格模型開(kāi)源+大規(guī)格模型商用的模式會(huì)有一定的沖擊,因?yàn)榭蛻?hù)多了一個(gè)基于開(kāi)源微調(diào)的選項(xiàng);
但即便在Falcon180B模型上微調(diào), 需要投入的軟硬件資源和人力時(shí)間成本對(duì)于企業(yè)客戶(hù)都是不小的開(kāi)銷(xiāo)。
王鐵震預(yù)測(cè),國(guó)內(nèi)應(yīng)該很快就會(huì)出現(xiàn)Falcon 180B的微調(diào)版本。因?yàn)槿绻馨袴alcon 180B的推理成本降到跟GPT3.5一樣低,甚至更低,大家都不會(huì)排斥擁抱Falcon 180B。
對(duì)于國(guó)內(nèi)來(lái)說(shuō),未來(lái)的狀況是,頭部幾家是自己從0開(kāi)始訓(xùn)練的大模型,其余大量必然都是微調(diào)出來(lái)的,所以有一個(gè)更強(qiáng)的開(kāi)源模型并不是壞事。
他認(rèn)為Falcon 180B開(kāi)源對(duì)中國(guó)這些大模型圈有沖擊,但不大。因?yàn)榧幢鉌alcon 180B有一些中文能力,但肯定沒(méi)有國(guó)內(nèi)這些拿大量中文語(yǔ)料的大模型做的好。
如果國(guó)內(nèi)出現(xiàn)一個(gè)百億級(jí)以上、并用大量token去訓(xùn)練的大模型,那么所有人都會(huì)爭(zhēng)著搶著去用這個(gè)模型,補(bǔ)足它的應(yīng)用,就不用擔(dān)心試用國(guó)外開(kāi)源模型的合法合規(guī)問(wèn)題。
在目前國(guó)內(nèi)大模型開(kāi)源這一脈,以智源研究院為首,創(chuàng)業(yè)公司中百川、面壁、智譜AI、瀾舟科技、深勢(shì)科技紛紛跟進(jìn),互聯(lián)網(wǎng)大廠(chǎng)中目前唯有阿里云一家開(kāi)源了通義千問(wèn),百度、騰訊、華為、字節(jié)都選擇了閉源。
一位行業(yè)內(nèi)人士告訴雷峰網(wǎng),F(xiàn)alcon 180B這一輪開(kāi)源對(duì)于選擇To B 與To C 兩種路徑的商業(yè)模式的公司造成的沖擊不一樣,對(duì)一些To C的基礎(chǔ)大模型公司沖擊比較大。
上述人士告訴雷峰網(wǎng),F(xiàn)alcon 180B這一輪開(kāi)源對(duì)國(guó)內(nèi)某家大模型創(chuàng)業(yè)公司沖擊最大,因?yàn)樗麄冞x擇的“開(kāi)源+閉源”模式做To C,并沒(méi)有全系開(kāi)源,他們的策略是先把小參數(shù)的大模型開(kāi)源出來(lái)給用戶(hù)試用,占據(jù)了生態(tài)位之后,再用大參數(shù)的閉源大模型來(lái)實(shí)現(xiàn)降維打擊。
但沒(méi)想到Llama2、Falcon 180B相繼開(kāi)源,對(duì)這家公司每一次都是降維打擊。
一位業(yè)內(nèi)人士告訴雷峰網(wǎng),一家大模型廠(chǎng)商感覺(jué)拼不過(guò)其他基礎(chǔ)大模型,就直接選擇開(kāi)源了,投入了多個(gè)團(tuán)隊(duì)在做,但每個(gè)團(tuán)隊(duì)開(kāi)源的都不是自己核心的模型。
上述人士還吐槽起另一家大模型廠(chǎng)商的打法,專(zhuān)門(mén)做了一個(gè)平臺(tái)接入了大量別家的模型,但它自己的大模型并沒(méi)有開(kāi)源出來(lái)。
陳冉&王偉認(rèn)為,國(guó)內(nèi)大廠(chǎng)大多押注閉源模型,目前競(jìng)爭(zhēng)還比較激烈,是因?yàn)楦鱾€(gè)公司還在摸索是做大模型的應(yīng)用場(chǎng)景和商業(yè)模式, 而且是不是真的要All in 大模型也很難說(shuō)得清,所以對(duì)于是否開(kāi)源可能并不會(huì)那么著急給出答案。但他始終認(rèn)為大模型開(kāi)源是一種有效的競(jìng)爭(zhēng)策略。
目前國(guó)內(nèi)免費(fèi)可商用的大模型分別有:百川智能的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat與其4bit量化版本;智源的悟道3.0中的悟道?天鷹大語(yǔ)言模型;智譜AI的ChatGLM-6B 和 ChatGLM2-6B;面壁智能的CPM-Bee 10B;通義千問(wèn)的Qwen-7B和Qwen-7B-Chat……
一個(gè)現(xiàn)象是,從上述可以看到國(guó)內(nèi)迄今還沒(méi)有出現(xiàn)一個(gè)100B量級(jí)的開(kāi)源大模型,這是為什么呢?
原因是對(duì)于國(guó)內(nèi)的大模型,其背后的機(jī)構(gòu)和公司大多都有自己的商業(yè)考量,開(kāi)源只是他們的商業(yè)策略中的一環(huán),即開(kāi)源對(duì)他們有價(jià)值就開(kāi)源,沒(méi)價(jià)值就不開(kāi)。
一位魔搭的人士近日告訴雷峰網(wǎng),他明顯感覺(jué)前期在魔搭貢獻(xiàn)了多個(gè)開(kāi)源大模型的一家大模型公司,現(xiàn)在的開(kāi)源意愿逐漸降下來(lái)了,該人士猜測(cè)可能是跟這家公司著急商業(yè)化有關(guān)。
畢竟,堅(jiān)持開(kāi)源意味著無(wú)止境的投入,融上千萬(wàn)、上億資金對(duì)大模型來(lái)講都燒不了多長(zhǎng)時(shí)間。
面壁智能CTO曾國(guó)洋認(rèn)為,超大規(guī)模的模型訓(xùn)練需要很大的資金投入,如果沒(méi)有良好的商業(yè)模式支撐,大家對(duì)大模型的投入很難持續(xù)。開(kāi)源大模型目前在國(guó)內(nèi)外還沒(méi)有很好的商業(yè)模式,所以在國(guó)內(nèi),未來(lái)開(kāi)源模型可能會(huì)長(zhǎng)期停留在百億規(guī)模以?xún)?nèi)。
而還有一些人士認(rèn)為開(kāi)源對(duì)國(guó)內(nèi)的基礎(chǔ)大模型廠(chǎng)商的影響是致命的,例如李開(kāi)復(fù)曾說(shuō)過(guò),當(dāng)更強(qiáng)的開(kāi)源模型出來(lái),國(guó)內(nèi)一些基礎(chǔ)大模型廠(chǎng)商會(huì)發(fā)現(xiàn)過(guò)去的投入都打了水漂,會(huì)發(fā)現(xiàn)原來(lái)訓(xùn)練的那些模型基本沒(méi)啥用。
有句俗語(yǔ)這樣說(shuō),一個(gè)人會(huì)走的更快,一群人會(huì)走的更遠(yuǎn),這可以貼切地形容閉源和開(kāi)源的存在。
行業(yè)需要大力投入鉆研自身技術(shù)、探索落地場(chǎng)景的閉源大模型,也需要一些充滿(mǎn)理想主義情懷的開(kāi)源大模型。
瀾舟科技的周明老師曾對(duì)雷峰網(wǎng)說(shuō)過(guò),活著比什么都重要。周明覺(jué)得自己讀懂了毛主席的論持久戰(zhàn)之后,認(rèn)為創(chuàng)業(yè)需要有一個(gè)雄心壯志,要不服輸;其次是要審時(shí)度勢(shì)——回到現(xiàn)實(shí)就是說(shuō)你到底要干什么?你從哪里突出你的重點(diǎn)?哪個(gè)東西是你的菜?
大模型創(chuàng)業(yè)無(wú)疑是一場(chǎng)艱難的持久戰(zhàn)。對(duì)許多創(chuàng)業(yè)者來(lái)說(shuō),經(jīng)費(fèi)是支撐整個(gè)公司能否走下去的一個(gè)很大因素,許多原先也想做基礎(chǔ)大模型的企業(yè)開(kāi)始重新思考創(chuàng)業(yè)的生態(tài)位,隨著Llama2、Falcon 180B這些優(yōu)質(zhì)開(kāi)源大模型逐漸出來(lái),積極擁抱開(kāi)源也許是另一條出路。
所以我們可以看到,為了能打贏這場(chǎng)持久戰(zhàn),瀾舟科技現(xiàn)在的策略是擁抱開(kāi)源:把開(kāi)源模型當(dāng)作L0底座,在這之上,做 L1 語(yǔ)言模型、L2 行業(yè)模型、L3 場(chǎng)景模型。
在這波創(chuàng)業(yè)潮中,越來(lái)越多大模型創(chuàng)業(yè)者開(kāi)始希望積極擁抱開(kāi)源。有人形容這波開(kāi)源潮,就像把自來(lái)水廠(chǎng)免費(fèi)接到自己家里,但如果自來(lái)水廠(chǎng)沒(méi)人愿意開(kāi)閘,惠及范圍變小,行業(yè)勢(shì)必會(huì)走的更慢。
所以,開(kāi)源社區(qū)急需來(lái)自中國(guó)的大模型力量。
而現(xiàn)如今國(guó)內(nèi)開(kāi)源的一些大模型,在一位業(yè)內(nèi)人士看來(lái),跟Llama2、Falcon 180B根本構(gòu)不成競(jìng)爭(zhēng)力,還不在一個(gè)競(jìng)爭(zhēng)層面,都是小玩具,等什么時(shí)候開(kāi)源出一個(gè)千億參數(shù)的再說(shuō)吧。
不過(guò)不用擔(dān)憂(yōu)太多。上述多位人士告訴雷峰網(wǎng),國(guó)內(nèi)如智源、上海人工智能實(shí)驗(yàn)室這樣的不靠模型賺錢(qián)的官方機(jī)構(gòu),最有意愿去把開(kāi)源模型做的更大,因?yàn)樗麄儧](méi)有商業(yè)公司需要大模型賺錢(qián)這樣緊迫的欲望,他們更多為了推動(dòng)整個(gè)行業(yè)的發(fā)展前景,一旦他們的大模型準(zhǔn)備好后,國(guó)內(nèi)就很有可能會(huì)出現(xiàn)100B的開(kāi)源大模型,助力國(guó)內(nèi)開(kāi)源大模型突破不過(guò)千億的坎。
在未來(lái),開(kāi)源和閉源都會(huì)長(zhǎng)期存在,閉源大模型會(huì)由少量在技術(shù)、人才和商業(yè)上占據(jù)領(lǐng)先優(yōu)勢(shì)的超級(jí)玩家占據(jù),而開(kāi)源大模型會(huì)出現(xiàn)一個(gè)更加廣泛、百花齊放的生態(tài)。
陳冉&王偉認(rèn)為,在國(guó)內(nèi),閉源大模型一定是對(duì)應(yīng)用更友好,而開(kāi)源大模型一定是對(duì)生態(tài)更友好。
同時(shí),開(kāi)源與閉源并不是對(duì)立的關(guān)系,相反是密不可分的關(guān)系,在王鐵震看來(lái),開(kāi)源是閉源發(fā)展的一個(gè)腳底板,閉源實(shí)際上是開(kāi)源發(fā)展的天花板。
因?yàn)槿绻鲆粋€(gè)閉源大模型,無(wú)論是從0開(kāi)始研發(fā)的,還是微調(diào)開(kāi)源大模型得來(lái)的,如果你做的比開(kāi)源還差,就沒(méi)有價(jià)值。
開(kāi)源注定沒(méi)有閉源的好,因?yàn)殚]源的這些商業(yè)公司一定要比開(kāi)源做的好,才能賣(mài)出錢(qián)。
縱觀開(kāi)源軟件歷史,取得大范圍成功的開(kāi)源軟件未必是當(dāng)時(shí)技術(shù)最遙遙領(lǐng)先的,但一定是對(duì)用戶(hù)和生態(tài)建設(shè)最友好的。
開(kāi)源的競(jìng)爭(zhēng)其實(shí)就是生態(tài)的競(jìng)爭(zhēng),誰(shuí)對(duì)開(kāi)發(fā)者最友好,就能吸引到最多的開(kāi)發(fā)者去圍繞它的大模型生態(tài)去開(kāi)發(fā),一群人致力于把這個(gè)社區(qū)做的更好,再吸引更多的開(kāi)發(fā)者,不斷壯大生態(tài)。開(kāi)源的價(jià)值在于不停地往前走,像滾雪球一樣,推動(dòng)整個(gè)行業(yè)往前走,等商業(yè)公司賺到錢(qián)后他們可能會(huì)想著反哺整個(gè)開(kāi)源社區(qū),開(kāi)源自己的模型、或者一些數(shù)據(jù)集等等,來(lái)回饋社區(qū)。
陳冉&王偉認(rèn)為,開(kāi)源大模型的競(jìng)爭(zhēng)后續(xù)競(jìng)爭(zhēng)除了模型規(guī)格與能力之外,后續(xù)趨勢(shì)可能會(huì)在配套工具能力、生態(tài)建設(shè)、垂類(lèi)領(lǐng)域能力、安全與推理性能優(yōu)化等領(lǐng)域。
就像令蔣磊疑惑的一點(diǎn)是,為什么到了現(xiàn)在還沒(méi)有出現(xiàn)MoE的Llama。他曾在WizardLLM的Discord里倡議大家一起構(gòu)建一個(gè)Wizard MoE,但沒(méi)有得到響應(yīng)。所以他認(rèn)為這也是開(kāi)源的無(wú)奈之處,構(gòu)建一個(gè)大模型,還是需要一個(gè)中等體量的公司或者一個(gè)團(tuán)結(jié)的、有贊助的開(kāi)源社區(qū)才能完成。
他覺(jué)得國(guó)產(chǎn)大模型真的想做好開(kāi)源的話(huà),一定要有一些理想主義在其中的,開(kāi)源難道不是互聯(lián)網(wǎng)最美的最深刻的理想主義么?
本文作者長(zhǎng)期跟蹤大模型開(kāi)源的人物、公司故事與行業(yè)動(dòng)態(tài),接下來(lái)我們將會(huì)推出國(guó)內(nèi)最早的大模型開(kāi)源社區(qū)Modelscope(魔搭)發(fā)展中的故事,歡迎大家爆料!歡迎關(guān)注中國(guó)開(kāi)源發(fā)展,對(duì)大模型開(kāi)源感興趣的行業(yè)內(nèi)人士、讀者添加作者微信(zzjj752254),互通有無(wú)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。