0
近日,TII研究中心推出的開源大模型Falcon 180B一經(jīng)發(fā)布,便被認為是當前最好的開源大模型。
原極狐Gitlab創(chuàng)始人、現(xiàn)大模型解決方案OpenCSG的創(chuàng)始人陳冉&王偉在其發(fā)布后率先試用了,他告訴雷峰網(wǎng),“Falcon 180B能力很強”,但也有一部分大模型創(chuàng)業(yè)者告訴雷峰網(wǎng),還沒試用,因為推理成本太高,根本用不起。
從官方發(fā)布的測評結(jié)果來看,F(xiàn)alcon 180B 在自然語言任務(wù)上的表現(xiàn)優(yōu)異。它在 Hugging Face 開源大模型榜單上的評分68.74 ,超過Meta 的 LlaMA 2 (67.35),是當前評分最高的開放式大模型。在MMLU上的表現(xiàn)超過了 Llama 2 70B 和 OpenAI 的 GPT-3.5,在 HellaSwag、LAMBADA等十余個測評上與谷歌的 PaLM 2-Large 不相上下。
「超越LlaMA 2」「優(yōu)于GPT-3.5」「接近GPT-4」,一個個贊美之聲讓Falcon 180B沖上云霄,一時風(fēng)光無限。
其背后的TII研究中心總部位于阿聯(lián)酋阿布扎比,今年5月底該研究中心剛開源了阿聯(lián)酋第一個大規(guī)模人工智能模型“Falcon 40B”,供研究和商業(yè)使用,并在發(fā)布Falcon 40B時便期望在不久后開發(fā)和宣布Falcon 180B。
時隔4個月時間,TII便開源了Falcon 180B,從架構(gòu)維度來看,F(xiàn)alcon 180B 是 Falcon 40B 的升級版本,并在其基礎(chǔ)上進行了創(chuàng)新,比如利用 Multi-Query Attention 等來提高模型的可擴展性。
Falcon 系列是由TII的AI and Digital Science Research Center (AIDRC)團隊研發(fā)的成果,該團隊還在去年推出了世界上最大的阿拉伯文NLP模型,即NOOR。一位基金公司的投資人告訴雷峰網(wǎng),F(xiàn)alcon團隊中有部分華人,其中幾個來自阿里。
當我們猜測Falcon 180B比Llama 2更懂中文是否是團隊刻意為之,Hugging Face 的中國區(qū)負責(zé)人王鐵震告訴雷峰網(wǎng),F(xiàn)alcon 180B的作者對此也很詫異,說他們絕對沒有在數(shù)據(jù)集里刻意加一些中文的東西,但是他們在訓(xùn)練的過程中就已經(jīng)發(fā)現(xiàn)這個模型好像可以做一些簡單的中英文轉(zhuǎn)換。
在一片贊美聲中,也夾雜著一些質(zhì)疑和疑惑。比如英偉達的資深研究員Jim Fan就公開指出:Falcon-180B的訓(xùn)練數(shù)據(jù)中,代碼只占5%,沒有代碼能力,就不能聲稱「優(yōu)于GPT-3.5」或「接近GPT-4」。上述基金公司投資人也認為,F(xiàn)alcon 180B的表現(xiàn)可能并如它官方所宣傳的那樣強,鑒于這家公司的往常操作,F(xiàn)alcon 180B的性能可能要打八折后才是它的實際表現(xiàn)。
同時,國內(nèi)開發(fā)者討論最多的點在于:1、已經(jīng)有Llama 2了,中東土豪再搞一個Falcon 180B的意義在哪里?2、Falcon 180B到底有沒有用,因為推理成本太高,根本用不起來。
除此,我們還關(guān)心如LlaMA 2、Falcon 180B的國際開源大模型接二連三呼嘯而出,會給國內(nèi)的大模型創(chuàng)業(yè)環(huán)境帶來哪些影響?國內(nèi)的基礎(chǔ)大模型廠商中誰會受到怎樣的沖擊?這會影響國內(nèi)大模型的開源與閉源走向何方?
在今年年初時,大家看到ChatGPT出來后還很擔(dān)全世界的大模型,未來的知識產(chǎn)出都要被OpenAI一家公司給壟斷了,當時Hugging Face的CEO Clement Delangue就表示過,讓大家不要慌,到年底肯定會有超越GPT3.5的大模型出來,然后7月Llama2開源了,9月Falcon 180B開源了,意味著提前小半年便完成了開源社區(qū)的任務(wù)。
而每一次大參數(shù)模型開源都會在社區(qū)中引起一陣狂歡,因為這無疑壯大了整個開源社區(qū),給整個大模型開源注入一股更大的力量。
在hugging face 中國區(qū)負責(zé)人王鐵震看來,對于網(wǎng)上有關(guān)Falcon 180B的一些爭議,他認為首先,要訓(xùn)練這樣一個1800億參數(shù)的大模型,耗費肯定在千萬美元級別,它背后的公司愿意開源出來就是一件值得敬佩的事情。
因為每個模型訓(xùn)練的思路都不一樣,特別是在整個行業(yè)剛剛上坡的階段,各家愿意分享出自己的訓(xùn)練思路,對整個行業(yè)都是一種啟發(fā)。例如TII開源便給外界研發(fā)大模型提供了一種新思路、新啟發(fā)。
據(jù)官方消息,F(xiàn)alcon 180B是使用 Amazon SageMaker 在多達 4096 個 GPU 上同時對 3.5 萬億個 token 進行訓(xùn)練,比Llama 2多了近一倍的數(shù)據(jù)集,是最多token的一個大模型。
Falcon 180B用的主要是RefinedWe數(shù)據(jù)集(大約占85%),王鐵震告訴雷峰網(wǎng),F(xiàn)alcon 180B的出現(xiàn)也告訴行業(yè)不僅特別精細地去清洗數(shù)據(jù)會提高模型的效果,數(shù)據(jù)量夠多也會對模型效果有一個明顯的提升。
另一個討論是Falcon 180B到底有沒有用,因為推理成本太高,根本用不起來。
王鐵震的看法是,先把模型能力做上去是最重要,大家知道最遠的邊界在哪里,再通過開源社區(qū)的力量,群策群力來降低模型的推理成本。
“大家普遍預(yù)測gpt3.5可能是一個在175B左右的模型尺寸,所以理論上來說,OpenAI能做到什么樣的推理成本,開源社區(qū)就能做到什么樣的推理成本,甚至說還能往下壓。”
在王鐵震看來,如果在開源模型的尺寸跟chatgpt3.5的模型尺寸差不多的情況下,那么開源模型的推理成本有可能會比openAI的更低,這樣自然而然會改變現(xiàn)在的大模型開發(fā)流程。
一旦入Falcon 180B這樣的大模型能做到跟OpenAI的gpt3.5模型一樣的推理成本,甚至更低,那么企業(yè)一上來就會愿意選擇在開源模型上去跑,而不是都選擇gpt3.5。
而且,王鐵震還告訴雷峰網(wǎng),一位資深的開源社區(qū)開發(fā)者GGML的Georgi Gerganov已經(jīng)在4比特壓縮時,成功地把180B 跑在了蘋果電腦上,這意味著180B并沒有想象中的那么大,他還預(yù)測蘋果電腦可能是未來個人開發(fā)者做大模型的一個最好的工具。
在另一位受訪者看來,F(xiàn)alcon似乎想要成為參數(shù)、性能、實用落地的難易程度均衡的“六邊形戰(zhàn)士”,之前的Falcon 40B的表現(xiàn)超過了65B的LLaMA,而且所需的顯存也低于LLaMA 65B。如果180B與40B的指導(dǎo)思想還是一致的,那么從長期來看對開發(fā)者的吸引力還是很大的。
相較于上述幾點爭論,王鐵震更擔(dān)心的是Falcon 180B已經(jīng)用到了3.5萬億個token,因為根據(jù)Falcon 180B的經(jīng)驗,只要堆數(shù)據(jù),給它喂更多更好的數(shù)據(jù),模型就會變得更好。如果未來網(wǎng)上公開的數(shù)據(jù)集不能再有更大的規(guī)模,這個模型要如何scale?
同時,隨著越來越多大模型出現(xiàn),未來大模型很快會吞噬掉全世界能找到的高質(zhì)量數(shù)據(jù),數(shù)據(jù)之爭將會變得更激烈。
而在大模型創(chuàng)業(yè)者蔣磊看來,F(xiàn)alcon 180B架子搭建的這么大,竟然只用了3.5萬億的token?
在他看來,Llama 2接受了2萬億個token訓(xùn)練,剛剛推出的baichuan2是在2.6萬億的token上訓(xùn)練的,而Falcon 180B的規(guī)模是 Llama 2 的 2.5 倍,baichuan2的規(guī)模只有13B,連Falcon 180B的十分之一都不到。
所以蔣磊覺得Falcon 180B很可能跟Bloom一樣是欠擬合的,當然參數(shù)增大以后,CoT,涌現(xiàn)等能力還需要更復(fù)雜的實驗才能看出來。
同時,因為是在多于 Llama 2兩倍的token上訓(xùn)練的,F(xiàn)alcon 180B比Llama 2更懂中文。因為中文很差,導(dǎo)致國內(nèi)應(yīng)用用Llama 2用不起來。
雖然作者聲稱并沒有刻意在數(shù)據(jù)集中添加中文的東西,但王鐵震猜測是因為它用了更多token或者使用了跟Llama 2不同的數(shù)據(jù)集的緣故。
Llama 2在研究論文中幾乎沒有透露使用了哪些數(shù)據(jù),F(xiàn)alcon 180B 訓(xùn)練數(shù)據(jù)主要來自 RefinedWeb 數(shù)據(jù)集 (大約占 85%)。
這也是讓蔣磊非常驚訝的一點,作為一個誕生在中東的LLM,竟然沒有使用阿拉伯語作為主要訓(xùn)練語料,甚至不是次要訓(xùn)練語料,在他看來Falcon 180B跟當年的BLOOM一樣充滿理想光輝。BLOOM刻意避免英文稱為最主要的訓(xùn)練語料,使用了大量不同語言的語料,還發(fā)布了自己的數(shù)據(jù)集,甚至檢索工具,可惜訓(xùn)練不足,模型處于欠擬合的狀態(tài)。
除了來自開發(fā)者的一些爭議,我們更關(guān)心的是,這樣一個大模型開源會對國內(nèi)大模型圈產(chǎn)生什么樣的影響呢?它的出現(xiàn)是一種怎樣的力量?
在蔣磊看來,F(xiàn)alcon 180B對于中國公司影響有限,F(xiàn)alcon 180B主要是在英語、德語、西班牙語和法語上進行訓(xùn)練的,如果要擴展其中文能力,還需要做大量的工作,即使使用LoRA或者QLoRA等方式,小的團隊和開源社區(qū)也很難進行擴展。
面壁智能CTO&OpenBMB開源社區(qū)主要發(fā)起人之一的曾國洋告訴雷峰網(wǎng),F(xiàn)alcon 180B模型因為參數(shù)量非常大,要微調(diào)和使用它對于普通人和中小型企業(yè)來說成本很高。對于一些想用大模型的大廠可能是一個還不錯的選擇。
原極狐Gitlab創(chuàng)始人、現(xiàn)大模型解決方案OpenCSG的創(chuàng)始人陳冉&王偉認為,F(xiàn)alcon 180B對國內(nèi)大模型廠商的短期影響并不會太直接,雖然Falcon這次的模型規(guī)格和打榜效果都很驚艷,比之前40B提升明顯, 但目前看來不少場景還有提升空間, 實測微調(diào)效果也還需要更多的驗證。
短期的影響主要是技術(shù)層面,中長期看,對國內(nèi)大模型廠商的小規(guī)格模型開源+大規(guī)格模型商用的模式會有一定的沖擊,因為客戶多了一個基于開源微調(diào)的選項;
但即便在Falcon180B模型上微調(diào), 需要投入的軟硬件資源和人力時間成本對于企業(yè)客戶都是不小的開銷。
王鐵震預(yù)測,國內(nèi)應(yīng)該很快就會出現(xiàn)Falcon 180B的微調(diào)版本。因為如果能把Falcon 180B的推理成本降到跟GPT3.5一樣低,甚至更低,大家都不會排斥擁抱Falcon 180B。
對于國內(nèi)來說,未來的狀況是,頭部幾家是自己從0開始訓(xùn)練的大模型,其余大量必然都是微調(diào)出來的,所以有一個更強的開源模型并不是壞事。
他認為Falcon 180B開源對中國這些大模型圈有沖擊,但不大。因為即便Falcon 180B有一些中文能力,但肯定沒有國內(nèi)這些拿大量中文語料的大模型做的好。
如果國內(nèi)出現(xiàn)一個百億級以上、并用大量token去訓(xùn)練的大模型,那么所有人都會爭著搶著去用這個模型,補足它的應(yīng)用,就不用擔(dān)心試用國外開源模型的合法合規(guī)問題。
在目前國內(nèi)大模型開源這一脈,以智源研究院為首,創(chuàng)業(yè)公司中百川、面壁、智譜AI、瀾舟科技、深勢科技紛紛跟進,互聯(lián)網(wǎng)大廠中目前唯有阿里云一家開源了通義千問,百度、騰訊、華為、字節(jié)都選擇了閉源。
一位行業(yè)內(nèi)人士告訴雷峰網(wǎng)(公眾號:雷峰網(wǎng)),F(xiàn)alcon 180B這一輪開源對于選擇To B 與To C 兩種路徑的商業(yè)模式的公司造成的沖擊不一樣,對一些To C的基礎(chǔ)大模型公司沖擊比較大。
上述人士告訴雷峰網(wǎng),F(xiàn)alcon 180B這一輪開源對國內(nèi)某家大模型創(chuàng)業(yè)公司沖擊最大,因為他們選擇的“開源+閉源”模式做To C,并沒有全系開源,他們的策略是先把小參數(shù)的大模型開源出來給用戶試用,占據(jù)了生態(tài)位之后,再用大參數(shù)的閉源大模型來實現(xiàn)降維打擊。
但沒想到Llama2、Falcon 180B相繼開源,對這家公司每一次都是降維打擊。
一位業(yè)內(nèi)人士告訴雷峰網(wǎng),一家大模型廠商感覺拼不過其他基礎(chǔ)大模型,就直接選擇開源了,投入了多個團隊在做,但每個團隊開源的都不是自己核心的模型。
上述人士還吐槽起另一家大模型廠商的打法,專門做了一個平臺接入了大量別家的模型,但它自己的大模型并沒有開源出來。
陳冉&王偉認為,國內(nèi)大廠大多押注閉源模型,目前競爭還比較激烈,是因為各個公司還在摸索是做大模型的應(yīng)用場景和商業(yè)模式, 而且是不是真的要All in 大模型也很難說得清,所以對于是否開源可能并不會那么著急給出答案。但他始終認為大模型開源是一種有效的競爭策略。
目前國內(nèi)免費可商用的大模型分別有:百川智能的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat與其4bit量化版本;智源的悟道3.0中的悟道?天鷹大語言模型;智譜AI的ChatGLM-6B 和 ChatGLM2-6B;面壁智能的CPM-Bee 10B;通義千問的Qwen-7B和Qwen-7B-Chat……
一個現(xiàn)象是,從上述可以看到國內(nèi)迄今還沒有出現(xiàn)一個100B量級的開源大模型,這是為什么呢?
原因是對于國內(nèi)的大模型,其背后的機構(gòu)和公司大多都有自己的商業(yè)考量,開源只是他們的商業(yè)策略中的一環(huán),即開源對他們有價值就開源,沒價值就不開。
一位魔搭的人士近日告訴雷峰網(wǎng),他明顯感覺前期在魔搭貢獻了多個開源大模型的一家大模型公司,現(xiàn)在的開源意愿逐漸降下來了,該人士猜測可能是跟這家公司著急商業(yè)化有關(guān)。
畢竟,堅持開源意味著無止境的投入,融上千萬、上億資金對大模型來講都燒不了多長時間。
面壁智能CTO曾國洋認為,超大規(guī)模的模型訓(xùn)練需要很大的資金投入,如果沒有良好的商業(yè)模式支撐,大家對大模型的投入很難持續(xù)。開源大模型目前在國內(nèi)外還沒有很好的商業(yè)模式,所以在國內(nèi),未來開源模型可能會長期停留在百億規(guī)模以內(nèi)。
而還有一些人士認為開源對國內(nèi)的基礎(chǔ)大模型廠商的影響是致命的,例如李開復(fù)曾說過,當更強的開源模型出來,國內(nèi)一些基礎(chǔ)大模型廠商會發(fā)現(xiàn)過去的投入都打了水漂,會發(fā)現(xiàn)原來訓(xùn)練的那些模型基本沒啥用。
有句俗語這樣說,一個人會走的更快,一群人會走的更遠,這可以貼切地形容閉源和開源的存在。
行業(yè)需要大力投入鉆研自身技術(shù)、探索落地場景的閉源大模型,也需要一些充滿理想主義情懷的開源大模型。
瀾舟科技的周明老師曾對雷峰網(wǎng)說過,活著比什么都重要。周明覺得自己讀懂了毛主席的論持久戰(zhàn)之后,認為創(chuàng)業(yè)需要有一個雄心壯志,要不服輸;其次是要審時度勢——回到現(xiàn)實就是說你到底要干什么?你從哪里突出你的重點?哪個東西是你的菜?
大模型創(chuàng)業(yè)無疑是一場艱難的持久戰(zhàn)。對許多創(chuàng)業(yè)者來說,經(jīng)費是支撐整個公司能否走下去的一個很大因素,許多原先也想做基礎(chǔ)大模型的企業(yè)開始重新思考創(chuàng)業(yè)的生態(tài)位,隨著Llama2、Falcon 180B這些優(yōu)質(zhì)開源大模型逐漸出來,積極擁抱開源也許是另一條出路。
所以我們可以看到,為了能打贏這場持久戰(zhàn),瀾舟科技現(xiàn)在的策略是擁抱開源:把開源模型當作L0底座,在這之上,做 L1 語言模型、L2 行業(yè)模型、L3 場景模型。
在這波創(chuàng)業(yè)潮中,越來越多大模型創(chuàng)業(yè)者開始希望積極擁抱開源。有人形容這波開源潮,就像把自來水廠免費接到自己家里,但如果自來水廠沒人愿意開閘,惠及范圍變小,行業(yè)勢必會走的更慢。
所以,開源社區(qū)急需來自中國的大模型力量。
而現(xiàn)如今國內(nèi)開源的一些大模型,在一位業(yè)內(nèi)人士看來,跟Llama2、Falcon 180B根本構(gòu)不成競爭力,還不在一個競爭層面,都是小玩具,等什么時候開源出一個千億參數(shù)的再說吧。
不過不用擔(dān)憂太多。上述多位人士告訴雷峰網(wǎng),國內(nèi)如智源、上海人工智能實驗室這樣的不靠模型賺錢的官方機構(gòu),最有意愿去把開源模型做的更大,因為他們沒有商業(yè)公司需要大模型賺錢這樣緊迫的欲望,他們更多為了推動整個行業(yè)的發(fā)展前景,一旦他們的大模型準備好后,國內(nèi)就很有可能會出現(xiàn)100B的開源大模型,助力國內(nèi)開源大模型突破不過千億的坎。
在未來,開源和閉源都會長期存在,閉源大模型會由少量在技術(shù)、人才和商業(yè)上占據(jù)領(lǐng)先優(yōu)勢的超級玩家占據(jù),而開源大模型會出現(xiàn)一個更加廣泛、百花齊放的生態(tài)。
陳冉&王偉認為,在國內(nèi),閉源大模型一定是對應(yīng)用更友好,而開源大模型一定是對生態(tài)更友好。
同時,開源與閉源并不是對立的關(guān)系,相反是密不可分的關(guān)系,在王鐵震看來,開源是閉源發(fā)展的一個腳底板,閉源實際上是開源發(fā)展的天花板。
因為如果要做一個閉源大模型,無論是從0開始研發(fā)的,還是微調(diào)開源大模型得來的,如果你做的比開源還差,就沒有價值。
開源注定沒有閉源的好,因為閉源的這些商業(yè)公司一定要比開源做的好,才能賣出錢。
縱觀開源軟件歷史,取得大范圍成功的開源軟件未必是當時技術(shù)最遙遙領(lǐng)先的,但一定是對用戶和生態(tài)建設(shè)最友好的。
開源的競爭其實就是生態(tài)的競爭,誰對開發(fā)者最友好,就能吸引到最多的開發(fā)者去圍繞它的大模型生態(tài)去開發(fā),一群人致力于把這個社區(qū)做的更好,再吸引更多的開發(fā)者,不斷壯大生態(tài)。開源的價值在于不停地往前走,像滾雪球一樣,推動整個行業(yè)往前走,等商業(yè)公司賺到錢后他們可能會想著反哺整個開源社區(qū),開源自己的模型、或者一些數(shù)據(jù)集等等,來回饋社區(qū)。
陳冉&王偉認為,開源大模型的競爭后續(xù)競爭除了模型規(guī)格與能力之外,后續(xù)趨勢可能會在配套工具能力、生態(tài)建設(shè)、垂類領(lǐng)域能力、安全與推理性能優(yōu)化等領(lǐng)域。
就像令蔣磊疑惑的一點是,為什么到了現(xiàn)在還沒有出現(xiàn)MoE的Llama。他曾在WizardLLM的Discord里倡議大家一起構(gòu)建一個Wizard MoE,但沒有得到響應(yīng)。所以他認為這也是開源的無奈之處,構(gòu)建一個大模型,還是需要一個中等體量的公司或者一個團結(jié)的、有贊助的開源社區(qū)才能完成。
他覺得國產(chǎn)大模型真的想做好開源的話,一定要有一些理想主義在其中的,開源難道不是互聯(lián)網(wǎng)最美的最深刻的理想主義么?
本文作者長期跟蹤大模型開源的人物、公司故事與行業(yè)動態(tài),接下來我們將會推出國內(nèi)最早的大模型開源社區(qū)Modelscope(魔搭)發(fā)展中的故事,歡迎大家爆料!歡迎關(guān)注中國開源發(fā)展,對大模型開源感興趣的行業(yè)內(nèi)人士、讀者添加作者微信(zzjj752254),互通有無。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。