0
最近兩天,由原阿里技術(shù)副總裁、深度學(xué)習(xí)框架 Caffe 發(fā)明者賈揚(yáng)清一則朋友圈引發(fā)的關(guān)于“國內(nèi)某大廠新模型套殼 LLaMA 架構(gòu)”的問題在中國人工智能圈與科技媒體中產(chǎn)生了熱烈討論。
由于賈揚(yáng)清在國內(nèi) AI 圈的號召力極大,且由于賈揚(yáng)清的朋友圈內(nèi)容指示稱套殼模型的做法是“把代碼里面的名字從 LLaMA 改成了他們的名字,然后換了幾個(gè)變量名”、在 Hugging Face 被海外工程師指出,碰巧幾天前零一萬物上傳到 Hugging Face 的大模型 Yi-34B 被指出其除了有兩個(gè)張量被重新命名后、完全使用了 LLaMA 的框架,于是:
在黑盒子般的邏輯鏈推導(dǎo)下,成立不到一年的零一萬物成為了賈揚(yáng)清在朋友圈聲討的“國內(nèi)大廠”,Yi-34B 也成為了群情炮轟之下的炮灰。
事實(shí)上,賈揚(yáng)清明確指出套殼模型來自“國內(nèi)大廠”,但由于沒有指名道姓,這則朋友圈所引發(fā)的猜忌后果甚至可能超出了賈揚(yáng)清本人的意料。如一位網(wǎng)友所言,大家開始猜忌是阿里、是百度、還是騰訊、華為……進(jìn)而引發(fā)一系列對國內(nèi)科技創(chuàng)新的唱衰。
而討論開始后,零一萬物官方很快在 Hugging Face 與媒體平臺中作出回應(yīng),表示團(tuán)隊(duì)確實(shí)沿用了 LLaMA 與 GPT 基礎(chǔ)架構(gòu),并會將代碼更新,重新命名,以符合大模型開源社區(qū)的要求。
盡管如此,風(fēng)波未有平息的苗頭。但在筆者看來,該事件其實(shí)值得另一維度的更深討論,即:1)Transformer 時(shí)代,大模型的發(fā)展還需要多少種新的架構(gòu)?2)LLaMA 掀起的開源狂潮背后,比訓(xùn)練架構(gòu)更重要的大模型訓(xùn)練過程為什么少人問津?
甚至在 Hugging Face 社區(qū)提出原帖討論的海外工程師都自己說:“LLaMA架構(gòu)沒毛病,模型訓(xùn)練才是重中之重。”
There's nothing wrong with llama architecture.
The training is everything.
分析這波熱議,相比“目標(biāo)”的創(chuàng)新,人們似乎更強(qiáng)調(diào)“手段”的重復(fù)造輪子。
1、架構(gòu)之于大模型
大模型狂飆 300 天后,人工智能圈開始出現(xiàn)一種聲音:反對“重復(fù)造輪子”。
盡管行業(yè)一致認(rèn)為,大模型驅(qū)動的 AI 新時(shí)代只需要少數(shù)的通用大模型,但在實(shí)踐中,模型的數(shù)量仍然層出不窮,相形之下,萬眾期待的“AI 應(yīng)用”遲遲沒有爆發(fā),人工智能時(shí)代的“Killer App”更是連輪廓都沒有。
今天早上,深圳西麗湖論壇,百度 CEO 李彥宏與硅谷人工智能研究院創(chuàng)始院長皮埃羅·斯加魯菲(Piero Scaruffi)同時(shí)用一組數(shù)據(jù)指出了這個(gè)問題:
2023 年 6 月,中國的大模型數(shù)量是 79 個(gè),而 2023 年 10 月就增長到了238 個(gè),相當(dāng)于中國的大模型數(shù)量在 4 個(gè)月內(nèi)增長了 3 倍;
截至 2023 年 10 月,僅 Hugging Face 一個(gè)平臺上就有接近 3 萬個(gè)文本生成模型(29776)供開發(fā)者下載使用。
這兩個(gè)數(shù)據(jù)反映了全球的人工智能創(chuàng)新都還處于對模型熱情的階段,距離關(guān)注模型以外的產(chǎn)品、應(yīng)用乃至商用落地模式等還有很長的路要走。也是在這一思維范式的慣性下,“套殼 LLaMA架構(gòu)”成為模型架構(gòu)創(chuàng)新一派不遺余力抨擊的對象。
但對大模型發(fā)展來說,與模型數(shù)量暴增雷同的一個(gè)問題是:我們是否需要更多的模型架構(gòu)?
如果我們需要更多的架構(gòu),具體數(shù)量是多少?在 GPT 大模型的“虹吸效應(yīng)”下,新的大模型架構(gòu)能產(chǎn)生多大的影響力?
在 Transformer 一統(tǒng)天下的大模型時(shí)代,如青年 AI 學(xué)者符堯指出,Transformer 已經(jīng)固定了大模型的架構(gòu),LLaMA 架構(gòu)沿用 Chinchilla、Chinchilla 沿用 Gopher、Gopher 沿用 GPT-3(GPT-3 又是基于 Transformer),每個(gè)模型的架構(gòu)都是只改一兩行、然后將模型重新命名。
基于全球現(xiàn)有的文本生成模型數(shù)量已經(jīng)過萬、國內(nèi)的大模型數(shù)量也超過了 200,除零一萬物外,如果市場上已發(fā)布的每一個(gè)大模型都進(jìn)行了架構(gòu)上的創(chuàng)新,那么目前國內(nèi)市場里現(xiàn)存的基于 Transformer 的大模型架構(gòu)已經(jīng)超過了 200 個(gè)——但沒有人會相信這個(gè)數(shù)字。
事實(shí)上,早在今年 5 月,圈內(nèi)就流傳出了不少“某家大模型套殼 XXX”的聲音。
在 LLaMA 1 還未開放開源可商用授權(quán)時(shí),對于 LLaMA 的“借鑒”就已有不少實(shí)踐。由于 LLaMA 1 規(guī)定其權(quán)重不能被用于商業(yè)用途,當(dāng)時(shí)圈內(nèi)最早的做法是:先將 LLaMA 的權(quán)重下載下來,然后在此基礎(chǔ)上增補(bǔ)。該方法最終得到的結(jié)果是:“套殼模型”最終跑出來的權(quán)重與 LLaMA 完全不同,但在部分任務(wù)上的效果不相上下。
在零一萬物之前,不少國內(nèi)知名的大模型公司都曾經(jīng)“中過槍”,只是因?yàn)闆]有大 IP 的造勢、才沒有引起如此廣泛的討論。而這類“套殼”說法背后的依據(jù),也主要是“沿用 LLaMA 架構(gòu)”。
但如果僅因?yàn)檠赜?LLaMA 架構(gòu)而批評國內(nèi)的模型沒有創(chuàng)新,是有失偏頗的。筆者向多位人工智能技術(shù)人員求證后核實(shí):相比架構(gòu)的創(chuàng)新,訓(xùn)練過程也同樣重要,甚至更為重要。
換言之,大家一致認(rèn)同,沿用 LLaMA 架構(gòu)不是問題,訓(xùn)練也是區(qū)分各家大模型實(shí)力的關(guān)鍵因素。
我們可以將 LLaMA 架構(gòu)理解為一個(gè)“地基”:雷峰網(wǎng)
如果將大模型比喻成一座房子,那么沿用 LlaMA 架構(gòu)就是照板打造這座房子的“地基”,但地基以上的房子形狀如何設(shè)計(jì)(即模型的能力),則要看訓(xùn)練過程中的數(shù)據(jù)與策略等方法論差異。沿用 LLaMA 架構(gòu)的各家大模型也通常在“房子形狀”上各顯神通,如訓(xùn)練方法、數(shù)據(jù)配比。
大模型的訓(xùn)練實(shí)際上是一個(gè)不斷在抽象的過程。Transformer 之所以被稱為“基礎(chǔ)(fundational)創(chuàng)新”,沒有 Transformer 就沒有大模型,是因?yàn)?Transformer 已經(jīng)做了第一層抽象,然后 OpenAI、谷歌、百度、智譜等國內(nèi)外第一批大模型探路者,包括 Meta 的 LLaMA 在 Transformer 的基礎(chǔ)上繼續(xù)做抽象。相當(dāng)于,第二層抽象也仍然是在打地基、而非設(shè)計(jì)房屋形狀。
因此,2023 年之后入場的大模型公司,沿用 LLaMA 的架構(gòu)重新訓(xùn)練,是一種更符合創(chuàng)業(yè)公司實(shí)際、性價(jià)比更高的做法。當(dāng)然,在這個(gè)過程中,沿用 LLaMA 架構(gòu)、卻沒有聲明的行為確實(shí)“不厚道”,這是需要糾正的。雷峰網(wǎng)(公眾號:雷峰網(wǎng))
但相比“重復(fù)造輪子”,更多創(chuàng)業(yè)者與技術(shù)人員認(rèn)同的方法是,在沿用 LLaMA 等先進(jìn)架構(gòu)的基礎(chǔ)上,于訓(xùn)練過程中完全使用自家的數(shù)據(jù)重新訓(xùn)練一遍。尤其對于國內(nèi)的大模型來說,模型的能力要更加符合社會主義價(jià)值觀,各家都對數(shù)據(jù)無比重視。
在零一萬物的最新公告中,零一萬物也坦承其采用了往通用化逐步收攏的 GPT/LLaMA 的基本架構(gòu),但也著重強(qiáng)調(diào):
1)在訓(xùn)練 Yi-34B 與 Yi-6B 的過程中,零一萬物的團(tuán)隊(duì)也是根據(jù)實(shí)際的訓(xùn)練框架重新實(shí)現(xiàn)了訓(xùn)練代碼,用自建的數(shù)據(jù)管線構(gòu)建了高質(zhì)量配比的訓(xùn)練數(shù)據(jù)集(從3PB原始數(shù)據(jù)精選到3T token高質(zhì)量數(shù)據(jù) )。
2)在 Infra 部分進(jìn)行算法、硬件、軟件聯(lián)合端到端優(yōu)化,以此來實(shí)現(xiàn)模型訓(xùn)練效率的提升和極強(qiáng)的容錯能力等技術(shù)創(chuàng)新。
創(chuàng)始人李開復(fù)也在朋友圈發(fā)表:全球大模型架構(gòu)一路從 GPT2 --> Gopher --> Chinchilla --> Llama2 --> Yi,行業(yè)逐漸形成大模型的通用標(biāo)準(zhǔn)(就像做一個(gè)手機(jī)app開發(fā)者,不會去自創(chuàng) iOS、Android 以外的全新基礎(chǔ)架構(gòu))。01.AI 起步受益于開源,也貢獻(xiàn)開源,從社區(qū)中虛心學(xué)習(xí),我們會持續(xù)進(jìn)步。
經(jīng)過幾年的演進(jìn),大模型圈里 LLaMA 以開源策略出圈,啟發(fā)了大模型時(shí)代的開源文化,在此之后,全球多數(shù)的團(tuán)隊(duì)在 LLaMA 基礎(chǔ)上進(jìn)行微調(diào)訓(xùn)練。相比強(qiáng)調(diào) “抄”LLaMA,在 LLaMA 基礎(chǔ)上所做的技術(shù)創(chuàng)新也同樣值得關(guān)注。
2、目標(biāo) vs. 手段
無論何時(shí),技術(shù)創(chuàng)新都是驅(qū)動生產(chǎn)力進(jìn)步的輪子。
但在當(dāng)前的大模型發(fā)展中,“重復(fù)造輪子”的問題之所以為大家關(guān)注,是因?yàn)橄啾饶P偷臄?shù)量與架構(gòu)的比拼,決定整個(gè)行業(yè)命運(yùn)的其他兩個(gè)維度進(jìn)展太慢:一是創(chuàng)新 AI 應(yīng)用的涌現(xiàn),二是成功的商業(yè)先例。
如前所述,大多數(shù)人都覺得,AI 時(shí)代、大模型時(shí)代的“Killer App”還沒有出現(xiàn)。尤其在中國,大模型的數(shù)量增長與實(shí)際所爆發(fā)的應(yīng)用沒有成正比。在這種情況下,更多人趨向于認(rèn)為:相比繼續(xù)“卷”大模型,大家應(yīng)該將更多重心放在 AI 產(chǎn)品的創(chuàng)新上。雷峰網(wǎng)
同樣,在大模型的商業(yè)上,即使融資力跑在最前的幾家大模型,也還未交出一份可觀的商業(yè)答卷。
大模型創(chuàng)業(yè)公司研究基座模型的用途,與其商業(yè)模式息息相關(guān),現(xiàn)有的商業(yè)模式主要有兩種:一是賣模型,二是做應(yīng)用。
也是在不確定因素更多的當(dāng)前,技術(shù)路線的選擇也成為創(chuàng)業(yè)公司需要小心翼翼處理的問題。
如一位 AI 行業(yè)從業(yè)者指出,選擇擁抱不同的生態(tài)意味著模型的架構(gòu)也要不同。目前國內(nèi)的開源模型中,與 LLaMA 架構(gòu)不同的模型只有少數(shù),如 GLM、RWKV,但后者的生態(tài)豐富度目前幾乎還無法與 LLaMA 媲美。因此,目前國內(nèi)的大多數(shù)大模型還是圍繞 LLaMA 出發(fā),如 IDEA 研究院的 Ziya 大模型就直接叫“Ziya-LLaMA”。
但與此同時(shí),各家大模型也應(yīng)該注意的一點(diǎn)是:LLaMA 是否為最優(yōu)解?
一位資深投資者向筆者指出,如果 LLaMA 的架構(gòu)足夠抽象、已經(jīng)能夠囊括所有解的話,那么圍繞 LLaMA 的開源與創(chuàng)新自然是最優(yōu)選擇;但萬一 LLaMA 不是最優(yōu)解,大模型創(chuàng)業(yè)公司直接在 LLaMA 的基礎(chǔ)上研究,只掌握了從 1 到 100、而沒有掌握從 0 到 1 的能力的話,屆時(shí)進(jìn)展到關(guān)鍵階段后再回頭,就很可能陷入寸步難行的險(xiǎn)境。
這也是 LLaMA 開源獨(dú)領(lǐng)風(fēng)騷下需要警惕的地方。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。