0
本文作者: 張進(jìn) | 2024-03-27 19:06 |
【雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))】2017年谷歌發(fā)表的論文《Attention Is All You Need》成為當(dāng)下人工智能的一篇圣經(jīng),此后席卷全球的人工智能熱潮都可以直接追溯到 Transformer 的發(fā)明。
Transformer 由于其處理局部和長(zhǎng)程依賴關(guān)系的能力以及可并行化訓(xùn)練的特點(diǎn),一經(jīng)問(wèn)世,逐步取代了過(guò)去的 RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))與 CNN(卷積神經(jīng)網(wǎng)絡(luò)),成為 NLP(自然語(yǔ)言處理)前沿研究的標(biāo)準(zhǔn)范式。
今天主流的 AI 模型和產(chǎn)品——OpenAI 的ChatGPT、谷歌的 Bard、Anthropic 的 Claude,Midjourney、Sora到國(guó)內(nèi)智譜 AI 的 ChatGLM 大模型、百川智能的 Baichuan 大模型、Kimi chat 等等——都是基于Transformer 架構(gòu)。
Transformer 已然代表了當(dāng)今人工智能技術(shù)無(wú)可爭(zhēng)議的黃金標(biāo)準(zhǔn),其主導(dǎo)地位至今無(wú)人能撼動(dòng)。
在Transformer 大行其道的同時(shí),出現(xiàn)了一些反對(duì)的聲音,如:“Transformer 的效率并不高”;“Transformer 的天花板很容易窺見(jiàn)”;“Transformer 是很好,但并不能實(shí)現(xiàn) AGI,實(shí)現(xiàn)一個(gè)world model(世界模型)”。
這是因?yàn)?Transformer 的強(qiáng)大之處同時(shí)也是它的弱點(diǎn):Transformer 中固有的自注意力機(jī)制(attention)帶來(lái)了挑戰(zhàn),主要是由于其二次復(fù)雜度造成的,這種復(fù)雜度使得該架構(gòu)在涉及長(zhǎng)輸入序列或資源受限情況下計(jì)算成本高昂且占用內(nèi)存。
簡(jiǎn)單點(diǎn)說(shuō),這意味著當(dāng) Transformer 處理的序列長(zhǎng)度(例如,段落中的單詞數(shù)量或圖像的大小)增加時(shí),所需的算力就會(huì)按該序列的平方增加,從而迅速變得巨大,因此有說(shuō)法認(rèn)為“Transformer 效率不高”。這也是當(dāng)下人工智能熱潮引發(fā)了全球算力短缺的主要原因。
基于 Transformer 的局限性,許多非 Transformer 架構(gòu)順勢(shì)提出,其中包括中國(guó)的 RWKV、Meta 的 Mega、微軟亞研的 Retnet、Mamba、DeepMind 團(tuán)隊(duì)的 Hawk 和 Griffin 等——它們都是在 Transformer 一統(tǒng)大模型研發(fā)江湖之后陸續(xù)被提出來(lái)的。
他們大多在原來(lái)的 RNN 基礎(chǔ)上,針對(duì) Transformer 的缺陷和局限性來(lái)做改進(jìn),試圖研究出所謂的「高效 Transformer」(efficient Transformer)結(jié)構(gòu),一個(gè)更像人類思考的架構(gòu)。
其中 efficient Transformer 是指占用的內(nèi)存更小、訓(xùn)練和推理過(guò)程中的計(jì)算成本更小的模型,試圖來(lái)推翻Transformer 的霸權(quán)。
現(xiàn)在主流的非 Transformer 研究基本都是針對(duì) attention 機(jī)制去優(yōu)化 full attention 的部分,然后想辦法將這一部分變成一個(gè) RNN 模型,以此提高推理的效率。
attention 是 Transformer 的核心——Transformer 模型之所以如此強(qiáng)大,是因?yàn)樗鼟仐壛酥皬V泛采用的循環(huán)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò),而采用了一種特殊的結(jié)構(gòu)——注意力機(jī)制(attention)來(lái)建模文本。
attention 使模型能夠考慮單詞之間的關(guān)系、不管它們相距多遠(yuǎn),并確定段落中哪些單詞和短語(yǔ)最值得關(guān)注。
這種機(jī)制使得 Transformer 實(shí)現(xiàn)了語(yǔ)言處理的并行化,即同時(shí)分析特定文本中的所有單詞,而不是按順序分析。Transformer 的并行化使它們對(duì)所讀所寫的文本有了更全面、更準(zhǔn)確的理解,也使得它們比 RNN 具有更高的計(jì)算效率和可擴(kuò)展性。
相比之下,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)面臨梯度消失的問(wèn)題,使得它們難以對(duì)長(zhǎng)序列進(jìn)行訓(xùn)練,此外,在訓(xùn)練過(guò)程中無(wú)法在時(shí)間上并行化,進(jìn)而限制了其可擴(kuò)展性;卷積神經(jīng)網(wǎng)絡(luò)(CNNs)只擅長(zhǎng)捕捉局部模式,在長(zhǎng)程依賴方面還很欠缺,而這對(duì)于許多序列處理任務(wù)至關(guān)重要。
但是 RNNs 的優(yōu)勢(shì)在于 RNN 模型做推理時(shí),復(fù)雜度是恒定的,所以內(nèi)存和計(jì)算需求是呈線性增長(zhǎng),相對(duì)于 Transformer 在序列長(zhǎng)度上的內(nèi)存和計(jì)算復(fù)雜性呈二次方增長(zhǎng),RNN 的內(nèi)存與計(jì)算需求更低。因此,今天很多非 Transformer 研究都循著“保留 RNN 優(yōu)勢(shì)的同時(shí),試圖達(dá)到 Transformer 性能”的方向去努力。
基于這一目標(biāo),今天的非 Transformer 技術(shù)研究主要分為兩個(gè)流派:
流派一是以 RWKV、 Mamba 和 S4 為代表,它們完全用 recurrent(循環(huán))結(jié)構(gòu)去替代 attention。這種思路是用一個(gè)固定的內(nèi)存記住前面的信息,但目前看來(lái)雖然可以記住一定長(zhǎng)度,但要達(dá)到更長(zhǎng)的長(zhǎng)度是有難度的。
還有一個(gè)流派是把 full attention 這種密集結(jié)構(gòu)變得稀疏,例如 Meta 的 Mega,在之后的計(jì)算中不再需要算所有 attention 矩陣中的每一個(gè)元素,模型效率也隨之變高。
具體分析各個(gè)非 Transformer 模型,其中 RWKV 是國(guó)產(chǎn)開(kāi)源的首個(gè)非 Transformer 架構(gòu)的大語(yǔ)言模型,目前已經(jīng)迭代至第六代 RWKV-6。RWKV 的作者彭博在 2022 年 5 月開(kāi)始訓(xùn)練 RWKV-2,當(dāng)時(shí)只有 1 億(100M)參數(shù)規(guī)模,后續(xù)在 2023 年 3 月又訓(xùn)練出了 RWKV-4 140億(14B)的參數(shù)版本。
彭博曾告訴 AI 科技評(píng)論,為什么他要做一個(gè)跟 Transformer 架構(gòu)不同的模型:
“因?yàn)檫@個(gè)世界本身就不是基于 Transformer 的邏輯去做推理來(lái)運(yùn)轉(zhuǎn)的,這個(gè)世界的運(yùn)轉(zhuǎn)規(guī)律是基于類似 RNN 結(jié)構(gòu)的——這個(gè)世界的下一秒,不會(huì)跟你過(guò)去所有的時(shí)間、所有的信息相關(guān)聯(lián),只會(huì)跟你的上一秒相關(guān)聯(lián)。而 Transformer 要辨認(rèn)所有的 token,這是不合理的。”
所以 RWKV 用 linear attention(線性注意力機(jī)制) 去近似 full attention,試圖結(jié)合 RNN 和 Transformer 的優(yōu)點(diǎn),同時(shí)規(guī)避兩者的缺點(diǎn),來(lái)緩解 Transformer 所帶來(lái)的內(nèi)存瓶頸和二次方擴(kuò)展問(wèn)題,實(shí)現(xiàn)更有效的線性擴(kuò)展,同時(shí)提供并行訓(xùn)練和可擴(kuò)展性,類似于 Transformer。簡(jiǎn)而言之,主打高性能、低能耗、占用內(nèi)存小。
而此前討論較多的 Mamba,其論文作者有兩位,一位是卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系助理教授 Albert Gu,另一位是Together.AI 首席科學(xué)家的 Tri Dao。
他們?cè)谡撐闹蟹Q,Mamba是一個(gè)新的 SSM 架構(gòu),在語(yǔ)言建模方面,無(wú)論是預(yù)訓(xùn)練還是下游評(píng)估,他們的 Mamba-3B 模型都優(yōu)于同等規(guī)模的 Transformer 模型,并能與兩倍于其規(guī)模的 Transformer 模型相媲美,還可以隨上下文長(zhǎng)度的增加實(shí)現(xiàn)線性擴(kuò)展,其性能在實(shí)際數(shù)據(jù)中可提高到百萬(wàn) token 長(zhǎng)度序列,并實(shí)現(xiàn) 5 倍的推理吞吐量提升。
一位非 Transformer 研究者告訴AI科技評(píng)論,Mamba 完全只用 recurrent(循環(huán))結(jié)構(gòu),不用 attention,所以它在做下一個(gè) token 的預(yù)測(cè)時(shí),其內(nèi)存大小永遠(yuǎn)固定,并不會(huì)隨時(shí)間增加而增加;但它的問(wèn)題在于滾動(dòng)的過(guò)程中 memory 非常小,即其外推能力也比較弱。
上述研究者認(rèn)為,微軟亞研提出的 RetNet,走的也是完全 recurrent 思路。RetNet 引入了一種多尺度 retention 機(jī)制來(lái)替代多頭注意力,它有三種計(jì)算范式:并行、循環(huán)和分塊循環(huán)表征。
論文中稱,RetNet 的推理成本與長(zhǎng)度無(wú)關(guān)。對(duì)于 7B 模型和 8k 序列長(zhǎng)度,RetNet 的解碼速度是帶鍵值緩存的 Transformers 的 8.4 倍,內(nèi)存節(jié)省 70%。
在訓(xùn)練過(guò)程中,RetNet 也能夠比標(biāo)準(zhǔn) Transformer 節(jié)省 25-50% 的內(nèi)存,實(shí)現(xiàn) 7 倍的加速,并在高度優(yōu)化的 FlashAttention 方面具有優(yōu)勢(shì)。此外,RetNet 的推理延遲對(duì)批處理大小不敏感,從而實(shí)現(xiàn)了巨大的吞吐量。
Meta 提出的 Mega 則代表了非 Transformer 研究的第二種技術(shù)路線。Mega 的思路是把 recurrent 和變稀疏的attention 矩陣結(jié)合起來(lái)。
Mega 的核心研究人員之一 Max 告訴 AI 科技評(píng)論,attention 有它不可替代的作用,只要把它的復(fù)雜度限制在一定范圍內(nèi),就能達(dá)到想要的效果。Mega 用了很長(zhǎng)時(shí)間研究如何把 recurrent 和 attention 結(jié)合在一起才能最高效。
所以 Mega 還是采用了 attention 結(jié)構(gòu),只不過(guò)把 attention 限制在了一個(gè)固定的 window(窗口)范圍內(nèi),同時(shí)結(jié)合了類似 Mamba 的滾動(dòng)記憶形式,只不過(guò) Mega 的滾動(dòng)形式要簡(jiǎn)化許多,所以整個(gè)計(jì)算速度很快。
「滾動(dòng)記憶」是指,所有的 efficient Transformer 都是把 recurrent 循環(huán)結(jié)構(gòu)引入到 Transformer 中,類似于模型先看一段歷史、記住,再看下一段歷史,更新記憶,可能第一段歷史記憶就沒(méi)必要都記住了,忘掉一些,再把第二段需要記住的加到整個(gè)歷史中,以此不斷往前滾動(dòng)著記憶。
這樣記憶的好處是模型可以有一個(gè)固定長(zhǎng)度的滾動(dòng)記憶,不會(huì)隨著時(shí)間增加而讓 memory 也要增加,但它的問(wèn)題是很多時(shí)候,某些特殊任務(wù)在最后時(shí)刻都不知道前面記憶中有哪些是有用的、哪些是沒(méi)用的,這種滾動(dòng)式記憶就很難完成。
Mega 在跟 llama 同樣的數(shù)據(jù)上訓(xùn)練,再跟 llama2 去做公平的比較,發(fā)現(xiàn)在同樣的數(shù)據(jù)情況下,Mega2 的效果比llama2 要好很多。同時(shí) Mega 預(yù)訓(xùn)練采用 32K 窗口大小,Transformer 用同樣 32K 的窗口大小速度比 Mega2 慢很多,如果 window size 再變大,Mega 優(yōu)勢(shì)會(huì)越來(lái)越明顯。目前 Mega2 已經(jīng)訓(xùn)到了 7B 大小。
DeepMind 團(tuán)隊(duì)提出的 Hawk 和 Griffin 同樣認(rèn)為沒(méi)有 attention 是不行的,屬于 gated linear RNN,跟 Mega 一樣屬于混合模型。
除 RWKV,國(guó)內(nèi)巖芯數(shù)智也發(fā)布了非 Attention 機(jī)制的通用自然語(yǔ)言大模型——Yan 模型。巖芯數(shù)智 CTO 劉凡平稱,Yan 跟線性的 Attention 和 RNN 沒(méi)有任何關(guān)系,Yan 架構(gòu)的大模型去除了 Transformer 中高成本的注意力機(jī)制,代之以計(jì)算量更小、難度更低的線性計(jì)算,提高了建模效率和訓(xùn)練速度,實(shí)現(xiàn)了效率的提升和成本的降低。
雖然當(dāng)下非 Transformer 研究提出的并不少,從測(cè)評(píng)效果上來(lái)看,跟同等規(guī)模大小的 Transformer 相比,表現(xiàn)普遍超過(guò) Transformer,但它們共同面臨的考驗(yàn)和質(zhì)疑是:當(dāng)它們的規(guī)模被放大到今天 Transformer 模型的大小時(shí),是否還能繼續(xù)展示出強(qiáng)大的性能和效率提升?
其中參數(shù)最大的 RWKV 有 140 億參數(shù),背靠 Meta 的 Mega 有 70 億參數(shù),而 GPT-3 有 1750 億參數(shù),GPT-4 傳聞?dòng)?1.8 萬(wàn)億參數(shù),這意味著非 Transformer 急需訓(xùn)練出一個(gè)千億模型來(lái)證明自己。
非 Transformer 研究中最具代表性的 RWKV,已經(jīng)走得非常靠前——其背后的元始智能目前已經(jīng)完成了上千萬(wàn)元的種子輪融資;據(jù)了解國(guó)內(nèi)已經(jīng)有一些公司在嘗試用 RWKV 來(lái)訓(xùn)練模型;過(guò)去的一年里,RWKV 在 To C、To B 也有局部落地。
然而,有多位投資人告訴 AI 科技評(píng)論曾糾結(jié)是否要投 RWKV,賭一下非 Transformer 時(shí),因?yàn)閮?nèi)部分歧太大——不敢堅(jiān)信非 Transformer 能跑出來(lái),最后都放棄了。
現(xiàn)階段來(lái)看,基于現(xiàn)有硬件的算力基礎(chǔ),用 Transformer 去做端側(cè)大模型的難度很高,還是需要在云上完成計(jì)算推理等工作,而且應(yīng)答速度不如人意,終端用戶很難接受。
有業(yè)內(nèi)人士告訴 AI 科技評(píng)論,“在端側(cè),RWKV并不一定是最優(yōu)解,因?yàn)殡S著半導(dǎo)體發(fā)展,AI 芯片越來(lái)越進(jìn)化,未來(lái)在硬件、算力、能源上的成本,最終都會(huì)被攤平,未來(lái)大模型可以輕松地直接跑在終端上,不再需要花費(fèi)大力氣從底層架構(gòu)來(lái)做出改變。未來(lái)有一天會(huì)達(dá)到這樣一個(gè)臨界點(diǎn)的?!?/p>
RWKV 的方式是從框架層操作,把框架輕量化了以后,可以讓模型在本地運(yùn)算。但也有一位投資人提出觀點(diǎn),認(rèn)為非 Transformer 的理想狀態(tài)是必須達(dá)到 OpenAI 的水平再來(lái)講輕量化,“而不是為了小而小,為了本地化而本地化”。
上述投資人評(píng)價(jià) RWKV “麻雀雖小,五臟俱全”,總體體驗(yàn)感能達(dá)到 GPT-3.5 的 60 分,但并不知道最后能否達(dá)到 GPT 的 80 分、90 分。這也是非 Transformer 的問(wèn)題所在,即如果舍棄了框架的復(fù)雜度、可能會(huì)犧牲上限的天花板。
有接近 OpenAI 的人士告訴 AI 科技評(píng)論,OpenAI 內(nèi)部其實(shí)曾經(jīng)測(cè)試過(guò) RWKV,但后面還是放棄了這一路線,因?yàn)椤翱赡軓拈L(zhǎng)期來(lái)看它的天花板還未顯現(xiàn),實(shí)現(xiàn) AGI 的可能性不大”。
證明自己的天花板有多高,成為了所有非Transformer 架構(gòu)需要共同面臨的考驗(yàn)。
一些模型研究人員稱,Transformer 做文本大模型還沒(méi)有達(dá)到它的天花板,畢竟 scaling law 還沒(méi)有失效,Transformer 的瓶頸或許還是在生成序列長(zhǎng)度更長(zhǎng)的領(lǐng)域,例如在視頻生成的多模態(tài)領(lǐng)域,而多模態(tài)是未來(lái)實(shí)現(xiàn) AGI 的必經(jīng)之路,如此看來(lái),上下文窗口依然是 Transformer 的一個(gè)瓶頸。
如果像 OpenAI 一樣不怕花錢,可以繼續(xù)推高 Transformer 的 scaling law,但問(wèn)題在于序列每長(zhǎng)兩倍就要花四倍的錢,花的時(shí)間也是四倍,平方級(jí)別的增長(zhǎng)使 Transformer 在長(zhǎng)序列問(wèn)題的處理上效率太低,而且資源有上限。
據(jù)了解,國(guó)內(nèi)前列的大模型公司,基本用的都是 Transformer。但也有猜測(cè)稱,GPT-5 是否還是沿用 Transformer 架構(gòu)是個(gè)未知,理由是從 GPT-2 之后沒(méi)再繼續(xù)開(kāi)源。但大家更愿意相信 Transformer 的天花板還遠(yuǎn)。所以國(guó)內(nèi)想要繼續(xù)追趕 GPT-4、GPT-5,走Transformer 這條路也未必是錯(cuò)的。大模型時(shí)代,大家都在賭。
但實(shí)現(xiàn) AGI,Transformer 是否是唯一的路徑,也未可知。目前能夠確定的,是 Transformer 形成的壟斷很難被打破,無(wú)論是從資源還是生態(tài),當(dāng)下的非 Transformer 研究都比不過(guò)。
據(jù)了解,目前研究大模型非 Transformer 新架構(gòu)的團(tuán)隊(duì),要么在學(xué)術(shù)界,要么是如 RWKV 這樣的創(chuàng)業(yè)團(tuán)隊(duì),很少有大公司投入一個(gè)大的團(tuán)隊(duì)來(lái)研究新架構(gòu),所以在資源上,跟 Transformer 相比,非Transformer 研究的差距還很大。
此外,擋在前面最大的阻礙是 Transformer 日益堅(jiān)固的生態(tài)護(hù)城河。
現(xiàn)在,無(wú)論是硬件、系統(tǒng)、應(yīng)用,都是圍繞 Transformer 做適配、優(yōu)化,使得開(kāi)發(fā)其他架構(gòu)的性價(jià)比降低,導(dǎo)致想要開(kāi)發(fā)新的架構(gòu)越來(lái)越難。
在測(cè)評(píng)這塊,許多測(cè)評(píng)設(shè)計(jì)任務(wù)的方式,都在偏向 Transformer 架構(gòu),意思是它設(shè)計(jì)的任務(wù)可能只有 Transformer 的模型能做出來(lái),非Transformer 做不出來(lái)、或者難度加大。這種設(shè)計(jì)能夠展示 Transformer 的優(yōu)勢(shì),但對(duì)其他架構(gòu)并不友好。
MIT的博士生、flash-linear-attention 項(xiàng)目負(fù)責(zé)人楊松霖就曾告訴 AI 科技評(píng)論,當(dāng)下非 Transformer 研究面臨的阻礙之一是評(píng)估方式——單純看Perplexity(困惑度),非 transformer 其實(shí)跟 Transformer 的模型相比沒(méi)有差距,但很多實(shí)際能力 (如in-context copy and retrieval)依然差距很大。她認(rèn)為當(dāng)前的非 Transformer 模型缺乏更全面的評(píng)估方式,方能改進(jìn)與 Transformer 之間能力的差距。
毫無(wú)疑問(wèn),當(dāng)下 Transformer 的地位依然無(wú)可撼動(dòng),依然是當(dāng)下最強(qiáng)大的 AI 架構(gòu),然而,在回音室效應(yīng)之外,開(kāi)發(fā)下一代人工智能架構(gòu)的工作正如火如荼進(jìn)行著。
打破壟斷固然不易,但根據(jù)科技發(fā)展的規(guī)律,很難有一個(gè)架構(gòu)能永遠(yuǎn)一統(tǒng)江湖。未來(lái),非 Transformer 需要繼續(xù)證明自己的天花板有多高,Transformer 架構(gòu)也同樣如此。
本文作者(vx:zzjj752254)長(zhǎng)期關(guān)注AI大模型領(lǐng)域的人、公司、商業(yè)化落地與行業(yè)動(dòng)態(tài),歡迎交流。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。