丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給張進(jìn)
發(fā)送

0

誰將替代 Transformer?

本文作者: 張進(jìn) 2024-03-27 19:06
導(dǎo)語:非 Transformer 面臨的共同考驗依然是證明自己的天花板有多高。

【雷峰網(wǎng)(公眾號:雷峰網(wǎng))】2017年谷歌發(fā)表的論文《Attention Is All You Need》成為當(dāng)下人工智能的一篇圣經(jīng),此后席卷全球的人工智能熱潮都可以直接追溯到 Transformer 的發(fā)明。

Transformer 由于其處理局部和長程依賴關(guān)系的能力以及可并行化訓(xùn)練的特點,一經(jīng)問世,逐步取代了過去的 RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))與 CNN(卷積神經(jīng)網(wǎng)絡(luò)),成為 NLP(自然語言處理)前沿研究的標(biāo)準(zhǔn)范式。

今天主流的 AI 模型和產(chǎn)品——OpenAI 的ChatGPT、谷歌的 Bard、Anthropic 的 Claude,Midjourney、Sora到國內(nèi)智譜 AI 的 ChatGLM 大模型、百川智能的 Baichuan 大模型、Kimi chat 等等——都是基于Transformer 架構(gòu)。

Transformer 已然代表了當(dāng)今人工智能技術(shù)無可爭議的黃金標(biāo)準(zhǔn),其主導(dǎo)地位至今無人能撼動。

在Transformer 大行其道的同時,出現(xiàn)了一些反對的聲音,如:“Transformer 的效率并不高”;“Transformer 的天花板很容易窺見”;“Transformer 是很好,但并不能實現(xiàn) AGI,實現(xiàn)一個world model(世界模型)”。

這是因為 Transformer 的強大之處同時也是它的弱點:Transformer 中固有的自注意力機制(attention)帶來了挑戰(zhàn),主要是由于其二次復(fù)雜度造成的,這種復(fù)雜度使得該架構(gòu)在涉及長輸入序列或資源受限情況下計算成本高昂且占用內(nèi)存。

簡單點說,這意味著當(dāng) Transformer 處理的序列長度(例如,段落中的單詞數(shù)量或圖像的大小)增加時,所需的算力就會按該序列的平方增加,從而迅速變得巨大,因此有說法認(rèn)為“Transformer 效率不高”。這也是當(dāng)下人工智能熱潮引發(fā)了全球算力短缺的主要原因。

基于 Transformer 的局限性,許多非 Transformer 架構(gòu)順勢提出,其中包括中國的 RWKV、Meta 的 Mega、微軟亞研的 Retnet、Mamba、DeepMind 團隊的 Hawk 和 Griffin 等——它們都是在 Transformer 一統(tǒng)大模型研發(fā)江湖之后陸續(xù)被提出來的。

他們大多在原來的 RNN 基礎(chǔ)上,針對 Transformer 的缺陷和局限性來做改進(jìn),試圖研究出所謂的「高效 Transformer」(efficient Transformer)結(jié)構(gòu),一個更像人類思考的架構(gòu)。

其中 efficient Transformer 是指占用的內(nèi)存更小、訓(xùn)練和推理過程中的計算成本更小的模型,試圖來推翻Transformer 的霸權(quán)。

當(dāng)前的非 Transformer 架構(gòu)研究正走向何方?

現(xiàn)在主流的非 Transformer 研究基本都是針對 attention 機制去優(yōu)化 full attention 的部分,然后想辦法將這一部分變成一個 RNN 模型,以此提高推理的效率。

attention 是 Transformer 的核心——Transformer 模型之所以如此強大,是因為它拋棄了之前廣泛采用的循環(huán)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò),而采用了一種特殊的結(jié)構(gòu)——注意力機制(attention)來建模文本。

attention 使模型能夠考慮單詞之間的關(guān)系、不管它們相距多遠(yuǎn),并確定段落中哪些單詞和短語最值得關(guān)注。

這種機制使得 Transformer 實現(xiàn)了語言處理的并行化,即同時分析特定文本中的所有單詞,而不是按順序分析。Transformer 的并行化使它們對所讀所寫的文本有了更全面、更準(zhǔn)確的理解,也使得它們比 RNN 具有更高的計算效率和可擴展性。

相比之下,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)面臨梯度消失的問題,使得它們難以對長序列進(jìn)行訓(xùn)練,此外,在訓(xùn)練過程中無法在時間上并行化,進(jìn)而限制了其可擴展性;卷積神經(jīng)網(wǎng)絡(luò)(CNNs)只擅長捕捉局部模式,在長程依賴方面還很欠缺,而這對于許多序列處理任務(wù)至關(guān)重要。

但是 RNNs 的優(yōu)勢在于 RNN 模型做推理時,復(fù)雜度是恒定的,所以內(nèi)存和計算需求是呈線性增長,相對于 Transformer 在序列長度上的內(nèi)存和計算復(fù)雜性呈二次方增長,RNN 的內(nèi)存與計算需求更低。因此,今天很多非 Transformer 研究都循著“保留 RNN 優(yōu)勢的同時,試圖達(dá)到 Transformer 性能”的方向去努力。

基于這一目標(biāo),今天的非 Transformer 技術(shù)研究主要分為兩個流派:

流派一是以 RWKV、 Mamba 和 S4 為代表,它們完全用 recurrent(循環(huán))結(jié)構(gòu)去替代 attention。這種思路是用一個固定的內(nèi)存記住前面的信息,但目前看來雖然可以記住一定長度,但要達(dá)到更長的長度是有難度的。

還有一個流派是把 full attention 這種密集結(jié)構(gòu)變得稀疏,例如 Meta 的 Mega,在之后的計算中不再需要算所有 attention 矩陣中的每一個元素,模型效率也隨之變高。

具體分析各個非 Transformer 模型,其中 RWKV 是國產(chǎn)開源的首個非 Transformer 架構(gòu)的大語言模型,目前已經(jīng)迭代至第六代 RWKV-6。RWKV 的作者彭博在 2022 年 5 月開始訓(xùn)練 RWKV-2,當(dāng)時只有 1 億(100M)參數(shù)規(guī)模,后續(xù)在 2023 年 3 月又訓(xùn)練出了 RWKV-4 140億(14B)的參數(shù)版本。

彭博曾告訴 AI 科技評論,為什么他要做一個跟 Transformer 架構(gòu)不同的模型:

“因為這個世界本身就不是基于 Transformer 的邏輯去做推理來運轉(zhuǎn)的,這個世界的運轉(zhuǎn)規(guī)律是基于類似 RNN 結(jié)構(gòu)的——這個世界的下一秒,不會跟你過去所有的時間、所有的信息相關(guān)聯(lián),只會跟你的上一秒相關(guān)聯(lián)。而 Transformer 要辨認(rèn)所有的 token,這是不合理的?!?/p>

所以 RWKV 用 linear attention(線性注意力機制) 去近似 full attention,試圖結(jié)合 RNN 和 Transformer 的優(yōu)點,同時規(guī)避兩者的缺點,來緩解 Transformer 所帶來的內(nèi)存瓶頸和二次方擴展問題,實現(xiàn)更有效的線性擴展,同時提供并行訓(xùn)練和可擴展性,類似于 Transformer。簡而言之,主打高性能、低能耗、占用內(nèi)存小。

而此前討論較多的 Mamba,其論文作者有兩位,一位是卡內(nèi)基梅隆大學(xué)機器學(xué)習(xí)系助理教授 Albert Gu,另一位是Together.AI 首席科學(xué)家的 Tri Dao。

他們在論文中稱,Mamba是一個新的 SSM 架構(gòu),在語言建模方面,無論是預(yù)訓(xùn)練還是下游評估,他們的 Mamba-3B 模型都優(yōu)于同等規(guī)模的 Transformer 模型,并能與兩倍于其規(guī)模的 Transformer 模型相媲美,還可以隨上下文長度的增加實現(xiàn)線性擴展,其性能在實際數(shù)據(jù)中可提高到百萬 token 長度序列,并實現(xiàn) 5 倍的推理吞吐量提升。

一位非 Transformer  研究者告訴AI科技評論,Mamba 完全只用 recurrent(循環(huán))結(jié)構(gòu),不用 attention,所以它在做下一個 token 的預(yù)測時,其內(nèi)存大小永遠(yuǎn)固定,并不會隨時間增加而增加;但它的問題在于滾動的過程中 memory 非常小,即其外推能力也比較弱。

上述研究者認(rèn)為,微軟亞研提出的 RetNet,走的也是完全 recurrent 思路。RetNet 引入了一種多尺度 retention 機制來替代多頭注意力,它有三種計算范式:并行、循環(huán)和分塊循環(huán)表征。

論文中稱,RetNet 的推理成本與長度無關(guān)。對于 7B 模型和 8k 序列長度,RetNet 的解碼速度是帶鍵值緩存的 Transformers 的 8.4 倍,內(nèi)存節(jié)省 70%。

在訓(xùn)練過程中,RetNet 也能夠比標(biāo)準(zhǔn) Transformer 節(jié)省 25-50% 的內(nèi)存,實現(xiàn) 7 倍的加速,并在高度優(yōu)化的 FlashAttention 方面具有優(yōu)勢。此外,RetNet 的推理延遲對批處理大小不敏感,從而實現(xiàn)了巨大的吞吐量。

Meta 提出的 Mega 則代表了非 Transformer 研究的第二種技術(shù)路線。Mega 的思路是把 recurrent 和變稀疏的attention 矩陣結(jié)合起來。

Mega 的核心研究人員之一 Max 告訴 AI 科技評論,attention 有它不可替代的作用,只要把它的復(fù)雜度限制在一定范圍內(nèi),就能達(dá)到想要的效果。Mega 用了很長時間研究如何把 recurrent 和 attention 結(jié)合在一起才能最高效。

所以 Mega 還是采用了 attention 結(jié)構(gòu),只不過把 attention 限制在了一個固定的 window(窗口)范圍內(nèi),同時結(jié)合了類似 Mamba 的滾動記憶形式,只不過 Mega 的滾動形式要簡化許多,所以整個計算速度很快。

「滾動記憶」是指,所有的 efficient Transformer 都是把 recurrent 循環(huán)結(jié)構(gòu)引入到 Transformer 中,類似于模型先看一段歷史、記住,再看下一段歷史,更新記憶,可能第一段歷史記憶就沒必要都記住了,忘掉一些,再把第二段需要記住的加到整個歷史中,以此不斷往前滾動著記憶。

這樣記憶的好處是模型可以有一個固定長度的滾動記憶,不會隨著時間增加而讓 memory 也要增加,但它的問題是很多時候,某些特殊任務(wù)在最后時刻都不知道前面記憶中有哪些是有用的、哪些是沒用的,這種滾動式記憶就很難完成。

Mega 在跟 llama 同樣的數(shù)據(jù)上訓(xùn)練,再跟 llama2 去做公平的比較,發(fā)現(xiàn)在同樣的數(shù)據(jù)情況下,Mega2 的效果比llama2 要好很多。同時 Mega 預(yù)訓(xùn)練采用 32K 窗口大小,Transformer 用同樣 32K 的窗口大小速度比 Mega2 慢很多,如果 window size 再變大,Mega 優(yōu)勢會越來越明顯。目前 Mega2 已經(jīng)訓(xùn)到了 7B 大小。

DeepMind 團隊提出的 Hawk 和 Griffin 同樣認(rèn)為沒有 attention 是不行的,屬于 gated linear RNN,跟 Mega 一樣屬于混合模型。

除 RWKV,國內(nèi)巖芯數(shù)智也發(fā)布了非 Attention 機制的通用自然語言大模型——Yan 模型。巖芯數(shù)智 CTO 劉凡平稱,Yan 跟線性的 Attention 和 RNN 沒有任何關(guān)系,Yan 架構(gòu)的大模型去除了 Transformer 中高成本的注意力機制,代之以計算量更小、難度更低的線性計算,提高了建模效率和訓(xùn)練速度,實現(xiàn)了效率的提升和成本的降低。

Transformer  能否被顛覆?

雖然當(dāng)下非 Transformer 研究提出的并不少,從測評效果上來看,跟同等規(guī)模大小的 Transformer  相比,表現(xiàn)普遍超過 Transformer,但它們共同面臨的考驗和質(zhì)疑是:當(dāng)它們的規(guī)模被放大到今天 Transformer 模型的大小時,是否還能繼續(xù)展示出強大的性能和效率提升?

其中參數(shù)最大的 RWKV 有 140 億參數(shù),背靠 Meta 的 Mega 有 70 億參數(shù),而 GPT-3 有 1750 億參數(shù),GPT-4 傳聞有 1.8 萬億參數(shù),這意味著非 Transformer 急需訓(xùn)練出一個千億模型來證明自己。

非 Transformer 研究中最具代表性的 RWKV,已經(jīng)走得非常靠前——其背后的元始智能目前已經(jīng)完成了上千萬元的種子輪融資;據(jù)了解國內(nèi)已經(jīng)有一些公司在嘗試用 RWKV 來訓(xùn)練模型;過去的一年里,RWKV 在 To C、To B 也有局部落地。

然而,有多位投資人告訴 AI 科技評論曾糾結(jié)是否要投 RWKV,賭一下非 Transformer 時,因為內(nèi)部分歧太大——不敢堅信非 Transformer 能跑出來,最后都放棄了。

現(xiàn)階段來看,基于現(xiàn)有硬件的算力基礎(chǔ),用 Transformer 去做端側(cè)大模型的難度很高,還是需要在云上完成計算推理等工作,而且應(yīng)答速度不如人意,終端用戶很難接受。

有業(yè)內(nèi)人士告訴 AI 科技評論,“在端側(cè),RWKV并不一定是最優(yōu)解,因為隨著半導(dǎo)體發(fā)展,AI 芯片越來越進(jìn)化,未來在硬件、算力、能源上的成本,最終都會被攤平,未來大模型可以輕松地直接跑在終端上,不再需要花費大力氣從底層架構(gòu)來做出改變。未來有一天會達(dá)到這樣一個臨界點的?!?/p>

RWKV 的方式是從框架層操作,把框架輕量化了以后,可以讓模型在本地運算。但也有一位投資人提出觀點,認(rèn)為非 Transformer 的理想狀態(tài)是必須達(dá)到 OpenAI 的水平再來講輕量化,“而不是為了小而小,為了本地化而本地化”。

上述投資人評價 RWKV “麻雀雖小,五臟俱全”,總體體驗感能達(dá)到 GPT-3.5 的 60 分,但并不知道最后能否達(dá)到 GPT 的 80 分、90 分。這也是非 Transformer 的問題所在,即如果舍棄了框架的復(fù)雜度、可能會犧牲上限的天花板。

有接近 OpenAI 的人士告訴 AI 科技評論,OpenAI 內(nèi)部其實曾經(jīng)測試過 RWKV,但后面還是放棄了這一路線,因為“可能從長期來看它的天花板還未顯現(xiàn),實現(xiàn) AGI 的可能性不大”。

證明自己的天花板有多高,成為了所有非Transformer 架構(gòu)需要共同面臨的考驗。

一些模型研究人員稱,Transformer 做文本大模型還沒有達(dá)到它的天花板,畢竟 scaling law 還沒有失效,Transformer 的瓶頸或許還是在生成序列長度更長的領(lǐng)域,例如在視頻生成的多模態(tài)領(lǐng)域,而多模態(tài)是未來實現(xiàn) AGI 的必經(jīng)之路,如此看來,上下文窗口依然是 Transformer 的一個瓶頸。

如果像 OpenAI 一樣不怕花錢,可以繼續(xù)推高 Transformer 的 scaling law,但問題在于序列每長兩倍就要花四倍的錢,花的時間也是四倍,平方級別的增長使 Transformer 在長序列問題的處理上效率太低,而且資源有上限。

據(jù)了解,國內(nèi)前列的大模型公司,基本用的都是 Transformer。但也有猜測稱,GPT-5 是否還是沿用 Transformer  架構(gòu)是個未知,理由是從 GPT-2 之后沒再繼續(xù)開源。但大家更愿意相信 Transformer 的天花板還遠(yuǎn)。所以國內(nèi)想要繼續(xù)追趕 GPT-4、GPT-5,走Transformer 這條路也未必是錯的。大模型時代,大家都在賭。

但實現(xiàn) AGI,Transformer 是否是唯一的路徑,也未可知。目前能夠確定的,是 Transformer 形成的壟斷很難被打破,無論是從資源還是生態(tài),當(dāng)下的非 Transformer 研究都比不過。

據(jù)了解,目前研究大模型非 Transformer 新架構(gòu)的團隊,要么在學(xué)術(shù)界,要么是如 RWKV 這樣的創(chuàng)業(yè)團隊,很少有大公司投入一個大的團隊來研究新架構(gòu),所以在資源上,跟 Transformer 相比,非Transformer 研究的差距還很大。

此外,擋在前面最大的阻礙是 Transformer 日益堅固的生態(tài)護(hù)城河。

現(xiàn)在,無論是硬件、系統(tǒng)、應(yīng)用,都是圍繞 Transformer 做適配、優(yōu)化,使得開發(fā)其他架構(gòu)的性價比降低,導(dǎo)致想要開發(fā)新的架構(gòu)越來越難。

在測評這塊,許多測評設(shè)計任務(wù)的方式,都在偏向 Transformer 架構(gòu),意思是它設(shè)計的任務(wù)可能只有 Transformer 的模型能做出來,非Transformer 做不出來、或者難度加大。這種設(shè)計能夠展示 Transformer 的優(yōu)勢,但對其他架構(gòu)并不友好。

MIT的博士生、flash-linear-attention 項目負(fù)責(zé)人楊松霖就曾告訴 AI 科技評論,當(dāng)下非 Transformer 研究面臨的阻礙之一是評估方式——單純看Perplexity(困惑度),非 transformer 其實跟 Transformer 的模型相比沒有差距,但很多實際能力 (如in-context copy and retrieval)依然差距很大。她認(rèn)為當(dāng)前的非 Transformer 模型缺乏更全面的評估方式,方能改進(jìn)與 Transformer 之間能力的差距。

毫無疑問,當(dāng)下 Transformer  的地位依然無可撼動,依然是當(dāng)下最強大的 AI 架構(gòu),然而,在回音室效應(yīng)之外,開發(fā)下一代人工智能架構(gòu)的工作正如火如荼進(jìn)行著。

打破壟斷固然不易,但根據(jù)科技發(fā)展的規(guī)律,很難有一個架構(gòu)能永遠(yuǎn)一統(tǒng)江湖。未來,非 Transformer 需要繼續(xù)證明自己的天花板有多高,Transformer 架構(gòu)也同樣如此。

本文作者(vx:zzjj752254)長期關(guān)注AI大模型領(lǐng)域的人、公司、商業(yè)化落地與行業(yè)動態(tài),歡迎交流。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

誰將替代 Transformer?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說