丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給貝爽
發(fā)送

0

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3

本文作者: 貝爽 2021-01-13 22:59
導語:其預訓練速度可達T5的4倍!

眾所周知,參數(shù)量是機器學習算法的關(guān)鍵。在大規(guī)模參數(shù)量和數(shù)據(jù)集的支持下,簡單的體系結(jié)構(gòu)將遠遠超過復雜的算法。

在自然語言領(lǐng)域,被稱為史上最強NLP的GPT-3擁有1750億參數(shù)。近日,Google將這一參數(shù)量直接拉高到了1.6萬億。

1月11日,Google在arXiv上發(fā)表論文《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》,提出了最新語言模型—Switch Transformer。

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3

研究員介紹稱,Switch Transformer擁有1.6萬億參數(shù),是迄今為止規(guī)模最大的NLP模型。

論文中指出,Switch Transformer使用了稀疏激活(Sparsely Activated)技術(shù),該技術(shù)只使用了神經(jīng)網(wǎng)絡權(quán)重的子集,或者是轉(zhuǎn)換模型內(nèi)輸入數(shù)據(jù)的參數(shù)。在相同計算資源下,其訓練速度上比Google之前研發(fā)的最大模型T5-XXL還要快4倍。

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3

Switch Transformer由混合專家(Mix of Expert,MoE)AI模型范式發(fā)展而來。MoE模型是指將多個專家或?qū)iT從事不同任務的模型放在一個較大的模型中,并有一個“門控網(wǎng)絡(Gating Network)”來選擇為任何給定數(shù)據(jù)要咨詢哪些專家。

自90年代初首次被提出以來,MoE模型通在機器翻譯方面取得了顯著成果。但因復雜性高、通信成本高和訓練不穩(wěn)定,導致其廣泛應用受到阻礙。

為了解決這些問題,研究人員簡化了MoE路由算法,設計了直觀的改進模型,使通信成本和計算成本大幅度降低。同時,他們提出的訓練技術(shù)消除了訓練的不穩(wěn)定性,并證明了大型稀疏模型也可能以低精度(bfloat16)格式進行訓練。

此外,與T5-Base和T5-Large模型相比,新模型在相同計算資源下將預訓練速度提高了7倍之多。這些改進擴展到了多語言設置中,可以測量101種語言在mT5-Base版本上的收益。

最后,通過在“Colossal Clean Crawled Corpus”上預先訓練多達數(shù)萬億個參數(shù)模型來提高當前語言模型的規(guī)模,使速度比T5-XXL模型提高了4倍。

研究者還表示,Switch Transformer 架構(gòu)不僅在具備超級計算機的環(huán)境下具有優(yōu)勢,在只有幾個計算核心的計算機上也是有效的。此外,研究者設計的大型稀疏模型可以被蒸餾為一個小而稠密的版本,同時還能保留稀疏模型質(zhì)量提升的 30%。

Switch Transformer模型架構(gòu)

Switch Transformer的設計原則是以一種簡單且高效計算的方式來最大化Transformer模型的參數(shù)數(shù)量。

基于此,模型需要在增加參數(shù)量同時保持每個示例的浮點運算(FLOPs)不變。研究人員假設,參數(shù)量與執(zhí)行的總計算量無關(guān),是可以單獨縮放的重要組件,那么它可以通過設計稀疏激活模型來實現(xiàn)。

研究人員有效地利用了為密集矩陣乘法(Dense Matrix Multiplications,一種廣泛用于語言模型的數(shù)學運算)而設計的硬件,如GPU、Google的張量處理單元TPU。在分布式訓練設置中,模型將不同的權(quán)重分配到不同的設備上,可以保證權(quán)重隨著設備數(shù)量的增加而增加,同時保證每個設備上均有可管理的內(nèi)存和計算足跡。

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3


Switch Transformer編碼器模塊圖示

如圖,研究人員將Transformer的密集前饋網(wǎng)絡(FFN)層替換為稀疏Switch FFN層(淺藍色)。該層對序列中的令牌進行獨立操作。他們兩個標記令牌(X1=More 和 X2=Parameters )在四個FFN專家之間進行匹配(實線),其中路由器獨立地傳輸每個令牌。Switch FFN層返回輸出的FFN并乘以路由器門值(虛線)

簡化稀疏通道

研究人員提出了Switch Routing簡化策略:針對不同的輸入,匹配最適合的一個專家。實驗證明,這種簡化可以保留模型質(zhì)量,減少路由計算并提高性能。具體優(yōu)勢如下:
1、通道計算量大大降低,因每個樣本僅需要一個專家通道參與計算。

2、每個專家通道所計算樣本的batchsize被大大縮小(至少減半)。

3、每個專家通道的實現(xiàn)復雜度減小了,專家間的通信開銷降低。


首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3


高效稀疏通道

研究人員使用Mesh-Tensorflow(MTF)庫—與Tensorflow 類似的語義和API ,能夠能夠高效支持分布式的數(shù)據(jù)與模型結(jié)構(gòu)。它將物理內(nèi)核集抽象為處理器的邏輯網(wǎng)格。然后利用張量和計算按指定的維度進行切分,便于跨維度輕松劃分模型。

與MoE Transformer的比較

第一個測試是在“Colossal Clean Crawled Corpus”數(shù)據(jù)集上進行的。該數(shù)據(jù)集也被成為C4,含750GB的文本語料,全部來自于Reddit、Wikipedia和其他網(wǎng)絡資源中。研究人員使用了32個TPU核在C4數(shù)據(jù)集上預先訓練了幾種不同的Switch Transformer模型。

模型的任務是預測段落中15%被遮住的單詞,以及通過檢索文本回答一些有難度的問題。

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3

從以上對比結(jié)果中,可以發(fā)現(xiàn):

1、在速度-質(zhì)量的指標上,Switch-Transformer超過了精密微調(diào)的稠密模型,與MoE Transformer。在有限的計算量與工作時間下,Switch Transformer都得到了最優(yōu)的結(jié)果。

2、Switch Transformer有更小的計算足跡(computational footprint)。

3、在更小的capactiy factor下,Switch Transformer工作的效果更佳。

提升訓練與微調(diào)技術(shù)

稀疏專家模型相比普通Transformer更難訓練,這是由于切換通道帶來的不穩(wěn)定引起的,同時,低精度計算會導致惡化softmax計算中的問題。

研究人員通過在局部引入高精度的訓練,而非全局的方法,達到了理想的穩(wěn)定性,測試效果如圖:

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3

同時作為不穩(wěn)定性的另一種補救措施,研究人員減小了默認的Transformer初始化比例,將 S=1.0降低了10倍。這既提高了質(zhì)量,又降低了不穩(wěn)定訓練的可能性。如圖:

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3“預訓練+微調(diào)”的NLP方法,在處理下游任務時容易發(fā)生過擬合現(xiàn)象。對此,研究人員提出了“expert dropout”的解決方案——通過在微調(diào)過程中,增加在每個expert中的dropout比例來緩解過擬合。

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3我們觀察到,簡單地增加所有層的dropout率會導致性能下降。但是,在非專家層設置較小的dropout率(0.1)和在專家層設置較大的dropout率(0.4),可以提高四個較小下游任務的性能。

性能測試:預訓練、微調(diào)和多任務訓練

論文中,研究人員對預訓練階段 Switch Transformer的預訓練可擴展性進行了研究。為了避免數(shù)據(jù)受限,他們采用了大型 C4 數(shù)據(jù)庫,并以固定的計算成本測試了基于步數(shù)和時間的可伸縮性。

步態(tài)的可擴展性

下圖為多個模型在訓練步數(shù)恒定、專家數(shù)量增加時表現(xiàn)出的可擴展性提升情況??梢钥吹剑涸诒3置總€ token 的 FLOPS 不變時,擁有更多的參數(shù)(專家)可以提高訓練速度。
首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3

此外還可以發(fā)現(xiàn),專家數(shù)量的增加會導致更有效的樣本模型。Switch-Base 64專家模型在60k和450k步態(tài)達到了與T5-Base模型相同的性能,這是7.5倍的加速。

時間的可擴展性

從基于步數(shù)的設置中,可以觀察到:樣本效率提升未必能轉(zhuǎn)化為時間上的模型質(zhì)量提升。那么,在訓練時間和計算成本都固定的前提下,是應該訓練一個稠密模型還是稀疏模型?下圖解決了這個問題。

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3

圖中展示了預訓練模型質(zhì)量隨訓練時間增加所產(chǎn)生的變化。在訓練時間和計算成本都固定的情況下,Switch Transformer 的速度優(yōu)勢非常明顯。在這種設置下,如果要達到相似的困惑度,Switch-Base 64 專家模型的訓練時間僅為 T5-Base 模型的 1/7。

微調(diào)

針對 T5-Base 和 T5-Large 模型,研究人員設計了具備更多參數(shù)的 FLOP-matched Switch Transformer。在 SuperGLUE基準上, FLOP-matched Switch Transformer 相比 T5-Base 和 T5-Large 的性能分別提升了 4.4% 和 2%。同時,該模型在多項推理和知識任務中也帶來了顯著提升。

這說明該模型架構(gòu)不只對預訓練有用,還可以通過微調(diào)將質(zhì)量改進遷移至下游任務中。


首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3

蒸餾技術(shù)

為了解決超大規(guī)模神經(jīng)網(wǎng)絡的部署問題,研究人員提出了多種蒸餾技術(shù):將大型稀疏模型蒸餾到小型密集模型中。

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3

使用表 7 中最優(yōu)的蒸餾技術(shù),可以將具備 11 億參數(shù)量的模型壓縮 82%,同時保留 37% 的性能提升。最極端的情況下,將模型壓縮了 99%,且維持了 28% 的性能提升。

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3

多語言學習

在最后一組下游實驗中,研究人員利用模型對101種不同語言的混合進行了預訓練。

如圖展示了 Switch T5 Base 模型與 mT5-Base 在所有語言上的質(zhì)量提升情況(負對數(shù)困惑度)。對兩個模型經(jīng)過 100 萬步預訓練后,Switch Transformer 的最終負對數(shù)困惑度相較基線有所提升。

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3

此外,透過mT5-Base使用Switch Transformer模型的加速直方圖,可以發(fā)現(xiàn),mT5-Base的平均速度提高了5倍,同時,91%的語言速度至少提升了4倍。這表明Switch Transformer能夠有效的多任務和多語言。

首個萬億級模型!Google重磅推出語言模型Switch Transformers,1.6萬億參數(shù)秒殺GPT-3

總結(jié)及未來研究方向

研究人員表示,Switch Transformer模型是具有可擴展性的高效自然語言處理模型,它通過簡化MoE,形成了快速理解、訓練穩(wěn)定且比同等大小模型更有效的樣本體系結(jié)構(gòu)。實驗證明,這些模型在不同的語言任務和訓練模式中都表現(xiàn)了出色的性能,包括預訓練、微調(diào)和多任務訓練。同時,這些結(jié)果也讓訓練具有上千億、上萬億參數(shù)量的模型成為可能。

最后研究人員指出,雖然Switch Transformer改進了訓練程序,并對稀疏模型進行了擴展的研究。但未來在此方向還有許多未完成的工作,如

  • 進一步提高大型模型訓練的穩(wěn)定性。目前正在進行的方法有:正則化函數(shù)、適度的梯度裁剪等。

  • 一般來說預訓練越好,下游任務的效果也就越好,但在一些任務上發(fā)現(xiàn),1.6T參數(shù)的Switch-C會比較小模型的結(jié)果更低。

  • 目前方法使用的同類專家,未來可嘗試通過更靈活的基礎(chǔ)結(jié)構(gòu)支持異構(gòu)專家。

  • 調(diào)查FFN層之外的專家層,初步的證據(jù)表明,這同樣可以改善模型質(zhì)量。

  • 目前的工作僅考慮了語言任務,未來可嘗試將模型稀疏性類似地應用到其他模態(tài)(例如圖像)或多模態(tài)中。

引用鏈接:

https://arxiv.org/pdf/2101.03961.pdf

https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/

https://arxiv.org/search/cs?searchtype=author&query=Fedus%2C+W

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說