微軟分享史上最大基于Transformer架構的語言生成模型

本文作者：周蕾

2020-02-11 08:53

導語：英偉達的“威震天”現(xiàn)在只能屈居第二了。

微軟AI＆Research今天分享了有史以來最大的基于Transformer架構的語言生成模型Turing NLG（下文簡稱為T-NLG），并開源了一個名為DeepSpeed的深度學習庫，以簡化對大型模型的分布式培訓。

基于Transformer的架構，意味著該模型可以生成單詞來完成開放式文本任務。除了完成未完成的句子外，它還可以生成對輸入文檔的問題和摘要的直接答案。

去年8月，英偉達曾宣布已訓練世界上最大的基于Transformer的語言模型，當時該模型使用了83億個參數(shù)，比BERT大24倍，比OpenAI的GPT-2大5倍。

而此次微軟所分享的模型，T-NLG的參數(shù)為170億個，是英偉達的Megatron（現(xiàn)在是第二大Transformer模型）的兩倍，其參數(shù)是OpenAI的GPT-2的十倍。微軟表示，T-NLG在各種語言建模基準上均優(yōu)于最新技術，并在應用于許多實際任務（包括總結(jié)和問題解答）時表現(xiàn)出色。

微軟分享史上最大基于Transformer架構的語言生成模型

不過，像Google的Meena一樣，最初使用GPT-2，T-NLG最初只能在私人演示中共享。

微軟AI研究應用科學家Corby Rosset在博客文章中寫道：“除了通過匯總文檔和電子郵件來節(jié)省用戶時間之外，T-NLG還可以通過為作者提供寫作幫助，并回答讀者可能對文檔提出的問題，由此來增強Microsoft Office套件的使用體驗?！?nbsp;

具有Transformer架構的語言生成模型可以預測下一個單詞。它們可用于編寫故事，以完整的句子生成答案以及總結(jié)文本。

微軟表示，他們的目標是在任何情況下都能夠像人類一樣直接，準確，流暢地做出響應：以前，問題解答和摘要系統(tǒng)依賴于從文檔中提取現(xiàn)有內(nèi)容，這些內(nèi)容可以作為備用答案或摘要，但它們通?？雌饋聿蛔匀换虿贿B貫。使用T-NLG這樣的自然語言生成模型，可以自然地總結(jié)或回答有關個人文檔或電子郵件主題的問題。

來自AI領域的專家告訴VentureBeat，2019年是NLP模型開創(chuàng)性的一年——使用Transformer架構無疑是2019年最大的機器學習趨勢之一，這導致了語言生成領域和GLUE基準測試領導者的進步，F(xiàn)acebook的RoBERTa、谷歌的XLNet和微軟的MT-DNN都紛紛加入到各類基準測試榜首的爭奪當中。

同樣是在今天，微軟還開源了一個名為DeepSpeed的深度學習庫。該學習庫已針對開發(fā)人員進行了優(yōu)化，以提供低延遲、高吞吐量的推理。

DeepSpeed包含零冗余優(yōu)化器（ZeRO），用于大規(guī)模訓練具有1億個或更多參數(shù)的模型，微軟過去曾用它訓練T-NLG。

微軟表示，DeepSpeed和ZeRO使得他們能夠降低模型并行度（從16降低到4），將每個節(jié)點的批處理大小增加四倍，并將訓練時間減少了三分之二；DeepSpeed使用更少的GPU可以使大型模型的訓練效率更高。

開發(fā)人員和機器學習從業(yè)人員都可以使用DeepSpeed和ZeRO，因為培訓大型網(wǎng)絡（例如利用Transformer架構的網(wǎng)絡）可能會很昂貴，并且可能會遇到大規(guī)模問題。

另外，Google的DeepMind今天也發(fā)布了一種新的遠程內(nèi)存模型Compressive Transformer，以及一種針對書本級語言建模的新基準PG19。

雷鋒網(wǎng)編譯，via VentureBeat

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。