丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給周蕾
發(fā)送

0

微軟分享史上最大基于Transformer架構(gòu)的語言生成模型

本文作者: 周蕾 2020-02-11 08:53
導(dǎo)語:英偉達的“威震天”現(xiàn)在只能屈居第二了。

微軟分享史上最大基于Transformer架構(gòu)的語言生成模型

微軟AI&Research今天分享了有史以來最大的基于Transformer架構(gòu)的語言生成模型Turing NLG(下文簡稱為T-NLG),并開源了一個名為DeepSpeed的深度學(xué)習(xí)庫,以簡化對大型模型的分布式培訓(xùn)。

基于Transformer的架構(gòu),意味著該模型可以生成單詞來完成開放式文本任務(wù)。除了完成未完成的句子外,它還可以生成對輸入文檔的問題和摘要的直接答案。

去年8月,英偉達曾宣布已訓(xùn)練世界上最大的基于Transformer的語言模型,當時該模型使用了83億個參數(shù),比BERT大24倍,比OpenAI的GPT-2大5倍。

而此次微軟所分享的模型,T-NLG的參數(shù)為170億個,是英偉達的Megatron(現(xiàn)在是第二大Transformer模型)的兩倍,其參數(shù)是OpenAI的GPT-2的十倍。微軟表示,T-NLG在各種語言建?;鶞噬暇鶅?yōu)于最新技術(shù),并在應(yīng)用于許多實際任務(wù)(包括總結(jié)和問題解答)時表現(xiàn)出色。

微軟分享史上最大基于Transformer架構(gòu)的語言生成模型

不過,像Google的Meena一樣,最初使用GPT-2,T-NLG最初只能在私人演示中共享。

微軟AI研究應(yīng)用科學(xué)家Corby Rosset在博客文章中寫道:“除了通過匯總文檔和電子郵件來節(jié)省用戶時間之外,T-NLG還可以通過為作者提供寫作幫助,并回答讀者可能對文檔提出的問題,由此來增強Microsoft Office套件的使用體驗?!?nbsp;

具有Transformer架構(gòu)的語言生成模型可以預(yù)測下一個單詞。它們可用于編寫故事,以完整的句子生成答案以及總結(jié)文本。

微軟表示,他們的目標是在任何情況下都能夠像人類一樣直接,準確,流暢地做出響應(yīng):以前,問題解答和摘要系統(tǒng)依賴于從文檔中提取現(xiàn)有內(nèi)容,這些內(nèi)容可以作為備用答案或摘要,但它們通??雌饋聿蛔匀换虿贿B貫。使用T-NLG這樣的自然語言生成模型,可以自然地總結(jié)或回答有關(guān)個人文檔或電子郵件主題的問題。

來自AI領(lǐng)域的專家告訴VentureBeat,2019年是NLP模型開創(chuàng)性的一年——使用Transformer架構(gòu)無疑是2019年最大的機器學(xué)習(xí)趨勢之一,這導(dǎo)致了語言生成領(lǐng)域和GLUE基準測試領(lǐng)導(dǎo)者的進步,F(xiàn)acebook的RoBERTa、谷歌的XLNet和微軟的MT-DNN都紛紛加入到各類基準測試榜首的爭奪當中。

同樣是在今天,微軟還開源了一個名為DeepSpeed的深度學(xué)習(xí)庫。該學(xué)習(xí)庫已針對開發(fā)人員進行了優(yōu)化,以提供低延遲、高吞吐量的推理。

DeepSpeed包含零冗余優(yōu)化器(ZeRO),用于大規(guī)模訓(xùn)練具有1億個或更多參數(shù)的模型,微軟過去曾用它訓(xùn)練T-NLG。

微軟表示,DeepSpeed和ZeRO使得他們能夠降低模型并行度(從16降低到4),將每個節(jié)點的批處理大小增加四倍,并將訓(xùn)練時間減少了三分之二;DeepSpeed使用更少的GPU可以使大型模型的訓(xùn)練效率更高。

開發(fā)人員和機器學(xué)習(xí)從業(yè)人員都可以使用DeepSpeed和ZeRO,因為培訓(xùn)大型網(wǎng)絡(luò)(例如利用Transformer架構(gòu)的網(wǎng)絡(luò))可能會很昂貴,并且可能會遇到大規(guī)模問題。

另外,Google的DeepMind今天也發(fā)布了一種新的遠程內(nèi)存模型Compressive Transformer,以及一種針對書本級語言建模的新基準PG19。

雷鋒網(wǎng)編譯,via VentureBeat

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

微軟分享史上最大基于Transformer架構(gòu)的語言生成模型

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說