丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

0

ICLR 2019 遺珠?加大號(hào)「變形金剛」,Transformer-XL

本文作者: 楊曉凡 2019-01-16 10:05 專題:ICLR 2019
導(dǎo)語:芝麻開花節(jié)節(jié)高

ICLR 2019 遺珠?加大號(hào)「變形金剛」,Transformer-XL

雷鋒網(wǎng) AI 科技評(píng)論按:近幾天,一篇 ICLR 2019 的拒稿引起了部分研究人員的注意。它不僅是一個(gè)能夠處理可變長度序列的模型,在多個(gè)任務(wù)中刷新了當(dāng)前的最好性能,而且它還是 Transformer 模型的第三代升級(jí)。它的名字叫作「Transformer-XL」(加大號(hào)的 Transformer)。

前兩代 Transformer

2017 年 6 月,谷歌大腦在論文《Attention Is All You Need》中提出了一個(gè)完全基于注意力機(jī)制的編解碼器模型 Transformer ,它完全拋棄了之前其它模型引入注意力機(jī)制后仍然保留的循環(huán)與卷積結(jié)構(gòu),然后在任務(wù)表現(xiàn)、并行能力和易于訓(xùn)練性方面都有大幅的提高。Transformer 從此也成為了機(jī)器翻譯和其它許多文本理解任務(wù)中的重要基準(zhǔn)模型。

2018 年 7 月,谷歌大腦在新論文《Universal Transformer》中對(duì)最初的 Transformer 進(jìn)行了拓展,讓它具有通用計(jì)算能力(也就是「圖靈完備」)。他們使用了一種新型的、注重效率的時(shí)間并行循環(huán)結(jié)構(gòu),這樣的設(shè)計(jì)讓它不僅比 RNN 中使用的串行循環(huán)速度更快,也讓 Universal Transformer 比標(biāo)準(zhǔn)的前饋 Transformer 更加強(qiáng)大,在更多任務(wù)中取得了有力的結(jié)果。(雷鋒網(wǎng) AI 科技評(píng)論詳細(xì)解析文章見 這里

新的 Transformer

谷歌大腦的第三代 Transformer 也在 2018 年下半年完成。他們首先投稿了 ICLR 2019,近期論文評(píng)審結(jié)果陸續(xù)揭曉后他們把論文上傳到了 arXiv。

這篇論文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》(Transformer-XL: 超越固定長度內(nèi)容之外的注意力語言模型, https://arxiv.org/abs/1901.02860, https://openreview.net/forum?id=HJePno0cYm)把注意力放在了拓展模型大小,以及給模型增加可變長度序列的處理能力上。論文由谷歌大腦、谷歌 AI 的研究人員和 CMU 教授、蘋果機(jī)器學(xué)習(xí)總監(jiān) Ruslan Salakhutdinov 和他的學(xué)生們共同完成。

論文摘要如下:

Transformer 網(wǎng)絡(luò)其實(shí)有潛力學(xué)習(xí)更長期的依賴關(guān)系,但是在目前的語言建模任務(wù)的環(huán)境設(shè)置之下,網(wǎng)絡(luò)的輸入被限制為固定長度的內(nèi)容。為了發(fā)掘這種潛力,作者們提出了一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu),Transformer-XL,它可以讓 Transformer 網(wǎng)絡(luò)在長度不固定的內(nèi)容中學(xué)習(xí)依賴,同時(shí)還不會(huì)干擾時(shí)空一致性。具體來說,Transformer-XL 由一個(gè)小節(jié)級(jí)別的循環(huán)機(jī)制和一個(gè)新設(shè)計(jì)的位置編碼器模式組成。這種方法不僅讓模型可以捕捉到長期的依賴,同時(shí)也可以解決內(nèi)容分塊的問題。這樣的方法的效果是,Transformer-XL 學(xué)到的依賴要比 RNN 學(xué)到的長 80%,比最初的 Transformer 網(wǎng)絡(luò)長 450%,在長、短序列上都取得了更好了性能,而且在推理時(shí)最高也要比最初的 Transformer 網(wǎng)絡(luò)快超過 1800 倍。除此之外,作者們也刷新了多項(xiàng)任務(wù)中的最好成績,text8 數(shù)據(jù)集從 1.13 提升至 1.08,WikiText-103 上從 20.5 提升至18.3,One Billion Word 數(shù)據(jù)集上從 23.7 提升至 21.8,Penn Treebank 數(shù)據(jù)集上從 55.3 提升至 54.5(而且不需要精細(xì)調(diào)節(jié))。模型的代碼、預(yù)訓(xùn)練模型、超參數(shù)都會(huì)同時(shí)提供 Tensorflow 和 PyTorch 版本。

ICLR 2019 遺珠?加大號(hào)「變形金剛」,Transformer-XL

值得說明的是,和 RNN 網(wǎng)絡(luò)相比,Transformer 架構(gòu)的網(wǎng)絡(luò)家族可以輕松地加大網(wǎng)絡(luò)規(guī)模,不僅更早的論文中 64 層的 Transfomer 擁有 2.35 億個(gè)參數(shù),這次 24 層的 Transformer-XL 更是達(dá)到了 2.77 億的參數(shù)規(guī)模(當(dāng)然也取得了更好的表現(xiàn))。

即便這篇論文投稿到 ICLR 2019 并被拒了(拒稿原因包括「創(chuàng)新點(diǎn)不多」、「無法證明性能提升來自于工程手段還是新的思路」、「應(yīng)當(dāng)包括來自機(jī)器翻譯任務(wù)的 ASR 表現(xiàn)」、「沒有進(jìn)行更豐富多樣的實(shí)驗(yàn)」等),包括 David Ha 在內(nèi)的許多學(xué)者還是認(rèn)為這是一篇優(yōu)秀的論文。David Ha 的評(píng)價(jià)是:它非常有用,在論文的補(bǔ)充材料中提供的代碼可以在語言建模之外的許多任務(wù)中發(fā)揮作用。

感興趣的讀者可以詳細(xì)閱讀論文,并自己嘗試作者們提供的預(yù)訓(xùn)練模型。

論文地址:https://arxiv.org/abs/1901.02860

代碼開源:https://github.com/kimiyoung/transformer-xl,包含 PyTorch 和 TensorFlow 的模型實(shí)現(xiàn),而且?guī)в蓄A(yù)訓(xùn)練的模型

雷鋒網(wǎng) AI 科技評(píng)論報(bào)道

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

ICLR 2019 遺珠?加大號(hào)「變形金剛」,Transformer-XL

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說