丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給夏睿
發(fā)送

1

Google Brain:NMT訓(xùn)練成本太高?用大規(guī)模神經(jīng)機器翻譯架構(gòu)分析給出解決方案

本文作者: 夏睿 2017-03-15 18:04
導(dǎo)語:研究人員報告了數(shù)百次實驗測試的經(jīng)驗結(jié)果和方差數(shù),這相當于在標準WMT英譯德任務(wù)上運行超過250,000 GPU小時數(shù)的效果。

Google Brain:NMT訓(xùn)練成本太高?用大規(guī)模神經(jīng)機器翻譯架構(gòu)分析給出解決方案

雷鋒網(wǎng)編者按:十年前,Google Translate發(fā)布。當時,這項服務(wù)背后的核心算法還是基于短語的機器翻譯。

而十年后的今天,更先進的神經(jīng)網(wǎng)絡(luò)機器翻譯( Neural Machine Translation)技術(shù)已經(jīng)使得翻譯系統(tǒng)的速度和準確度有了大幅提升。Google發(fā)現(xiàn),在多個樣本的翻譯中,神經(jīng)網(wǎng)絡(luò)機器翻譯系統(tǒng)將誤差降低了 55%-85%甚至以上。

雖然成就喜人,但這對研究人員來說卻遠遠不夠。在他們看來,NMT領(lǐng)域還有太多可提升的空間。

近日,來自Google Brain的四位研究人員Denny Britz, Anna Goldie , Thang Luong, Quoc Le就由NMT訓(xùn)練成本太高這一問題出發(fā),對NMT 架構(gòu)的超參數(shù)進行了大規(guī)模分析,并且對建立和擴展NMT構(gòu)架提出了一些新穎觀點和實用建議。研究人員表示,學(xué)界還未有過類似的研究。

同時,該論文也已提交了今年的ACL大會(Association for Computational Linguistics)。

以下是為雷鋒網(wǎng)編譯的部分論文內(nèi)容。     

摘要

在過去幾年里,基于神經(jīng)機器翻譯(NMT)技術(shù)的產(chǎn)品系統(tǒng)被越來越多部署在終端客戶端中,NMT本身也因此獲得了巨大進步。但目前,NMT構(gòu)架還存在著一個很大的缺點,即訓(xùn)練它們的成本太高,尤其是GPU的收斂時間,有時會達到幾天到數(shù)周不等。這就使得窮舉超參數(shù)搜索(exhaustive hyperparameter search)的成本和其他常見神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一樣,讓人望而卻步。

為此,我們首次對 NMT 架構(gòu)的超參數(shù)進行了大規(guī)模分析。我們報告了數(shù)百次實驗測試的經(jīng)驗結(jié)果和方差數(shù)(variance numbers),這相當于在標準WMT英譯德任務(wù)上運行超過250,000 GPU小時數(shù)的效果。從實驗結(jié)果中,我們提出了有關(guān)建立和擴展NMT構(gòu)架的創(chuàng)新觀點,也提供了一些實用建議。

作為此次研究成果的一部分,我們也發(fā)布了一個開源的NMT框架,讓研究員們能輕松使用該新技術(shù),并得出最新試驗結(jié)果。

Google Brain:NMT訓(xùn)練成本太高?用大規(guī)模神經(jīng)機器翻譯架構(gòu)分析給出解決方案

研究結(jié)論

在研究過程中,我們通過梳理關(guān)鍵因素,以獲得最新的實驗結(jié)果。

有些研究人員可能并不認為“集束搜索調(diào)節(jié)(beam search tuning)和大多數(shù)架構(gòu)變化同等重要”,以及“使用了當前優(yōu)化技術(shù)的深度模型并不總是優(yōu)于淺度模型”等說法,但通過實驗,我們?yōu)檫@類說法給出了實驗證據(jù)。

以下是實驗收獲總結(jié):

  • 使用 2048 維的大型嵌入(embeddings)有最優(yōu)實驗結(jié)果,不過優(yōu)勢不大;僅有 128 維的小型嵌入似乎也有足夠的能力去捕捉絕大多數(shù)必要的語義信息。

  • LSTM Cell 始終比 GRU Cell表現(xiàn)得好。

  • 2-4 層的雙向編碼器性能最佳。更深層的編碼器在訓(xùn)練中不如2-4層的穩(wěn)定,這一點表現(xiàn)得很明顯。不過,如果能接受高質(zhì)量得優(yōu)化,更深層的編碼器也很有潛力。

  • 深度 4 層解碼器略優(yōu)于較淺層的解碼器。殘差連接在訓(xùn)練 8 層的解碼器時不可或缺,而且,密集的殘差連接能使魯棒性有額外增加。

  • 把額外的關(guān)注度參數(shù)化(Parameterized additive attention),會產(chǎn)生總體最優(yōu)結(jié)果。

  • 有一個調(diào)適良好、具有長度罰分(length penalty)的集束搜索(beam search)很關(guān)鍵。5-10集束寬度搭配1.0長度罰分的工作效果好像不錯。

我們還強調(diào)了幾個重要的研究課題,包括:

  • 高效利用嵌入?yún)?shù) (4.1)(雷鋒網(wǎng)注:4.1代表論文章節(jié),下同)

  • 注意機制(attention mechanisms)作為加權(quán)跳過連接(weighted skip connections)(4.5),而不是記憶單元的角色作用,

  • 深度循環(huán)網(wǎng)絡(luò)需要更好的優(yōu)化方法(4.3),

  • 超參數(shù)變化(hyperparameter variations)還需要更具穩(wěn)健性的集束搜索(4.6)。

此外,我們還專門發(fā)布了一個開源NMT框架,讓大家能對該框架的創(chuàng)新點一探究竟,并進行可重復(fù)試驗,同時我們還發(fā)布了所有實驗配置的文件。

論文地址:https://arxiv.org/abs/1703.03906

開源地址:https://github.com/google/seq2seq/

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Google Brain:NMT訓(xùn)練成本太高?用大規(guī)模神經(jīng)機器翻譯架構(gòu)分析給出解決方案

分享:
相關(guān)文章

編輯

求索于科技人文間, 流連在 AI 浪潮下; 我在這兒, 斟酒,燃香,等你故事
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說