丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給NLP日月星辰
發(fā)送

2

谷歌機(jī)器翻譯取得顛覆性突破 到底幾分真假?

本文作者: NLP日月星辰 2016-09-30 18:31
導(dǎo)語(yǔ):谷歌機(jī)器翻譯(GNMT)取得顛覆性突破,錯(cuò)誤率下降最高到達(dá)87%,到底幾分真幾分假,本文將會(huì)帶你進(jìn)行深入探究。

雷鋒網(wǎng)按:據(jù)悉傳統(tǒng)的基于短語(yǔ)的機(jī)器學(xué)習(xí)將輸入句子分解成詞和短語(yǔ),然后對(duì)它們的大部分進(jìn)行獨(dú)立翻譯,而神經(jīng)機(jī)器翻譯則將整個(gè)輸入句子視作翻譯的基本單元。所以重大突破并不僅僅是上了深度神經(jīng)網(wǎng)絡(luò),而是以句子為單元。

最近,做機(jī)器翻譯的同志們一打開(kāi)朋友圈,猛然發(fā)現(xiàn)好像飯碗沒(méi)了,谷歌爸爸大力出奇跡,提高了機(jī)器翻譯87%的水平。結(jié)果打開(kāi)人家原文一看,原來(lái)虛驚一場(chǎng),只是現(xiàn)有工作的整合,一篇完美的工程論文,并沒(méi)有新的模型提出。不禁長(zhǎng)舒一口氣,呼~(yú)飯碗還在。

呼~(yú)到底火遍朋友圈的那篇文章“谷歌機(jī)器翻譯取得顛覆性突破,錯(cuò)誤率下降87%”到底幾分真幾分假呢?

1. 谷歌的論文價(jià)值

谷歌在本周發(fā)布了谷歌翻譯的實(shí)現(xiàn)論文Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation 這篇論文有非常強(qiáng)的工程性價(jià)值,融合了已有機(jī)器翻譯的幾大技術(shù) Seq2Seq + Attention + Sentence loss optimization 三大技術(shù)均不是這篇原創(chuàng),而是之前的經(jīng)典工作。

如果說(shuō)IBM Model1是機(jī)器翻譯的牛頓定律,那么Seq2Seq就是機(jī)器翻譯里的愛(ài)因斯坦相對(duì)論,Seq2Seq是谷歌在機(jī)器學(xué)習(xí)頂會(huì)NIPS的一篇論文,模型簡(jiǎn)單漂亮,為文本生成尤其是機(jī)器翻譯打下了良好的模型基礎(chǔ),所有的NMT(神經(jīng)機(jī)器翻譯)均在此模型上添磚加瓦,這篇也是一樣。

換句話說(shuō),神經(jīng)機(jī)器翻譯早已取得比統(tǒng)計(jì)機(jī)器翻譯好的效果,只是大家不知道,誤以為是谷歌拯救了科研界,創(chuàng)造了奇跡。其實(shí)是世界上所有機(jī)器翻譯學(xué)者近兩年一起的貢獻(xiàn)(例如:清華也貢獻(xiàn)了Sentence loss optimization for machine translation的技術(shù))。

那么谷歌這篇論文最大的價(jià)值是什么呢?答案是:超強(qiáng)的工程實(shí)現(xiàn)。谷歌這篇論文的StackLSTM用了8個(gè)GPU實(shí)現(xiàn)了8層的StackLSTM,在當(dāng)前高校以及普通公司的實(shí)現(xiàn)中,NMT還只跑在單卡上,由于顯存限制單卡幾乎不可能跑8層的StackLSTM,而谷歌利用GoogleBrain,向世人展示了一把當(dāng)LSTM深到一定程度機(jī)器翻譯能做成什么樣。

2. 三大核心技術(shù)簡(jiǎn)介

(1) Seq2Seq是一個(gè)基于RNN的模型,他有encoder和decoder兩部分。Encoder首先將源語(yǔ)言利用RNN(RNN是一個(gè)刻畫序列的模型,hidden states記錄了他讀過(guò)序列的所有信息,變種有LSTM和GRU)進(jìn)行句子的向量化表示,當(dāng)Seq2Seq讀到最后一個(gè)詞的時(shí)候,他記錄了這個(gè)句子的所有信息。

之后進(jìn)入Decoder模塊,此部分利用Encoder所給的源語(yǔ)言信息,一個(gè)詞一個(gè)詞的生成目標(biāo)語(yǔ)言中的詞匯。如果通俗的講解這個(gè)模型就是,機(jī)器是一個(gè)翻譯人員,突然有個(gè)人說(shuō)了一串源語(yǔ)言所構(gòu)成的序列,要他同聲傳譯,源語(yǔ)言的句子只說(shuō)一遍,讓機(jī)器翻譯出來(lái)目標(biāo)語(yǔ)言所對(duì)應(yīng)的句子。

谷歌機(jī)器翻譯取得顛覆性突破 到底幾分真假?

(2)我們都知道同聲傳譯很難,于是人類很聰明,讓機(jī)器把需要翻譯的東西紀(jì)錄在紙上,每當(dāng)他翻譯一個(gè)詞的時(shí)候一看下所需翻譯的完整句子。這便提出了Attention模型。

Attention模型在翻譯的時(shí)候,每當(dāng)翻譯一個(gè)詞的時(shí)候,都要利用源語(yǔ)言的所有詞進(jìn)行一次計(jì)算,計(jì)算結(jié)果代表著當(dāng)前詞和源語(yǔ)言每個(gè)詞的對(duì)應(yīng)關(guān)系。例如翻譯:多個(gè)機(jī)場(chǎng)都被迫關(guān)閉了時(shí)候,英文airport就和機(jī)場(chǎng)的關(guān)系非常強(qiáng)。這就像一個(gè)翻譯官,每次都在看自己所記錄的句子,并決定現(xiàn)在翻譯哪個(gè)詞。

谷歌機(jī)器翻譯取得顛覆性突破 到底幾分真假?

(3)然而這么翻譯還是不好,像在蹦詞,而不是在翻譯一句通順的話,于是乎人類又教機(jī)器針對(duì)句子的損失進(jìn)行優(yōu)化。原來(lái)seq2seq優(yōu)化的是當(dāng)前詞翻譯的好不好(也叫作ML Loss),此時(shí),直接優(yōu)化我所翻譯的句子好不好。

3. 谷歌神經(jīng)機(jī)器翻譯錯(cuò)誤率下降最高達(dá)87%是如何算出來(lái)的?

谷歌機(jī)器翻譯取得顛覆性突破 到底幾分真假?

神經(jīng)機(jī)器翻譯近兩年取得了統(tǒng)計(jì)機(jī)器翻譯20年還沒(méi)夠著的效果,效果毋容置疑。谷歌原文里面拿人給翻譯的句子打分,滿分六,神經(jīng)機(jī)器翻譯會(huì)好于統(tǒng)計(jì)機(jī)器翻譯0.5分,大概就是學(xué)霸每次6分的考試都能比學(xué)渣高0.5,好是好但是遠(yuǎn)沒(méi)有標(biāo)題中的85%那么恐怖。

那那個(gè)百分之87%是怎么算出來(lái)的呢?比如滿分5分,我得了4.9分,你得了4分,那么我就比你提高了90%,可謂玩了個(gè)數(shù)字游戲。如果這百分之87%是機(jī)器翻譯的BLEU上升87%,那才是真正的顛覆。

現(xiàn)在BLEU普遍在30多,能提高五個(gè)點(diǎn),大概就可以拿自然語(yǔ)言處理領(lǐng)域頂級(jí)會(huì)議ACL的最佳論文,而且會(huì)被歷史銘記~而五個(gè)點(diǎn)才提高了百分之十幾,誰(shuí)要是能提高百分之八十幾,那翻譯真是可以下班了。

4. 神經(jīng)機(jī)器翻譯的優(yōu)勢(shì)

我們首先可以看一下神經(jīng)機(jī)器翻譯和語(yǔ)法機(jī)器翻譯還有統(tǒng)計(jì)機(jī)器翻譯的效果對(duì)比

谷歌機(jī)器翻譯取得顛覆性突破 到底幾分真假?

我們可以看到神經(jīng)機(jī)器翻譯通過(guò)兩年的努力就超過(guò)了另外兩種機(jī)器翻譯。

那為什么神經(jīng)機(jī)器翻譯會(huì)比統(tǒng)計(jì)機(jī)器翻譯好這么多呢?

  1. 端到端的訓(xùn)練(End-to-end training ) 

    神經(jīng)機(jī)器翻譯非常的優(yōu)雅,一個(gè)模型就解決了機(jī)器翻譯。而統(tǒng)計(jì)機(jī)器翻譯包含詞對(duì)齊,調(diào)序,重排等十分繁瑣。

  2. 更好地詞匯相似度計(jì)算

    由于Word2vec的出現(xiàn),近義詞和同義詞可以更好地在語(yǔ)義空間進(jìn)行表達(dá)。例如百度和谷歌在語(yǔ)義空間就十分接近,而神經(jīng)機(jī)器翻譯可以很好利用word2vec的結(jié)果。

  3. 更好地利用上下文(只是更好還沒(méi)做到很好)

    Seq2Seq模型在對(duì)上下文建模時(shí)比統(tǒng)計(jì)機(jī)器翻譯優(yōu)雅很多,他不再受N元語(yǔ)言模型的束縛,可以更好地處理語(yǔ)言的上下文依賴。

5. 機(jī)器翻譯還有什么問(wèn)題

筆者不是機(jī)器翻譯從業(yè)者,但略知機(jī)器翻譯的幾大問(wèn)題。

1. 生僻詞翻譯效果極差。例如你輸入了人名或者奇怪的機(jī)構(gòu)名,都會(huì)導(dǎo)致翻譯一塌糊涂。

谷歌機(jī)器翻譯取得顛覆性突破 到底幾分真假?

2. 經(jīng)常會(huì)漏詞或者同一個(gè)詞翻譯好多次谷歌機(jī)器翻譯取得顛覆性突破 到底幾分真假?

比如圖中的development就被重復(fù)翻譯了

3. 不考慮上下文,以及無(wú)法 “雅”的翻譯俗語(yǔ)等~

谷歌機(jī)器翻譯取得顛覆性突破 到底幾分真假?

結(jié)語(yǔ)

神經(jīng)機(jī)器翻譯未來(lái)可期,但現(xiàn)在仍有諸多不足,仍然需要每一個(gè)研究人員不卑不亢,每天踏踏實(shí)實(shí)的做好研究才能真的顛覆昨天的機(jī)器翻譯。而不要為了每天寫大新聞,而急功近利。

雷鋒網(wǎng)注:本文為雷鋒網(wǎng)獨(dú)家約稿文章,未經(jīng)授權(quán)拒絕轉(zhuǎn)載。

相關(guān)閱讀:

漲姿勢(shì)!如何評(píng)價(jià)Google神經(jīng)機(jī)器翻譯(GNMT)系統(tǒng)?

Google 翻譯的“漢譯英”錯(cuò)誤率降低 60%,是怎么算出來(lái)的?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

谷歌機(jī)器翻譯取得顛覆性突破 到底幾分真假?

分享:
相關(guān)文章

知情人士

北京航空航天大學(xué)在讀博士生,研究方向?yàn)?自然語(yǔ)言處理,深度學(xué)習(xí)。
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)