丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給camel
發(fā)送

1

Facebook翻譯錯誤導(dǎo)致一名建筑工人被抓,機器翻譯到底有多脆弱?

本文作者: camel 2017-11-17 17:47
導(dǎo)語:光靠在訓(xùn)練數(shù)據(jù)集中添加噪聲,能解決誤拼等問題嗎?

這是最近幾年非常流行的一個句子,試試看能不能讀懂——

“Aoccdrnig to a rscheearch at Cmabrigde Uinervtisy, it deosn’t mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is taht the frist and lsat ltteer be at the rghit pclae.”

雖然大部分單詞都是拼寫錯誤的,但似乎并不會影響我們理解它的意思。這說明:人在理解語言時,魯棒性是很強的,文本中即使漏掉一兩個字母或者拼寫錯誤,很多時候都不會影響人的閱讀。

但對機器翻譯(MT)系統(tǒng)來說,這些文本就幾乎是不可理喻的了。甚至!一不小心還會造成惡劣的影響。雷鋒網(wǎng)了解到,近日在以色列就有一個案例,因為機器翻譯的錯誤,一名建筑工人在他facebook上發(fā)了條狀態(tài)后,“成功”進了局子。

故事大概就是,這名建筑工人10月15日在自己的facebook上發(fā)了一條狀態(tài):“??????”(ySbHhm,阿拉伯語)并配了一張照片:

Facebook翻譯錯誤導(dǎo)致一名建筑工人被抓,機器翻譯到底有多脆弱?

照片中他斜靠在一輛推土機上。這條狀態(tài)的原意是“good morning”,但facebook的MT 卻將它和“??????”(y*bHhm)混淆了,兩者只差一個字母,但后者在希伯來語中的意思卻是“attack them”(雷鋒網(wǎng)向阿語專家請教,用中文理解應(yīng)為“宰了他們”)。

Facebook翻譯錯誤導(dǎo)致一名建筑工人被抓,機器翻譯到底有多脆弱?

以色列警方此刻正監(jiān)管網(wǎng)絡(luò)來找一群稱為“l(fā)one-wolf”的恐怖分子,所以立馬就注意到了這條狀態(tài)。

推土機+“宰了他們”(過去曾有恐怖分子用推土機進行恐怖襲擊),警方懷疑這個人很有可能要進行恐怖襲擊,于是立即就逮捕了他。審問幾個小時后才發(fā)現(xiàn)原來是機器翻譯的烏龍。

 

一、噪聲對機器翻譯影響有多大?

在我們的文本當(dāng)中,拼寫錯誤(或者稱為噪聲)是很常見的現(xiàn)象,而在自然語言處理的各種神經(jīng)網(wǎng)絡(luò)的訓(xùn)練系統(tǒng)(包括翻譯系統(tǒng))中卻并沒有一個明確的方案來解決這類問題。大家能夠抱希望的方式就是,通過在訓(xùn)練數(shù)據(jù)中引入噪聲來減小翻譯過程中噪聲帶來的破壞。

但是在訓(xùn)練數(shù)據(jù)集中引入噪聲或者不引入噪聲會帶來多大的影響呢?在不同的語言機器翻譯訓(xùn)練中引入噪聲結(jié)果是否一致呢?似乎目前并沒有對這一問題嚴(yán)格的研究。

雷鋒網(wǎng)注意到,最近來自MIT的Yonatan Belinkov和來自華盛頓大學(xué)的Yonatan Bisk就此問題在arXiv上發(fā)表了一篇有意思的論文。

Facebook翻譯錯誤導(dǎo)致一名建筑工人被抓,機器翻譯到底有多脆弱?

論文中,他們利用多種噪聲討論了目前神經(jīng)網(wǎng)絡(luò)機器翻譯的脆弱性,并提出兩種增強翻譯系統(tǒng)魯棒性的方法:結(jié)構(gòu)不變詞表示和基于噪聲文本的魯棒性訓(xùn)練。他們發(fā)現(xiàn)一種基于字母卷積神經(jīng)網(wǎng)絡(luò)的charCNN模型在多種噪聲中表現(xiàn)良好。

Facebook翻譯錯誤導(dǎo)致一名建筑工人被抓,機器翻譯到底有多脆弱?

BLEU為機器翻譯結(jié)果與人工翻譯結(jié)果對比值(縱坐標(biāo)應(yīng)為%,作者忘記標(biāo)注,下同)??梢钥吹诫S著文本中加入噪聲的比例增加,機器翻譯的結(jié)果快速下降。

二、模型

作者選擇了三種不同的神經(jīng)機器翻譯(NMT)模型以做對比,分別為:

1、char2char。這是一個seq-2-seq的模型,它有一個復(fù)雜的卷積編碼器、highway、循環(huán)層以及一個標(biāo)準(zhǔn)的循環(huán)解碼器。細節(jié)參見Lee等人(2017)的研究。這個模型在德-英、捷克-英之間的語言對翻譯上表現(xiàn)非常好。

2、Nematus。這也是一個seq-2-seq的模型,在去年的WMT和IWSLT上是一種較為流行的NMT工具包。

3、charCNN。作者用詞表示訓(xùn)練了一個基于character卷積神經(jīng)網(wǎng)絡(luò)(CNN)的seq-2-seq的模型。這個模型保留了一個單詞的概念,能夠?qū)W習(xí)一個依賴于字符的詞表示。因為它可以學(xué)習(xí)詞的形態(tài)信息表示,所以這個模型在形態(tài)豐富的語言上表現(xiàn)非常好。

三、數(shù)據(jù)

數(shù)據(jù)集來源:作者選用了TED為IWSLT 2016準(zhǔn)備的測試數(shù)據(jù)。

Facebook翻譯錯誤導(dǎo)致一名建筑工人被抓,機器翻譯到底有多脆弱?


噪聲來源:分為自然噪聲和人工噪聲。

1、自然噪聲

由于上面的數(shù)據(jù)集沒有帶有自然噪聲的平行語料庫,因此作者選擇了其他的可用的語料庫,例如:

法語:Max&Wisniewski在2010年從Wikipedia的編輯歷史中收集的“維基百科更正和解釋語料庫”(WiCoPaCo),在本文中僅僅提取了單詞更正的數(shù)據(jù)。

德語:由RWSE 維基百科修訂數(shù)據(jù)集(Zesch,2012)和MERLIN語言學(xué)習(xí)者語料庫(Wisniewski et al., 2013)。

捷克語:數(shù)據(jù)來源于非母語者手動注釋的散文。 Facebook翻譯錯誤導(dǎo)致一名建筑工人被抓,機器翻譯到底有多脆弱?

2、人工噪聲

作者生成人工噪聲的方法有四種,分別為交換(Swap)、中間隨機(Middle Random)、完全隨機(Fully Random)和字母錯誤(Key Typo)。

交換(Swap):對一個字母個數(shù)大于4的單詞,除了第一個和最后一個字母不變外,隨機交換中間的任兩個字母一次。

中間隨機(Mid):對一個字母個數(shù)大于4的單詞,除了第一個和最后一個字母不變外,隨機排列中間所有的字母。

完全隨機(Rand):所有單詞的字母隨機排列。

字母錯誤(Key):在單詞中隨機選取一個字母,用鍵盤中和它臨近的字母替換(例如noise-noide)

四、干凈文本訓(xùn)練翻譯模型

作者首先測試了用干凈(Vanilla)文本訓(xùn)練出的模型是否能夠經(jīng)受住噪聲的考驗。

Facebook翻譯錯誤導(dǎo)致一名建筑工人被抓,機器翻譯到底有多脆弱?

通過上表的結(jié)果,我們可以看出所有模型在有噪聲(不管是自然的還是合成的)BLEU值都會顯著下降。

或許通過下面這個例子,可以更明顯地感受到人類理解噪聲文本的能力與機器翻譯的能力有多大差別。

Facebook翻譯錯誤導(dǎo)致一名建筑工人被抓,機器翻譯到底有多脆弱?

輸入文本是亂七八糟的德語文本,但人類翻譯仍然能夠根據(jù)文本猜測到意思,而目前幾個優(yōu)秀的機器翻譯模型則表現(xiàn)很差。

五、兩種方法改進模型

1、meanChar模型

從上面的結(jié)果我們可以看到,三種NMT模型對單詞的結(jié)構(gòu)都很敏感。Char2char和charCNN模型在字符序列上都有卷積層用來捕獲字符n-gram;Nematus模型則基于由BPE獲得的sub-word單元。因此所有這些模型對字符亂置(Swap、Mid、Rand)產(chǎn)生的噪聲都會敏感。

那么可以通過對這樣的噪聲添加不變性來提高模型的魯棒性嗎?

最簡單的方法就是將一個單詞的embedding的平均值作為這個單詞的表示。作者將這種模型稱之為meanChar模型,也即先將單詞表示為一個平均embedding的單詞表示,然后在使用例如charCNN模型的字級編碼器。

很顯然,根據(jù)定義meanChar模型對字符亂置不再敏感,但是對其他類型的噪聲(Key和Nat)仍然敏感。

用Vanilla文本訓(xùn)練meanChar模型 ,然后用噪聲文本測試(由于字符亂置不影響結(jié)果,將Swap、Mid、Rand合為Scr)。結(jié)果如下表第一行所示,可以看出的是,meanChar模型用在法語和德語中對Scrambled文本表現(xiàn)提高了7個百分點,但捷克語表現(xiàn)很糟糕,這可能是由于其語言復(fù)雜的形態(tài)。

Facebook翻譯錯誤導(dǎo)致一名建筑工人被抓,機器翻譯到底有多脆弱?

2、黑箱對抗訓(xùn)練

為了提高模型的魯棒性,作者采用了黑箱對抗訓(xùn)練的方法,也即用帶噪聲文本訓(xùn)練翻譯模型。

首先用如上表,用噪聲文本訓(xùn)練在某些語言(例如法語)上表現(xiàn)良好,但是其魯棒性并不具有穩(wěn)定的提高。這也很明顯,meanChar模型并不一定能解決key或者Nat噪聲的問題。

那么如果我們用更復(fù)雜的charCNN模型就會提高模型對不同種類噪聲的魯棒性嗎?作者將用于訓(xùn)練的Scr文本拆開來訓(xùn)練模型——

Facebook翻譯錯誤導(dǎo)致一名建筑工人被抓,機器翻譯到底有多脆弱?

發(fā)現(xiàn):

1)盡管模型在不同的噪聲下仍然表現(xiàn)不一,但整體平均的表現(xiàn)有所提升。

2)用Rand數(shù)據(jù)訓(xùn)練出的模型,對Swap和Mid文本測試結(jié)果都表現(xiàn)良好;而反之則不成立。這說明在訓(xùn)練數(shù)據(jù)中更多的噪聲能夠提高模型的魯棒性。

3)只有用Nat數(shù)據(jù)集來訓(xùn)練,才能提高Nat數(shù)據(jù)集測試的魯棒性。這個結(jié)果表明了計算模型和人類的表現(xiàn)之間的一個重要區(qū)別——在學(xué)習(xí)語言時,人類并沒有明確地暴露在噪聲樣本中。

4)作者將三種噪聲(Rand+Key+Nat)混合起來訓(xùn)練模型,發(fā)現(xiàn)雖然針對每一個樣本的測試都表現(xiàn)略差,但整體上的魯棒性卻是最高的,而且對于多種噪聲具有普遍性。

六、對結(jié)果的分析

從上面的結(jié)果可以看出,多種噪聲同時訓(xùn)練charCNN的模型的魯棒性更好。But why?

作者猜測可能是不同的卷積濾波器在不同種類的噪聲中學(xué)到了魯棒性。一個卷積濾波器原則上可以通過采用相等或接近相等的權(quán)重來捕獲平均(或總和)的操作。

為了檢驗這個猜測,他們分析了分別用Rand數(shù)據(jù)和Rand+Key+Nat數(shù)據(jù)訓(xùn)練的兩個charCNN模型學(xué)習(xí)到的權(quán)重。針對每個模型,他們計算了1000個過濾器中每一個過濾器維度上的方差,然后對這些變量做以平均。結(jié)果如下圖

 Facebook翻譯錯誤導(dǎo)致一名建筑工人被抓,機器翻譯到底有多脆弱?

從圖上可以看出,Rand模型學(xué)到的權(quán)重方差要遠小于混合噪聲模型學(xué)到的權(quán)重方差。換句話說,混合噪聲訓(xùn)練的模型學(xué)習(xí)了更多不同的權(quán)重,除了平均表示(meanChar)外,還有助于捕捉形態(tài)屬性。

而另一方面,混合噪聲模型中方差的變化則較大,表明不同字符嵌入維度的濾波器之間存在較大的差異。相比之下Rand模型中方差的變化就接近零。

另一方面,我們還看到合成噪聲訓(xùn)練的模型沒有一個在Nat數(shù)據(jù)的測試中表現(xiàn)較好的。這表明自然噪聲合成噪聲有很大的不同。作者人工地檢測了德語的Nat數(shù)據(jù)集中大約40個樣本后,發(fā)現(xiàn)在Nat數(shù)據(jù)集中最常見的噪聲來源是語言中的語音或音韻錯誤(34%)和字母遺漏(32%)。這些在合成噪聲中并沒有,所以這表明要生成更好合成噪聲可能需要更多關(guān)于音素以及相應(yīng)語言的知識。


七、總結(jié)

讓我們來看一看用Rand+key+Nat的charCNN模型來翻譯一下前面那個混亂的德語翻譯的結(jié)果吧:

“According to a study of Cambridge University, it doesn't matter which technology in a word is going to get the letters in a word that is the only important thing for the first and last letter.”

當(dāng)然,其實他們的結(jié)果并不完美,但非常值得借鑒。

如作者所說:“我們的目的有二:

1)作為一個開始,讓大家去談?wù)撋窠?jīng)網(wǎng)絡(luò)翻譯的魯棒性訓(xùn)練和建模技巧;

2)促進大家去創(chuàng)造出更多更好的人工噪聲,以應(yīng)用到新的語言和任務(wù)中。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Facebook翻譯錯誤導(dǎo)致一名建筑工人被抓,機器翻譯到底有多脆弱?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說