專訪網(wǎng)易有道段亦濤：丁磊親自過(guò)問(wèn)的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么？

本文作者：叨叨

2017-05-18 15:13

導(dǎo)語(yǔ)：神經(jīng)網(wǎng)絡(luò)翻譯帶來(lái)的提升是過(guò)去十年的總和

近日，網(wǎng)易有道正式對(duì)外公布：由網(wǎng)易公司自主研發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯（ Neural Machine Translation）技術(shù)正式上線，網(wǎng)易內(nèi)部人士稱，該項(xiàng)目受到了丁磊的親自過(guò)問(wèn)。

有道2008年誕生，誕生伊始的核心業(yè)務(wù)是搜索。在2013年剝離搜索業(yè)務(wù)之后，有道僅翻譯業(yè)務(wù)（包括有道詞典、有道翻譯官等）就獲得了7億用戶，體量龐大。

就此，雷鋒網(wǎng)獨(dú)家專訪了有道首席科學(xué)家段亦濤，聊了聊有道在機(jī)器翻譯領(lǐng)域的研究和探索。

專訪網(wǎng)易有道段亦濤：丁磊親自過(guò)問(wèn)的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么？

有道是國(guó)內(nèi)第一批提供機(jī)器翻譯服務(wù)的互聯(lián)網(wǎng)公司，從2008年正式推出到現(xiàn)在，已近十年。十年時(shí)間里，有道一直聚焦于中文與其他外語(yǔ)之間的翻譯，通過(guò)不斷提升機(jī)器翻譯的質(zhì)量，吸引了大量用戶，積累了海量的語(yǔ)料和數(shù)據(jù)。

即便如此，機(jī)器翻譯的質(zhì)量還是差強(qiáng)人意。隨著人工智能技術(shù)的發(fā)展，深度學(xué)習(xí)逐漸應(yīng)用在機(jī)器翻譯領(lǐng)域，神經(jīng)網(wǎng)絡(luò)翻譯模型開(kāi)始得以運(yùn)用，而有道也借此將其機(jī)器翻譯能力提到了一個(gè)新的高度。用段亦濤的話來(lái)說(shuō)就是：

神經(jīng)網(wǎng)絡(luò)翻譯是人工智能及深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的具體應(yīng)用，是目前最前沿的機(jī)器翻譯技術(shù)，它帶來(lái)的翻譯質(zhì)量提升是過(guò)去十年的總和。

通過(guò)機(jī)器來(lái)實(shí)現(xiàn)翻譯一直是人類一個(gè)夢(mèng)想，在計(jì)算機(jī)誕生之前，人類就設(shè)想過(guò)用自動(dòng)化的方法將一種語(yǔ)言的文字翻譯成另外一種語(yǔ)言。計(jì)算機(jī)誕生之后，人類開(kāi)始希望做出一個(gè)能夠?qū)崿F(xiàn)自動(dòng)翻譯的程序。早期的嘗試都不太成功，統(tǒng)計(jì)翻譯模型的出現(xiàn)，給機(jī)器翻譯領(lǐng)域帶來(lái)了第一次飛躍。

統(tǒng)計(jì)翻譯模型不依賴于人為設(shè)定的規(guī)則，而是從大量的平行語(yǔ)料里總結(jié)語(yǔ)言規(guī)律，從而得到翻譯的結(jié)果。但它的問(wèn)題也很多，最大的問(wèn)題在于統(tǒng)計(jì)翻譯模型是一個(gè)由很多組件組成的模型，比如分詞、短語(yǔ)、對(duì)齊，調(diào)序等組件，這些組件獨(dú)立存在，各司其職，每個(gè)組件完成自己的意向任務(wù)，最后“拼湊”起來(lái)，產(chǎn)生一個(gè)“還看得過(guò)去”的翻譯結(jié)果，遠(yuǎn)遠(yuǎn)談不上“滿意”。但兩年前，無(wú)論是我們熟知的谷歌翻譯、百度翻譯，還是其他翻譯類產(chǎn)品，用的基本都是統(tǒng)計(jì)翻譯模型。

當(dāng)神經(jīng)網(wǎng)絡(luò)模型用于機(jī)器翻譯之后，這一切有了改觀。神經(jīng)網(wǎng)絡(luò)翻譯能夠?qū)φ麄€(gè)句子進(jìn)行編碼，更充分地利用上下文信息，判定多義詞的詞義，生成更自然的譯文。最直觀的一點(diǎn)，是神經(jīng)網(wǎng)絡(luò)翻譯的譯文句子結(jié)構(gòu)完整，語(yǔ)序更符合人類語(yǔ)言使用習(xí)慣，翻譯結(jié)果通順。

專訪網(wǎng)易有道段亦濤：丁磊親自過(guò)問(wèn)的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么？

神經(jīng)網(wǎng)絡(luò)翻譯原理

如此評(píng)價(jià)，除了實(shí)際使用中用戶的感知，還有一個(gè)更為理性的標(biāo)準(zhǔn)，由IBM在2002年建立，被稱為BLEU（Bilingual Evaluation understudy）值。據(jù)維基百科介紹，BLEU是一種評(píng)價(jià)機(jī)器翻譯文本質(zhì)量的算法，該算法的核心價(jià)值觀認(rèn)為：機(jī)器翻譯越接近專業(yè)翻譯，質(zhì)量越高。

BLEU的具體方法是將候選譯文和參考答案做對(duì)比，把單個(gè)翻譯片段(一般是句子)與一組良好的質(zhì)量參考譯文進(jìn)行比較，判斷詞語(yǔ)、語(yǔ)序的重合部分，重合越多，得分越高，之后通過(guò)整個(gè)語(yǔ)料庫(kù)平均得出翻譯的總體質(zhì)量的估計(jì)。

在機(jī)器翻譯領(lǐng)域，神經(jīng)網(wǎng)絡(luò)翻譯模型逐漸取代了統(tǒng)計(jì)翻譯模型，其中一個(gè)重要原因就是，前者的BLEU值大幅度提升。

除了縱向?qū)Ρ?，橫向和其他同行比較的話，BLEU值也是一個(gè)重要參考標(biāo)準(zhǔn)。按照有道官方給出的數(shù)據(jù)顯示，在英語(yǔ)學(xué)習(xí)場(chǎng)景中，有道神經(jīng)網(wǎng)絡(luò)翻譯的英譯中和中譯英的BLEU值領(lǐng)先了同行7個(gè)百分點(diǎn)；而在新聞文章翻譯場(chǎng)景中，其英譯中BLEU值超同行6個(gè)百分點(diǎn)，而中譯英超過(guò)了8個(gè)百分點(diǎn)。

專訪網(wǎng)易有道段亦濤：丁磊親自過(guò)問(wèn)的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么？

神經(jīng)網(wǎng)絡(luò)翻譯中譯英對(duì)比

之所以能比同行高出6-8個(gè)百分點(diǎn)，段亦濤認(rèn)為優(yōu)勢(shì)在于兩個(gè)方面：

以中文為核心，更加專注。針對(duì)中文特有的語(yǔ)言現(xiàn)象做了非常多的優(yōu)化，包括中文的分詞等；
詞典近十年積累了龐大數(shù)據(jù)，依托有道詞典積累的語(yǔ)料和用戶數(shù)據(jù)，能夠在英語(yǔ)學(xué)習(xí)這種翻譯場(chǎng)景下做到最好。

“效果不錯(cuò)”，但段亦濤也承認(rèn)，“在缺乏完備的理論基礎(chǔ)的情況下，實(shí)踐中需要非常依賴經(jīng)驗(yàn)和摸索。效果是最硬的指標(biāo)，理論再完美，不起效果對(duì)我們來(lái)說(shuō)就沒(méi)有意義”。

在行業(yè)里曾經(jīng)有人做過(guò)一個(gè)類比，“深度學(xué)習(xí)（包括神經(jīng)網(wǎng)絡(luò)模型）就像煉丹，把各種素材放在一起，然后掌握火候，在不斷試煉中才能達(dá)到最好效果”，或許這也反映了，在行業(yè)缺乏完備的理論基礎(chǔ)的情況下，現(xiàn)實(shí)的困難是——大家都只能摸索，這就存在非常大的不確定性。但對(duì)目前有道做出來(lái)的效果，段亦濤還是滿意的。

當(dāng)然，這離不開(kāi)一個(gè)強(qiáng)大的技術(shù)團(tuán)隊(duì)。段亦濤表示，有道團(tuán)隊(duì)將會(huì)持續(xù)聚焦在機(jī)器翻譯領(lǐng)域，未來(lái)將著力于三個(gè)方面：

調(diào)整模型和算法
獲取更多數(shù)據(jù)
不同領(lǐng)域適配

雷鋒網(wǎng)了解到，有道神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)已經(jīng)在有道詞典、有道翻譯官、有道翻譯網(wǎng)頁(yè)版、有道e讀等產(chǎn)品中應(yīng)用，覆蓋用戶超過(guò)7億。

小結(jié)

在采訪的最后，段亦濤還向雷鋒網(wǎng)聊起加入網(wǎng)易有道的經(jīng)歷。段亦濤本碩專業(yè)讀的是北航的飛機(jī)設(shè)計(jì)，專注研究"隱身技術(shù)"，和計(jì)算機(jī)基本沒(méi)關(guān)系。但去加州大學(xué)伯克利分校讀博時(shí)，因?yàn)榕d趣，轉(zhuǎn)到了計(jì)算機(jī)科學(xué)，讀的方向是分布式計(jì)算領(lǐng)域的隱私和加密。對(duì)于這種轉(zhuǎn)變，段亦濤覺(jué)得難度沒(méi)有想象那么大，因?yàn)樵诠こ躺隙际窍嗤ǖ?，其次他有?shù)學(xué)的優(yōu)勢(shì)。

在伯克利讀博期間，段亦濤結(jié)識(shí)了的周楓，也就是現(xiàn)在網(wǎng)易有道CEO。

當(dāng)時(shí)，周楓受丁磊之邀，正在考慮加入網(wǎng)易開(kāi)發(fā)有道項(xiàng)目。于是，周楓便邀請(qǐng)段亦濤一起加入了網(wǎng)易。從2008年到2017年，接近十年，段亦濤熱情不減，他說(shuō)"我還是挺喜歡的"。

很多業(yè)內(nèi)人士，并不知道網(wǎng)易有道也在做 Al方面的研究。段方濤表示，希望有更多 Al人才加入進(jìn)來(lái)。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。