0
本文作者: 叨叨 | 2017-05-18 15:13 |
近日,網(wǎng)易有道正式對外公布:由網(wǎng)易公司自主研發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯( Neural Machine Translation)技術(shù)正式上線,網(wǎng)易內(nèi)部人士稱,該項目受到了丁磊的親自過問。
有道2008年誕生,誕生伊始的核心業(yè)務(wù)是搜索。在2013年剝離搜索業(yè)務(wù)之后,有道僅翻譯業(yè)務(wù)(包括有道詞典、有道翻譯官等)就獲得了7億用戶,體量龐大。
就此,雷鋒網(wǎng)獨家專訪了有道首席科學(xué)家段亦濤,聊了聊有道在機器翻譯領(lǐng)域的研究和探索。
有道是國內(nèi)第一批提供機器翻譯服務(wù)的互聯(lián)網(wǎng)公司,從2008年正式推出到現(xiàn)在,已近十年。十年時間里,有道一直聚焦于中文與其他外語之間的翻譯,通過不斷提升機器翻譯的質(zhì)量,吸引了大量用戶,積累了海量的語料和數(shù)據(jù)。
即便如此,機器翻譯的質(zhì)量還是差強人意。隨著人工智能技術(shù)的發(fā)展,深度學(xué)習逐漸應(yīng)用在機器翻譯領(lǐng)域,神經(jīng)網(wǎng)絡(luò)翻譯模型開始得以運用,而有道也借此將其機器翻譯能力提到了一個新的高度。用段亦濤的話來說就是:
神經(jīng)網(wǎng)絡(luò)翻譯是人工智能及深度學(xué)習在機器翻譯領(lǐng)域的具體應(yīng)用,是目前最前沿的機器翻譯技術(shù),它帶來的翻譯質(zhì)量提升是過去十年的總和。
通過機器來實現(xiàn)翻譯一直是人類一個夢想,在計算機誕生之前,人類就設(shè)想過用自動化的方法將一種語言的文字翻譯成另外一種語言。計算機誕生之后,人類開始希望做出一個能夠?qū)崿F(xiàn)自動翻譯的程序。早期的嘗試都不太成功,統(tǒng)計翻譯模型的出現(xiàn),給機器翻譯領(lǐng)域帶來了第一次飛躍。
統(tǒng)計翻譯模型不依賴于人為設(shè)定的規(guī)則,而是從大量的平行語料里總結(jié)語言規(guī)律,從而得到翻譯的結(jié)果。但它的問題也很多,最大的問題在于統(tǒng)計翻譯模型是一個由很多組件組成的模型,比如分詞、短語、對齊,調(diào)序等組件,這些組件獨立存在,各司其職,每個組件完成自己的意向任務(wù),最后“拼湊”起來,產(chǎn)生一個“還看得過去”的翻譯結(jié)果,遠遠談不上“滿意”。但兩年前,無論是我們熟知的谷歌翻譯、百度翻譯,還是其他翻譯類產(chǎn)品,用的基本都是統(tǒng)計翻譯模型。
當神經(jīng)網(wǎng)絡(luò)模型用于機器翻譯之后,這一切有了改觀。神經(jīng)網(wǎng)絡(luò)翻譯能夠?qū)φ麄€句子進行編碼,更充分地利用上下文信息,判定多義詞的詞義,生成更自然的譯文。最直觀的一點,是神經(jīng)網(wǎng)絡(luò)翻譯的譯文句子結(jié)構(gòu)完整,語序更符合人類語言使用習慣,翻譯結(jié)果通順。
神經(jīng)網(wǎng)絡(luò)翻譯原理
如此評價,除了實際使用中用戶的感知,還有一個更為理性的標準,由IBM在2002年建立,被稱為BLEU(Bilingual Evaluation understudy)值。據(jù)維基百科介紹,BLEU是一種評價機器翻譯文本質(zhì)量的算法,該算法的核心價值觀認為:機器翻譯越接近專業(yè)翻譯,質(zhì)量越高。
BLEU的具體方法是將候選譯文和參考答案做對比,把單個翻譯片段(一般是句子)與一組良好的質(zhì)量參考譯文進行比較,判斷詞語、語序的重合部分,重合越多,得分越高,之后通過整個語料庫平均得出翻譯的總體質(zhì)量的估計。
在機器翻譯領(lǐng)域,神經(jīng)網(wǎng)絡(luò)翻譯模型逐漸取代了統(tǒng)計翻譯模型,其中一個重要原因就是,前者的BLEU值大幅度提升。
除了縱向?qū)Ρ?,橫向和其他同行比較的話,BLEU值也是一個重要參考標準。按照有道官方給出的數(shù)據(jù)顯示,在英語學(xué)習場景中,有道神經(jīng)網(wǎng)絡(luò)翻譯的英譯中和中譯英的BLEU值領(lǐng)先了同行7個百分點;而在新聞文章翻譯場景中,其英譯中BLEU值超同行6個百分點,而中譯英超過了8個百分點。
神經(jīng)網(wǎng)絡(luò)翻譯中譯英對比
之所以能比同行高出6-8個百分點,段亦濤認為優(yōu)勢在于兩個方面:
以中文為核心,更加專注。針對中文特有的語言現(xiàn)象做了非常多的優(yōu)化,包括中文的分詞等;
詞典近十年積累了龐大數(shù)據(jù),依托有道詞典積累的語料和用戶數(shù)據(jù),能夠在英語學(xué)習這種翻譯場景下做到最好。
“效果不錯”,但段亦濤也承認,“在缺乏完備的理論基礎(chǔ)的情況下,實踐中需要非常依賴經(jīng)驗和摸索。效果是最硬的指標,理論再完美,不起效果對我們來說就沒有意義”。
在行業(yè)里曾經(jīng)有人做過一個類比,“深度學(xué)習(包括神經(jīng)網(wǎng)絡(luò)模型)就像煉丹,把各種素材放在一起,然后掌握火候,在不斷試煉中才能達到最好效果”,或許這也反映了,在行業(yè)缺乏完備的理論基礎(chǔ)的情況下,現(xiàn)實的困難是——大家都只能摸索,這就存在非常大的不確定性。但對目前有道做出來的效果,段亦濤還是滿意的。
當然,這離不開一個強大的技術(shù)團隊。段亦濤表示,有道團隊將會持續(xù)聚焦在機器翻譯領(lǐng)域,未來將著力于三個方面:
調(diào)整模型和算法
獲取更多數(shù)據(jù)
不同領(lǐng)域適配
雷鋒網(wǎng)了解到,有道神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)已經(jīng)在有道詞典、有道翻譯官、有道翻譯網(wǎng)頁版、有道e讀等產(chǎn)品中應(yīng)用,覆蓋用戶超過7億。
在采訪的最后,段亦濤還向雷鋒網(wǎng)聊起加入網(wǎng)易有道的經(jīng)歷。段亦濤本碩專業(yè)讀的是北航的飛機設(shè)計,專注研究"隱身技術(shù)",和計算機基本沒關(guān)系。但去加州大學(xué)伯克利分校讀博時,因為興趣,轉(zhuǎn)到了計算機科學(xué),讀的方向是分布式計算領(lǐng)域的隱私和加密。對于這種轉(zhuǎn)變,段亦濤覺得難度沒有想象那么大,因為在工程上都是相通的,其次他有數(shù)學(xué)的優(yōu)勢。
在伯克利讀博期間,段亦濤結(jié)識了的周楓,也就是現(xiàn)在網(wǎng)易有道CEO。
當時,周楓受丁磊之邀,正在考慮加入網(wǎng)易開發(fā)有道項目。于是,周楓便邀請段亦濤一起加入了網(wǎng)易。從2008年到2017年,接近十年,段亦濤熱情不減,他說"我還是挺喜歡的"。
很多業(yè)內(nèi)人士,并不知道網(wǎng)易有道也在做 Al方面的研究。段方濤表示,希望有更多 Al人才加入進來。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。