丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給叨叨
發(fā)送

0

專訪網(wǎng)易有道段亦濤:丁磊親自過問的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么?

本文作者: 叨叨 2017-05-18 15:13
導(dǎo)語:神經(jīng)網(wǎng)絡(luò)翻譯帶來的提升是過去十年的總和

近日,網(wǎng)易有道正式對外公布:由網(wǎng)易公司自主研發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯( Neural Machine Translation)技術(shù)正式上線,網(wǎng)易內(nèi)部人士稱,該項目受到了丁磊的親自過問。

有道2008年誕生,誕生伊始的核心業(yè)務(wù)是搜索。在2013年剝離搜索業(yè)務(wù)之后,有道僅翻譯業(yè)務(wù)(包括有道詞典、有道翻譯官等)就獲得了7億用戶,體量龐大。

就此,雷鋒網(wǎng)獨家專訪了有道首席科學(xué)家段亦濤,聊了聊有道在機器翻譯領(lǐng)域的研究和探索。

專訪網(wǎng)易有道段亦濤:丁磊親自過問的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么?

有道是國內(nèi)第一批提供機器翻譯服務(wù)的互聯(lián)網(wǎng)公司,從2008年正式推出到現(xiàn)在,已近十年。十年時間里,有道一直聚焦于中文與其他外語之間的翻譯,通過不斷提升機器翻譯的質(zhì)量,吸引了大量用戶,積累了海量的語料和數(shù)據(jù)。

即便如此,機器翻譯的質(zhì)量還是差強人意。隨著人工智能技術(shù)的發(fā)展,深度學(xué)習逐漸應(yīng)用在機器翻譯領(lǐng)域,神經(jīng)網(wǎng)絡(luò)翻譯模型開始得以運用,而有道也借此將其機器翻譯能力提到了一個新的高度。用段亦濤的話來說就是:

神經(jīng)網(wǎng)絡(luò)翻譯是人工智能及深度學(xué)習在機器翻譯領(lǐng)域的具體應(yīng)用,是目前最前沿的機器翻譯技術(shù),它帶來的翻譯質(zhì)量提升是過去十年的總和。

通過機器來實現(xiàn)翻譯一直是人類一個夢想,在計算機誕生之前,人類就設(shè)想過用自動化的方法將一種語言的文字翻譯成另外一種語言。計算機誕生之后,人類開始希望做出一個能夠?qū)崿F(xiàn)自動翻譯的程序。早期的嘗試都不太成功,統(tǒng)計翻譯模型的出現(xiàn),給機器翻譯領(lǐng)域帶來了第一次飛躍。

統(tǒng)計翻譯模型不依賴于人為設(shè)定的規(guī)則,而是從大量的平行語料里總結(jié)語言規(guī)律,從而得到翻譯的結(jié)果。但它的問題也很多,最大的問題在于統(tǒng)計翻譯模型是一個由很多組件組成的模型,比如分詞、短語、對齊,調(diào)序等組件,這些組件獨立存在,各司其職,每個組件完成自己的意向任務(wù),最后“拼湊”起來,產(chǎn)生一個“還看得過去”的翻譯結(jié)果,遠遠談不上“滿意”。但兩年前,無論是我們熟知的谷歌翻譯、百度翻譯,還是其他翻譯類產(chǎn)品,用的基本都是統(tǒng)計翻譯模型。

當神經(jīng)網(wǎng)絡(luò)模型用于機器翻譯之后,這一切有了改觀。神經(jīng)網(wǎng)絡(luò)翻譯能夠?qū)φ麄€句子進行編碼,更充分地利用上下文信息,判定多義詞的詞義,生成更自然的譯文。最直觀的一點,是神經(jīng)網(wǎng)絡(luò)翻譯的譯文句子結(jié)構(gòu)完整,語序更符合人類語言使用習慣,翻譯結(jié)果通順。

專訪網(wǎng)易有道段亦濤:丁磊親自過問的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么?

神經(jīng)網(wǎng)絡(luò)翻譯原理

如此評價,除了實際使用中用戶的感知,還有一個更為理性的標準,由IBM在2002年建立,被稱為BLEU(Bilingual Evaluation understudy)值。據(jù)維基百科介紹,BLEU是一種評價機器翻譯文本質(zhì)量的算法,該算法的核心價值觀認為:機器翻譯越接近專業(yè)翻譯,質(zhì)量越高。

BLEU的具體方法是將候選譯文和參考答案做對比,把單個翻譯片段(一般是句子)與一組良好的質(zhì)量參考譯文進行比較,判斷詞語、語序的重合部分,重合越多,得分越高,之后通過整個語料庫平均得出翻譯的總體質(zhì)量的估計。

在機器翻譯領(lǐng)域,神經(jīng)網(wǎng)絡(luò)翻譯模型逐漸取代了統(tǒng)計翻譯模型,其中一個重要原因就是,前者的BLEU值大幅度提升。

除了縱向?qū)Ρ?,橫向和其他同行比較的話,BLEU值也是一個重要參考標準。按照有道官方給出的數(shù)據(jù)顯示,在英語學(xué)習場景中,有道神經(jīng)網(wǎng)絡(luò)翻譯的英譯中和中譯英的BLEU值領(lǐng)先了同行7個百分點;而在新聞文章翻譯場景中,其英譯中BLEU值超同行6個百分點,而中譯英超過了8個百分點。

專訪網(wǎng)易有道段亦濤:丁磊親自過問的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么?

神經(jīng)網(wǎng)絡(luò)翻譯中譯英對比

之所以能比同行高出6-8個百分點,段亦濤認為優(yōu)勢在于兩個方面:

  • 以中文為核心,更加專注。針對中文特有的語言現(xiàn)象做了非常多的優(yōu)化,包括中文的分詞等;

  • 詞典近十年積累了龐大數(shù)據(jù),依托有道詞典積累的語料和用戶數(shù)據(jù),能夠在英語學(xué)習這種翻譯場景下做到最好。

“效果不錯”,但段亦濤也承認,“在缺乏完備的理論基礎(chǔ)的情況下,實踐中需要非常依賴經(jīng)驗和摸索。效果是最硬的指標,理論再完美,不起效果對我們來說就沒有意義”。

在行業(yè)里曾經(jīng)有人做過一個類比,“深度學(xué)習(包括神經(jīng)網(wǎng)絡(luò)模型)就像煉丹,把各種素材放在一起,然后掌握火候,在不斷試煉中才能達到最好效果”,或許這也反映了,在行業(yè)缺乏完備的理論基礎(chǔ)的情況下,現(xiàn)實的困難是——大家都只能摸索,這就存在非常大的不確定性。但對目前有道做出來的效果,段亦濤還是滿意的。

當然,這離不開一個強大的技術(shù)團隊。段亦濤表示,有道團隊將會持續(xù)聚焦在機器翻譯領(lǐng)域,未來將著力于三個方面:

  • 調(diào)整模型和算法

  • 獲取更多數(shù)據(jù)

  • 不同領(lǐng)域適配

雷鋒網(wǎng)了解到,有道神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)已經(jīng)在有道詞典、有道翻譯官、有道翻譯網(wǎng)頁版、有道e讀等產(chǎn)品中應(yīng)用,覆蓋用戶超過7億。

小結(jié)

在采訪的最后,段亦濤還向雷鋒網(wǎng)聊起加入網(wǎng)易有道的經(jīng)歷。段亦濤本碩專業(yè)讀的是北航的飛機設(shè)計,專注研究"隱身技術(shù)",和計算機基本沒關(guān)系。但去加州大學(xué)伯克利分校讀博時,因為興趣,轉(zhuǎn)到了計算機科學(xué),讀的方向是分布式計算領(lǐng)域的隱私和加密。對于這種轉(zhuǎn)變,段亦濤覺得難度沒有想象那么大,因為在工程上都是相通的,其次他有數(shù)學(xué)的優(yōu)勢。

在伯克利讀博期間,段亦濤結(jié)識了的周楓,也就是現(xiàn)在網(wǎng)易有道CEO。

當時,周楓受丁磊之邀,正在考慮加入網(wǎng)易開發(fā)有道項目。于是,周楓便邀請段亦濤一起加入了網(wǎng)易。從2008年到2017年,接近十年,段亦濤熱情不減,他說"我還是挺喜歡的"。

很多業(yè)內(nèi)人士,并不知道網(wǎng)易有道也在做 Al方面的研究。段方濤表示,希望有更多 Al人才加入進來。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

專訪網(wǎng)易有道段亦濤:丁磊親自過問的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么?

分享:
相關(guān)文章

編輯

雷鋒網(wǎng)北京編輯。關(guān)注人工智能,略雜。微信(yougo5654)可以找到我。
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說