丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給三川
發(fā)送

0

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

本文作者: 三川 2017-09-08 05:22
導語:上周,這家位于德國科隆的公司聲稱,DeepL 在盲測中以壓倒性優(yōu)勢擊敗了谷歌、微軟與 Facebook 的 NMT 系統(tǒng)。

 號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

鑒于數(shù)據(jù)、計算力、算法等諸多門檻,自神經機器翻譯(NMT)產品化以來,在很大程度上便是互聯(lián)網巨頭們的競技場。

如今,又一個新的挑戰(zhàn)者高調加入進來,直接把矛頭指向堪稱行業(yè)技術標桿的谷歌、微軟以及 Facebook。

上周,來自德國的 DeepL 翻譯上線,號稱實現(xiàn)了 NMT 技術的新突破,打造出了“世界上最精確、語言組織最自然的機器翻譯系統(tǒng)”;并宣布在自家組織的盲測中,打敗了谷歌翻譯以及微軟與 Facebook 的 NMT 系統(tǒng),釁意十足。

目前,DeepL 翻譯已支持英德法西等 42 門歐洲語言,正在對漢、日、俄等語言進行訓練,并計劃在將來發(fā)布一款 API,讓開發(fā)者能夠將 DeepL 翻譯整合入其應用中。

公司前身

首先要說,這家公司的來歷并不簡單。

公司的前身是運營已近十年的在線外語詞典 Linguee,DeepL 翻譯也完全由 Linguee 團隊打造。Linguee 在國內沒什么存在感,至于在海外……有谷歌翻譯專美于前,存在感也不是很高,但還是有一批認可它的用戶。

 號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

Linguee 的英漢、漢英詞典界面

不過,Linguee 的成敗現(xiàn)在已經不重要,畢竟都換馬甲了——Linguee 在今年正式更名 DeepL,以“Deep”提醒 VC 自己是一家正兒八經的深度學習公司。

真正重要的是 Linguee 的技術積累。Linguee 由前谷歌翻譯研究員 Gereon Frahling 在 2007 年離職開發(fā),2009 年正式上線。就雷鋒網所知,Linguee 的核心優(yōu)勢是它的爬蟲和機器學習系統(tǒng),前者抓取互聯(lián)網上的雙語對照翻譯,后者對這些翻譯的質量進行評估。兩者結合,使 Linguee 成為了當時“世界上首個翻譯搜索引擎”。十年積累,Linguee 無論在數(shù)據(jù)和對算法的研究上都不可小覷。

 號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

去年在倫敦 Noah 上演講的 Gereon Frahling

一年前,其研究團隊著手欲實現(xiàn)一個新目標:利用在機器翻譯領域的多年專業(yè)積累,打造一套業(yè)內最先進的 NMT 系統(tǒng)。這便是 8 月 29 日上線的 DeepL 翻譯。

三大優(yōu)勢

既然底子厚實,我們來看看這些積累給 DeepL 帶來了哪些資源優(yōu)勢。

雷鋒網要提醒,以下信息均是 DeepL 一家之言,尚無第三方背書,大家需自行判斷其含金量。

  • 數(shù)據(jù)

 Linguee 的數(shù)據(jù)集有逾十億組對照翻譯語句,號稱是世界上最大的人工翻譯數(shù)據(jù)集。 Linguee 能隨時搜索近似翻譯結果。

  • 計算力

DeepL 在冰島搭建了一臺超算,號稱在全球 HPC 中性能排名第 23 位,浮點運算能力達到 5.1 petaFLOPS。因而能實現(xiàn)令 DeepL 十分自豪的計算速度:每秒處理百萬量級的詞語翻譯。

  • 算法

采用 CNN 而不是 NMT 產品通用的 RNN。DeepL 宣稱其技術積累使得它能夠克服 CNN 的主要短板,因而能實現(xiàn)比基于 RNN 的競品算法更精確、自然的翻譯結果。

效果展示

DeepL 宣稱其翻譯系統(tǒng)的表現(xiàn)打敗了谷歌翻譯以及微軟、Facebook 的 NMT 系統(tǒng), 是基于兩個指標:盲測反饋和 BLEU 分數(shù)。

  • 盲測

DeepL 邀請了職業(yè)翻譯者,對 DeepL 翻譯、谷歌翻譯、微軟翻譯以及 Facebook 的 NMT 系統(tǒng)進行了盲測,要求測試者選出所認為的最好的翻譯結果。測試語言為三組,分別是英德、英法、英西互譯,樣本為 100 個句子。DeepL 并未公布每組參與測試的職業(yè)譯者數(shù)量。測試結果如下:

 號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

如圖所示,在每一門測試中,選擇 DeepL 的測試者都最多。 DeepL 在英譯德、英譯法、英譯西的優(yōu)勢尤其明顯。其官方統(tǒng)計是:選擇 DeepL 為最佳翻譯結果的次數(shù),與選擇另外三家 NMT 服務的平均比例為 3:1 。

  • BLEU

BLEU 是業(yè)內評估機器翻譯質量最常用的打分算法,其得分被認為與人類的評判結果具有較大相關性。

DeepL 宣布,其英譯德、英譯法的 BLEU 得分超過了所有已發(fā)表的 NMT 研究,包括谷歌 Transformer。結果如下:

 號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

如圖,在英譯法項目上,DeepL 的 BLEU 分數(shù)超過次優(yōu)方案約 3.5%。

業(yè)內觀點

踏入江湖的第一日,DeepL 就自封“天下第一”。業(yè)內同行對此怎么看?

對此,雷鋒網咨詢了搜狗語音交互中心總監(jiān)陳偉、商鵲網 CEO 鄒劍宇,以及 Facebook 機器學習工程師王楊。需要說明的是,三位老師均表示:由于缺乏關于 DeepL 算法、數(shù)據(jù)庫的第一手資料,也沒有來自第三方的信息,無法對其翻譯水平做出客觀判斷。商鵲網的 CEO 鄒劍宇評論道:“從相關報道中,對算法的描述并不詳細,沒有論文披露細節(jié),所以并不好理解?!?/p>

因此,以下僅為這四位看到 DeepL 宣傳信息后的一些個人看法。

一、

在 Facebook從事應用機器學習的工程師王楊,聽到這件事的第一反應是懷疑——單是同時勝過谷歌翻譯和Facebook NMT這一點,不拿出有足夠說服力的證據(jù)就難以取信于人。谷歌的NMT 積累深厚,F(xiàn)acebook的NMT也在快速發(fā)展。一個新的產品想要如其所宣傳的那樣實現(xiàn)大幅超越,很難。

若 DeepL 確實在技術上實現(xiàn)了突破,那么不排除他們有全新的多語種(multilingual)模型。

至于 DeepL 的算法模型基于 CNN 而不是 RNN,王楊表示“這從側面支持了 Facebook 的研究”。FAIR(Facebook AI Research)一直認為 CNN 在機器翻譯上的潛力遠遠大過 RNN,尤其是計算速度,這也是 Facebook 在 NMT 領域的主要研究方向之一。

二、

搜狗語音交互中心總監(jiān)陳偉,他們機器翻譯團隊剛剛在 WMT 2017評測中獲得中英、英中兩個翻譯方向的第一名,他認為數(shù)據(jù)對 DeepL 的貢獻可能遠大過其它因素。而 Linguee 的數(shù)據(jù)爬取和積累,是一項不小的優(yōu)勢。

陳偉評論道:

“從 BLEU 對比看,提升的比較明顯,感覺他們十億量級的高質量數(shù)據(jù)對效果幫助比較大。實測大家都覺得好,這至少說明它數(shù)據(jù)的全面性還是夠的?!?/p>

據(jù)一位德語專業(yè)的譯員說,DeepL 德英互譯的體驗確實不錯,這絲毫不意外——作為一家德國公司,順理成章的,DeepL 重點關注的是德英、法英這些語種的翻譯。這為 DeepL 在這幾門語種的數(shù)據(jù)積累也提供了一定的聚焦和便利。

DeepL 公布的盲測、BLEU 評分,衡量的均是德、法、西這三門歐洲語言與英語之間的互譯。

在算法方面,陳偉向雷鋒網表示:

“沒看到他們技術的詳細介紹,只了解到使用了 CNN 而沒有使用 RNN,但是我感覺架構變動不會太大,應該類似于 Facebook 的 convs2s。

他并不認可“CNN 是神經機器翻譯未來”的說法:

在搜狗的實驗對比中,“RNN-NMT、CNN-NMT 和谷歌的 Transformer 框架。三個技術我們都認真研究和優(yōu)化過,目前 Transformer 框架已經在搜狗翻譯系統(tǒng)上線,從機器評分和人工評測來看,都領先主要競品,較RNN-NMT、CNN-NMT提升也比較明顯。


業(yè)內也沒有一致觀點認為 CNN 是 NMT 的未來。我覺得技術方案無論是 CNN、RNN、Transformer 都沒做到極致,目前主流技術框架到底是什么沒有定論,算法細節(jié)的打磨和多種技術的融合會是未來發(fā)展趨勢,另外數(shù)據(jù)量會是各家公司的技術壁壘?!?/p>

最后,陳偉總結,根據(jù) DeepL 公布的報告,目前的評測存在三個地方導致難以評估其技術:

  1. 人工評測的測試數(shù)據(jù)量僅有 100 句,而一般人工評測或者 BLEU 評測會采用幾千句的數(shù)量。


  2. DeepL對比其他家并沒有使用相同的訓練數(shù)據(jù)集,因此性能無法很好評估。


  3. 更多的技術細節(jié)沒有公布,很難把握具體的情況。

三、

商鵲網 CEO 鄒劍宇十分認同數(shù)據(jù)和計算資源對 NMT 產品的重要性:

“報道說其訓練引擎是基于一臺冰島超級計算機,可以說深度學習真的很需要計算力。Linguee 本身是一個不錯的語料庫公司,數(shù)據(jù)積累有自己的特點,這應該是其引擎優(yōu)秀表現(xiàn)的一個基礎。


對于引擎的評測,Linguee引擎的盲測很好,BLEU 值超過其他引擎最優(yōu)質 3 個百分點(行業(yè)通識是,2 個 BLEU 值的提高就可以稱作‘顯著’)?!?/p>

對于 BLEU 值究竟能在多大程度上客觀反映翻譯質量,鄒劍宇強調,需要合理看待其參考價值,不可把它等同于普通人面對翻譯結果的直觀體驗:

“翻譯評測有三類對象:科研人員,譯員和普通閱讀用戶,三者評測的目標和方法不一致。BLEU 是一個科研環(huán)境的評測參數(shù),和人的閱讀體驗感受有很大的不同,不可以同類而論?!?/p>

他最后忍不住拿自家產品做對比,表示商鵲網的新引擎甚至達到了比谷歌翻譯高出 6 個百分點的 BLEU 值。

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

 號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

分享:
相關文章

用愛救世界
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說