丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給haoxiaoru
發(fā)送

1

Google 翻譯的“漢譯英”錯(cuò)誤率降低 60%,是怎么算出來的?

本文作者: haoxiaoru 2016-09-30 17:05
導(dǎo)語:尤其是那些當(dāng)初認(rèn)為機(jī)器在圍棋上戰(zhàn)勝不了人類的人類,現(xiàn)在又對“人工智能”過于樂觀了。

第一步。

Google 翻譯的“漢譯英”錯(cuò)誤率降低 60%,是怎么算出來的?

從維基百科和新聞網(wǎng)站上,隨機(jī)選取 500 個(gè)中文句子,作為被評估內(nèi)容。

第二步。

Google 翻譯的“漢譯英”錯(cuò)誤率降低 60%,是怎么算出來的?

找人工翻譯,將500個(gè)句子翻譯為英文。

第三步。

Google 翻譯的“漢譯英”錯(cuò)誤率降低 60%,是怎么算出來的?

將舊的機(jī)器翻譯結(jié)果、新的機(jī)器翻譯結(jié)果(神經(jīng)網(wǎng)絡(luò))、人工翻譯的結(jié)果、,這三份“考卷”,拿給熟練使用中英雙語的真人判卷員。

第四步。

Google 翻譯的“漢譯英”錯(cuò)誤率降低 60%,是怎么算出來的?

熟練使用中英雙語的真人判卷員,給每張考卷的每個(gè)句子,進(jìn)行打分。分?jǐn)?shù)為 0~6 的整數(shù),0代表翻譯結(jié)果“狗屁不通”,6代表翻譯結(jié)果“精彩絕倫”。

第五步。

Google 翻譯的“漢譯英”錯(cuò)誤率降低 60%,是怎么算出來的?

出成績了。舊機(jī)器翻譯每個(gè)句子平均得分 3.694,新機(jī)器翻譯得到 4.263 分,人工翻譯得分 4.636 分。別忘了滿分是 6 分哦。

第六步。

分別計(jì)算,跟人工翻譯的水平相比,“誤差率”(錯(cuò)誤率)是多少。

  • 舊機(jī)器翻譯:(4.636-3.694) / 4.636 = 20%

  • 新機(jī)器翻譯:(4.636-4.263) / 4.636 = 8%

第七步。

算“錯(cuò)誤率”降低了多少。

(20%-8%)/ 20% = 12% / 20%= 60%

第八步。

算算“準(zhǔn)確率”提升了多少。

(4.263-3.694)/3.694 = 15%

第九步。

Google 翻譯的“漢譯英”錯(cuò)誤率降低 60%,是怎么算出來的?

為什么用戶興奮,媒體興奮,專家沒那么興奮?翻譯公司商鵲網(wǎng)CTO魏勇鵬告訴雷鋒網(wǎng):

這里面兩個(gè)主要的“陷阱”:

1、從3.6提升到4.2,和從4.2提升到4.6,這兩個(gè)所需要付出的努力程度,后者可能是前者的10倍以上都不止,但Google就簡單的線性計(jì)算為縮小了60%的差距。


2、中英的人工翻譯,得到的評分也就只是4.6,比英西的人要低得多,這點(diǎn)說明用來作為基準(zhǔn)的“人”,未必是靠譜的,以它為基準(zhǔn)來評估,也未必是靠譜的。

其實(shí)還有第三點(diǎn),別忘了卷子是 Google 自己出的。

注意用于做評測的數(shù)據(jù)是:500 randomly sampled sentences from Wikipedia and news websites。這些都是互聯(lián)網(wǎng)上語料最充足的內(nèi)容類型。也就是機(jī)器最擅長的內(nèi)容。

第十步。

Google 翻譯的“漢譯英”錯(cuò)誤率降低 60%,是怎么算出來的?

行業(yè)認(rèn)可的一種機(jī)器翻譯成績評估,是 WMT 的 BLEU Score 比賽。Google 這次發(fā)布的論文,也用了 BLEU Score 的分?jǐn)?shù)。雷鋒網(wǎng)沒找到漢譯英的部分,但是有英譯法的數(shù)據(jù),從 37 分提升到 41.16 分。

第十一步。

很多人類患上“圍棋”恐慌癥了。

Google 首次將神經(jīng)網(wǎng)絡(luò)技術(shù),成功應(yīng)用到翻譯產(chǎn)品上,上線后使得翻譯質(zhì)量有了明顯提升。但是媒體報(bào)道中的標(biāo)題“錯(cuò)誤率降低 60%”,甚至某種語言是 “85%”,很容易讓普通人以為蒸汽機(jī)革命來了……事實(shí)上,微軟、百度等大公司之前也在翻譯產(chǎn)品中使用神經(jīng)網(wǎng)絡(luò)技術(shù),但沒有引起大的傳播。

究其原因。一位不具名的評論者告訴雷鋒網(wǎng),之前很多人看到 Google 的電腦在圍棋上戰(zhàn)勝了人類,心理上受到了沖擊,自然而然認(rèn)為  Google 強(qiáng)大的人工智能技術(shù),會(huì)顛覆很多行業(yè)。尤其是那些當(dāng)初認(rèn)為機(jī)器在圍棋上戰(zhàn)勝不了人類的人類,現(xiàn)在又對“人工智能”過于樂觀了。

第十二步。

Google 翻譯的“漢譯英”錯(cuò)誤率降低 60%,是怎么算出來的?

北京時(shí)間9月29日早上,論文作者之一,Google Brain 團(tuán)隊(duì)的陳智峰,通過遠(yuǎn)程視頻接受了 3 家中國媒體的采訪。他告訴雷鋒網(wǎng),這次 Google 比較特別的地方在于,訓(xùn)練過程利用了大量的分布式計(jì)算,所以才能把語言模型很快訓(xùn)練出來?!安畈欢嘁恍瞧谔幚硪粋€(gè)方向的語言模型。但是 Google 有大概一萬個(gè)語言的模型需要訓(xùn)練,既需要我們有巨大的資源投入,也在不停地改進(jìn)算法。 ”

對于機(jī)器翻譯取代人工翻譯的問題。陳智峰認(rèn)為,規(guī)則的文本,比如醫(yī)學(xué)論文,比如時(shí)事新聞,大家更注重信息的傳達(dá),在修辭方面或情感方面的傳達(dá)可以弱化一些?!皺C(jī)器翻譯就能夠很快地幫助你獲得信息,這是機(jī)器翻譯目前對人類的主要幫助。”

他說,“目前來講,我覺得人與人之間的自然的溝通,通過機(jī)器翻譯還是有很大的工作需要做。做到真正能夠讓你感覺到跟你說話的是個(gè)人,而不是機(jī)器,還是有很多年需要努力的?!?nbsp;

// 參考來源

// 雷鋒網(wǎng)專題報(bào)道

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Google 翻譯的“漢譯英”錯(cuò)誤率降低 60%,是怎么算出來的?

分享:
相關(guān)文章

帥編輯

你猜猜猜
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說