丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
特寫 正文
發(fā)私信給haoxiaoru
發(fā)送

1

為了趕翻譯下崗,微軟又向前走了一步

本文作者: haoxiaoru 2016-09-19 10:59
導(dǎo)語:很多人認(rèn)為,語音翻譯就是先把語音識(shí)別為文本,再把文本翻譯為另一種語言的過程。其實(shí)不是這樣。

—— 你這是什么意思???

—— 沒什么,意思意思。

一名新入職場的翻譯員,擔(dān)心越來越厲害的機(jī)器翻譯搶了自己飯碗,于是在知乎上發(fā)問,“這個(gè)行業(yè)還有沒有前途?”老司機(jī)們紛紛上前安慰,其中一位說,年輕人你兔樣兔森破,讓機(jī)器翻譯一下上面這個(gè)對話,看能不能搞定,再來擔(dān)心吧。

不知道“年輕人”有沒有去試。雷鋒網(wǎng)去試了試,發(fā)現(xiàn)行業(yè)公認(rèn)最厲害的 Google 翻譯和微軟翻譯(Microsoft Translator),確實(shí)都搞不定這個(gè)極具中國特色的語音對話。但兩者的表現(xiàn),又是不一樣的。

同一段語音,這是 Google 的結(jié)果:

為了趕翻譯下崗,微軟又向前走了一步

這是微軟的結(jié)果:

為了趕翻譯下崗,微軟又向前走了一步

具體來說。使用語音翻譯,Google 會(huì)完整保留所有字;微軟則會(huì)把第一句中的語氣詞“啊”字省略掉,把第二句中的“意思”省略掉一個(gè)(可判定為誤傷)。為什么?

TrueText:去掉“哼哼哈嘿”

為了趕翻譯下崗,微軟又向前走了一步

微軟告訴雷鋒網(wǎng),之所以省略掉“啊”以及誤傷一個(gè)“意思”,是因?yàn)樗麄冊谡Z音翻譯中運(yùn)用了一項(xiàng)獨(dú)門絕技——TrueText(智能文本校正)。在一份官方文檔中,微軟這么解釋 TureText 的作用:

這個(gè)過程包括去除造成不流利的字詞(例如“啊”“嗯”以及重復(fù)措辭)、將文本分解成句子、添加標(biāo)點(diǎn)符號和大小寫識(shí)別。

這就是微軟的語音翻譯技術(shù),為“口頭語”所做的優(yōu)化之一。Olivier Fontana 是微軟研究院 Microsoft Translator 產(chǎn)品戰(zhàn)略總監(jiān),在八月中旬的一次溝通中,他告訴雷鋒網(wǎng),我們平時(shí)說話,說出來的和寫下來的表達(dá)方式是不一樣的(口頭語和書面語),TrueText 可以把語音識(shí)別出的文字,變成機(jī)器更容易理解的、有意義的內(nèi)容,這一技術(shù)微軟在全球范圍內(nèi)是獨(dú)一無二的。

因?yàn)楣ぷ麝P(guān)系,本文作者日常要處理不少采訪速記,盡管文本經(jīng)過速錄員的“人工優(yōu)化”——去掉了不少語氣詞,但通篇文檔中找到幾個(gè)連續(xù)的完整句子,幾乎是不可能的。除了準(zhǔn)備好的演講稿,很少有人平時(shí)說話的時(shí)候可以用連貫的語句,表達(dá)自己的意思。人在說話時(shí),本來就是磕磕絆絆的,是“話中有話”的,是“不言而喻”的,機(jī)器理解人的本意,再轉(zhuǎn)換成另一種語言,更是難上加難。TrueText 技術(shù)相當(dāng)于用機(jī)器做了口語文本內(nèi)容的整理。

語音翻譯:為對話而優(yōu)化

為了趕翻譯下崗,微軟又向前走了一步

很多人認(rèn)為,語音翻譯就是先把語音識(shí)別為文本,再把文本翻譯為另一種語言的過程。其實(shí)不是這樣。

Olivier Fontana 告訴雷鋒網(wǎng),微軟嘗試過這種簡單拼接的方式,但翻譯質(zhì)量無法令人滿意。最終微軟的方案是,在語音識(shí)別階段就為口語的識(shí)別做了特殊的輸入優(yōu)化,識(shí)別之后的文本經(jīng)過 TrueText 技術(shù)的處理,再進(jìn)入文本翻譯階段,文本翻譯的輸出結(jié)果也要為口語做優(yōu)化,最終通過成熟的 TTS 技術(shù)讓機(jī)器“讀出來”翻譯結(jié)果。

Olivier Fontana 說,在“實(shí)時(shí)對話場景”的翻譯模型研發(fā)過程中,微軟面臨著三項(xiàng)關(guān)鍵的挑戰(zhàn):

  1. 收集口語語料。需要大量時(shí)間和金錢,來收集口語化的語料數(shù)據(jù)。

  2. 訓(xùn)練這些語料。這一項(xiàng)的運(yùn)算成本非常高,需要大量的運(yùn)算能力和硬件加速系統(tǒng)。

  3. 開發(fā)口語模型。每一種語言的口語表達(dá)方式和發(fā)音方法都不一樣,同一種語言不同年級的人聲音、俚語、語速和表達(dá)方式也不一樣,很難用同一種模型去實(shí)現(xiàn)。

微軟介紹,針對口語的翻譯優(yōu)化,尤其是針對聊天對話內(nèi)容的優(yōu)化,以及 TrueText 技術(shù),微軟在業(yè)界都是唯一的。

Olivier Fontana 表示,傳統(tǒng)機(jī)器翻譯都是基于比較正式的文本翻譯,微軟則加入了大量基于口語對話的語料庫。他透露,微軟甚至還花錢請了很多人到 Skype Translator 上聊天,談他們的假期,日常生活,作為口語數(shù)據(jù)進(jìn)行搜集。

“對話即平臺(tái)”

為了趕翻譯下崗,微軟又向前走了一步

Skype Translator 的實(shí)時(shí)語音翻譯技術(shù),一經(jīng)問世,就引發(fā)了行業(yè)關(guān)注。這是一項(xiàng)讓兩個(gè)不同語言的人,可以實(shí)時(shí)通過自己的母語進(jìn)行語音進(jìn)行溝通的“黑科技”(見視頻)。微軟最早在 2012 年天津的一次學(xué)術(shù)活動(dòng)上展示了這項(xiàng)技術(shù)。2014年12月,這項(xiàng)技術(shù)在 Skype Translator 應(yīng)用上實(shí)現(xiàn)商用,之后陸續(xù)運(yùn)用到桌面版 Skype Translator 和 Microsoft Translator 手機(jī)App中。今年上半年,這項(xiàng)技術(shù)迎來新的里程碑,微軟將 API 開放給所有人,方便開發(fā)者將其集成到自己的應(yīng)用中。

微軟翻譯針對語音“對話”進(jìn)行的種種優(yōu)化,很容易讓人聯(lián)想到,這家公司在年初 Build 大會(huì)上公布的戰(zhàn)略“對話即平臺(tái)”。他們還透露,在今年年底前,將為Office 365企業(yè)用戶提供 Skype Meeting Broadcast 服務(wù)。通過該服務(wù),可以自動(dòng)為網(wǎng)絡(luò)會(huì)議添加字幕,并將會(huì)議實(shí)時(shí)地翻譯成不同語言展現(xiàn)出來。 

注:本文曾用標(biāo)題《微軟翻譯:別人還在為“書面語”奮斗,我們已經(jīng)為“口頭語”優(yōu)化》

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

帥編輯

你猜猜猜
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說