0
本文作者: 叢末 | 2018-11-15 11:38 |
雷鋒網(wǎng) AI 科技評論按:11 月 13 日,深圳 - 騰訊 AI Lab 發(fā)布了一款 AI 輔助翻譯產(chǎn)品 ——「騰訊輔助翻譯」(Transmart),可滿足用戶快速翻譯的需求,用 AI 輔助人工翻譯提高效率和質(zhì)量。該產(chǎn)品由騰訊 AI Lab 的內(nèi)部團(tuán)隊歷時一年完成,采用了團(tuán)隊自研的人機(jī)交互式機(jī)器翻譯技術(shù),融合神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯、統(tǒng)計機(jī)器翻譯、輸入法、語義理解、數(shù)據(jù)挖掘等多項前沿技術(shù),配合億級雙語平行數(shù)據(jù),是一款人工智能輔助翻譯互聯(lián)網(wǎng)落地產(chǎn)品,可為用戶提供實時智能翻譯輔助,幫助用戶更好更快地完成翻譯任務(wù)。
人機(jī)交互式機(jī)器翻譯技術(shù)專門針對人工翻譯過程,是人工智能輔助翻譯系統(tǒng)的核心技術(shù)。與一般的機(jī)器翻譯相比,人機(jī)交互式機(jī)器翻譯的重要特征是允許用戶實時干預(yù)譯文生成,提供交互式機(jī)器翻譯、翻譯輸入法、實時譯文建議等高效交互手段以提高人工翻譯效率。騰訊輔助翻譯實現(xiàn)了兩個「第一」:
1、內(nèi)核是國內(nèi)第一個公開的交互式機(jī)器翻譯的互聯(lián)網(wǎng)落地產(chǎn)品;
2、搭載了業(yè)內(nèi)第一個公開的融合機(jī)器翻譯的輔助翻譯輸入法。該產(chǎn)品融合了人工智能和傳統(tǒng)輔助翻譯技術(shù),為用戶提供更便捷、流暢的人工翻譯體驗。
騰訊輔助翻譯具體功能亮點如下:
交互式機(jī)器翻譯
首個公開的交互式機(jī)器翻譯互聯(lián)網(wǎng)落地產(chǎn)品,根據(jù)輸入內(nèi)容實時更新自動譯文,顯著提升翻譯效率。
交互式機(jī)器翻譯基于自主實現(xiàn)的約束翻譯解碼技術(shù),在提升譯文準(zhǔn)確性的同時,解碼速度也被優(yōu)化到滿足互聯(lián)網(wǎng)環(huán)境中實時交互的要求。實時解碼速度是影響交互式機(jī)器翻譯產(chǎn)品落地的關(guān)鍵因素。結(jié)合已有積累,騰訊 AI Lab 設(shè)計并實現(xiàn)了專用于人機(jī)交互的神經(jīng)機(jī)器翻譯系統(tǒng)。與普通機(jī)器翻譯不同,交互式機(jī)器翻譯的挑戰(zhàn)主要在于無法預(yù)測用戶動作,從而難以通過對原文建立緩存等常規(guī)方法來加快響應(yīng)速度。
輔助翻譯輸入法
首個融合機(jī)器翻譯的輔助翻譯輸入法產(chǎn)品,比普通輸入法更少的按鍵數(shù),顯著減少打字時間。
普通輸入法因為難以感知翻譯場景中的上下文信息,在準(zhǔn)確性和個性化方面還有較大的提升空間。與普通輸入法相比,輔助翻譯輸入法可利用統(tǒng)計機(jī)器翻譯和神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的知識,極大提升自動組詞和推薦短語的準(zhǔn)確性,同時使輸入預(yù)測更具個性化。
自主實現(xiàn)的輸入法知識挖掘算法,持續(xù)從海量互聯(lián)網(wǎng)數(shù)據(jù)、億級雙語句對中抽取片斷翻譯知識,以此作為輔助翻譯輸入法的基礎(chǔ)。在翻譯過程中,再實時融合當(dāng)前句子的機(jī)器翻譯上下文信息,輔助用戶快速完成翻譯任務(wù)。
比如翻譯英文句子「Jane Zhang became the first Chinese singer to perform for Victoria's Secret, joining the ranks of Taylor Swift and Katy Perry.」時,自動機(jī)器翻譯錯誤地把張靚穎的英文名「Jane Zhang」翻譯成了「簡·張」:
當(dāng)用 QQ 拼音輸入法時,需要輸入「zhangliangy」共 11 個字母才能得到正確的「張靚穎」。
但是,采用輔助翻譯輸入法之后,因為有數(shù)據(jù)挖掘和機(jī)器翻譯知識的支撐,只需要輸入「zl」就可以得到期望的結(jié)果。
由此可見,輔助翻譯輸入法能夠通過減少打字敲鍵數(shù),提升人工翻譯效率。
實時譯文建議
基于自研的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯引擎,提供靈活、準(zhǔn)確的實時譯文片斷智能推薦,并可根據(jù)用戶翻譯歷史和習(xí)慣不斷學(xué)習(xí),提供更貼合用戶期待的個性化譯文建議。
因目前階段的機(jī)器翻譯技術(shù)所限,機(jī)器譯文的準(zhǔn)確率并不高,因此提供的實時譯文建議不能太長,否則會降低人工翻譯效率。實時譯文建議的難題就在于如何提供長度適中、準(zhǔn)確率也比較高的短語或者子句。為此,騰訊 AI Lab 提出并實現(xiàn)了譯文智能推薦算法,綜合統(tǒng)計機(jī)器翻譯、神經(jīng)機(jī)器翻譯等技術(shù),盡量為用戶提供最合適的譯文建議。
比如,在翻譯句子「首屆中國國際進(jìn)口博覽會即將于 11 月 5 日開幕?!箷r,智能推薦算法發(fā)現(xiàn)機(jī)器譯文將「開幕」一詞翻譯為「open」,但是在相對正式的文本中,翻譯為「...be held」更恰當(dāng)。智能推薦預(yù)測用戶可能會在此處進(jìn)行修改,就縮短了推薦片段,只推薦「...will」,方便用戶直接采用。
千萬級專業(yè)術(shù)語、億級例句參照
與傳統(tǒng)輔助翻譯軟件相比,智能譯文建議的來源不再局限于用戶導(dǎo)入的術(shù)語庫,而是全面綜合互聯(lián)網(wǎng)海量數(shù)據(jù)。騰訊 AI Lab 從幾百 TB 的互聯(lián)網(wǎng)文本中挖掘了數(shù)千萬的專業(yè)術(shù)語翻譯和億級雙語例句提供給用戶作為翻譯參考信息。然后以句子為維度關(guān)聯(lián)展示術(shù)語庫、例句庫等參考信息,滿足用戶多領(lǐng)域、多文體的翻譯需求。
輔助翻譯 API 與定制化服務(wù)
為合作伙伴開放交互式機(jī)器翻譯、輔助翻譯輸入法、個性化機(jī)器翻譯 API、定制化機(jī)器翻譯等多個應(yīng)用程序接口,提供定制化服務(wù)。
資料來源: 騰訊 AI Lab
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。