丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給楊文
發(fā)送

0

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

本文作者: 楊文 2017-07-13 21:05
導(dǎo)語:阿里翻譯平臺的進(jìn)擊之路

雷鋒網(wǎng)AI科技評論按:在百度翻譯,谷歌翻譯幾乎要霸占整個機器翻譯市場時,阿里翻譯宣布已成功研發(fā)阿里云PAI工具,基于阿里云PAI可以將神經(jīng)網(wǎng)絡(luò)翻譯訓(xùn)練效率提升5倍,這將大大加速阿里翻譯平臺的建設(shè)。希望阿里翻譯以后也能走進(jìn)我們的生活中。

眾所周知,馬云爸爸在創(chuàng)立阿里之前是做翻譯服務(wù)及開翻譯公司的。隨著近幾年阿里的業(yè)務(wù)不斷擴大,全球化戰(zhàn)略進(jìn)程加速,語言問題也成了最基礎(chǔ)的需求之一,尤其是跨境電商交易對多語言翻譯需求尤甚。此前阿里在語言服務(wù)上做過不少努力,包括收購國內(nèi)最大的人工翻譯平臺,但這遠(yuǎn)遠(yuǎn)不能滿足阿里平臺上億級別客戶的需求。正當(dāng)阿里為此感到苦悶時,谷歌的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)出現(xiàn)了,可以說是為阿里的翻譯平臺插上了一對翅膀。

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

早在2015年6月份,阿里就已收購國內(nèi)最大的眾包翻譯平臺——365翻譯。當(dāng)時把阿里翻譯平臺定位為阿里巴巴的語言服務(wù)平臺,將瞄準(zhǔn)人機結(jié)合模式,在語言服務(wù)領(lǐng)域進(jìn)行更多創(chuàng)新。365翻譯的加入確實為阿里的跨境電商領(lǐng)域分擔(dān)了一些翻譯業(yè)務(wù)上的壓力。并且在機器翻譯領(lǐng)域,和電商相關(guān)的幾個主要語種中,其翻譯的準(zhǔn)確率基本和谷歌翻譯持平。然而,阿里語言服務(wù)平臺的野心并不止于此。他們想借助強大的人工翻譯團(tuán)隊和電商大數(shù)據(jù)研發(fā)下一代基于神經(jīng)網(wǎng)絡(luò)技術(shù)的翻譯平臺。

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)是一種用于自動翻譯的端到端的學(xué)習(xí)方法,該方法能夠克服傳統(tǒng)的基于短語的翻譯系統(tǒng)的缺點,可以將整個輸入句子視作翻譯的基本單元。從2016年以來的學(xué)術(shù)界頂級會議上,幾乎全是圍繞NMT相關(guān)的創(chuàng)新工作,之后谷歌、微軟等巨頭公司相繼發(fā)布NMT系統(tǒng)。

阿里翻譯團(tuán)隊也緊緊抓住這一機會于2016年10月起正式開始自主研發(fā)NMT模型,2016年11月首次將NMT系統(tǒng)的輸出結(jié)果應(yīng)用在中英消息通訊場景下的外部評測中并取得了不錯的成績,翻譯質(zhì)量有了大幅度提升。

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

但是,由于NMT(神經(jīng)網(wǎng)絡(luò)機器翻譯)模型的結(jié)構(gòu)復(fù)雜,且深度神經(jīng)網(wǎng)絡(luò)模型本身的訓(xùn)練過程一般又會涉及很大量的計算,因此NMT系統(tǒng)往往需要較長的訓(xùn)練周期,例如,使用3000萬的訓(xùn)練數(shù)據(jù)在單塊GPU卡上一般需要訓(xùn)練20天以上,才能得到一個初步可用的模型。

基于上述問題,2017年2月初開始,阿里翻譯團(tuán)隊和阿里云Large Scale Learning(大規(guī)模學(xué)習(xí))的穆琢團(tuán)隊合作,共同開發(fā)支持分布式訓(xùn)練的NMT系統(tǒng),并于2017年3月底完成了第一個版本的分布式NMT系統(tǒng)。

在2017年4月份的英俄電商翻譯質(zhì)量優(yōu)化項目中,分布式NMT系統(tǒng)大大提高了訓(xùn)練速度,使模型訓(xùn)練時間從20天縮短到了4天,為項目整體迭代和推進(jìn)節(jié)省了很多時間成本。

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

圖:使用不同卡數(shù)時,在中英100萬訓(xùn)練語料上獲得的收斂加速比

PAI是阿里推出全球化戰(zhàn)略“NASA”計劃后發(fā)布的首個重磅工具,可以完全兼容全球主流的深度學(xué)習(xí)開源框架。同時,底層提供強大的云端異構(gòu)計算資源,包含CPU、GPU、FPGA。在GPU方面,可靈活實現(xiàn)多卡調(diào)度。

除了基于MA的分布式實現(xiàn),增加GPU卡的數(shù)量,有不同的收斂加速比以外,阿里翻譯項目組還嘗試了其他多種分布式實現(xiàn)方法,也都獲得了不同程度的加速效果,包括Downpour SGD、AllReduce SGD以及使用了BMUF(Blockwise Model-Update Filtering, 一種針對Model Average方法的改進(jìn)方案)策略的Model Average方法。下圖中顯示,在硬件條件相同,BMUF的收斂效果要比MA(黃色柱狀)分布式要好。

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

阿里方面還表示:上一階段工作主要集中在模型訓(xùn)練階段的加速策略上,接下來的工作主要分為兩方面:一方面是繼續(xù)挖掘分布式訓(xùn)練的加速潛力,通過系統(tǒng)與算法相結(jié)合的優(yōu)化策略,最大化利用硬件資源,提升收斂加速比,并將分布式優(yōu)化策略和算法模型本身解耦,實現(xiàn)復(fù)雜深度學(xué)習(xí)模型分布式加速功能的組件化和通用化。

另一方面,需要在現(xiàn)有的服務(wù)化方案的基礎(chǔ)上,進(jìn)一步通過模型精度壓縮、網(wǎng)絡(luò)結(jié)構(gòu)簡化等方式,在保證模型效果的同時,提高解碼速度,降低線上延時,進(jìn)而增強線上服務(wù)能力,節(jié)約服務(wù)化所需的硬件成本。

阿里云PAI工具使阿里翻譯平臺的神經(jīng)網(wǎng)絡(luò)翻譯訓(xùn)練效率提升5倍,確實非常厲害。這將大大加速阿里翻譯平臺建設(shè)之路。正當(dāng)雷鋒網(wǎng)編輯想對阿里的翻譯質(zhì)量來一個評測對比,點擊阿里翻譯平臺官網(wǎng):www.alifanyi.com 卻發(fā)現(xiàn)功能還未對外開放。

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

后來雷鋒網(wǎng)了解到:阿里翻譯團(tuán)隊還在破解線上服務(wù)處理延時的難題,平臺目前還在內(nèi)測階段。不過雷鋒網(wǎng)編輯還是發(fā)現(xiàn)了一個能使用阿里翻譯界面的網(wǎng)站?,F(xiàn)在就來對百度翻譯,谷歌翻譯,阿里翻譯做一個簡單的漢譯英測試。

百度翻譯:

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

谷歌翻譯:

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

阿里翻譯:

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

為了能使阿里翻譯體現(xiàn)出自己擁有電商大數(shù)據(jù)的優(yōu)勢,特別選了一句跨境電商領(lǐng)域的句子:自有產(chǎn)品,經(jīng)營主體自行生產(chǎn)或自有品牌的產(chǎn)品,以及外部采購以自己名義進(jìn)行銷售的產(chǎn)品。從翻譯結(jié)果對比來看,阿里翻譯似乎比百度和谷歌的翻譯好一點。接下里進(jìn)行第二項測試,英譯漢測試:

百度翻譯

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

谷歌翻譯

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

阿里翻譯

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

這次阿里翻譯似乎表現(xiàn)的不太好,表現(xiàn)最好的是百度翻譯。不過從一些關(guān)鍵詞的翻譯還是能體現(xiàn)出阿里翻譯的特色,比如:jurisdiction,翻譯為“法域”;buyer和seller翻譯為買家和賣家??梢圆聹y阿里翻譯在跨境電商等類似的特定場景下會表現(xiàn)的更好??偟膩碚f,阿里翻譯的漢譯英表現(xiàn)還不錯,但在英譯漢的情況下表現(xiàn)的沒有谷歌翻譯和百度翻譯好。

阿里翻譯現(xiàn)在還沒上線,但憑借自己擁有海量的電商跨境交易數(shù)據(jù)和強大的365人工翻譯團(tuán)隊,再加上阿里云PAI工具對神經(jīng)網(wǎng)路翻譯訓(xùn)練效率的提升,相信不久后阿里翻譯會有一個質(zhì)的飛躍,在機器翻譯領(lǐng)域占取一定的市場份額也不是沒有可能的。希望阿里翻譯平臺開放后能給用戶一個驚喜。

據(jù)雷鋒網(wǎng)了解:在阿里巴巴內(nèi)部,PAI已經(jīng)被廣泛使用。淘寶搜索使用PAI的參數(shù)服務(wù)器,可以把百億個特征的模型,分散到數(shù)十個乃至于上百個參數(shù)服務(wù)器上,打破規(guī)模瓶頸。最終實現(xiàn)搜索結(jié)果基于商品和用戶的特征進(jìn)行排序?,F(xiàn)在,阿里翻譯團(tuán)隊還在破解線上服務(wù)處理延時的難題,為神經(jīng)網(wǎng)絡(luò)機器翻譯模型的大規(guī)模應(yīng)用掃除最后障礙。

via雷鋒網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

馬云爸爸“翻譯情未了”? 回顧阿里翻譯平臺的進(jìn)擊之路!

分享:
相關(guān)文章

編輯&記者

AI科技評論員,微信:yeohandwin
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說