丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給叨叨
發(fā)送

0

網(wǎng)易上線“有道智云”平臺,為第三方廠商提供神經(jīng)網(wǎng)絡(luò)翻譯接口

本文作者: 叨叨 2017-07-05 16:44
導(dǎo)語:周楓:為什么關(guān)注文字識別和處理?是因為我們發(fā)現(xiàn)手機攝像頭能力提升之后,文字能做更多的事情。

“為什么關(guān)注文字識別和處理?是因為我們發(fā)現(xiàn)手機攝像頭能力提升之后,文字能做更多的事情”。7月4日,在有道開放日活動中,有道總裁周楓對到訪的媒體說。

有道發(fā)現(xiàn)的,其實不光是攝像頭能力的提升,更重要的或許是深度學(xué)習(xí)。在三個月前,有道正式將深度學(xué)習(xí)應(yīng)用于機器翻譯,上線了神經(jīng)網(wǎng)絡(luò)翻譯模型。與此同時,深度學(xué)習(xí)也應(yīng)用到了大多數(shù)有道產(chǎn)品中,如有道詞典、翻譯官、有道云筆記等。

此次開放日上,有道總結(jié)了三個月來神經(jīng)網(wǎng)絡(luò)翻譯取得的進展,同時還宣布正式上線 OCR 技術(shù)和有道智云平臺。

神經(jīng)網(wǎng)絡(luò)翻譯效果如何?

網(wǎng)易有道在三個月前正式上線了其基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)翻譯模型(NMT),雷鋒網(wǎng)就此曾專訪過有道首席科學(xué)家段亦濤。在本次活動中,段亦濤再次提起利用深度學(xué)習(xí)完成機器翻譯任務(wù)的優(yōu)勢,在他看來,深度學(xué)習(xí)有三個特點,能夠讓它在翻譯任務(wù)中,得到比較好的效果:

  • 模擬生物神經(jīng)的方式,由大量的神經(jīng)元組成

神經(jīng)元能夠完成一些比較初級的操作,模型通過對神經(jīng)元奇妙的組織,使它能夠配合工作,完成更復(fù)雜的任務(wù),和動物的神經(jīng)網(wǎng)絡(luò)工作方式比較類似。

  • 對關(guān)鍵信息會用連續(xù)關(guān)鍵向量來表達

一個詞對應(yīng)到翻譯里面是一個高位向量。這樣做的好處在于比較強的刻畫力——刻畫信息之間的關(guān)系。比如同義詞或者反義詞,傳統(tǒng)用編碼方式不太容易表達,但是如果在一個向量空間來表達,通過向量之間的位置,就能比較好的來反映它們之間的關(guān)系。

  • 端到端的模型

翻譯模型里有很多參數(shù),這些參數(shù)為了共同的目標(biāo)進行優(yōu)化,和傳統(tǒng)的模型不一樣,傳統(tǒng)的機器學(xué)習(xí)會有各種模塊,各個模塊都是為自己的目標(biāo)來調(diào)整優(yōu)化的,人為拼湊成一個機器類的東西,能完成功能,但是比較生硬。

對于神經(jīng)網(wǎng)絡(luò)翻譯模型的評估,有道采用了機器翻譯界通用的 BLEU(雙語評估研究-Bilingual Evaluation Understudy)評估指標(biāo),得分越高,說明翻譯結(jié)果越接近目標(biāo)翻譯。段亦濤以有道和國際同類產(chǎn)品的中英互譯為例,進行了對比。

網(wǎng)易上線“有道智云”平臺,為第三方廠商提供神經(jīng)網(wǎng)絡(luò)翻譯接口

*有道神經(jīng)網(wǎng)絡(luò)翻譯(中英)BLEU值測評結(jié)果

除中英互譯之外,段亦濤還介紹,有道近日也上線了日韓語神經(jīng)網(wǎng)絡(luò)翻譯,從內(nèi)部測試的 BLEU 數(shù)值上來看,中日、中韓翻譯準(zhǔn)確度也都高于國內(nèi)和國際同類產(chǎn)品。

雷鋒網(wǎng)了解到,采用深度學(xué)習(xí)進行機器翻譯是目前已成為業(yè)界的一種普遍做法,百度、谷歌、搜狗等廠商也在進行,但也有公司最近提出了一些新的翻譯模型,比如 Facebook 提出了完全基于 CNN (卷積神經(jīng)網(wǎng)絡(luò))的翻譯模型。

OCR 技術(shù)如何識別并翻譯圖片中的文字?

此外,有道正式對外宣布了其 OCR 技術(shù)的上線。所謂的 OCR 就是在一張圖片里識別文字區(qū)域,再把區(qū)域里面的文字提取出來并翻譯。

OCR 的工作原理分為兩個步驟,第一步先識別文字區(qū)域,通過兩個通道進行,分別識別區(qū)域位置和區(qū)域的大??;第二步是識別區(qū)域內(nèi)的文字,通過多層網(wǎng)絡(luò)提取數(shù)據(jù)后,再用 2N 結(jié)構(gòu)進行處理,在最后一層做識別。

目前,有道產(chǎn)品上的 OCR 日請求達到 470萬,不僅可以識別書籍,還可以識別零食、化妝品等外包裝上的英文,提取出文字后,進行翻譯。

有道智云平臺意在何為?

網(wǎng)易有道副總裁金磊向雷鋒網(wǎng)介紹,有道技術(shù)接口每天被請求1.5億次,其中有1億次來自于第三方,而非有道自己的產(chǎn)品。

基于這樣的契機,有道正式上線了面向企業(yè)的“有道智云”平臺,將機器翻譯和 OCR 技術(shù)全部集成在平臺上,供給第三方廠商使用。目前,神經(jīng)網(wǎng)絡(luò)翻譯提供的接口傳統(tǒng)API方式,定價為 48元/百萬字。此外,還提供 IOS 和安卓兩個版本的SDK,定價為 1元月/激活。同時,對于特定合作方,也提供定制服務(wù),做本地化部署。

網(wǎng)易上線“有道智云”平臺,為第三方廠商提供神經(jīng)網(wǎng)絡(luò)翻譯接口

目前,有道智云的行業(yè)客戶,包括了支付寶、微信、360、掌閱、網(wǎng)易郵箱、華為榮耀 Magic 手機等。其中,微信使用有道提供的內(nèi)置翻譯功能已被很多人熟知,用戶可以長按消息,然后選擇翻譯的功能,將消息翻譯成為系統(tǒng)語言。

相關(guān)閱讀:專訪網(wǎng)易有道段亦濤:丁磊親自過問的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

雷鋒網(wǎng)北京編輯。關(guān)注人工智能,略雜。微信(yougo5654)可以找到我。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說