丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
特寫 正文
發(fā)私信給張馳
發(fā)送

1

什么樣的機器翻譯,比Google還要占優(yōu)?

本文作者: 張馳 2016-05-04 19:55
導(dǎo)語:商鵲網(wǎng)主要為垂直領(lǐng)域(專利、跨境電商和境外投資等)提供機器翻譯引擎產(chǎn)品,應(yīng)用在譯后編輯工作模式中

什么樣的機器翻譯,比Google還要占優(yōu)?

雷鋒網(wǎng)會于7月中旬在深圳舉辦全球人工智能與機器人峰會,屆時我們會發(fā)布一個年度Top 25人工智能項目榜單,目前,我們正在四處拜訪人工智能領(lǐng)域相關(guān)的業(yè)者。最近關(guān)于自然語言處理這一塊,我們拜訪了若干公司,商鵲網(wǎng)是其中一家。如果你也想挑戰(zhàn)榜單中的公司,郵件聯(lián)系:2020@leiphone.com。

一個令人苦惱的事實是,英文網(wǎng)頁的數(shù)量不知道比中文網(wǎng)頁多到哪里去,而公共知識庫維基百科中,英文詞條也遠比中文詞條豐富。如果是英文苦手,又想避開可能被廣告占領(lǐng)的某度百科,就只能借助翻譯工具了。

2014年底Skype翻譯公布預(yù)覽版,后來逐漸支持數(shù)十種語言的語音及文本實時互譯;2006年Google推出在線翻譯工具,目前已支持103種語言,覆蓋99%的網(wǎng)民。不過使用過就會發(fā)現(xiàn),它們還只能算差強人意,譯文不準確,也無法用于內(nèi)容出版。以Google為例,它經(jīng)常會詞不達意,甚至違背語法規(guī)則。這是因為Google機器翻譯用的是基于統(tǒng)計分析的算法,需要豐富的語料庫才能有較好的效果,而這顯然與人類對語言的理解不同。

那機器翻譯就不堪重用嗎?也不是。在新聞領(lǐng)域,機器人已經(jīng)能自動生成稿件,數(shù)秒內(nèi)就能將重要資訊傳達給用戶,不過還僅限財經(jīng)等句式規(guī)范的內(nèi)容。機器翻譯也是如此,商鵲網(wǎng)就認為,機器翻譯雖然遠未達到成熟,但在科技專利等垂直領(lǐng)域可以取得突破。

什么樣的機器翻譯,比Google還要占優(yōu)?

skype翻譯

在翻譯上,商鵲網(wǎng)主要為垂直領(lǐng)域(專利、跨境電商和境外投資等)提供機器翻譯引擎產(chǎn)品,應(yīng)用在譯后編輯工作模式中;并以譯后編輯(通過少量人工修改以完善機器的翻譯)平臺提供人機交互翻譯服務(wù)。

此外,商鵲網(wǎng)還有在線術(shù)語管理平臺“語帆術(shù)語寶”和開放詞典網(wǎng)站“一本詞典”等產(chǎn)品,并為客戶提供技術(shù)服務(wù),如語料對齊工具。

商鵲網(wǎng)告訴雷鋒網(wǎng),其核心技術(shù)在以下幾個方面:

  • 完整的機器翻譯技術(shù),覆蓋了自然語言處理技術(shù)的各個層面(詞法、句法、語義),主要組成部分(分詞、術(shù)語提取、句法分析、語言模型、語義分析等)和主要技術(shù)方案(基于統(tǒng)計、基于實例、深度神經(jīng)網(wǎng)絡(luò)等)

  • 人機交互翻譯技術(shù),目前應(yīng)用的是適合行業(yè)用戶水平的譯后編輯技術(shù);

  • 術(shù)語提取技術(shù)和術(shù)語管理系統(tǒng),這是實現(xiàn)知識圖譜和智能知識管理的基礎(chǔ);

  • 完整的數(shù)據(jù)采集、加工和應(yīng)用工具、流程及系統(tǒng)。

雖然工廠、寫作及翻譯上的自動化水平越來越高,但機器翻譯還遠未達到成熟水平(用過Google和有道翻譯的應(yīng)該有同感)。讓機器學會翻譯不是件容易的事,語言有很大的復(fù)雜性,一些用詞與表達往往有多種含義,再加上語序的變化,想想也是為難機器人,畢竟人類之間也經(jīng)常發(fā)生誤解。

相比之下人機交互翻譯更成熟也更實用。而且通過反饋的方式,可以提高系統(tǒng)的智能化水平。這也是商鵲網(wǎng)使用人機交互翻譯,并專注特定領(lǐng)域的原因。

這種方式也讓人想到Facebook的人工智能服務(wù)“M”。M能提供訂餐這樣的連續(xù)對話服務(wù),這是因為它有被稱為“訓練員”的人工輔助,遇到無法處理的信息時會由教練處理。這樣人工智能可以輔助人工后臺,反過來人工后臺會訓練人工智能。

商鵲網(wǎng)表示,在對自然語言處理最為重要的語料數(shù)據(jù)上也有持續(xù)的積累。在專利等領(lǐng)域,它們已經(jīng)有了大規(guī)模雙語語料和雙語術(shù)語庫。2013年啟動的人工譯后編輯項目,也為其積累了大量人工反饋和行為數(shù)據(jù)。對比Google在專利領(lǐng)域的翻譯,商鵲網(wǎng)認為,雖然Google在句式表達上占優(yōu),但自己在術(shù)語準確度上有優(yōu)勢,因為每年有超過2億字的人機專利翻譯業(yè)務(wù),這對提高翻譯引擎的準確度十分重要。

無論是圖像識別還是自然語言處理,數(shù)據(jù)集對人工智能至關(guān)重要,反饋越多,系統(tǒng)迭代也越快,準確性也越高。

對于當紅的深度學習技術(shù),商鵲網(wǎng)也在將較為成熟的技術(shù)如WordEmbedding等應(yīng)用于技術(shù)研發(fā)中,并在克服翻譯效果、時空性能和用戶體驗之間的平衡等問題,在垂直領(lǐng)域取得突破?;蛟S再過不久,機器就不再需要人類協(xié)助翻譯了吧。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

專業(yè)寫瞎

不受意識控制地報道那些讓人感動的產(chǎn)品技術(shù)和事件......zhchsimons@gmail.com ;微信:nksimons;《腦洞》公眾號:hackmind
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說