丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給宗仁
發(fā)送

0

什么樣的機(jī)器翻譯比Google還要占優(yōu)? | 雷鋒網(wǎng)公開課

本文作者: 宗仁 2016-05-25 17:39 專題:雷峰網(wǎng)公開課
導(dǎo)語:今天,我們邀請到了商鵲網(wǎng)CEO鄒劍宇,以實(shí)戰(zhàn)經(jīng)驗(yàn)為我們解讀,什么樣的機(jī)器翻譯比Google還要占優(yōu)?

今年8月,雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號關(guān)注)將在深圳舉辦“全球人工智能與機(jī)器人創(chuàng)新大會”(GAIR),在本次大會上,我們將發(fā)布“人工智能與機(jī)器人Top25創(chuàng)新企業(yè)榜“,商鵲網(wǎng)是我們重點(diǎn)關(guān)注的公司之一。今天,我們邀請到了商鵲網(wǎng)CEO鄒劍宇,以實(shí)戰(zhàn)經(jīng)驗(yàn)為我們解讀,什么樣的機(jī)器翻譯比Google還要占優(yōu)?雷鋒網(wǎng)

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

嘉賓介紹: 鄒劍宇。商鵲網(wǎng)創(chuàng)始人及首席執(zhí)行官。中國第一代互聯(lián)網(wǎng)記者。1997-2007服務(wù)《三聯(lián)生活周刊》,任經(jīng)濟(jì)部負(fù)責(zé)人, 《南方周末》和FT中文網(wǎng)專欄作家,跟蹤報(bào)道了中國互聯(lián)網(wǎng)的前十年歷程。2007年進(jìn)入互聯(lián)網(wǎng),先后擔(dān)任雅虎中國主編,貓撲網(wǎng)和中國移動微博總編輯。2012年擔(dān)任元培翻譯高級副總裁,創(chuàng)建其互聯(lián)網(wǎng)翻譯事業(yè)部。2013年創(chuàng)建商鵲網(wǎng)。 

先介紹下我們的創(chuàng)業(yè)團(tuán)隊(duì),跟我合伙創(chuàng)業(yè)的,是清華的本科和碩士畢業(yè)的自然語言大拿,叫魏勇鵬。以及中科院的博士胡日勒,原來在諾基亞負(fù)責(zé)機(jī)器翻譯。

▌機(jī)器翻譯的現(xiàn)狀

正如大家所想,能吸引我們在翻譯行業(yè)創(chuàng)業(yè)的前提,肯定是翻譯行業(yè)遇到了一些問題。下圖比較完整地概括了翻譯行業(yè)遇到的問題。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

其實(shí)這是個小行業(yè),規(guī)模特別小,沒有大公司。但是翻譯需求,貌似沒有誰沒有遇到過,所以很多人會拍腦袋一想——“這是個大生意”!但實(shí)際情況會是這行確實(shí)需求挺多,但生意不大。我們創(chuàng)業(yè)的時候,這一點(diǎn)看得很清楚,如果不跟上機(jī)器翻譯的趨勢,翻譯一定沒得做。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

先說說機(jī)器翻譯的現(xiàn)狀吧,這個BLEU值的評測結(jié)果,說明了現(xiàn)在機(jī)器翻譯的現(xiàn)狀。一般人的體會,是機(jī)器翻譯有很多不盡如人意的地方。商業(yè)伙伴第一句話問的也是:你們機(jī)器翻譯準(zhǔn)確度是多少?這一PPT講清楚了背后的事實(shí):目前通用的機(jī)器翻譯的準(zhǔn)確度約50%弱一點(diǎn)

這個一般的準(zhǔn)確度,說起來都是淚??蛻粽f:那你們這個太差了;投資人也說:那你們這個太差了。我不是技術(shù)出身,創(chuàng)業(yè)初期也對這個準(zhǔn)確度有很大期待,對伙伴有無限期待。一年下來發(fā)現(xiàn)期待總是落空,所以就反省:事情出問題了還是我出什么問題了? 所以就開始學(xué)習(xí),四處打探事實(shí)。找到的事實(shí),見下圖

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

這個理論引用的是英國特別NB的物理學(xué)家,也是世界知名的認(rèn)知學(xué)家講的,如果咱們不知道創(chuàng)造是怎么回事,那就別想創(chuàng)造一個創(chuàng)造的能力了,這個家伙的理論高度,個人覺得高于《人類簡史》那個以色列教授。如果說《人類簡史》是歷史概述,那這個教授的書則是開創(chuàng)性的認(rèn)知啟蒙,他的意思,是圖靈測試,有點(diǎn)詭辯和連蒙帶詐地制造了一個AI。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

這個是咱們中國的理論物理學(xué)家、科學(xué)網(wǎng)紅李淼教授總結(jié)的:物理邏輯運(yùn)轉(zhuǎn)的計(jì)算方法,得不出類似量子運(yùn)轉(zhuǎn)的創(chuàng)造思維結(jié)果。總結(jié)下來:理論不夠,方法不對。理解人性思維的AI做得有點(diǎn)辛苦。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

是我現(xiàn)場去聽了張鈸教授的課,這里主要是講機(jī)器智慧,與類人的AI的區(qū)別,按他的理論,AI極其有可能有自己的意志,即按照自己的邏輯行動,并有可能傷害人類。但是機(jī)器直接來理解人,這一點(diǎn)目前看不到。我是做機(jī)器翻譯的,被稱為AI的皇冠,是用機(jī)器來理解人類的認(rèn)知,難度非常大。目前比較成熟的AI應(yīng)用,主要集中在感知層,諸如視覺、聽覺的機(jī)器識別,總結(jié)下來,這三個人物所講理論,給了我一顆定心丸:我再也不期待工程師給我一個完美的翻譯引擎了,跟客戶說機(jī)翻結(jié)果時再也不忐忑不安了:我們就是這樣的!

把大家對機(jī)器翻譯的期待,轉(zhuǎn)化為翻譯的期待,是比較合理和現(xiàn)實(shí)的,——機(jī)器不會萬能,人來幫忙。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

現(xiàn)在大家能用到的機(jī)器翻譯,包括口語翻譯軟件,基本上準(zhǔn)確度都是50%左右的引擎,不過看看使用量:很驚人;但在商業(yè)服務(wù)領(lǐng)域,情況不太一樣。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

也就是說:機(jī)器翻譯沒有直接的商業(yè)模式。有價(jià)值的是流量。有時候會讓我們這個圈子的人這么感慨,“這么難的事,我都去做了,卻賺不到錢(哭)”。當(dāng)然我們也哭,不過還是會看清楚自己的價(jià)值。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

▌Google PK 垂直引擎

這里要補(bǔ)充一下:實(shí)際上我們公司開發(fā)的不是和谷歌百度一樣的通用引擎,我們在垂直領(lǐng)域做工作。目前商鵲網(wǎng)的翻譯引擎,針對科研、專利領(lǐng)域,所以我們的準(zhǔn)確度應(yīng)該比通用引擎高一些,因?yàn)榇怪鳖I(lǐng)域的數(shù)據(jù)研發(fā)后會更精準(zhǔn),如果垂直的引擎還不如通用的引擎在該領(lǐng)域的效果,就混不下去了(掩面ing)。我們在一個客戶的競標(biāo)中,的確是打敗了谷歌和必應(yīng)的引擎服務(wù),拿到了一個專利內(nèi)容的機(jī)器翻譯的常年訂單,每個月都在干活。我們提供的主要服務(wù)叫人機(jī)結(jié)合的譯后編輯 PE(Post Editing)服務(wù)。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

這是我們服務(wù)的技術(shù)架構(gòu),在這個技術(shù)架構(gòu)上面,我們使用了大量的譯員,這些譯員需要參加PE生產(chǎn)的培訓(xùn),因此,研發(fā)之外的BD和培訓(xùn)工作,是公司日常的大業(yè)務(wù)。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

這是我們公司的培訓(xùn)矩陣。我們受譯協(xié)委托,給中國300所外語院校培訓(xùn)翻譯技能,就是我們研發(fā)的PE生產(chǎn)流程,這里發(fā)生了很有意思的事,這是我們培訓(xùn)的三個學(xué)員,他們跟機(jī)器的關(guān)系由淺入深,工作效率也由低到高。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

里面的話,都是學(xué)員在答問卷的原話,非常真實(shí)的感受,所以,培訓(xùn)的邏輯,就是把半成品的機(jī)器翻譯的結(jié)果,讓譯員最大程度的利用上,以減少譯員自己的工作量和工作強(qiáng)度,提高效率,公司降低成本,這一點(diǎn),培訓(xùn)中充分體現(xiàn)出來了,當(dāng)然,也有一點(diǎn)點(diǎn)問題,不是所有譯員對人機(jī)結(jié)合都感到舒適的。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

這里涉及到了:“AI真的會取代人,減少工作機(jī)會”,這是一個重大的社會問題,從局部來看,是的。但是更大時間和范圍來看,人還是有無數(shù)的事情要做。這里的一個技能是:人要學(xué)會和機(jī)器相處,讓機(jī)器學(xué)會和人相處,就是咱們?nèi)粘T谧龅腁I研發(fā),難度太大了。讓人和機(jī)器相處,只需要學(xué)習(xí)和體驗(yàn),就能做到。所以,讓人屈尊配合機(jī)器,是眼前最現(xiàn)實(shí)的事情,雖然有不適,但應(yīng)該不是大問題吧。Anyway,人機(jī)結(jié)合的不適,難道比時髦的VR大眼罩更不人性嗎?

人屈尊去配合機(jī)器,意味著兩件事:

第一、人可以給機(jī)器“更深度學(xué)習(xí)”的機(jī)會,對PE翻譯來說,因?yàn)槲覀兊淖g員,是最深度的用戶,所以他們每一次對機(jī)器翻譯結(jié)果的選擇和修正,都是機(jī)器學(xué)習(xí)的最好樣板。這種集中的人群應(yīng)用,是谷歌等通用引擎夢寐以求,但是找不到的目標(biāo)人群。(因?yàn)楣雀璺g不支持深度人機(jī)交互,只有一個選項(xiàng):你覺得結(jié)果好還是不好)。


第二,人機(jī)結(jié)合的翻譯,幾乎只有在中國可以深度運(yùn)轉(zhuǎn)。不單是因?yàn)橹袊凶疃嗟膭趧恿?,還因?yàn)橹袊鞘澜缟溪?dú)一無二的全語種的體制課程教育體系。

也就是說教育部下屬大學(xué)里,可以學(xué)到世界上所有實(shí)用的語言,在美國,人力很貴、譯員更貴,不會有公司有成本動用這么多人力來做人機(jī)結(jié)合的服務(wù)。反過來,也沒有這么多專業(yè)人士來反哺AI的成長。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

這里順便打個廣告,嘿嘿。商鵲網(wǎng)5月21日,也就是上周六和豬八戒簽署了一個戰(zhàn)略合作協(xié)議,商鵲為豬八戒的翻譯頻道提供產(chǎn)品、系統(tǒng)、服務(wù)、招募和BD等一系列的運(yùn)營支持服務(wù)。因此,商鵲網(wǎng)形成了一個翻譯的閉環(huán),從需求到生產(chǎn),從研發(fā)到培訓(xùn),生產(chǎn)和AI研發(fā)可以互相借力成長,豬八戒是“服務(wù)業(yè)的淘寶”,所以它有能力把分散的翻譯需求集中到一個大平臺上來。

▌眾包 PK 垂直引擎之PE

這里要解釋一下,PE和眾包的關(guān)系

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

一般來說,像設(shè)計(jì),法律、翻譯等服務(wù)業(yè),目前想到的互聯(lián)網(wǎng)解決辦法,就是眾包,翻譯類的眾包有過很多平臺,無一類外都含恨離去,我跟豬八戒的最資深外包服務(wù)的人探討這個問題,最后都認(rèn)為問題出在供應(yīng)方。過去一般認(rèn)為,有需求,把客戶找上來,讓服務(wù)商蜂涌上去,問題就解決了,實(shí)際上,一個服務(wù)的需求千奇百怪,匹配合適的供應(yīng)商的成本,遠(yuǎn)高于服務(wù)本身的價(jià)值,所以我們的解決辦法,是讓供應(yīng)商在服務(wù)的產(chǎn)品、流程和交付質(zhì)量,以及服務(wù)商品牌上下功夫。

讓最主要的需求有標(biāo)準(zhǔn)化的產(chǎn)品來服務(wù),而翻譯服務(wù)要做到這一點(diǎn),IT技術(shù)和翻譯技術(shù)是必須的,說了這么多,說一個實(shí)際案例。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

商鵲網(wǎng)使用PE,為中國和日本的專利客戶提供翻譯服務(wù)。日本客戶對信息管理、對質(zhì)量苛求非常嚴(yán)格,我們從一個第五層的分包商成長為直接的翻譯供應(yīng)商,依靠的就是PE生產(chǎn)的高效、低成本,以及穩(wěn)定的質(zhì)量。資深翻譯一定比我們的普通譯員做得好,但是人總有累、病的時候,還有多個譯員翻譯習(xí)慣不同術(shù)語不統(tǒng)一等等,這些問題機(jī)器不怕。機(jī)器解決了術(shù)語準(zhǔn)確和統(tǒng)一問題,人是輔助優(yōu)化的。因此,我們剛畢業(yè)的本科學(xué)生,即勝任了工作5年以上的老譯員,效率還更高。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

▌PE說,它要飛得更高

那么,在專利領(lǐng)域是醬紫,我們做到了全世界(不含糊)最優(yōu)的翻譯成本,其他領(lǐng)域呢?

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

中國人不再把生活局限在出生的這個國家了,從上學(xué)、租房、買房、投資理財(cái)、養(yǎng)老保險(xiǎn)、求醫(yī)問藥、學(xué)習(xí)移民等等,還有日常的跨境購物和旅游,生活空間出國了,但是俺們那嘎達(dá)的鄉(xiāng)音難忘也難改,不懂英文咋辦?

陪同翻譯的服務(wù)不是我們要做的,但是有更大的需求:基本上大家認(rèn)為超過60%的有價(jià)值的英文信息還是沒有中文版的,現(xiàn)在大家能夠看到大部分英文世界的NEWS的中文版,但是編輯好的information,以及更深度的Knowledge,咱們是看不到中文版的?;蛘呖吹降暮芡怼⒑懿蝗?,很貴。

譬如,魏澤西同學(xué)死于絕癥,但是莆田人盈利導(dǎo)向的資訊,是讓他遺恨的地方。中國人上網(wǎng)求醫(yī)問藥,一個字到網(wǎng)上,有1000個莆田人在等你。實(shí)際上歐美有很科學(xué)、真實(shí)的醫(yī)、藥、病的數(shù)據(jù)庫,把這些數(shù)據(jù)庫翻譯成中文,是有價(jià)值的。還有就是投資,買美股。一般中國人除了中概股之外,能對4000家美國主要上市公司里的100家有所了解?還有更多的基金公司、基金產(chǎn)品,保險(xiǎn)產(chǎn)品,能了解多少呢?

要想做一個國際人,即要有國際的資訊氛圍。過去沒有,是因?yàn)檫@里的翻譯工程成本太高、效率太低了!

現(xiàn)在有機(jī)器翻譯——針對瀏覽級的需求;人機(jī)結(jié)合的深度翻譯——針對資料、精讀級的需求,因此,現(xiàn)在翻譯也變了。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

翻譯不再是一個不管內(nèi)容的語言轉(zhuǎn)換,是一個多語言轉(zhuǎn)換和智能知識管理的綜合工程。做到這一點(diǎn),翻譯很有意思了。我們在小規(guī)模的翻譯服務(wù)里,發(fā)現(xiàn)生意可以反哺AI研究,不完全依靠VC輸血。而另外呢,則對未來的AI智能應(yīng)用前景充滿期待。所以,很期待和同懷AI夢想的大家,一起走到那一天,我的嘮叨先到此。


什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

什么樣的機(jī)器翻譯比Google還要占優(yōu)? |  雷鋒網(wǎng)公開課

分享:
相關(guān)文章

專注AIR(人工智能+機(jī)器人)

專注人工智能+機(jī)器人報(bào)道,經(jīng)驗(yàn)分享請加微信keatslee8(請注明原因)。 科學(xué)的本質(zhì)是:問一個不恰當(dāng)?shù)膯栴},于是走上了通往恰當(dāng)答案的路。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說