0
本文作者: 宗仁 | 2016-05-25 17:39 | 專題:雷峰網(wǎng)公開課 |
今年8月,雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號關注)將在深圳舉辦“全球人工智能與機器人創(chuàng)新大會”(GAIR),在本次大會上,我們將發(fā)布“人工智能與機器人Top25創(chuàng)新企業(yè)榜“,商鵲網(wǎng)是我們重點關注的公司之一。今天,我們邀請到了商鵲網(wǎng)CEO鄒劍宇,以實戰(zhàn)經(jīng)驗為我們解讀,什么樣的機器翻譯比Google還要占優(yōu)?雷鋒網(wǎng)
嘉賓介紹: 鄒劍宇。商鵲網(wǎng)創(chuàng)始人及首席執(zhí)行官。中國第一代互聯(lián)網(wǎng)記者。1997-2007服務《三聯(lián)生活周刊》,任經(jīng)濟部負責人, 《南方周末》和FT中文網(wǎng)專欄作家,跟蹤報道了中國互聯(lián)網(wǎng)的前十年歷程。2007年進入互聯(lián)網(wǎng),先后擔任雅虎中國主編,貓撲網(wǎng)和中國移動微博總編輯。2012年擔任元培翻譯高級副總裁,創(chuàng)建其互聯(lián)網(wǎng)翻譯事業(yè)部。2013年創(chuàng)建商鵲網(wǎng)。
先介紹下我們的創(chuàng)業(yè)團隊,跟我合伙創(chuàng)業(yè)的,是清華的本科和碩士畢業(yè)的自然語言大拿,叫魏勇鵬。以及中科院的博士胡日勒,原來在諾基亞負責機器翻譯。
正如大家所想,能吸引我們在翻譯行業(yè)創(chuàng)業(yè)的前提,肯定是翻譯行業(yè)遇到了一些問題。下圖比較完整地概括了翻譯行業(yè)遇到的問題。
其實這是個小行業(yè),規(guī)模特別小,沒有大公司。但是翻譯需求,貌似沒有誰沒有遇到過,所以很多人會拍腦袋一想——“這是個大生意”!但實際情況會是這行確實需求挺多,但生意不大。我們創(chuàng)業(yè)的時候,這一點看得很清楚,如果不跟上機器翻譯的趨勢,翻譯一定沒得做。
先說說機器翻譯的現(xiàn)狀吧,這個BLEU值的評測結(jié)果,說明了現(xiàn)在機器翻譯的現(xiàn)狀。一般人的體會,是機器翻譯有很多不盡如人意的地方。商業(yè)伙伴第一句話問的也是:你們機器翻譯準確度是多少?這一PPT講清楚了背后的事實:目前通用的機器翻譯的準確度約50%弱一點
這個一般的準確度,說起來都是淚。客戶說:那你們這個太差了;投資人也說:那你們這個太差了。我不是技術出身,創(chuàng)業(yè)初期也對這個準確度有很大期待,對伙伴有無限期待。一年下來發(fā)現(xiàn)期待總是落空,所以就反省:事情出問題了還是我出什么問題了? 所以就開始學習,四處打探事實。找到的事實,見下圖
這個理論引用的是英國特別NB的物理學家,也是世界知名的認知學家講的,如果咱們不知道創(chuàng)造是怎么回事,那就別想創(chuàng)造一個創(chuàng)造的能力了,這個家伙的理論高度,個人覺得高于《人類簡史》那個以色列教授。如果說《人類簡史》是歷史概述,那這個教授的書則是開創(chuàng)性的認知啟蒙,他的意思,是圖靈測試,有點詭辯和連蒙帶詐地制造了一個AI。
這個是咱們中國的理論物理學家、科學網(wǎng)紅李淼教授總結(jié)的:物理邏輯運轉(zhuǎn)的計算方法,得不出類似量子運轉(zhuǎn)的創(chuàng)造思維結(jié)果。總結(jié)下來:理論不夠,方法不對。理解人性思維的AI做得有點辛苦。
是我現(xiàn)場去聽了張鈸教授的課,這里主要是講機器智慧,與類人的AI的區(qū)別,按他的理論,AI極其有可能有自己的意志,即按照自己的邏輯行動,并有可能傷害人類。但是機器直接來理解人,這一點目前看不到。我是做機器翻譯的,被稱為AI的皇冠,是用機器來理解人類的認知,難度非常大。目前比較成熟的AI應用,主要集中在感知層,諸如視覺、聽覺的機器識別,總結(jié)下來,這三個人物所講理論,給了我一顆定心丸:我再也不期待工程師給我一個完美的翻譯引擎了,跟客戶說機翻結(jié)果時再也不忐忑不安了:我們就是這樣的!
把大家對機器翻譯的期待,轉(zhuǎn)化為翻譯的期待,是比較合理和現(xiàn)實的,——機器不會萬能,人來幫忙。
現(xiàn)在大家能用到的機器翻譯,包括口語翻譯軟件,基本上準確度都是50%左右的引擎,不過看看使用量:很驚人;但在商業(yè)服務領域,情況不太一樣。
也就是說:機器翻譯沒有直接的商業(yè)模式。有價值的是流量。有時候會讓我們這個圈子的人這么感慨,“這么難的事,我都去做了,卻賺不到錢(哭)”。當然我們也哭,不過還是會看清楚自己的價值。
這里要補充一下:實際上我們公司開發(fā)的不是和谷歌百度一樣的通用引擎,我們在垂直領域做工作。目前商鵲網(wǎng)的翻譯引擎,針對科研、專利領域,所以我們的準確度應該比通用引擎高一些,因為垂直領域的數(shù)據(jù)研發(fā)后會更精準,如果垂直的引擎還不如通用的引擎在該領域的效果,就混不下去了(掩面ing)。我們在一個客戶的競標中,的確是打敗了谷歌和必應的引擎服務,拿到了一個專利內(nèi)容的機器翻譯的常年訂單,每個月都在干活。我們提供的主要服務叫人機結(jié)合的譯后編輯 PE(Post Editing)服務。
這是我們服務的技術架構(gòu),在這個技術架構(gòu)上面,我們使用了大量的譯員,這些譯員需要參加PE生產(chǎn)的培訓,因此,研發(fā)之外的BD和培訓工作,是公司日常的大業(yè)務。
這是我們公司的培訓矩陣。我們受譯協(xié)委托,給中國300所外語院校培訓翻譯技能,就是我們研發(fā)的PE生產(chǎn)流程,這里發(fā)生了很有意思的事,這是我們培訓的三個學員,他們跟機器的關系由淺入深,工作效率也由低到高。
里面的話,都是學員在答問卷的原話,非常真實的感受,所以,培訓的邏輯,就是把半成品的機器翻譯的結(jié)果,讓譯員最大程度的利用上,以減少譯員自己的工作量和工作強度,提高效率,公司降低成本,這一點,培訓中充分體現(xiàn)出來了,當然,也有一點點問題,不是所有譯員對人機結(jié)合都感到舒適的。
這里涉及到了:“AI真的會取代人,減少工作機會”,這是一個重大的社會問題,從局部來看,是的。但是更大時間和范圍來看,人還是有無數(shù)的事情要做。這里的一個技能是:人要學會和機器相處,讓機器學會和人相處,就是咱們?nèi)粘T谧龅腁I研發(fā),難度太大了。讓人和機器相處,只需要學習和體驗,就能做到。所以,讓人屈尊配合機器,是眼前最現(xiàn)實的事情,雖然有不適,但應該不是大問題吧。Anyway,人機結(jié)合的不適,難道比時髦的VR大眼罩更不人性嗎?
人屈尊去配合機器,意味著兩件事:
第一、人可以給機器“更深度學習”的機會,對PE翻譯來說,因為我們的譯員,是最深度的用戶,所以他們每一次對機器翻譯結(jié)果的選擇和修正,都是機器學習的最好樣板。這種集中的人群應用,是谷歌等通用引擎夢寐以求,但是找不到的目標人群。(因為谷歌翻譯不支持深度人機交互,只有一個選項:你覺得結(jié)果好還是不好)。
第二,人機結(jié)合的翻譯,幾乎只有在中國可以深度運轉(zhuǎn)。不單是因為中國有最多的勞動力,還因為中國是世界上獨一無二的全語種的體制課程教育體系。
也就是說教育部下屬大學里,可以學到世界上所有實用的語言,在美國,人力很貴、譯員更貴,不會有公司有成本動用這么多人力來做人機結(jié)合的服務。反過來,也沒有這么多專業(yè)人士來反哺AI的成長。
這里順便打個廣告,嘿嘿。商鵲網(wǎng)5月21日,也就是上周六和豬八戒簽署了一個戰(zhàn)略合作協(xié)議,商鵲為豬八戒的翻譯頻道提供產(chǎn)品、系統(tǒng)、服務、招募和BD等一系列的運營支持服務。因此,商鵲網(wǎng)形成了一個翻譯的閉環(huán),從需求到生產(chǎn),從研發(fā)到培訓,生產(chǎn)和AI研發(fā)可以互相借力成長,豬八戒是“服務業(yè)的淘寶”,所以它有能力把分散的翻譯需求集中到一個大平臺上來。
這里要解釋一下,PE和眾包的關系
一般來說,像設計,法律、翻譯等服務業(yè),目前想到的互聯(lián)網(wǎng)解決辦法,就是眾包,翻譯類的眾包有過很多平臺,無一類外都含恨離去,我跟豬八戒的最資深外包服務的人探討這個問題,最后都認為問題出在供應方。過去一般認為,有需求,把客戶找上來,讓服務商蜂涌上去,問題就解決了,實際上,一個服務的需求千奇百怪,匹配合適的供應商的成本,遠高于服務本身的價值,所以我們的解決辦法,是讓供應商在服務的產(chǎn)品、流程和交付質(zhì)量,以及服務商品牌上下功夫。
讓最主要的需求有標準化的產(chǎn)品來服務,而翻譯服務要做到這一點,IT技術和翻譯技術是必須的,說了這么多,說一個實際案例。
商鵲網(wǎng)使用PE,為中國和日本的專利客戶提供翻譯服務。日本客戶對信息管理、對質(zhì)量苛求非常嚴格,我們從一個第五層的分包商成長為直接的翻譯供應商,依靠的就是PE生產(chǎn)的高效、低成本,以及穩(wěn)定的質(zhì)量。資深翻譯一定比我們的普通譯員做得好,但是人總有累、病的時候,還有多個譯員翻譯習慣不同術語不統(tǒng)一等等,這些問題機器不怕。機器解決了術語準確和統(tǒng)一問題,人是輔助優(yōu)化的。因此,我們剛畢業(yè)的本科學生,即勝任了工作5年以上的老譯員,效率還更高。
那么,在專利領域是醬紫,我們做到了全世界(不含糊)最優(yōu)的翻譯成本,其他領域呢?
中國人不再把生活局限在出生的這個國家了,從上學、租房、買房、投資理財、養(yǎng)老保險、求醫(yī)問藥、學習移民等等,還有日常的跨境購物和旅游,生活空間出國了,但是俺們那嘎達的鄉(xiāng)音難忘也難改,不懂英文咋辦?
陪同翻譯的服務不是我們要做的,但是有更大的需求:基本上大家認為超過60%的有價值的英文信息還是沒有中文版的,現(xiàn)在大家能夠看到大部分英文世界的NEWS的中文版,但是編輯好的information,以及更深度的Knowledge,咱們是看不到中文版的?;蛘呖吹降暮芡?、很不全,很貴。
譬如,魏澤西同學死于絕癥,但是莆田人盈利導向的資訊,是讓他遺恨的地方。中國人上網(wǎng)求醫(yī)問藥,一個字到網(wǎng)上,有1000個莆田人在等你。實際上歐美有很科學、真實的醫(yī)、藥、病的數(shù)據(jù)庫,把這些數(shù)據(jù)庫翻譯成中文,是有價值的。還有就是投資,買美股。一般中國人除了中概股之外,能對4000家美國主要上市公司里的100家有所了解?還有更多的基金公司、基金產(chǎn)品,保險產(chǎn)品,能了解多少呢?
要想做一個國際人,即要有國際的資訊氛圍。過去沒有,是因為這里的翻譯工程成本太高、效率太低了!
現(xiàn)在有機器翻譯——針對瀏覽級的需求;人機結(jié)合的深度翻譯——針對資料、精讀級的需求,因此,現(xiàn)在翻譯也變了。
翻譯不再是一個不管內(nèi)容的語言轉(zhuǎn)換,是一個多語言轉(zhuǎn)換和智能知識管理的綜合工程。做到這一點,翻譯很有意思了。我們在小規(guī)模的翻譯服務里,發(fā)現(xiàn)生意可以反哺AI研究,不完全依靠VC輸血。而另外呢,則對未來的AI智能應用前景充滿期待。所以,很期待和同懷AI夢想的大家,一起走到那一天,我的嘮叨先到此。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。