4
理科生與文科生來自兩顆不同的星球,一個偏理性,一個偏感性。
學計算機的,通常有著比較系統(tǒng)的思維方式,按照編程模式分拆開來看,即分為定義問題,分解問題,優(yōu)化迭代問題的思路來解決問題。學語言的,極少數(shù)上過邏輯課,沒有經過推理訓練,一般偏向于模糊感性的思維方式。
機器翻譯,則是理科加文科碰撞的產物。如何用計算機的思維來看待機器翻譯的問題,是魏勇鵬與鄒劍宇磨合了一年后才達成的共識。
一
大一時,魏勇鵬想學一門二外,但德語老師要求選德語的三個月不能看英語,計算機專業(yè)的英語基礎資料偏多,太沖突,最后選了日語,學了三個學期。有回魏勇鵬看到小語種班的的板報上寫著這樣一句話,多學一種語言,你就多了一種人生?,F(xiàn)在回想起來,魏勇鵬覺得別有一番深意。
大三暑假,院系的研究生實驗室要從本科生中招一個會日語的做一些輔助性工作,魏勇鵬被選中,開始跟著課題組做機器翻譯項目。他覺得自己對學習語言本身可能沒什么天賦,但很喜歡去鉆研語言本身的機制。
研究生畢業(yè),魏勇鵬入職同方知網,負責主導網站機器翻譯引擎的研發(fā)與 CNKI 翻譯助手的完善。機器翻譯引擎主要供網站內部使用, 把國外的文獻摘要翻譯成英文,供中文讀者檢索,CNKI 翻譯助手則相當于一個翻譯辭典工具。兩個產品做的相對成熟時,魏勇鵬想組建一個人工翻譯團隊,把國外一些優(yōu)質的論文通過人與機器翻譯的配合,翻譯成更好的譯文,或跟國外的版權方去談,翻譯完成后在中國出版。
可理想豐滿現(xiàn)實骨感。2008-2009 年經濟危機,團隊剛招了兩個碩士生準備開干,網站領導就砍掉了這個項目。魏勇鵬覺得機器翻譯并不是同方知網的核心業(yè)務,有更多延伸的可能性很小,于是決定辭職。
當時正好有朋友叫他做跨境電商。魏勇鵬心想,貿易商品交流,也算是機器翻譯比較大的一個商業(yè)應用場景,于是一切做了一個“日本代購”網站——九萬里。合伙運營了一年左右,魏勇鵬發(fā)現(xiàn),電子商務重在商務,并不是自己的擅長,網站訂單量也遠遠達不到應用機器翻譯的程度,決定退出。
經歷了兩次無功而返,魏勇鵬希望自己能把控事件的走向。所以,這次他索性找來五個同樣對機器翻譯感興趣的朋友,集資創(chuàng)辦了語智云帆。
有兩個合伙人都與日本專利事務有關,認為專利翻譯有著明確的商業(yè)需求,也較成規(guī)模,且通過調研分析發(fā)現(xiàn),在日本翻譯行業(yè)中,專利翻譯的比例占 16%,同時有著大量現(xiàn)存的中日同組專利公開文本,可以用來做機器翻譯的語料庫。而專利中專業(yè)術語的翻譯標準,也很清晰,對機器翻譯的翻譯效果有利。
確定市場方向后,開始著手做第一款產品——翻譯輸入法。據(jù)魏勇鵬介紹,使用翻譯輸入法時,輸入中文的第一個字,就可以對需要翻譯的詞進行判斷,輸入兩三個詞語時,就可以準確判別你要翻的句子,如果對翻譯結果不滿意,可以繼續(xù)進行精確輸入,翻譯結果也會跟著調整,直到滿意為止。產品打磨了一年半左右的時間,做出來時挺激動的,但并沒有人愿意買。
魏對此有過總結,首先,這是一個云輸入法,必須要有局域網的翻譯引擎數(shù)據(jù)庫做支撐,客戶需要買了引擎才能使用;其次,2011 年時網絡狀態(tài)不太好,輸入法體驗都比較糟;再次,輸入法是一個獨立的客戶端,翻譯工作人員并不習慣在里面打文本,即使后來做了 word 插件,但離好用還有距離,產品最終沒有繼續(xù)研發(fā)下去。
這時,公司創(chuàng)立時集資的 47 萬也快用完了。
在提供翻譯技術外包服務的同時,語智云帆開始組建自己的專利翻譯團隊。在北二外旁邊的一個居民樓里租了個兩居室,為專利翻譯兼職學生做輔導。兩個月后,接到了一筆日本專利翻譯的訂單。客戶每個月會根據(jù)完成程度進行派單,到年底魏勇鵬算了下,總共做了 10 萬件。
語智云帆創(chuàng)立后,魏勇鵬還和幾個合伙人一起創(chuàng)辦了國內翻譯技術沙龍,參與者主要是國內機器翻譯圈的人,還有各個翻譯院校的師生。到今年下個月沙龍已經舉辦了 23 期。
二
鄒劍宇大學畢業(yè)后的第一份工作是在九江日報周末版做編輯。穩(wěn)定的工作與高收入往往不能劃等號。一年后,鄒劍宇辭職去了深圳,之后的四年,再沒有做過穩(wěn)定的工作。其中有兩年是做廣告銷售,俗稱“掃街”。“沒人依靠,要自己養(yǎng)活自己,掙不到錢就沒飯吃,沒地住,這兩年對個人成長價值很大?!编u劍宇回憶道。由于之前有記者經驗,鄒劍宇開始給三聯(lián)生活周刊寫一些小文章或隨筆。
1997 年時,雜志發(fā)展勢頭正好,三聯(lián)生活周刊也開始進入正常的半月刊運作狀態(tài)。同學苗煒勸鄒劍宇說,“咱們學了四年中文,除了寫字還能干什么。”鄒劍宇心想,也對。于是入職三聯(lián)生活周刊經濟部,成為了國內第一批 IT 記者,與陳彤、劉韌、李學凌等都是好友。鄒劍宇這樣形容當時的社會環(huán)境:“用數(shù)字化生存譯者胡泳的話說,‘唯一時髦的就是技術’。”
準備離開三聯(lián)時,鄒劍宇已經過了三十歲。他特地請教過陳彤,陳彤告訴他,“離開是好事,就是有點晚。” 離職后,鄒劍宇選擇了雅虎,負責內容運營,主要做郵箱的 RSS 內容訂閱。
2007 年,雅虎是全球第一門戶。鄒劍宇覺得,這個職位既同時接觸到互聯(lián)搜索、郵箱、社區(qū)與門戶,又可以跟產品經理、工程師打交道,是個很好的機會。2008 年下半年,雅虎停掉了在中國的業(yè)務,阿里為鄒劍宇提供了去支付寶的職位,但鄒劍宇似乎覺得,自己在編輯的路上還沒有走完,于是去了貓撲,做總編輯。
鄒劍宇從負責前端內容的形態(tài)轉為負責貓撲的全部內容,不僅要考慮頻道建設,還要考慮整理的流量與銷售,做的很開心。但很快,新浪微博開始興起,網站變得不那么主流,貓撲在廣西政府的政策引導下,轉型做移動互聯(lián)網。中國移動羅川找到鄒劍宇,讓他做中國移動的移動微博總編輯,負責移動微博的運營。
干了近兩年,鄒劍宇覺得,自己不想一直做一個職業(yè)經理人,想做一件由自己立項推動的事情。于是決定退出中國移動。
三
2013 年,鄒劍宇接手元培翻譯互聯(lián)網業(yè)務,主要為阿里巴巴的跨境電商平臺提供翻譯服務,魏勇鵬是其技術供應商,兩個人經常在一起探討業(yè)務。一年后,這個在線翻譯管理平臺并沒有正式上線運營,出于成本考慮,元培停掉了這項業(yè)務。但鄒劍宇和魏勇鵬覺得,這是一件可以做下去的事情,于是一起創(chuàng)辦了商鵲網。
商鵲網作為主體拿到第一筆融資后,整體收購語智云帆,成為其全資子公司,也不再是一家純技術開發(fā)公司。
“當時跨境電商的熱潮剛來。所以創(chuàng)辦商鵲網后,做的第一件事情,就是重新成為阿里巴巴的供應商。”鄒劍宇說,“但做了半年后發(fā)現(xiàn),跨境電商的鏈條很長,影響利潤的環(huán)節(jié)很多,貿易本身利潤就不是很高,賣東西的人不賺錢,給賣東西的人做翻譯就就更賺不到錢。”
鄒劍宇和魏勇鵬商量之后決定,把主要精力投入到專利翻譯的業(yè)務上。隨著日本專利局的認可,訂單量也繼續(xù)增加,14 年擴大到 78 萬件,15 年擴大到 145 萬件。魏勇鵬說,“雖然價格不到市場的三分之二,但商鵲網仍然能做到 30% 的盈利,正是翻譯引擎的價值體現(xiàn)。結合語智云帆之前的技術積累,現(xiàn)在商鵲網翻譯引擎中的專利語料庫共有約 6000 萬中英句對、4000 萬中日句對,總數(shù)量超過 1億。魏勇鵬告訴雷鋒網,除了谷歌,試譯寶的數(shù)據(jù)量現(xiàn)在算是最全的。
專利翻譯的成功經驗,讓商鵲網摸索出了一套人機翻譯相結合的標準化流程,于是這套培訓的經驗與流程變成了試譯寶,并加入了智能批改的功能。
7月18 號上線后,在幾乎沒有做任何付費推廣的情況下,已積累了 2 萬多注冊用戶。平臺上的培訓老師則主要來自機器翻譯沙龍的成員,譯員也主要來自參與沙龍的院校。
鄒劍宇和魏勇鵬算了這么一筆賬,目前全國大概有 300 多所翻譯院校,約 150 所本科院校,205 所研究生院校,每年翻譯碩士畢業(yè)生約為 8000 人,但據(jù)觀察,進入翻譯行業(yè)的不到 5% 。但市場上的翻譯人才是稀缺的。通過試譯寶可以形成一個非??捎^的人才群體,不僅有流量,還能夠帶來規(guī)?;膬r值群體。
鄒劍宇介紹說,去年一個河北畢業(yè)大學生,在經過兩個月的培訓后,通過專利翻譯可以達到年薪十萬。
現(xiàn)在試譯寶還處于免費試測狀態(tài),12 月中旬將會上線收費課程。接下來,試譯寶還將在豬八戒網翻譯頻道上線,為譯員搭建商業(yè)渠道。
后記
雖然理科生與文科生有著思維差異,但也十分互補,鄒劍宇“對外”,魏勇鵬“對內”,兩個人很喜歡現(xiàn)在這種狀態(tài)。
在一年磨合期中,鄒劍宇總希望機器翻譯的研究進度能更快一點,但在與魏勇鵬的爭論中他漸漸明白,深度學習是一個黑盒子,人無法把握黑盒子里的學習過程,過高的期待只會產生痛苦,而這也是現(xiàn)在的他最想跟大家分享的。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。