0
本文作者: 叢末 | 2018-10-10 09:51 |
越來越多的小伙伴們加入到 AI 課程的字幕翻譯隊(duì)伍。在這些翻譯同學(xué)中,有些是 AI 相關(guān)領(lǐng)域的學(xué)生或從業(yè)者,有些是純粹的知識(shí)愛好者,很多同學(xué)并未上過英語翻譯課程,未經(jīng)受過專門的翻譯技巧培訓(xùn)。
近日,在雷鋒網(wǎng) AI 研習(xí)社公開課上,上海外國語大學(xué)英語專業(yè)碩士畢業(yè)、目前長期從事專職英語翻譯的 Laura 就從自己英語翻譯的專業(yè)背景出發(fā),從實(shí)戰(zhàn)的角度,分享 AI 字幕翻譯的技巧,希望幫助更多同學(xué)事半功倍地做好字幕翻譯。公開課回放視頻網(wǎng)址:http://www.mooc.ai/open/course/525
Laura:上海外國語大學(xué)英語專業(yè)碩士畢業(yè),目前從事專職英語翻譯工作。曾獲 CATTI 二級(jí)口譯、高級(jí)口譯等證書,雅思 8.0。在網(wǎng)易公開課、雷鋒網(wǎng)、Udacity 等平臺(tái)做字幕翻譯志愿者,參與翻譯 CS231n、CS224n、Deep Learning Nano Degree 等 AI 相關(guān)課程。
分享主題:AI 字幕翻譯經(jīng)驗(yàn)分享
分享提綱
1.怎樣做好 AI 字幕翻譯?
? 字幕翻譯的特點(diǎn)
? 字幕翻譯的原則
? 字幕翻譯的規(guī)范
? 實(shí)戰(zhàn)翻譯的 TIPS
2. AI 翻譯的個(gè)人心得
雷鋒網(wǎng) AI 研習(xí)社將其分享內(nèi)容整理如下:
我今天會(huì)跟大家分享一下關(guān)于 AI 字幕翻譯,我自己的一些經(jīng)驗(yàn)和技巧。首先自我介紹一下,我是上海外國語大學(xué)英語專業(yè)的研究生,主要研究口譯方向,曾考取了 CATTI 二級(jí)口譯、高級(jí)口譯等證書,雅思 8.0,目前專職從事于翻譯工作,包括口譯和筆譯兩個(gè)方面。在字幕翻譯經(jīng)歷方面,我曾從事?易公開課的 TED TALK(科技相關(guān)話題)的翻譯工作,還曾擔(dān)任 UDACITY 的深度學(xué)習(xí)納?學(xué)位課程字幕組翻譯審核負(fù)責(zé)人,累計(jì)翻譯、審校 5000 多行課程字幕,目前在雷鋒字幕組參與翻譯、校對(duì) CS231n、CS224n、Hugo 教學(xué)視頻等 AI 相關(guān)課程。
本次分享,我會(huì)從一個(gè)英語專業(yè)出身的譯者角度出發(fā),主要從 4 個(gè)方面講一下怎樣做好 AI 字幕翻譯:第一,字幕翻譯的特點(diǎn);第二,字幕翻譯的原則;第三,字幕翻譯的規(guī)范;第四,實(shí)戰(zhàn)翻譯的 TIPS。
字幕翻譯有哪些特點(diǎn)?
從我的翻譯經(jīng)驗(yàn)中,我總結(jié)出了以下三點(diǎn):
一是瞬時(shí)性,指的是字幕出現(xiàn)在視頻上,停留的時(shí)間非常有限,往往一閃而過,這對(duì)閱讀速度有一定要求。這里有一個(gè)概念,叫做 CPS——Character/Second,TED 上也對(duì)這一項(xiàng)有要求,就是閱讀速度不要超過 21 cps。簡單來說,就是這個(gè) CPS 不應(yīng)該太高,字幕不能過密、過長,不要讓觀眾來不及看。
因此,我在這里為大家推薦一款字幕軟件,叫 Aegisub,它可以實(shí)時(shí)顯示 CPS。大家可以看一下這個(gè)表格,在第三列,軟件會(huì)根據(jù)字幕的長短和時(shí)長來計(jì)算出 CPS 值,顏色越深,就表示這個(gè)字幕越密,即 CPS 值越高。如果這個(gè)位置顯示的顏色過深,大家就需要考慮一下,簡化一下自己的表達(dá)。
另外,還有一個(gè)檢查字幕是否過長的方法就是,你可以自己模擬一下觀眾,翻譯完后將視頻進(jìn)行回放,以觀眾的視角,看一下你在看視頻的時(shí)候能否跟上字幕的速度。這是一個(gè)比較簡單的檢驗(yàn)方法,我自己也經(jīng)常使用。
二是單向性,因?yàn)樽帜蛔鳛橐曨l的一個(gè)呈現(xiàn),理論上我們是不會(huì)去回看的。這一點(diǎn)上,字幕與一般文本是截然不同的,文本可以同時(shí)看到大片信息,而字幕則是——這一句過了,再顯示下一句。因此,你在句式結(jié)構(gòu)使用上,盡量不要使用嵌套式的句式結(jié)構(gòu),即不要將一句話分成不在一個(gè)頁面上的兩行字幕,這樣觀眾就需要先記住前一句話,再結(jié)合下一句話才能完全理解,從而造成他們理解上的負(fù)擔(dān)。
三是多線程模式。大家自己在看課程或視頻的時(shí)候,會(huì)一邊聽語音,一邊看字幕,對(duì)于大腦來說,它需要把精力同時(shí)分配給不同的任務(wù),在這樣的情況下,分配給字幕閱讀的精力就十分有限。因此大家在翻譯的時(shí)候,語言與句式都不要太為復(fù)雜。
接下來說一下翻譯中要遵循的原則。根據(jù)上面的三個(gè)特點(diǎn),我歸納出來以下幾個(gè)原則:
第一是語言的簡潔性,即在表達(dá)上要化繁為簡,讓大家在看的時(shí)候能跟上字幕的顯示速度,句子不要太長。
第二是方便閱讀,這是指大家不一定要進(jìn)行字對(duì)字的翻譯。在我們翻譯那些 AI 課程的時(shí)候,讓觀眾看懂、學(xué)懂才是最重要的目的,基于這個(gè)目的,你在翻譯的時(shí)候,首先你要自己看懂這個(gè)句子,搞清楚它想說什么,然后用觀眾能夠理解、聽懂的方式表達(dá)出來。所以說做課程字幕翻譯的時(shí)候,傳遞知識(shí)才是最重要的,如果你自己一知半解,也無法保證觀眾看懂,那就無法達(dá)到這一主要目的。
第三是意群完整,指的是不要在不合適的地方斷句。我們遇到的英文視頻,原本的英文字幕可能是由一些軟件自動(dòng)生成的,斷句的地方不合適, 因此在翻譯時(shí)需要對(duì)這些斷句進(jìn)行調(diào)整。例如,某些英文原字幕會(huì)在形容詞和名詞間斷句,這既不符合英文表達(dá)習(xí)慣,更不符合中文表達(dá)習(xí)慣。
第四是前后一致。在翻譯課程的過程中,我們往往會(huì)遇到很多專業(yè)術(shù)語,這些術(shù)語可能會(huì)前后出現(xiàn)很多次,特別是在時(shí)長一個(gè)多小時(shí)的課程由同學(xué)們合作完成字幕翻譯的情況下,這些術(shù)語可能會(huì)因大家翻譯的差異而出現(xiàn)前后不一致的情況。因此,大家在校對(duì)時(shí),尤其需要注意前后術(shù)語的一致性。同時(shí),大家也可以在翻譯之前,就一起討論、統(tǒng)一術(shù)語的表達(dá),以避免給觀眾造成一些理解上的負(fù)擔(dān)。
下面我講一下字幕翻譯的規(guī)范。事實(shí)上,一些字幕平臺(tái),自己就會(huì)對(duì)字幕翻譯有一些要求。
第一是關(guān)于標(biāo)點(diǎn)的使用。比如現(xiàn)在雷鋒字幕組在做的這類翻譯,就采用空格來代替逗號(hào)和句號(hào)。我一般都是用兩個(gè)半角空格來代替逗號(hào)和句號(hào),但是對(duì)其他的一些標(biāo)點(diǎn),比如頓號(hào)、冒號(hào)、問號(hào)、書名號(hào)這些具有實(shí)際意義的標(biāo)點(diǎn),是需要保留的,只是逗號(hào)、句號(hào)這些表示斷句的標(biāo)點(diǎn)用空格代替。
第二是關(guān)于書名、人名和公司名稱的翻譯。一般來說,如果公司名有約定俗成的中文譯名,那就直接采用該中文譯文,比如說 Google 在中國,就被叫做谷歌;如果公司名還沒有中文譯名,即當(dāng)你上網(wǎng)搜索時(shí),發(fā)現(xiàn)網(wǎng)頁采用的都是其英文原名,可以保留它的英文名。
而書名和論文名,一般都要求翻譯成中文名。關(guān)于書名,你可以先去網(wǎng)上查一下這本書是否出版過中文版本,如果有的話,你就采用已有的中文譯名;如果還沒有,你可以根據(jù)自己的理解翻譯一下。
還有一個(gè)需要特別提一下的就是人名。我自己在翻譯的時(shí)候就遇到過,一些老師或者助教是華裔,名字是拼音式的英文名,我們一般能在網(wǎng)上查到的他們?cè)瓉淼闹形拿虼舜蠹以诜g的時(shí)候要盡量避免音譯。比如我曾翻譯過一個(gè)名字叫 Danqi Chen,她是斯坦福的一名助教,我會(huì)在網(wǎng)上搜一下,找到她的中文原名——陳丹琦。
第三是字幕長度的控制。我在這里列了 TED 的標(biāo)準(zhǔn),比如說每行總長度不超過 42 個(gè)字符,這是一個(gè)參考。我們?cè)诜g的時(shí)候,也要看一下這一頁字幕的效果,然后自己把握一下。我下面也附上了一個(gè)相關(guān)鏈接:https://www.ted.com/participate/translate/guidelines,大家可以參考一下。
第四是關(guān)于斷句。我前面也說了不要在意群中間斷句,就比如說圖中的第一個(gè)句子,在這里它將「one bit of terminology」變成了兩行,我在翻譯的時(shí)候,就會(huì)把「術(shù)語」提到第一行字幕上。第二句的斷句也是非常不自然——PhD 和 student 中間斷開了,這可能是因?yàn)樽帜蛔詣?dòng)生成而產(chǎn)生的問題,因此我翻譯的時(shí)候?qū)ⅰ覆┦可沟姆g直接放到了下一行字幕。最下面的鏈接:https://translations.ted.com/How_to_break_lines,里面有一些斷句相關(guān)的建議,大家也可以參考一下。
現(xiàn)在就進(jìn)入實(shí)戰(zhàn)部分,我來具體介紹一下翻譯中比較實(shí)用的一些技巧和方法,主要為以下四點(diǎn):
第一,化繁為簡。其實(shí)中文和英文是兩種非常不同的語言。英文是一種「形合」的語言,通過句法手段、詞匯銜接等方式來體現(xiàn)邏輯關(guān)系,多數(shù)詞都只是有一個(gè)邏輯上的連接功能,功能性大于內(nèi)涵。我們經(jīng)常用的一個(gè)比喻就是英語就像一串葡萄,它有一個(gè)主干,把一顆顆葡萄穿起來——這些葡萄就相當(dāng)于一個(gè)一個(gè)的意群,靠著主干和上面的分支然后將其穿起來。
中文則是「意合」的語言,不依靠句法、結(jié)構(gòu)上的顯性關(guān)系串起來,而是依靠其內(nèi)容的內(nèi)在邏輯,更具畫面感和意境。比如說「枯藤老樹昏鴉,小橋流水人家」這句詩,全部由名詞組成,這樣的句式在中文字是很美的,但是在英文中是不可能出現(xiàn)的。
所以我們會(huì)說,中文的感覺就像大珠小珠落玉盤,一個(gè)玉盤中裝著很多珠子,由一個(gè)個(gè)意群組成,而不像葡萄有莖干,但是這些意群間是有內(nèi)在聯(lián)系的,它們通過內(nèi)容、實(shí)際含義串在一起。中文這樣的特點(diǎn)要求我們?cè)诜g的時(shí)候做到「得意忘形」,不要被英文的形式給框住了,而是以意合的形式將其翻譯出來,否則翻出句子會(huì)有英文腔。當(dāng)然,「得意忘形」需要一個(gè)長期的積累過程。
此外,由于每一行字幕的字?jǐn)?shù)有限,所以大家在翻譯的時(shí)候要盡可能精簡。針對(duì)我的一些翻譯經(jīng)驗(yàn),以及在幫別人校對(duì)過程中遇到的一些問題,我也為大家整理一些實(shí)用的 TIPS,這些案例都是我在翻譯或校對(duì) AI 課程視頻中摘取的句子:
首先,刪掉「我們」、「我們的」、「你的」、「你們」這些不必要的詞,因此它們?cè)谟⑽闹兄皇墙Y(jié)構(gòu)需要。如「hidden layer」前面需要一個(gè) the、a 或者 our 這樣的修飾成分以保證結(jié)構(gòu)的完整性,但是這些修飾詞是沒有實(shí)際含義的。后面兩句也是這樣。我們可以使用的一個(gè)檢測方法就是,你試著將這些詞刪掉,然后看你的譯文是否還是通順、能夠理解的。
其次,要?jiǎng)h掉一些 fillers、口頭禪,如 sort of, a bit of stuff, kind of, you know 等。舉個(gè)例子,在一些課程中,有一些教授在構(gòu)思自己接下來要說的話的時(shí)候,可能會(huì)不由自主地使用他們自己的一些口頭禪來緩沖一下——中文中也有類似的,比如「然后」、「那么」、「就是」這類詞。圖中有一些案例,大家可以看到帶了 sort of 、a bit of 這些詞的英文句子,顯得很啰嗦,大家在翻譯的時(shí)候都可以將其刪掉。
最后一點(diǎn)就是簡化表達(dá)。比如這一句「made our network more efficient」,大家不需要一看到 make 就把句子翻譯成「把」字句,直接使用動(dòng)賓結(jié)構(gòu)就可以了。在另一句中,前面這句「what we're gonna do 」和后面這句「a bit of stuff about」都沒有信息量,大家完全可以不翻出來??傊?,大家在翻譯的時(shí)候,要想一想是否有更簡練的表達(dá)。
第二,巧用空格。字幕中,如果出現(xiàn)長長的一句話,觀眾看起來會(huì)很費(fèi)勁,就像我之前說的,因?yàn)檫@是一個(gè)多線程的操作。我們?cè)诿橐谎圩帜缓?,怎樣才能迅?get 到信息點(diǎn)呢?一個(gè)很簡單的方法就是在合適的地方加入空格,把長句變成一個(gè)個(gè)小短句,以減輕觀眾的理解壓力,從而提高他們的閱讀速度??梢约涌崭竦牡胤骄褪悄切┛梢圆鸪瑟?dú)立意群的地方。下面我們看一些具體案例:
比如在「因?yàn)椤埂ⅰ杆浴?、「目前」、「我認(rèn)為」等詞以及「十年前」等表示時(shí)間的短語后面加上空格,以方便觀眾能迅速閱讀到信息點(diǎn)。
此外,還可以將從句拆開,變成短句/短語。大家可以參考一下我在圖中列出的案例。
三是順句驅(qū)動(dòng)。這其實(shí)是同傳翻譯中的一個(gè)技巧,思路是:我們盡量順著整句話的意思,按順序提取句中的意群,然后依次將一個(gè)意群一個(gè)意群翻出來。在這個(gè)過程中,我們可能要對(duì)原來的句子結(jié)構(gòu)進(jìn)行一些調(diào)整或者添加一些連接詞或者進(jìn)行句子的轉(zhuǎn)換。我講一下以前我們同傳老師會(huì)講到的例子,比如說 There are still 5 minutes / before we call it a day 這句話,如果使用一般的翻法,我們會(huì)翻成「在我們結(jié)束今天的會(huì)議之前還有五分鐘」;但如果運(yùn)用順句驅(qū)動(dòng),可以翻譯成「還有五分鐘,我們就散會(huì)」,這樣就把句子順下來了。第二句,也是這個(gè)道理。這種翻譯方式可以給大家多一種選擇和思路。
而順句驅(qū)動(dòng)中,第一個(gè)具體技巧就是重復(fù)。在一行字幕信息不完整的情況下,你可以通過補(bǔ)全這一行的關(guān)鍵字,讓每一行的字幕都顯得完整,同時(shí)也可以在不打亂句子結(jié)構(gòu)的情況下,就能順著英文意思進(jìn)行翻譯。比如第一個(gè)案例,每一行的內(nèi)容都出現(xiàn)了「內(nèi)容」,這些「內(nèi)容」都是為了讓每一行字幕看起來完整而補(bǔ)上去的。第二個(gè)例子,也是這樣。
第二個(gè)具體技巧是詞性轉(zhuǎn)換。中文的一大特點(diǎn)是動(dòng)詞用得很多,基于這一點(diǎn),我們可以把英文中的名詞成分或介詞成分變成動(dòng)詞。比如第一個(gè)句子中的 winners,本來是一個(gè)名詞,但可以被翻譯成「勝出」,這樣更能讓句子順下來,也比較貼合中文的表達(dá)習(xí)慣。
第三是被動(dòng)變主動(dòng)。因?yàn)橹形闹兄鲃?dòng)句式會(huì)比較多,因此如果翻譯出來的被動(dòng)句式出現(xiàn)過多,就會(huì)給人一種濃濃的翻譯腔。
此外,我們也可以對(duì)句子做出一些其他的變化,例如我在下面這句話的翻譯中,結(jié)合上下語境,不將 whether 直接翻譯出來,而是用「準(zhǔn)確性」來表達(dá)整句話的意思。
最后我補(bǔ)充一下我自己的一些個(gè)人心得。
第一個(gè)是邊學(xué)邊翻。如果你在翻譯一個(gè)課程的同時(shí),正好又在學(xué)習(xí)這個(gè)課程,當(dāng)碰到不懂的情況,會(huì)先去網(wǎng)上查一些同一話題的中文資料,來讓自己弄懂知識(shí)點(diǎn)后,再以觀眾能理解的中文表達(dá)出來——這樣不僅會(huì)讓翻譯效果更好,而且也會(huì)對(duì)你自己的學(xué)習(xí)有促進(jìn)作用。
第二,碰到了不懂的術(shù)語怎么辦?
首先,我們可以先上網(wǎng)搜一下這些術(shù)語,但是搜的過程中,要注意這些來源是否靠譜。比如我自己在百度進(jìn)行搜索時(shí),會(huì)特別注意來源——我個(gè)人比較喜歡 CSDN 博客、知乎這些來源的文章。另外,我也推薦一下吳恩達(dá)老師的公眾號(hào)「吳恩達(dá)deeplearningai」,因?yàn)樗?nbsp;Coursera 開了 Deep Learning 的課程,該課程被翻成了中文資料,會(huì)在他的公眾號(hào)上推送。這些資料里面對(duì)一般術(shù)語的中文翻譯,我認(rèn)為是比較權(quán)威的。
第二個(gè)方法就是用雷鋒字幕組的云詞庫。我們?cè)诜g過程中,如果遇到不懂的術(shù)語,可以參考云詞庫中的中文翻譯。
如果上述方法都不管用,大家可以跟群里的小伙伴們討論一下,一起找到一個(gè)比較合適的翻法。
這里我要特別說明一點(diǎn)就是,AI 這個(gè)領(lǐng)域目前還處于快速發(fā)展的階段,其中的很多中文表達(dá)還沒有固定下來。大家平時(shí)在網(wǎng)上搜索某個(gè)術(shù)語的時(shí)候,也會(huì)從不同的來源看到不同的譯法,在這種情況下,一個(gè)比較好的方式其實(shí)是,大家一起討論一下哪種譯法更貼合中文的表達(dá)習(xí)慣、更能反映其英文所要表達(dá)的意思。大家不要認(rèn)為網(wǎng)上出現(xiàn)過的翻譯就是最好的,如果我們能夠討論出更加合適的譯法,并讓它更廣泛地被使用,成為主流,就更有意義。
第三,有需要解釋的術(shù)語怎么辦?
第一種情況是,有些術(shù)語有縮寫、簡寫。大家遇到這類術(shù)語時(shí),可以采取的方法是:第一次出現(xiàn)的時(shí)候,先翻譯成中文,并在后面加上括號(hào)寫上它的英文縮寫,當(dāng)下次再出現(xiàn)這個(gè)概念的時(shí)候,字?jǐn)?shù)有限的情況下,就可以采用縮寫。比如這句話,第一次出現(xiàn) natural language process,我先把「自然語言處理」翻譯出來,并在后面的括號(hào)中寫上 NLP,當(dāng)該術(shù)語在后面出現(xiàn)的時(shí)候,直接用 NLP 即可。這其實(shí)也能幫助觀眾積累一些英文專業(yè)術(shù)語的知識(shí),換句話說就是,當(dāng)他們以后在瀏覽信息時(shí)看到這些術(shù)語的英文縮寫,他們就知道這個(gè)縮寫指的是什么。
第二種情況是,可能你覺得英文部分沒有講清楚,或者你覺得觀眾看到后不能很好理解,需要加一些解釋說明。這個(gè)時(shí)候,你可以使用一些最簡練的話來對(duì)其進(jìn)行解釋說明,如果因?yàn)榧恿苏f明而變得太長,可以考慮將后面的話移到下一行,做一個(gè)微調(diào),畢竟字幕翻譯的最終目的,就是為了讓觀眾看懂。比方說,我在翻譯 ResNet block 的時(shí)候,想到有很多觀眾可能會(huì)看不懂,因此我不僅將「ResNet 模塊」翻譯出來了,還在后面標(biāo)注上了我對(duì)這個(gè)術(shù)語的理解「注:即上下都有1x1的卷積層」。
第三種情況是,不知道英語在說什么怎么辦?
碰到這種情況,有一半的概率其實(shí)是英文字幕本身是錯(cuò)誤的,比如 encoding 打成了 in coding,conv net 打成了 com net,pair 打成了 pear。那怎么做呢?大家可以聽一下英語原音,比如說第一句中出現(xiàn)了一個(gè) comNet,我們理解不了,我們可以聽一下視頻原聲,會(huì)比較容易發(fā)現(xiàn)其實(shí)這個(gè)單詞應(yīng)該是 conv net。另外一種方法是(針對(duì)某些課程),在返回去聽英文原句的同時(shí),配合查看相應(yīng)的 PPT——因?yàn)橛袝r(shí)候教授在念這一句話的時(shí)候,課程中的 PPT 上也會(huì)同步顯示這句話。比如我遇到過一個(gè)字幕,句中的 if 造成了翻譯困難,但當(dāng)我去查看 PPT 的時(shí)候,發(fā)現(xiàn)其實(shí) if 是沒有的,刪掉 if 以后,這句話就變得很容易理解了。
如果上述辦法都不奏效,大家不妨求助一下小伙伴吧。
以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請(qǐng)到雷鋒網(wǎng) AI 研習(xí)社社區(qū)觀看。關(guān)注微信公眾號(hào):AI 研習(xí)社(okweiwu),可獲取最新公開課直播時(shí)間預(yù)告。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。