0
當(dāng)今世界隨著大數(shù)據(jù)、人工智能算法、云計算等技術(shù)的發(fā)展機器翻譯技術(shù)又掀起一波新浪潮。伴隨著該項技術(shù)不斷發(fā)展的是一場由戰(zhàn)爭與壓迫轉(zhuǎn)為和平與發(fā)展的歷史,同時這項技術(shù)的發(fā)展背后亦隱藏著巨大的權(quán)力糾紛。
二十世紀(jì)五六十年代,在特殊的政治、經(jīng)濟、軍事等背景下該項技術(shù)受到了研究支持,發(fā)展成為一種新的監(jiān)控方式,也是應(yīng)對競爭者的有力武器。
現(xiàn)實中的翻譯并不是單純地將一堆不懂的對象轉(zhuǎn)換成能夠理解的內(nèi)容。由于不同語種有著不同的特點,強行的翻譯不可避免會抹殺一些小眾語種的文化特色,甚至?xí)惯@些語種逐漸消失。
機器翻譯也擁有眾多局限性,如小眾語種翻譯不成熟、無法表現(xiàn)表達語境情感、存在各種翻譯錯誤等。
受利益的驅(qū)使,一部分翻譯技術(shù)的研發(fā)和應(yīng)用打著為了理解、為了和平的旗號,卻極具諷刺意味地維護著文化障礙。
技術(shù)不是中立的,對待科學(xué)應(yīng)該保持一慣嚴(yán)謹?shù)膽B(tài)度,更不能一味地鼓吹技術(shù)的發(fā)展。
2019年,美國國土安全部(DHS)宣布了他們的計劃,要收集正在請求進入美國的外國人社交媒體用戶名,不論是作為旅行者還是移民,作為新“極端審查”程序的一部分來確定他們是否可以進入美國。對于那些在線活動中用除英語以外的語言來交流的,美國公民及移民服務(wù)局發(fā)布的一份官方手冊,指示管理者使用谷歌翻譯將他們的社交媒體帖子翻譯成英語。盡管谷歌宣告稱其翻譯服務(wù)并不打算用來代替口譯譯員,但他們?nèi)匀痪S持這種做法。
Source: ProPublica
人類語言翻譯的實際運作長期受到權(quán)力不對稱的影響。例如,幾個世紀(jì)前,為了歐洲人能夠理解互不相關(guān)的語言,他們制定了適用于一系列語言社區(qū)和非洲大陸的界限,強制創(chuàng)建適用于這些物品的名字,創(chuàng)建語言文件和翻譯材料的基礎(chǔ)來加強對殖民者的統(tǒng)治。
為了翻譯《圣經(jīng)》從而向世界各地的土著人傳教,基督教傳教士給一批無文字語言創(chuàng)造了語法規(guī)則。歷史上實際充斥著殖民者強迫被殖民者學(xué)習(xí)其國家語言的例子,被殖民者常常因為用母語說話而面臨懲罰。在許多情況下,這種語言壓迫導(dǎo)致了土著語種的衰落。而且,殖民主體通過強制性的翻譯使土著語言變得可以理解的做法,則進一步加深了對他們的奴役。
正如國土安全部審查協(xié)議所表明的那樣,無論是通過語言壓制還是強迫翻譯,機器翻譯技術(shù)的部署延伸了對下屬群體進行制造差異化和施加權(quán)力的傳統(tǒng)。通過這種方式,語言技術(shù)成為了一種新的監(jiān)控手段。事實上,恰恰是這些利益的驅(qū)動,促進了20世紀(jì)中期機器翻譯技術(shù)的發(fā)展。
機器翻譯最初發(fā)展時期的社會政治背景塑造了該技術(shù)領(lǐng)域的核心目標(biāo)和假設(shè),即它在商業(yè)環(huán)境中的持續(xù)發(fā)展和使用,不僅要方便,而且要在越來越大的范圍內(nèi)鞏固資源和權(quán)力。鑒于人們對翻譯技術(shù)使語言所有權(quán)的理解復(fù)雜化提出了越來越多的質(zhì)疑,語言社區(qū)開始轉(zhuǎn)而抵抗。
機器翻譯的起源
美國的第一批機器翻譯工作是在冷戰(zhàn)的推動下進行的。早期的基于規(guī)則的系統(tǒng)主要是在軍方和其他聯(lián)邦機構(gòu)的資助下開發(fā)并供其使用的,往往依賴于工程師和語言學(xué)家之間的跨學(xué)科協(xié)作。在政府資助下,經(jīng)過了一段以學(xué)術(shù)工作為主的穩(wěn)定研究。伴隨著商業(yè)化翻譯軟件的問世,機器翻譯在20世紀(jì)90年代的個人計算機革命中,開始廣為大眾使用。21世紀(jì),谷歌龐大的網(wǎng)頁內(nèi)容索引和大量資金使得統(tǒng)計(以及后來的神經(jīng))機器翻譯技術(shù)得以豐富和應(yīng)用,從而在網(wǎng)絡(luò)上部署了當(dāng)今普遍使用的免費翻譯服務(wù)。
1949-1997機器翻譯的根基:1949-1997
“人們自然會想,翻譯的問題是否可以想象為密碼學(xué)的問題。當(dāng)我看到一篇俄語寫的文章時,我會說,‘這篇文章確實是用英語寫的,但它被編碼成一些奇怪的符號。我現(xiàn)在要開始解碼了?!?/span>
——Warren Weaver, in correspondence to Norbert Wiener, 19472
現(xiàn)代機器技術(shù)的根源可以追溯到二戰(zhàn)期間的密碼學(xué)和破譯密碼工作。曾與先驅(qū)信息理論家Claude Shannon合作的美國科學(xué)家Warren Weaver對信息理論在人類語言翻譯中的應(yīng)用產(chǎn)生了興趣。1949年,時任洛克菲勒研究所自然科學(xué)部主任的Weaver向少數(shù)幾個語言學(xué)家和工程師分發(fā)了一份題為《翻譯》的極具影響力的備忘錄,其中他提出了將計算機應(yīng)用于人類語言翻譯的行動呼吁。韋弗的備忘錄推動了包括華盛頓大學(xué)、喬治敦大學(xué)、IBM和蘭德公司在內(nèi)的學(xué)術(shù)界和工業(yè)界的各種機構(gòu)在機器翻譯方面的研究工作。
Source: HistoryOfInformation.com
在首次自動翻譯中,僅僅決定以哪些語言為目標(biāo)是一個政治決定,這在當(dāng)時是由美國和蘇聯(lián)之間的冷戰(zhàn)競爭所決定的,尤其是受到增加俄文科學(xué)文獻期望的影響。Anthony Oettinger當(dāng)時是哈佛大學(xué)的一名本科生,他回憶說,他被招募與韋弗備忘錄的接受者之一的計算機科學(xué)家Howard Aiken合作,特別是因為他是一名俄語學(xué)生。
Source: HistoryOfInformation.com
研究工作繼續(xù)穩(wěn)步進行,盡管喬治敦-IBM團隊前瞻性地對俄語-英語翻譯進行了系統(tǒng)演示,但在20世紀(jì)60年代,由于ALPAC報告哀嘆機器翻譯的質(zhì)量不佳,否定了其可行性,導(dǎo)致該項目資金縮水。然而,美國政府仍然是機器翻譯技術(shù)的忠實消費者;在Tom Pedtke于1997年在第六屆機器翻譯峰會上的主題演講中,在政府的要求下,他回顧了20世紀(jì)90年代的幾個關(guān)鍵發(fā)展點。例如,1991年緝毒署將資源用于改善西班牙語-英語翻譯,而漢語-英語和韓語-英語翻譯項目則得到了美國國家安全局、聯(lián)邦調(diào)查局、DARPA和海軍的支持。然而,在20世紀(jì)90年代末,機器翻譯的主要參與者(和消費者)發(fā)生了變化。
數(shù)據(jù)驅(qū)動的翻譯
“目前硅谷發(fā)生的最重要的事情不是顛覆。相反,而是體制建設(shè)和權(quán)力的鞏固——其規(guī)模和速度在人類歷史上可能都是前所未有的?!?nbsp;
——Gideon Lewis-Kraus,《人工智能大覺醒》《紐約時報》雜志,2016年12月14日。
到20世紀(jì)90年代中后期,計算機處理能力的進步和個人計算機革命的發(fā)展促進了翻譯工具的進步。1997年,從喬治敦大學(xué)的機器翻譯項目發(fā)展起來的SYSTRAN與硬件巨頭數(shù)字設(shè)備公司合作,推出了第一個基于網(wǎng)絡(luò)的免費翻譯服務(wù)AltaVista。
它最初僅限于英語和少數(shù)羅馬語之間的翻譯,受到了廣泛的贊譽;用戶研究揭示了這項服務(wù)是如何使人們能夠與心愛的單語家庭成員進行交流的,并且在翻譯問題時提供了獨特的娛樂來源,這項成果振奮人心。次年,谷歌成立。作為斯坦福大學(xué)的研究生,Sergey Brin和Larry Page已經(jīng)開始著手為新生建立一個龐大的新興的萬維網(wǎng)內(nèi)容索引,作為由DARPA、NSF和NASA共同資助的數(shù)字圖書館項目的一部分;這項工作將成為谷歌搜索引擎的基礎(chǔ)。
到2004年,谷歌已成為一家價值巨大的上市公司,贏得了全世界網(wǎng)民的好評。Brin聲稱,韓國粉絲的一條信息,被SYSTRAN軟件許可誤譯為“生魚片的鞋子它希望。谷歌青蔥的事!”,這促使谷歌決定擴大包括語言翻譯在內(nèi)的能力。畢竟,在谷歌對所有網(wǎng)頁進行索引的過程中,它需要能夠包括互聯(lián)網(wǎng)中那些不是英語的部分。
Franz Och, with a copy of the Rosetta Stone. Source: New York Times
當(dāng)年,Page聯(lián)系了當(dāng)時在南加州大學(xué)信息科學(xué)研究所擔(dān)任研究科學(xué)家的弗Franz Och,聘請他建立后來的谷歌翻譯。Och起初持懷疑態(tài)度,對一家搜索引擎公司為何要涉足翻譯領(lǐng)域感到困惑,但谷歌用前所未有的計算資源來推動機器翻譯的前沿性發(fā)展吸引了他,而谷歌所掌握的絕對數(shù)量的文本數(shù)據(jù)使之成為新的突破口。
在接下來的幾年里,在奧奇Och的指導(dǎo)下,谷歌翻譯超過了大學(xué)研究小組的其他機器翻譯的工作,為數(shù)十種語言開發(fā)了高效的系統(tǒng)。2010年,在美國國家標(biāo)準(zhǔn)與技術(shù)研究院主持機器翻譯評估競賽的Mark Przybocki將谷歌的競爭優(yōu)勢比作“與擁有一個足球場大小的處理器來收集數(shù)據(jù)的人進行對抗”。如今,谷歌翻譯擁有在一百多種語言之間翻譯文本的能力,微軟和Facebook等其他科技巨頭也紛紛涉足機器翻譯研究。
機器翻譯的使用和濫用
推動機器翻譯發(fā)展的是對未知語境資源的強烈追求。美國機器翻譯的最早努力是為了破譯冷戰(zhàn)時期的俄羅斯通信和科學(xué)論文,而現(xiàn)在,谷歌已經(jīng)部署了其最先進的機器翻譯工具來構(gòu)建其龐大的世界在線內(nèi)容數(shù)據(jù)庫。雖然普通用戶通過使用谷歌翻譯得到了便利,但這些免費的工具可以被理解為“鉤子”,使用戶進一步陷入監(jiān)視資本主義的抽象化關(guān)系中,并“將經(jīng)濟活動轉(zhuǎn)移到作為翻譯提供者的少數(shù)科技巨頭身上”。
雖然享受到機器翻譯福利的主要政府強調(diào)是通過該項技術(shù)來實現(xiàn)相互理解以“維護和平”,而谷歌則將其翻譯服務(wù)宣傳為“打破語言障礙和使世界更易接近”的工具。
這種語言作為“障礙”的意象在關(guān)于機器翻譯的討論中經(jīng)常被引用,為這些障礙被打破后的普遍理解提供了一個烏托邦式的觀點。頗具諷刺意味的是,正如美國國土安全部的社交媒體審查程序所顯示的那樣,翻譯軟件是被專門用來維護文化障礙的,只是增加了一個劃分“內(nèi)”和“外”群體的技術(shù)工具庫。
Source: Evaluating Gender Bias in Machine Translation
使問題更加復(fù)雜的是,對許多語言來說神經(jīng)系統(tǒng)機器翻譯輸出的貌似流暢的語言可以掩蓋事實,即系統(tǒng)仍然難以產(chǎn)生準(zhǔn)確的翻譯,可以放大社會偏見,并容易在翻譯重要意義時出現(xiàn)不準(zhǔn)確,比如否定意義。
機器翻譯技術(shù)在高危場景下被頻繁使用尤其危險,例如在警察和平民之間的案件調(diào)查中,我們必須警惕在應(yīng)用概率法試圖讓人們看清楚真相,卻掩蓋或歪曲了事實,翻譯也不例外。與此同時,我們還必須注意諸如警察與平民辦案等場景一開始就變得如此高風(fēng)險的條件——更精確的翻譯系統(tǒng)不會有意識地打破社會的權(quán)力失衡,我們也不應(yīng)該假裝它們會。
由于本文是在全球COVID-19大流行的情況下起草的,我們不能忽視翻譯在交流和傳播有關(guān)預(yù)防、試驗和尋求治療最佳方法的重要信息方面所發(fā)揮的關(guān)鍵作用。越來越依賴自動翻譯從國際科學(xué)知識生態(tài)系統(tǒng)中拾遺補缺,這促使人們呼吁學(xué)者們發(fā)展“機器翻譯素養(yǎng)”,以了解自動翻譯學(xué)術(shù)文本的缺陷。技術(shù)專家、政策制定者和受影響的利益相關(guān)者在界定機器翻譯的適當(dāng)用途時,必須考慮機器翻譯的局限性。
對機器翻譯的反思和重塑
“語言不是可以被定位或重新定位的有形物體,這一事實使文化所有權(quán)問題比具體的藝術(shù)品或其他文化對象更微妙,但也更迫切”
——Margaret Speas,《語言所有權(quán)和語言意識形態(tài)》
“語言不是像財產(chǎn)被盜那樣的方式被盜。相反,人們被剝奪了塑造自己的文化和教育實踐所必須的主權(quán)?!?/span>
——Kerim Friedman
最先進的神經(jīng)系統(tǒng)機器翻譯技術(shù)的訓(xùn)練和評估,逐漸依賴于人類翻譯者產(chǎn)生的大量的平行語料數(shù)據(jù),這種做法是由范式的信息理論根源所決定的。在翻譯學(xué)者和文學(xué)評論家看來,韋弗將語言之間的翻譯定性為僅僅是對編碼信息的解密,可能顯得很粗陋,其中的一些人對忠實翻譯的可能性持保留態(tài)度(尤其是文學(xué)和詩歌,韋弗本人也承認了這一局限性)。
事實上,文本之間的“對等”概念在翻譯研究中受到了激烈的爭論。這并不是說機器翻譯在認識論上講是失敗的;當(dāng)代機器翻譯范式的平行文本基礎(chǔ)與奎因(Quine)的實用主義、行為主義的翻譯方法相一致。無論人們是否認為這種框架有說服力,重要的是要認識到作為黃金標(biāo)準(zhǔn)翻譯的數(shù)據(jù)體現(xiàn)了編寫者的處境和主觀立場,這影響了隨后嵌入自動化系統(tǒng)的關(guān)聯(lián)。
當(dāng)代神經(jīng)網(wǎng)絡(luò)機器翻譯的成功在很大程度依賴于大量的網(wǎng)絡(luò)語言數(shù)據(jù)。有成千上萬種所謂的“低資源”語言(以及廣泛使用的語言中的小眾化方言),對于這些語言,既不存在對行業(yè)巨頭開發(fā)翻譯工具的政治或財產(chǎn)激勵,也沒有成功應(yīng)用神經(jīng)機器翻譯所需的大量數(shù)字化資源。在這方面,語言社區(qū)可能有空間選擇性地決定是否—以及如果是的話,向誰—提交他們的知識和文化以供觀察。
2005年,馬普切人的領(lǐng)導(dǎo)人對微軟公司提起訴訟,指責(zé)他們是“知識盜版”,因為這家軟件公司試圖用馬普切人的語言Mapudungun發(fā)布Windows操作系統(tǒng)的版本,但最終沒有成功。
微軟沒有與馬普切人協(xié)商,也沒有征得他們的同意使用他們的語言,而是與智利政府合作開發(fā)該資源,然而這起訴訟卻讓人感到出乎意料,技術(shù)使一個人是否能真正“擁有”一種語言的問題變得復(fù)雜化;在網(wǎng)上搜羅的一千句話的語料庫是否足以為后續(xù)的處理和翻譯提供足夠的形態(tài)句法特征?如果一個語言社區(qū)不愿委托軟件公司開發(fā)他們語言的工具,他們有什么辦法?
Source
西方關(guān)于語言瀕危的論述不加批判地將開發(fā)低資源語言的技術(shù)視為一種社會福利,事實上,“低資源”這種說法本身就隱含著考慮采集數(shù)據(jù)的優(yōu)先順序,而一種語言的使用者本身就有很多能力,如成語、笑話、寓言和口述歷史。
另一方面,強制同化和殖民化導(dǎo)致無數(shù)土著語言的母語使用者數(shù)量銳減,毛利語和尤皮克語等語言記載和傳承問題越來越成為人們關(guān)注的焦點。最近舉辦的第一屆美洲土著語言NLP研討會等活動也支持了這項工作。
Masakhane 項目采用參與式方法來解決數(shù)十種非洲語言的技術(shù)資源匱乏問題,提議由非洲人創(chuàng)造語言技術(shù),這促使一些受影響的利益攸關(guān)方從項目一開始就參與指導(dǎo)研究方向和數(shù)據(jù)的收集整理工作。Masakhane 為沒有經(jīng)過正規(guī)方法培訓(xùn)的參與者創(chuàng)造了直接和有意義的參與方式,并代表著向使用翻譯技術(shù)賦予非洲語言的母語者和傳承者權(quán)力方面邁出了充滿希望的一步。
機器翻譯技術(shù)的創(chuàng)造、發(fā)展和部署,在歷史上與監(jiān)視和治理的實踐糾纏在一起。翻譯仍然是一種政治行為,而數(shù)據(jù)驅(qū)動的機器翻譯發(fā)展主要集中在工業(yè)領(lǐng)域,使翻譯轉(zhuǎn)移權(quán)力的機制變得復(fù)雜化。認識到機器翻譯作為一種工具和范式的缺陷,對于更好的闡明其使用適當(dāng)?shù)恼Z境和背景是必要的。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。