0
本文作者: 我在思考中 | 2021-08-24 11:13 |
當(dāng)今世界隨著大數(shù)據(jù)、人工智能算法、云計(jì)算等技術(shù)的發(fā)展機(jī)器翻譯技術(shù)又掀起一波新浪潮。伴隨著該項(xiàng)技術(shù)不斷發(fā)展的是一場(chǎng)由戰(zhàn)爭(zhēng)與壓迫轉(zhuǎn)為和平與發(fā)展的歷史,同時(shí)這項(xiàng)技術(shù)的發(fā)展背后亦隱藏著巨大的權(quán)力糾紛。
二十世紀(jì)五六十年代,在特殊的政治、經(jīng)濟(jì)、軍事等背景下該項(xiàng)技術(shù)受到了研究支持,發(fā)展成為一種新的監(jiān)控方式,也是應(yīng)對(duì)競(jìng)爭(zhēng)者的有力武器。
現(xiàn)實(shí)中的翻譯并不是單純地將一堆不懂的對(duì)象轉(zhuǎn)換成能夠理解的內(nèi)容。由于不同語(yǔ)種有著不同的特點(diǎn),強(qiáng)行的翻譯不可避免會(huì)抹殺一些小眾語(yǔ)種的文化特色,甚至?xí)惯@些語(yǔ)種逐漸消失。
機(jī)器翻譯也擁有眾多局限性,如小眾語(yǔ)種翻譯不成熟、無(wú)法表現(xiàn)表達(dá)語(yǔ)境情感、存在各種翻譯錯(cuò)誤等。
受利益的驅(qū)使,一部分翻譯技術(shù)的研發(fā)和應(yīng)用打著為了理解、為了和平的旗號(hào),卻極具諷刺意味地維護(hù)著文化障礙。
技術(shù)不是中立的,對(duì)待科學(xué)應(yīng)該保持一慣嚴(yán)謹(jǐn)?shù)膽B(tài)度,更不能一味地鼓吹技術(shù)的發(fā)展。
2019年,美國(guó)國(guó)土安全部(DHS)宣布了他們的計(jì)劃,要收集正在請(qǐng)求進(jìn)入美國(guó)的外國(guó)人社交媒體用戶(hù)名,不論是作為旅行者還是移民,作為新“極端審查”程序的一部分來(lái)確定他們是否可以進(jìn)入美國(guó)。對(duì)于那些在線活動(dòng)中用除英語(yǔ)以外的語(yǔ)言來(lái)交流的,美國(guó)公民及移民服務(wù)局發(fā)布的一份官方手冊(cè),指示管理者使用谷歌翻譯將他們的社交媒體帖子翻譯成英語(yǔ)。盡管谷歌宣告稱(chēng)其翻譯服務(wù)并不打算用來(lái)代替口譯譯員,但他們?nèi)匀痪S持這種做法。
Source: ProPublica
人類(lèi)語(yǔ)言翻譯的實(shí)際運(yùn)作長(zhǎng)期受到權(quán)力不對(duì)稱(chēng)的影響。例如,幾個(gè)世紀(jì)前,為了歐洲人能夠理解互不相關(guān)的語(yǔ)言,他們制定了適用于一系列語(yǔ)言社區(qū)和非洲大陸的界限,強(qiáng)制創(chuàng)建適用于這些物品的名字,創(chuàng)建語(yǔ)言文件和翻譯材料的基礎(chǔ)來(lái)加強(qiáng)對(duì)殖民者的統(tǒng)治。
為了翻譯《圣經(jīng)》從而向世界各地的土著人傳教,基督教傳教士給一批無(wú)文字語(yǔ)言創(chuàng)造了語(yǔ)法規(guī)則。歷史上實(shí)際充斥著殖民者強(qiáng)迫被殖民者學(xué)習(xí)其國(guó)家語(yǔ)言的例子,被殖民者常常因?yàn)橛媚刚Z(yǔ)說(shuō)話而面臨懲罰。在許多情況下,這種語(yǔ)言壓迫導(dǎo)致了土著語(yǔ)種的衰落。而且,殖民主體通過(guò)強(qiáng)制性的翻譯使土著語(yǔ)言變得可以理解的做法,則進(jìn)一步加深了對(duì)他們的奴役。
正如國(guó)土安全部審查協(xié)議所表明的那樣,無(wú)論是通過(guò)語(yǔ)言壓制還是強(qiáng)迫翻譯,機(jī)器翻譯技術(shù)的部署延伸了對(duì)下屬群體進(jìn)行制造差異化和施加權(quán)力的傳統(tǒng)。通過(guò)這種方式,語(yǔ)言技術(shù)成為了一種新的監(jiān)控手段。事實(shí)上,恰恰是這些利益的驅(qū)動(dòng),促進(jìn)了20世紀(jì)中期機(jī)器翻譯技術(shù)的發(fā)展。
機(jī)器翻譯最初發(fā)展時(shí)期的社會(huì)政治背景塑造了該技術(shù)領(lǐng)域的核心目標(biāo)和假設(shè),即它在商業(yè)環(huán)境中的持續(xù)發(fā)展和使用,不僅要方便,而且要在越來(lái)越大的范圍內(nèi)鞏固資源和權(quán)力。鑒于人們對(duì)翻譯技術(shù)使語(yǔ)言所有權(quán)的理解復(fù)雜化提出了越來(lái)越多的質(zhì)疑,語(yǔ)言社區(qū)開(kāi)始轉(zhuǎn)而抵抗。
機(jī)器翻譯的起源
美國(guó)的第一批機(jī)器翻譯工作是在冷戰(zhàn)的推動(dòng)下進(jìn)行的。早期的基于規(guī)則的系統(tǒng)主要是在軍方和其他聯(lián)邦機(jī)構(gòu)的資助下開(kāi)發(fā)并供其使用的,往往依賴(lài)于工程師和語(yǔ)言學(xué)家之間的跨學(xué)科協(xié)作。在政府資助下,經(jīng)過(guò)了一段以學(xué)術(shù)工作為主的穩(wěn)定研究。伴隨著商業(yè)化翻譯軟件的問(wèn)世,機(jī)器翻譯在20世紀(jì)90年代的個(gè)人計(jì)算機(jī)革命中,開(kāi)始廣為大眾使用。21世紀(jì),谷歌龐大的網(wǎng)頁(yè)內(nèi)容索引和大量資金使得統(tǒng)計(jì)(以及后來(lái)的神經(jīng))機(jī)器翻譯技術(shù)得以豐富和應(yīng)用,從而在網(wǎng)絡(luò)上部署了當(dāng)今普遍使用的免費(fèi)翻譯服務(wù)。
1949-1997機(jī)器翻譯的根基:1949-1997
“人們自然會(huì)想,翻譯的問(wèn)題是否可以想象為密碼學(xué)的問(wèn)題。當(dāng)我看到一篇俄語(yǔ)寫(xiě)的文章時(shí),我會(huì)說(shuō),‘這篇文章確實(shí)是用英語(yǔ)寫(xiě)的,但它被編碼成一些奇怪的符號(hào)。我現(xiàn)在要開(kāi)始解碼了。’”
——Warren Weaver, in correspondence to Norbert Wiener, 19472
現(xiàn)代機(jī)器技術(shù)的根源可以追溯到二戰(zhàn)期間的密碼學(xué)和破譯密碼工作。曾與先驅(qū)信息理論家Claude Shannon合作的美國(guó)科學(xué)家Warren Weaver對(duì)信息理論在人類(lèi)語(yǔ)言翻譯中的應(yīng)用產(chǎn)生了興趣。1949年,時(shí)任洛克菲勒研究所自然科學(xué)部主任的Weaver向少數(shù)幾個(gè)語(yǔ)言學(xué)家和工程師分發(fā)了一份題為《翻譯》的極具影響力的備忘錄,其中他提出了將計(jì)算機(jī)應(yīng)用于人類(lèi)語(yǔ)言翻譯的行動(dòng)呼吁。韋弗的備忘錄推動(dòng)了包括華盛頓大學(xué)、喬治敦大學(xué)、IBM和蘭德公司在內(nèi)的學(xué)術(shù)界和工業(yè)界的各種機(jī)構(gòu)在機(jī)器翻譯方面的研究工作。
Source: HistoryOfInformation.com
在首次自動(dòng)翻譯中,僅僅決定以哪些語(yǔ)言為目標(biāo)是一個(gè)政治決定,這在當(dāng)時(shí)是由美國(guó)和蘇聯(lián)之間的冷戰(zhàn)競(jìng)爭(zhēng)所決定的,尤其是受到增加俄文科學(xué)文獻(xiàn)期望的影響。Anthony Oettinger當(dāng)時(shí)是哈佛大學(xué)的一名本科生,他回憶說(shuō),他被招募與韋弗備忘錄的接受者之一的計(jì)算機(jī)科學(xué)家Howard Aiken合作,特別是因?yàn)樗且幻碚Z(yǔ)學(xué)生。
Source: HistoryOfInformation.com
研究工作繼續(xù)穩(wěn)步進(jìn)行,盡管喬治敦-IBM團(tuán)隊(duì)前瞻性地對(duì)俄語(yǔ)-英語(yǔ)翻譯進(jìn)行了系統(tǒng)演示,但在20世紀(jì)60年代,由于ALPAC報(bào)告哀嘆機(jī)器翻譯的質(zhì)量不佳,否定了其可行性,導(dǎo)致該項(xiàng)目資金縮水。然而,美國(guó)政府仍然是機(jī)器翻譯技術(shù)的忠實(shí)消費(fèi)者;在Tom Pedtke于1997年在第六屆機(jī)器翻譯峰會(huì)上的主題演講中,在政府的要求下,他回顧了20世紀(jì)90年代的幾個(gè)關(guān)鍵發(fā)展點(diǎn)。例如,1991年緝毒署將資源用于改善西班牙語(yǔ)-英語(yǔ)翻譯,而漢語(yǔ)-英語(yǔ)和韓語(yǔ)-英語(yǔ)翻譯項(xiàng)目則得到了美國(guó)國(guó)家安全局、聯(lián)邦調(diào)查局、DARPA和海軍的支持。然而,在20世紀(jì)90年代末,機(jī)器翻譯的主要參與者(和消費(fèi)者)發(fā)生了變化。
數(shù)據(jù)驅(qū)動(dòng)的翻譯
“目前硅谷發(fā)生的最重要的事情不是顛覆。相反,而是體制建設(shè)和權(quán)力的鞏固——其規(guī)模和速度在人類(lèi)歷史上可能都是前所未有的。”
——Gideon Lewis-Kraus,《人工智能大覺(jué)醒》《紐約時(shí)報(bào)》雜志,2016年12月14日。
到20世紀(jì)90年代中后期,計(jì)算機(jī)處理能力的進(jìn)步和個(gè)人計(jì)算機(jī)革命的發(fā)展促進(jìn)了翻譯工具的進(jìn)步。1997年,從喬治敦大學(xué)的機(jī)器翻譯項(xiàng)目發(fā)展起來(lái)的SYSTRAN與硬件巨頭數(shù)字設(shè)備公司合作,推出了第一個(gè)基于網(wǎng)絡(luò)的免費(fèi)翻譯服務(wù)AltaVista。
它最初僅限于英語(yǔ)和少數(shù)羅馬語(yǔ)之間的翻譯,受到了廣泛的贊譽(yù);用戶(hù)研究揭示了這項(xiàng)服務(wù)是如何使人們能夠與心愛(ài)的單語(yǔ)家庭成員進(jìn)行交流的,并且在翻譯問(wèn)題時(shí)提供了獨(dú)特的娛樂(lè)來(lái)源,這項(xiàng)成果振奮人心。次年,谷歌成立。作為斯坦福大學(xué)的研究生,Sergey Brin和Larry Page已經(jīng)開(kāi)始著手為新生建立一個(gè)龐大的新興的萬(wàn)維網(wǎng)內(nèi)容索引,作為由DARPA、NSF和NASA共同資助的數(shù)字圖書(shū)館項(xiàng)目的一部分;這項(xiàng)工作將成為谷歌搜索引擎的基礎(chǔ)。
到2004年,谷歌已成為一家價(jià)值巨大的上市公司,贏得了全世界網(wǎng)民的好評(píng)。Brin聲稱(chēng),韓國(guó)粉絲的一條信息,被SYSTRAN軟件許可誤譯為“生魚(yú)片的鞋子它希望。谷歌青蔥的事!”,這促使谷歌決定擴(kuò)大包括語(yǔ)言翻譯在內(nèi)的能力。畢竟,在谷歌對(duì)所有網(wǎng)頁(yè)進(jìn)行索引的過(guò)程中,它需要能夠包括互聯(lián)網(wǎng)中那些不是英語(yǔ)的部分。
Franz Och, with a copy of the Rosetta Stone. Source: New York Times
當(dāng)年,Page聯(lián)系了當(dāng)時(shí)在南加州大學(xué)信息科學(xué)研究所擔(dān)任研究科學(xué)家的弗Franz Och,聘請(qǐng)他建立后來(lái)的谷歌翻譯。Och起初持懷疑態(tài)度,對(duì)一家搜索引擎公司為何要涉足翻譯領(lǐng)域感到困惑,但谷歌用前所未有的計(jì)算資源來(lái)推動(dòng)機(jī)器翻譯的前沿性發(fā)展吸引了他,而谷歌所掌握的絕對(duì)數(shù)量的文本數(shù)據(jù)使之成為新的突破口。
在接下來(lái)的幾年里,在奧奇Och的指導(dǎo)下,谷歌翻譯超過(guò)了大學(xué)研究小組的其他機(jī)器翻譯的工作,為數(shù)十種語(yǔ)言開(kāi)發(fā)了高效的系統(tǒng)。2010年,在美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院主持機(jī)器翻譯評(píng)估競(jìng)賽的Mark Przybocki將谷歌的競(jìng)爭(zhēng)優(yōu)勢(shì)比作“與擁有一個(gè)足球場(chǎng)大小的處理器來(lái)收集數(shù)據(jù)的人進(jìn)行對(duì)抗”。如今,谷歌翻譯擁有在一百多種語(yǔ)言之間翻譯文本的能力,微軟和Facebook等其他科技巨頭也紛紛涉足機(jī)器翻譯研究。
機(jī)器翻譯的使用和濫用
推動(dòng)機(jī)器翻譯發(fā)展的是對(duì)未知語(yǔ)境資源的強(qiáng)烈追求。美國(guó)機(jī)器翻譯的最早努力是為了破譯冷戰(zhàn)時(shí)期的俄羅斯通信和科學(xué)論文,而現(xiàn)在,谷歌已經(jīng)部署了其最先進(jìn)的機(jī)器翻譯工具來(lái)構(gòu)建其龐大的世界在線內(nèi)容數(shù)據(jù)庫(kù)。雖然普通用戶(hù)通過(guò)使用谷歌翻譯得到了便利,但這些免費(fèi)的工具可以被理解為“鉤子”,使用戶(hù)進(jìn)一步陷入監(jiān)視資本主義的抽象化關(guān)系中,并“將經(jīng)濟(jì)活動(dòng)轉(zhuǎn)移到作為翻譯提供者的少數(shù)科技巨頭身上”。
雖然享受到機(jī)器翻譯福利的主要政府強(qiáng)調(diào)是通過(guò)該項(xiàng)技術(shù)來(lái)實(shí)現(xiàn)相互理解以“維護(hù)和平”,而谷歌則將其翻譯服務(wù)宣傳為“打破語(yǔ)言障礙和使世界更易接近”的工具。
這種語(yǔ)言作為“障礙”的意象在關(guān)于機(jī)器翻譯的討論中經(jīng)常被引用,為這些障礙被打破后的普遍理解提供了一個(gè)烏托邦式的觀點(diǎn)。頗具諷刺意味的是,正如美國(guó)國(guó)土安全部的社交媒體審查程序所顯示的那樣,翻譯軟件是被專(zhuān)門(mén)用來(lái)維護(hù)文化障礙的,只是增加了一個(gè)劃分“內(nèi)”和“外”群體的技術(shù)工具庫(kù)。
Source: Evaluating Gender Bias in Machine Translation
使問(wèn)題更加復(fù)雜的是,對(duì)許多語(yǔ)言來(lái)說(shuō)神經(jīng)系統(tǒng)機(jī)器翻譯輸出的貌似流暢的語(yǔ)言可以掩蓋事實(shí),即系統(tǒng)仍然難以產(chǎn)生準(zhǔn)確的翻譯,可以放大社會(huì)偏見(jiàn),并容易在翻譯重要意義時(shí)出現(xiàn)不準(zhǔn)確,比如否定意義。
機(jī)器翻譯技術(shù)在高危場(chǎng)景下被頻繁使用尤其危險(xiǎn),例如在警察和平民之間的案件調(diào)查中,我們必須警惕在應(yīng)用概率法試圖讓人們看清楚真相,卻掩蓋或歪曲了事實(shí),翻譯也不例外。與此同時(shí),我們還必須注意諸如警察與平民辦案等場(chǎng)景一開(kāi)始就變得如此高風(fēng)險(xiǎn)的條件——更精確的翻譯系統(tǒng)不會(huì)有意識(shí)地打破社會(huì)的權(quán)力失衡,我們也不應(yīng)該假裝它們會(huì)。
由于本文是在全球COVID-19大流行的情況下起草的,我們不能忽視翻譯在交流和傳播有關(guān)預(yù)防、試驗(yàn)和尋求治療最佳方法的重要信息方面所發(fā)揮的關(guān)鍵作用。越來(lái)越依賴(lài)自動(dòng)翻譯從國(guó)際科學(xué)知識(shí)生態(tài)系統(tǒng)中拾遺補(bǔ)缺,這促使人們呼吁學(xué)者們發(fā)展“機(jī)器翻譯素養(yǎng)”,以了解自動(dòng)翻譯學(xué)術(shù)文本的缺陷。技術(shù)專(zhuān)家、政策制定者和受影響的利益相關(guān)者在界定機(jī)器翻譯的適當(dāng)用途時(shí),必須考慮機(jī)器翻譯的局限性。
對(duì)機(jī)器翻譯的反思和重塑
“語(yǔ)言不是可以被定位或重新定位的有形物體,這一事實(shí)使文化所有權(quán)問(wèn)題比具體的藝術(shù)品或其他文化對(duì)象更微妙,但也更迫切”
——Margaret Speas,《語(yǔ)言所有權(quán)和語(yǔ)言意識(shí)形態(tài)》
“語(yǔ)言不是像財(cái)產(chǎn)被盜那樣的方式被盜。相反,人們被剝奪了塑造自己的文化和教育實(shí)踐所必須的主權(quán)?!?/span>
——Kerim Friedman
最先進(jìn)的神經(jīng)系統(tǒng)機(jī)器翻譯技術(shù)的訓(xùn)練和評(píng)估,逐漸依賴(lài)于人類(lèi)翻譯者產(chǎn)生的大量的平行語(yǔ)料數(shù)據(jù),這種做法是由范式的信息理論根源所決定的。在翻譯學(xué)者和文學(xué)評(píng)論家看來(lái),韋弗將語(yǔ)言之間的翻譯定性為僅僅是對(duì)編碼信息的解密,可能顯得很粗陋,其中的一些人對(duì)忠實(shí)翻譯的可能性持保留態(tài)度(尤其是文學(xué)和詩(shī)歌,韋弗本人也承認(rèn)了這一局限性)。
事實(shí)上,文本之間的“對(duì)等”概念在翻譯研究中受到了激烈的爭(zhēng)論。這并不是說(shuō)機(jī)器翻譯在認(rèn)識(shí)論上講是失敗的;當(dāng)代機(jī)器翻譯范式的平行文本基礎(chǔ)與奎因(Quine)的實(shí)用主義、行為主義的翻譯方法相一致。無(wú)論人們是否認(rèn)為這種框架有說(shuō)服力,重要的是要認(rèn)識(shí)到作為黃金標(biāo)準(zhǔn)翻譯的數(shù)據(jù)體現(xiàn)了編寫(xiě)者的處境和主觀立場(chǎng),這影響了隨后嵌入自動(dòng)化系統(tǒng)的關(guān)聯(lián)。
當(dāng)代神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的成功在很大程度依賴(lài)于大量的網(wǎng)絡(luò)語(yǔ)言數(shù)據(jù)。有成千上萬(wàn)種所謂的“低資源”語(yǔ)言(以及廣泛使用的語(yǔ)言中的小眾化方言),對(duì)于這些語(yǔ)言,既不存在對(duì)行業(yè)巨頭開(kāi)發(fā)翻譯工具的政治或財(cái)產(chǎn)激勵(lì),也沒(méi)有成功應(yīng)用神經(jīng)機(jī)器翻譯所需的大量數(shù)字化資源。在這方面,語(yǔ)言社區(qū)可能有空間選擇性地決定是否—以及如果是的話,向誰(shuí)—提交他們的知識(shí)和文化以供觀察。
2005年,馬普切人的領(lǐng)導(dǎo)人對(duì)微軟公司提起訴訟,指責(zé)他們是“知識(shí)盜版”,因?yàn)檫@家軟件公司試圖用馬普切人的語(yǔ)言Mapudungun發(fā)布Windows操作系統(tǒng)的版本,但最終沒(méi)有成功。
微軟沒(méi)有與馬普切人協(xié)商,也沒(méi)有征得他們的同意使用他們的語(yǔ)言,而是與智利政府合作開(kāi)發(fā)該資源,然而這起訴訟卻讓人感到出乎意料,技術(shù)使一個(gè)人是否能真正“擁有”一種語(yǔ)言的問(wèn)題變得復(fù)雜化;在網(wǎng)上搜羅的一千句話的語(yǔ)料庫(kù)是否足以為后續(xù)的處理和翻譯提供足夠的形態(tài)句法特征?如果一個(gè)語(yǔ)言社區(qū)不愿委托軟件公司開(kāi)發(fā)他們語(yǔ)言的工具,他們有什么辦法?
Source
西方關(guān)于語(yǔ)言瀕危的論述不加批判地將開(kāi)發(fā)低資源語(yǔ)言的技術(shù)視為一種社會(huì)福利,事實(shí)上,“低資源”這種說(shuō)法本身就隱含著考慮采集數(shù)據(jù)的優(yōu)先順序,而一種語(yǔ)言的使用者本身就有很多能力,如成語(yǔ)、笑話、寓言和口述歷史。
另一方面,強(qiáng)制同化和殖民化導(dǎo)致無(wú)數(shù)土著語(yǔ)言的母語(yǔ)使用者數(shù)量銳減,毛利語(yǔ)和尤皮克語(yǔ)等語(yǔ)言記載和傳承問(wèn)題越來(lái)越成為人們關(guān)注的焦點(diǎn)。最近舉辦的第一屆美洲土著語(yǔ)言NLP研討會(huì)等活動(dòng)也支持了這項(xiàng)工作。
Masakhane 項(xiàng)目采用參與式方法來(lái)解決數(shù)十種非洲語(yǔ)言的技術(shù)資源匱乏問(wèn)題,提議由非洲人創(chuàng)造語(yǔ)言技術(shù),這促使一些受影響的利益攸關(guān)方從項(xiàng)目一開(kāi)始就參與指導(dǎo)研究方向和數(shù)據(jù)的收集整理工作。Masakhane 為沒(méi)有經(jīng)過(guò)正規(guī)方法培訓(xùn)的參與者創(chuàng)造了直接和有意義的參與方式,并代表著向使用翻譯技術(shù)賦予非洲語(yǔ)言的母語(yǔ)者和傳承者權(quán)力方面邁出了充滿(mǎn)希望的一步。
機(jī)器翻譯技術(shù)的創(chuàng)造、發(fā)展和部署,在歷史上與監(jiān)視和治理的實(shí)踐糾纏在一起。翻譯仍然是一種政治行為,而數(shù)據(jù)驅(qū)動(dòng)的機(jī)器翻譯發(fā)展主要集中在工業(yè)領(lǐng)域,使翻譯轉(zhuǎn)移權(quán)力的機(jī)制變得復(fù)雜化。認(rèn)識(shí)到機(jī)器翻譯作為一種工具和范式的缺陷,對(duì)于更好的闡明其使用適當(dāng)?shù)恼Z(yǔ)境和背景是必要的。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。