技術非中立，語言非同質(zhì)：機器翻譯正被用于維護文化障礙

本文作者：我在思考中

2021-08-24 11:13

導語：對機器翻譯的發(fā)展、反思與重塑。

編譯 | 王曄

校對 | 青暮

當今世界隨著大數(shù)據(jù)、人工智能算法、云計算等技術的發(fā)展機器翻譯技術又掀起一波新浪潮。伴隨著該項技術不斷發(fā)展的是一場由戰(zhàn)爭與壓迫轉(zhuǎn)為和平與發(fā)展的歷史，同時這項技術的發(fā)展背后亦隱藏著巨大的權力糾紛。

二十世紀五六十年代，在特殊的政治、經(jīng)濟、軍事等背景下該項技術受到了研究支持，發(fā)展成為一種新的監(jiān)控方式，也是應對競爭者的有力武器。

現(xiàn)實中的翻譯并不是單純地將一堆不懂的對象轉(zhuǎn)換成能夠理解的內(nèi)容。由于不同語種有著不同的特點，強行的翻譯不可避免會抹殺一些小眾語種的文化特色，甚至會使這些語種逐漸消失。

機器翻譯也擁有眾多局限性，如小眾語種翻譯不成熟、無法表現(xiàn)表達語境情感、存在各種翻譯錯誤等。

受利益的驅(qū)使，一部分翻譯技術的研發(fā)和應用打著為了理解、為了和平的旗號，卻極具諷刺意味地維護著文化障礙。

技術不是中立的，對待科學應該保持一慣嚴謹?shù)膽B(tài)度，更不能一味地鼓吹技術的發(fā)展。

2019年，美國國土安全部（DHS）宣布了他們的計劃，要收集正在請求進入美國的外國人社交媒體用戶名，不論是作為旅行者還是移民，作為新“極端審查”程序的一部分來確定他們是否可以進入美國。對于那些在線活動中用除英語以外的語言來交流的，美國公民及移民服務局發(fā)布的一份官方手冊，指示管理者使用谷歌翻譯將他們的社交媒體帖子翻譯成英語。盡管谷歌宣告稱其翻譯服務并不打算用來代替口譯譯員，但他們?nèi)匀痪S持這種做法。

技術非中立，語言非同質(zhì)：機器翻譯正被用于維護文化障礙 Source: ProPublica

人類語言翻譯的實際運作長期受到權力不對稱的影響。例如，幾個世紀前，為了歐洲人能夠理解互不相關的語言，他們制定了適用于一系列語言社區(qū)和非洲大陸的界限，強制創(chuàng)建適用于這些物品的名字，創(chuàng)建語言文件和翻譯材料的基礎來加強對殖民者的統(tǒng)治。

為了翻譯《圣經(jīng)》從而向世界各地的土著人傳教，基督教傳教士給一批無文字語言創(chuàng)造了語法規(guī)則。歷史上實際充斥著殖民者強迫被殖民者學習其國家語言的例子，被殖民者常常因為用母語說話而面臨懲罰。在許多情況下，這種語言壓迫導致了土著語種的衰落。而且，殖民主體通過強制性的翻譯使土著語言變得可以理解的做法，則進一步加深了對他們的奴役。

正如國土安全部審查協(xié)議所表明的那樣，無論是通過語言壓制還是強迫翻譯，機器翻譯技術的部署延伸了對下屬群體進行制造差異化和施加權力的傳統(tǒng)。通過這種方式，語言技術成為了一種新的監(jiān)控手段。事實上，恰恰是這些利益的驅(qū)動，促進了20世紀中期機器翻譯技術的發(fā)展。

機器翻譯最初發(fā)展時期的社會政治背景塑造了該技術領域的核心目標和假設，即它在商業(yè)環(huán)境中的持續(xù)發(fā)展和使用，不僅要方便，而且要在越來越大的范圍內(nèi)鞏固資源和權力。鑒于人們對翻譯技術使語言所有權的理解復雜化提出了越來越多的質(zhì)疑，語言社區(qū)開始轉(zhuǎn)而抵抗。

機器翻譯的起源

美國的第一批機器翻譯工作是在冷戰(zhàn)的推動下進行的。早期的基于規(guī)則的系統(tǒng)主要是在軍方和其他聯(lián)邦機構的資助下開發(fā)并供其使用的，往往依賴于工程師和語言學家之間的跨學科協(xié)作。在政府資助下，經(jīng)過了一段以學術工作為主的穩(wěn)定研究。伴隨著商業(yè)化翻譯軟件的問世，機器翻譯在20世紀90年代的個人計算機革命中，開始廣為大眾使用。21世紀，谷歌龐大的網(wǎng)頁內(nèi)容索引和大量資金使得統(tǒng)計（以及后來的神經(jīng))機器翻譯技術得以豐富和應用，從而在網(wǎng)絡上部署了當今普遍使用的免費翻譯服務。

1949-1997機器翻譯的根基：1949-1997

“人們自然會想，翻譯的問題是否可以想象為密碼學的問題。當我看到一篇俄語寫的文章時，我會說，‘這篇文章確實是用英語寫的，但它被編碼成一些奇怪的符號。我現(xiàn)在要開始解碼了。’”

——Warren Weaver, in correspondence to Norbert Wiener, 19472

現(xiàn)代機器技術的根源可以追溯到二戰(zhàn)期間的密碼學和破譯密碼工作。曾與先驅(qū)信息理論家Claude Shannon合作的美國科學家Warren Weaver對信息理論在人類語言翻譯中的應用產(chǎn)生了興趣。1949年，時任洛克菲勒研究所自然科學部主任的Weaver向少數(shù)幾個語言學家和工程師分發(fā)了一份題為《翻譯》的極具影響力的備忘錄，其中他提出了將計算機應用于人類語言翻譯的行動呼吁。韋弗的備忘錄推動了包括華盛頓大學、喬治敦大學、IBM和蘭德公司在內(nèi)的學術界和工業(yè)界的各種機構在機器翻譯方面的研究工作。

技術非中立，語言非同質(zhì)：機器翻譯正被用于維護文化障礙 Source: HistoryOfInformation.com

在首次自動翻譯中，僅僅決定以哪些語言為目標是一個政治決定，這在當時是由美國和蘇聯(lián)之間的冷戰(zhàn)競爭所決定的，尤其是受到增加俄文科學文獻期望的影響。Anthony Oettinger當時是哈佛大學的一名本科生，他回憶說，他被招募與韋弗備忘錄的接受者之一的計算機科學家Howard Aiken合作，特別是因為他是一名俄語學生。

技術非中立，語言非同質(zhì)：機器翻譯正被用于維護文化障礙 Source: HistoryOfInformation.com

研究工作繼續(xù)穩(wěn)步進行，盡管喬治敦-IBM團隊前瞻性地對俄語-英語翻譯進行了系統(tǒng)演示，但在20世紀60年代，由于ALPAC報告哀嘆機器翻譯的質(zhì)量不佳，否定了其可行性，導致該項目資金縮水。然而，美國政府仍然是機器翻譯技術的忠實消費者；在Tom Pedtke于1997年在第六屆機器翻譯峰會上的主題演講中，在政府的要求下，他回顧了20世紀90年代的幾個關鍵發(fā)展點。例如，1991年緝毒署將資源用于改善西班牙語-英語翻譯，而漢語-英語和韓語-英語翻譯項目則得到了美國國家安全局、聯(lián)邦調(diào)查局、DARPA和海軍的支持。然而，在20世紀90年代末，機器翻譯的主要參與者（和消費者)發(fā)生了變化。

數(shù)據(jù)驅(qū)動的翻譯

“目前硅谷發(fā)生的最重要的事情不是顛覆。相反，而是體制建設和權力的鞏固——其規(guī)模和速度在人類歷史上可能都是前所未有的?！?nbsp;

——Gideon Lewis-Kraus，《人工智能大覺醒》《紐約時報》雜志，2016年12月14日。

到20世紀90年代中后期，計算機處理能力的進步和個人計算機革命的發(fā)展促進了翻譯工具的進步。1997年，從喬治敦大學的機器翻譯項目發(fā)展起來的SYSTRAN與硬件巨頭數(shù)字設備公司合作，推出了第一個基于網(wǎng)絡的免費翻譯服務AltaVista。

它最初僅限于英語和少數(shù)羅馬語之間的翻譯，受到了廣泛的贊譽；用戶研究揭示了這項服務是如何使人們能夠與心愛的單語家庭成員進行交流的，并且在翻譯問題時提供了獨特的娛樂來源，這項成果振奮人心。次年，谷歌成立。作為斯坦福大學的研究生，Sergey Brin和Larry Page已經(jīng)開始著手為新生建立一個龐大的新興的萬維網(wǎng)內(nèi)容索引，作為由DARPA、NSF和NASA共同資助的數(shù)字圖書館項目的一部分；這項工作將成為谷歌搜索引擎的基礎。

到2004年，谷歌已成為一家價值巨大的上市公司，贏得了全世界網(wǎng)民的好評。Brin聲稱，韓國粉絲的一條信息，被SYSTRAN軟件許可誤譯為“生魚片的鞋子它希望。谷歌青蔥的事！”，這促使谷歌決定擴大包括語言翻譯在內(nèi)的能力。畢竟，在谷歌對所有網(wǎng)頁進行索引的過程中，它需要能夠包括互聯(lián)網(wǎng)中那些不是英語的部分。

技術非中立，語言非同質(zhì)：機器翻譯正被用于維護文化障礙 Franz Och, with a copy of the Rosetta Stone. Source: New York Times

當年，Page聯(lián)系了當時在南加州大學信息科學研究所擔任研究科學家的弗Franz Och，聘請他建立后來的谷歌翻譯。Och起初持懷疑態(tài)度，對一家搜索引擎公司為何要涉足翻譯領域感到困惑，但谷歌用前所未有的計算資源來推動機器翻譯的前沿性發(fā)展吸引了他，而谷歌所掌握的絕對數(shù)量的文本數(shù)據(jù)使之成為新的突破口。

在接下來的幾年里，在奧奇Och的指導下，谷歌翻譯超過了大學研究小組的其他機器翻譯的工作，為數(shù)十種語言開發(fā)了高效的系統(tǒng)。2010年，在美國國家標準與技術研究院主持機器翻譯評估競賽的Mark Przybocki將谷歌的競爭優(yōu)勢比作“與擁有一個足球場大小的處理器來收集數(shù)據(jù)的人進行對抗”。如今，谷歌翻譯擁有在一百多種語言之間翻譯文本的能力，微軟和Facebook等其他科技巨頭也紛紛涉足機器翻譯研究。

機器翻譯的使用和濫用

推動機器翻譯發(fā)展的是對未知語境資源的強烈追求。美國機器翻譯的最早努力是為了破譯冷戰(zhàn)時期的俄羅斯通信和科學論文，而現(xiàn)在，谷歌已經(jīng)部署了其最先進的機器翻譯工具來構建其龐大的世界在線內(nèi)容數(shù)據(jù)庫。雖然普通用戶通過使用谷歌翻譯得到了便利，但這些免費的工具可以被理解為“鉤子”，使用戶進一步陷入監(jiān)視資本主義的抽象化關系中，并“將經(jīng)濟活動轉(zhuǎn)移到作為翻譯提供者的少數(shù)科技巨頭身上”。

雖然享受到機器翻譯福利的主要政府強調(diào)是通過該項技術來實現(xiàn)相互理解以“維護和平”，而谷歌則將其翻譯服務宣傳為“打破語言障礙和使世界更易接近”的工具。

這種語言作為“障礙”的意象在關于機器翻譯的討論中經(jīng)常被引用，為這些障礙被打破后的普遍理解提供了一個烏托邦式的觀點。頗具諷刺意味的是，正如美國國土安全部的社交媒體審查程序所顯示的那樣，翻譯軟件是被專門用來維護文化障礙的，只是增加了一個劃分“內(nèi)”和“外”群體的技術工具庫。

技術非中立，語言非同質(zhì)：機器翻譯正被用于維護文化障礙 Source: Evaluating Gender Bias in Machine Translation

使問題更加復雜的是，對許多語言來說神經(jīng)系統(tǒng)機器翻譯輸出的貌似流暢的語言可以掩蓋事實，即系統(tǒng)仍然難以產(chǎn)生準確的翻譯，可以放大社會偏見，并容易在翻譯重要意義時出現(xiàn)不準確，比如否定意義。

機器翻譯技術在高危場景下被頻繁使用尤其危險，例如在警察和平民之間的案件調(diào)查中，我們必須警惕在應用概率法試圖讓人們看清楚真相，卻掩蓋或歪曲了事實，翻譯也不例外。與此同時，我們還必須注意諸如警察與平民辦案等場景一開始就變得如此高風險的條件——更精確的翻譯系統(tǒng)不會有意識地打破社會的權力失衡，我們也不應該假裝它們會。

由于本文是在全球COVID-19大流行的情況下起草的，我們不能忽視翻譯在交流和傳播有關預防、試驗和尋求治療最佳方法的重要信息方面所發(fā)揮的關鍵作用。越來越依賴自動翻譯從國際科學知識生態(tài)系統(tǒng)中拾遺補缺，這促使人們呼吁學者們發(fā)展“機器翻譯素養(yǎng)”，以了解自動翻譯學術文本的缺陷。技術專家、政策制定者和受影響的利益相關者在界定機器翻譯的適當用途時，必須考慮機器翻譯的局限性。

對機器翻譯的反思和重塑

“語言不是可以被定位或重新定位的有形物體，這一事實使文化所有權問題比具體的藝術品或其他文化對象更微妙，但也更迫切”

——Margaret Speas，《語言所有權和語言意識形態(tài)》

“語言不是像財產(chǎn)被盜那樣的方式被盜。相反，人們被剝奪了塑造自己的文化和教育實踐所必須的主權?！?/span>

——Kerim Friedman

最先進的神經(jīng)系統(tǒng)機器翻譯技術的訓練和評估，逐漸依賴于人類翻譯者產(chǎn)生的大量的平行語料數(shù)據(jù)，這種做法是由范式的信息理論根源所決定的。在翻譯學者和文學評論家看來，韋弗將語言之間的翻譯定性為僅僅是對編碼信息的解密，可能顯得很粗陋，其中的一些人對忠實翻譯的可能性持保留態(tài)度（尤其是文學和詩歌，韋弗本人也承認了這一局限性)。

事實上，文本之間的“對等”概念在翻譯研究中受到了激烈的爭論。這并不是說機器翻譯在認識論上講是失敗的；當代機器翻譯范式的平行文本基礎與奎因(Quine)的實用主義、行為主義的翻譯方法相一致。無論人們是否認為這種框架有說服力，重要的是要認識到作為黃金標準翻譯的數(shù)據(jù)體現(xiàn)了編寫者的處境和主觀立場，這影響了隨后嵌入自動化系統(tǒng)的關聯(lián)。

當代神經(jīng)網(wǎng)絡機器翻譯的成功在很大程度依賴于大量的網(wǎng)絡語言數(shù)據(jù)。有成千上萬種所謂的“低資源”語言（以及廣泛使用的語言中的小眾化方言)，對于這些語言，既不存在對行業(yè)巨頭開發(fā)翻譯工具的政治或財產(chǎn)激勵，也沒有成功應用神經(jīng)機器翻譯所需的大量數(shù)字化資源。在這方面，語言社區(qū)可能有空間選擇性地決定是否—以及如果是的話，向誰—提交他們的知識和文化以供觀察。

2005年，馬普切人的領導人對微軟公司提起訴訟，指責他們是“知識盜版”，因為這家軟件公司試圖用馬普切人的語言Mapudungun發(fā)布Windows操作系統(tǒng)的版本，但最終沒有成功。

微軟沒有與馬普切人協(xié)商，也沒有征得他們的同意使用他們的語言，而是與智利政府合作開發(fā)該資源，然而這起訴訟卻讓人感到出乎意料，技術使一個人是否能真正“擁有”一種語言的問題變得復雜化；在網(wǎng)上搜羅的一千句話的語料庫是否足以為后續(xù)的處理和翻譯提供足夠的形態(tài)句法特征？如果一個語言社區(qū)不愿委托軟件公司開發(fā)他們語言的工具，他們有什么辦法？

技術非中立，語言非同質(zhì)：機器翻譯正被用于維護文化障礙 Source

西方關于語言瀕危的論述不加批判地將開發(fā)低資源語言的技術視為一種社會福利，事實上，“低資源”這種說法本身就隱含著考慮采集數(shù)據(jù)的優(yōu)先順序，而一種語言的使用者本身就有很多能力，如成語、笑話、寓言和口述歷史。

另一方面，強制同化和殖民化導致無數(shù)土著語言的母語使用者數(shù)量銳減，毛利語和尤皮克語等語言記載和傳承問題越來越成為人們關注的焦點。最近舉辦的第一屆美洲土著語言NLP研討會等活動也支持了這項工作。

Masakhane 項目采用參與式方法來解決數(shù)十種非洲語言的技術資源匱乏問題，提議由非洲人創(chuàng)造語言技術，這促使一些受影響的利益攸關方從項目一開始就參與指導研究方向和數(shù)據(jù)的收集整理工作。Masakhane 為沒有經(jīng)過正規(guī)方法培訓的參與者創(chuàng)造了直接和有意義的參與方式，并代表著向使用翻譯技術賦予非洲語言的母語者和傳承者權力方面邁出了充滿希望的一步。

機器翻譯技術的創(chuàng)造、發(fā)展和部署，在歷史上與監(jiān)視和治理的實踐糾纏在一起。翻譯仍然是一種政治行為，而數(shù)據(jù)驅(qū)動的機器翻譯發(fā)展主要集中在工業(yè)領域，使翻譯轉(zhuǎn)移權力的機制變得復雜化。認識到機器翻譯作為一種工具和范式的缺陷，對于更好的闡明其使用適當?shù)恼Z境和背景是必要的。

原文鏈接：

https://thegradient.pub/machine-translation-shifts-power/

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)特約稿件，未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

我在思考中

運營

發(fā)私信

當月熱門文章

技術非中立，語言非同質(zhì)：機器翻譯正被用于維護文化障礙

技術非中立，語言非同質(zhì)：機器翻譯正被用于維護文化障礙