Facebook開源最大規(guī)模并行語料，45億語料，覆蓋576種語言對

本文作者： camel

2020-02-07 16:33

導(dǎo)語：或成為NMT評估標(biāo)準(zhǔn)

雷鋒網(wǎng)AI科技評論按：當(dāng)前自然語言處理中的大多數(shù)方法都是數(shù)據(jù)驅(qū)動的，大多數(shù)多語言模型（特別是神經(jīng)機器翻譯系統(tǒng)）都需要并行語料庫進行訓(xùn)練。大多數(shù)的并行文本都只是適用于幾個主要語言（例如英語、漢語），且限制于特定的領(lǐng)域。

為了解決這一問題，在去年七月份，F(xiàn)acebook曾發(fā)布了第一個系統(tǒng)處理Wikipedia上所有語言（包括資源貧乏的語言和方言）的數(shù)據(jù)集WikiMatrix，大約包含了億級的并行語料，覆蓋1620種語言對。

據(jù)雷鋒網(wǎng)AI科技評論了解，最近Facebook基于新的方法和數(shù)據(jù)源，開發(fā)并開源了一個目前為止最大的并行語料數(shù)據(jù)集 CCMatrix。這個數(shù)據(jù)集包含 45 億并行語料（是WikiMatrix的近50倍），覆蓋576種語言對。

Facebook開源最大規(guī)模并行語料，45億語料，覆蓋576種語言對

論文：https://arxiv.org/abs/1911.04944

數(shù)據(jù)集開源地址：https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

1、語料庫構(gòu)建

首先，從語料來源上講。目前有幾個公共的多語言并行語料庫，主要來自一些國際會議（如European Parliament 、the United Nations）的語料，這些都是專業(yè)的人工翻譯語料，使用語言較為正式，且僅限于政治主題。此外也有幾個依靠志愿者翻譯而形成的語料庫，例如news commentary 、Opensub- Titles 、the TED corpus等。2019年Facebook的Schwenk等人曾利用Wikipedia中的語料進行挖掘，從而開發(fā)了WikiMatrix數(shù)據(jù)集。

以上這些，從數(shù)據(jù)來源上講都有局限。為了使并行語料庫量大、覆蓋主題廣泛，F(xiàn)acebook在CCMatrix這項工作中，選擇使用了隨機抓取web中的數(shù)據(jù)作為并行語料的來源，他們每個月隨機發(fā)送url，從而獲得包含各種語言的網(wǎng)頁快照（TB級）。

Facebook開源最大規(guī)模并行語料，45億語料，覆蓋576種語言對

十次快照語料中，不同語言的單句數(shù)量（其中一次快照只包含英語）

然后通過預(yù)處理去除高達70%的重復(fù)數(shù)據(jù)（例如模板文件、導(dǎo)航菜單、cookie等），并使用fastText（語言識別器，可以識別176種語言）來識別文檔中的語言，最后使用一個在Wikipedia上訓(xùn)練的模型來過濾掉低質(zhì)量的內(nèi)容，只保留較低困惑度的文檔。如此處理獲得一個包含有327億個句子的CCNet數(shù)據(jù)集。

在這項工作中，使用的挖掘方法的底層思想是，首先學(xué)習(xí)一種多語言的語義嵌入，即在一個嵌入空間中語義上相似的句子會有較近的距離，而與它們所使用的語言無關(guān)。這意味著空間中的距離可以作為兩個句子是否是相互翻譯的指標(biāo)。

Facebook開源最大規(guī)模并行語料，45億語料，覆蓋576種語言對