0
雷鋒網(wǎng) AI 科技評(píng)論按:如今 Facebook 有超過(guò)一半的用戶使用英語(yǔ)以外的語(yǔ)言,使用了超過(guò) 100 種語(yǔ)言。這也給 Facebook 提出了一個(gè)巨大的挑戰(zhàn),針對(duì) Facebook 這種服務(wù)規(guī)模下,使用機(jī)器學(xué)習(xí)和自然語(yǔ)言處理方法(NLP),為每個(gè)人提供緊密貼合他們常用語(yǔ)言的良好用戶體驗(yàn)。為了更好地服務(wù)于 Facebook 社區(qū),無(wú)論是通過(guò)提供多語(yǔ)言的類(lèi)似 Recommendations 和 M Suggestion 這樣的服務(wù),還是訓(xùn)練系統(tǒng)來(lái)檢測(cè)和刪除違規(guī)內(nèi)容的,都需要一種更好的方法來(lái)將自然語(yǔ)言處理方法(NLP)拓展到更多語(yǔ)言上去。
現(xiàn)有的特定語(yǔ)言的自然語(yǔ)言處理(NLP)技術(shù)無(wú)法應(yīng)對(duì)這一挑戰(zhàn),因?yàn)橹С置糠N語(yǔ)言相當(dāng)于從頭重新解決這個(gè)問(wèn)題并建立起全新的應(yīng)用。接下來(lái),本文將介紹通過(guò)多語(yǔ)言嵌入方法幫助 Facebook 擴(kuò)展到更多語(yǔ)言的新技術(shù),幫助人工智能驅(qū)動(dòng)的產(chǎn)品更快適用于新的語(yǔ)言,最終為用戶提供更好的使用 Facebook 的體驗(yàn)。
NLP 中一個(gè)常見(jiàn)的任務(wù)就是文本分類(lèi),它指的是給一系列文本文件分配類(lèi)別的任務(wù)。在某種程度上,F(xiàn)acebook 幾乎每個(gè)部分都要用到文本分類(lèi)模型。例如,識(shí)別某人在帖子中要求的推薦,或自動(dòng)刪除垃圾信息等令人反感的內(nèi)容。分類(lèi)模型通常是通過(guò)給神經(jīng)網(wǎng)絡(luò)提供大量帶有這些類(lèi)別標(biāo)簽的數(shù)據(jù)樣本進(jìn)行訓(xùn)練。通過(guò)這一過(guò)程,分類(lèi)模型可以學(xué)到如何對(duì)新數(shù)據(jù)進(jìn)行分類(lèi),并用來(lái)做出預(yù)測(cè)以提高用戶體驗(yàn)。
訓(xùn)練過(guò)程通常是用于特定語(yǔ)言的,這意味著對(duì)于每個(gè)要被分類(lèi)的語(yǔ)言,需要分別收集大量的訓(xùn)練數(shù)據(jù)。收集數(shù)據(jù)是一個(gè)昂貴且耗時(shí)的過(guò)程,而且,當(dāng)規(guī)模擴(kuò)大到 100 多種語(yǔ)言時(shí),收集也變得越來(lái)越困難。
可以采取的另一種方法是收集大量英語(yǔ)數(shù)據(jù)來(lái)訓(xùn)練一個(gè)英語(yǔ)分類(lèi)器,然后如果有需要對(duì)其他語(yǔ)言進(jìn)行分類(lèi),如土耳其語(yǔ)文本,則將土耳其語(yǔ)文本翻譯成英語(yǔ),再用英語(yǔ)分類(lèi)器進(jìn)行分類(lèi)。
但是,這個(gè)方法有一些缺點(diǎn)。首先,翻譯過(guò)程中的錯(cuò)誤會(huì)傳遞到分類(lèi)過(guò)程,導(dǎo)致性能下降。其次,對(duì)于需分類(lèi)的每一條非英語(yǔ)內(nèi)容,必須額外調(diào)用翻譯服務(wù)。這種方法顯著增加了分類(lèi)的延遲,因?yàn)橥ǔ7g比分類(lèi)耗時(shí)更長(zhǎng)。
但是這些解決方案都不夠好。因此希望有一些更通用的解決辦法,可以在各種支持的所有語(yǔ)言中產(chǎn)生一致且準(zhǔn)確的結(jié)果。
文本分類(lèi)模型使用詞嵌入(word embedding),或以多維向量表示的單詞,作為理解語(yǔ)言的基本表示。詞嵌入具有一些性質(zhì)使得它能夠很容易進(jìn)一步操作,比如近義詞在向量空間中距離很近。傳統(tǒng)意義上,詞嵌入是用于特定語(yǔ)言的,每個(gè)語(yǔ)言需要分開(kāi)訓(xùn)練,而且嵌入結(jié)果存在于完全不同的向量空間中。
一種實(shí)現(xiàn)多語(yǔ)言文本分類(lèi)的方法是開(kāi)發(fā)多語(yǔ)言詞嵌入模型。 通過(guò)這種技術(shù),每個(gè)語(yǔ)言都映射到同一個(gè)向量空間里,并且保持這個(gè)性質(zhì):近義詞(不管是哪種語(yǔ)言)在向量空間里距離都很近。例如,土耳其語(yǔ)中的 futbol 和英語(yǔ)中的 soccer 在向量空間中靠的很近,因?yàn)樗麄冊(cè)诓煌恼Z(yǔ)言里有相同的意思。
為了使文本分類(lèi)可以跨多種語(yǔ)言工作,可以用具有以上性質(zhì)的多語(yǔ)言詞嵌入作為文本分類(lèi)模型的基本表示。由于新語(yǔ)言中的單詞與嵌入空間中訓(xùn)練好的語(yǔ)言中同意思的單詞距離很近,所以新語(yǔ)言環(huán)境下,分類(lèi)器也能夠表現(xiàn)良好。因此,只需訓(xùn)練一個(gè)或幾個(gè)語(yǔ)言,即可學(xué)習(xí)到一個(gè)良好的分類(lèi)器,即使面對(duì)訓(xùn)練集中從未出現(xiàn)過(guò)的語(yǔ)言,也能得到很好的結(jié)果。
為了訓(xùn)練這些多語(yǔ)言詞嵌入模型,首先使用 fastText 以及來(lái)自 Facebook 和 Wikipedia 的數(shù)據(jù)分別訓(xùn)練每種語(yǔ)言的嵌入。然后,使用字典將每個(gè)嵌入空間投影到一個(gè)公共空間(英語(yǔ))中。字典是由相似的數(shù)據(jù)自動(dòng)產(chǎn)生的,即數(shù)據(jù)集是由不同語(yǔ)言,但是相同含義的句子組成,通過(guò)它來(lái)訓(xùn)練翻譯系統(tǒng)。
使用一個(gè)矩陣將嵌入投影到公共空間中。這個(gè)矩陣是通過(guò)最小化單詞xi與其投影對(duì)應(yīng)單詞yi的距離選擇的。也就是說(shuō),如果詞典里包含一些(xi,yi),選擇投影矩陣M,使得:
其中||2表示L2范數(shù)。此外,加入約束條件:投影矩陣是正交矩陣,以保留嵌入單詞向量的原始距離。
Facebook 將這些嵌入整合到文本分類(lèi)框架 DeepText 中。DeepText 包含各種以詞嵌入為基本表示的分類(lèi)算法。為了訓(xùn)練多語(yǔ)言模型,F(xiàn)acebook 使用了上面提到的多語(yǔ)言詞嵌入作為 DeepText 的基礎(chǔ)表示,并在訓(xùn)練過(guò)程中「凍結(jié)」它們,即保證它們?cè)谟?xùn)練過(guò)程中是沒(méi)有改變的。Facebook 還有提供了針對(duì)不同語(yǔ)言訓(xùn)練集和測(cè)試集的工作流程,且可以計(jì)算在同一語(yǔ)言內(nèi)或跨語(yǔ)言的性能測(cè)試。這將助力于開(kāi)發(fā)跨語(yǔ)言模型。
對(duì)于一些分類(lèi)問(wèn)題,使用多語(yǔ)言詞嵌入所訓(xùn)練的模型的跨語(yǔ)言性能,與特定單一語(yǔ)言的分類(lèi)器十分接近。以通過(guò)特定語(yǔ)言數(shù)據(jù)集訓(xùn)練的分類(lèi)器為參照,F(xiàn)acebook 的多語(yǔ)言詞嵌入模型在分類(lèi)訓(xùn)練中沒(méi)有出現(xiàn)過(guò)的新語(yǔ)言時(shí),能夠達(dá)到 95% 的性能。之前的翻譯再分類(lèi)的方法只能達(dá)到特定語(yǔ)言訓(xùn)練的分類(lèi)器的 82%。同時(shí),該方法相較于之前的先翻譯再訓(xùn)練的方法,能夠有 20-30 倍的速度提升。
Facebook將之前使用特定語(yǔ)言的模型轉(zhuǎn)換為多語(yǔ)言詞嵌入模型,作為通用和底層架構(gòu):
一些 AI 驅(qū)動(dòng)的方法,例如 Recommendation 和 M Suggestions 能夠更快的服務(wù)到新語(yǔ)言
快速推出更多語(yǔ)言的產(chǎn)品和功能
這種方法通常比上述提到的其他方法更精準(zhǔn),這意味著人們?cè)?Facebook 上使用他們的首選語(yǔ)言時(shí)會(huì)有更好的體驗(yàn)。
Facebook 生態(tài)系統(tǒng)中很多方面中都使用了多語(yǔ)言詞嵌入模型,從檢測(cè)違規(guī)內(nèi)容的到支持事件推薦功能的分類(lèi)器。
通過(guò)多語(yǔ)言詞嵌入進(jìn)行擴(kuò)展是很有前景的,但目前還有更多的事情需要做。
多語(yǔ)言詞嵌入模型對(duì)于英語(yǔ),德語(yǔ),法語(yǔ)和西班牙語(yǔ)以及聯(lián)系更緊密的語(yǔ)言有更好的表現(xiàn)。隨著不斷擴(kuò)大應(yīng)用范圍,F(xiàn)acebook 正致力于嘗試適用于沒(méi)有大量數(shù)據(jù)的語(yǔ)言的新技術(shù)。同時(shí) Facebook 還在努力尋找各語(yǔ)言在文化背景下捕捉細(xì)微差別的方法,例如這種俗語(yǔ)「it's raining cats and dogs」(雷鋒網(wǎng) AI 科技評(píng)論注:直譯是下貓又下狗,而實(shí)際的意思是傾盆大雨)。
展望未來(lái),F(xiàn)acebook 正在與 FAIR 合作研究比詞嵌入模型更好的方法,以改善多語(yǔ)言 NLP,并通過(guò)使用諸如句子或段落等更高級(jí)結(jié)構(gòu)的嵌入來(lái)捕獲更多語(yǔ)義含義。通過(guò)這項(xiàng)技術(shù),希望與訓(xùn)練特定語(yǔ)言的模型相比,能夠得到更高的性能,并提高特定文化或語(yǔ)言背景下的和措辭準(zhǔn)確性。
FAIR 也在探索不使用雙語(yǔ)詞典的多語(yǔ)言詞嵌入方法。這些方法已經(jīng)展現(xiàn)出與目前使用的監(jiān)督方法相近的性能,可以幫助在難以獲得雙語(yǔ)詞典的少見(jiàn)語(yǔ)言中取得更好的結(jié)果。FAIR 已經(jīng)開(kāi)源了 MUSE 庫(kù)中無(wú)監(jiān)督和監(jiān)督的多語(yǔ)言嵌入模型。
via Facebook,雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。