丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給高云河
發(fā)送

0

揭開(kāi)多語(yǔ)言詞嵌入模型的神秘面紗

本文作者: 高云河 編輯:楊曉凡 2018-03-31 13:16
導(dǎo)語(yǔ):「每一種語(yǔ)言都需要單獨(dú)的分類(lèi)器嗎?」「不了吧」

揭開(kāi)多語(yǔ)言詞嵌入模型的神秘面紗

雷鋒網(wǎng) AI 科技評(píng)論按:如今 Facebook 有超過(guò)一半的用戶使用英語(yǔ)以外的語(yǔ)言,使用了超過(guò) 100 種語(yǔ)言。這也給 Facebook 提出了一個(gè)巨大的挑戰(zhàn),針對(duì) Facebook 這種服務(wù)規(guī)模下,使用機(jī)器學(xué)習(xí)和自然語(yǔ)言處理方法(NLP),為每個(gè)人提供緊密貼合他們常用語(yǔ)言的良好用戶體驗(yàn)。為了更好地服務(wù)于 Facebook 社區(qū),無(wú)論是通過(guò)提供多語(yǔ)言的類(lèi)似 Recommendations 和 M Suggestion 這樣的服務(wù),還是訓(xùn)練系統(tǒng)來(lái)檢測(cè)和刪除違規(guī)內(nèi)容的,都需要一種更好的方法來(lái)將自然語(yǔ)言處理方法(NLP)拓展到更多語(yǔ)言上去。

現(xiàn)有的特定語(yǔ)言的自然語(yǔ)言處理(NLP)技術(shù)無(wú)法應(yīng)對(duì)這一挑戰(zhàn),因?yàn)橹С置糠N語(yǔ)言相當(dāng)于從頭重新解決這個(gè)問(wèn)題并建立起全新的應(yīng)用。接下來(lái),本文將介紹通過(guò)多語(yǔ)言嵌入方法幫助 Facebook 擴(kuò)展到更多語(yǔ)言的新技術(shù),幫助人工智能驅(qū)動(dòng)的產(chǎn)品更快適用于新的語(yǔ)言,最終為用戶提供更好的使用 Facebook 的體驗(yàn)。

跨語(yǔ)言NLP的挑戰(zhàn):

NLP 中一個(gè)常見(jiàn)的任務(wù)就是文本分類(lèi),它指的是給一系列文本文件分配類(lèi)別的任務(wù)。在某種程度上,F(xiàn)acebook 幾乎每個(gè)部分都要用到文本分類(lèi)模型。例如,識(shí)別某人在帖子中要求的推薦,或自動(dòng)刪除垃圾信息等令人反感的內(nèi)容。分類(lèi)模型通常是通過(guò)給神經(jīng)網(wǎng)絡(luò)提供大量帶有這些類(lèi)別標(biāo)簽的數(shù)據(jù)樣本進(jìn)行訓(xùn)練。通過(guò)這一過(guò)程,分類(lèi)模型可以學(xué)到如何對(duì)新數(shù)據(jù)進(jìn)行分類(lèi),并用來(lái)做出預(yù)測(cè)以提高用戶體驗(yàn)。

訓(xùn)練過(guò)程通常是用于特定語(yǔ)言的,這意味著對(duì)于每個(gè)要被分類(lèi)的語(yǔ)言,需要分別收集大量的訓(xùn)練數(shù)據(jù)。收集數(shù)據(jù)是一個(gè)昂貴且耗時(shí)的過(guò)程,而且,當(dāng)規(guī)模擴(kuò)大到 100 多種語(yǔ)言時(shí),收集也變得越來(lái)越困難。

可以采取的另一種方法是收集大量英語(yǔ)數(shù)據(jù)來(lái)訓(xùn)練一個(gè)英語(yǔ)分類(lèi)器,然后如果有需要對(duì)其他語(yǔ)言進(jìn)行分類(lèi),如土耳其語(yǔ)文本,則將土耳其語(yǔ)文本翻譯成英語(yǔ),再用英語(yǔ)分類(lèi)器進(jìn)行分類(lèi)。

揭開(kāi)多語(yǔ)言詞嵌入模型的神秘面紗

但是,這個(gè)方法有一些缺點(diǎn)。首先,翻譯過(guò)程中的錯(cuò)誤會(huì)傳遞到分類(lèi)過(guò)程,導(dǎo)致性能下降。其次,對(duì)于需分類(lèi)的每一條非英語(yǔ)內(nèi)容,必須額外調(diào)用翻譯服務(wù)。這種方法顯著增加了分類(lèi)的延遲,因?yàn)橥ǔ7g比分類(lèi)耗時(shí)更長(zhǎng)。

但是這些解決方案都不夠好。因此希望有一些更通用的解決辦法,可以在各種支持的所有語(yǔ)言中產(chǎn)生一致且準(zhǔn)確的結(jié)果。

使用多語(yǔ)言詞嵌入模型的文本分類(lèi)

文本分類(lèi)模型使用詞嵌入(word embedding),或以多維向量表示的單詞,作為理解語(yǔ)言的基本表示。詞嵌入具有一些性質(zhì)使得它能夠很容易進(jìn)一步操作,比如近義詞在向量空間中距離很近。傳統(tǒng)意義上,詞嵌入是用于特定語(yǔ)言的,每個(gè)語(yǔ)言需要分開(kāi)訓(xùn)練,而且嵌入結(jié)果存在于完全不同的向量空間中。

揭開(kāi)多語(yǔ)言詞嵌入模型的神秘面紗

一種實(shí)現(xiàn)多語(yǔ)言文本分類(lèi)的方法是開(kāi)發(fā)多語(yǔ)言詞嵌入模型。 通過(guò)這種技術(shù),每個(gè)語(yǔ)言都映射到同一個(gè)向量空間里,并且保持這個(gè)性質(zhì):近義詞(不管是哪種語(yǔ)言)在向量空間里距離都很近。例如,土耳其語(yǔ)中的 futbol 和英語(yǔ)中的 soccer 在向量空間中靠的很近,因?yàn)樗麄冊(cè)诓煌恼Z(yǔ)言里有相同的意思。

揭開(kāi)多語(yǔ)言詞嵌入模型的神秘面紗

為了使文本分類(lèi)可以跨多種語(yǔ)言工作,可以用具有以上性質(zhì)的多語(yǔ)言詞嵌入作為文本分類(lèi)模型的基本表示。由于新語(yǔ)言中的單詞與嵌入空間中訓(xùn)練好的語(yǔ)言中同意思的單詞距離很近,所以新語(yǔ)言環(huán)境下,分類(lèi)器也能夠表現(xiàn)良好。因此,只需訓(xùn)練一個(gè)或幾個(gè)語(yǔ)言,即可學(xué)習(xí)到一個(gè)良好的分類(lèi)器,即使面對(duì)訓(xùn)練集中從未出現(xiàn)過(guò)的語(yǔ)言,也能得到很好的結(jié)果。

訓(xùn)練多語(yǔ)言嵌入模型

為了訓(xùn)練這些多語(yǔ)言詞嵌入模型,首先使用 fastText 以及來(lái)自 Facebook 和 Wikipedia 的數(shù)據(jù)分別訓(xùn)練每種語(yǔ)言的嵌入。然后,使用字典將每個(gè)嵌入空間投影到一個(gè)公共空間(英語(yǔ))中。字典是由相似的數(shù)據(jù)自動(dòng)產(chǎn)生的,即數(shù)據(jù)集是由不同語(yǔ)言,但是相同含義的句子組成,通過(guò)它來(lái)訓(xùn)練翻譯系統(tǒng)。

使用一個(gè)矩陣將嵌入投影到公共空間中。這個(gè)矩陣是通過(guò)最小化單詞xi與其投影對(duì)應(yīng)單詞yi的距離選擇的。也就是說(shuō),如果詞典里包含一些(xi,yi),選擇投影矩陣M,使得:

揭開(kāi)多語(yǔ)言詞嵌入模型的神秘面紗

其中||2表示L2范數(shù)。此外,加入約束條件:投影矩陣是正交矩陣,以保留嵌入單詞向量的原始距離。

Facebook 將這些嵌入整合到文本分類(lèi)框架 DeepText 中。DeepText 包含各種以詞嵌入為基本表示的分類(lèi)算法。為了訓(xùn)練多語(yǔ)言模型,F(xiàn)acebook 使用了上面提到的多語(yǔ)言詞嵌入作為 DeepText 的基礎(chǔ)表示,并在訓(xùn)練過(guò)程中「凍結(jié)」它們,即保證它們?cè)谟?xùn)練過(guò)程中是沒(méi)有改變的。Facebook 還有提供了針對(duì)不同語(yǔ)言訓(xùn)練集和測(cè)試集的工作流程,且可以計(jì)算在同一語(yǔ)言內(nèi)或跨語(yǔ)言的性能測(cè)試。這將助力于開(kāi)發(fā)跨語(yǔ)言模型。

對(duì)于一些分類(lèi)問(wèn)題,使用多語(yǔ)言詞嵌入所訓(xùn)練的模型的跨語(yǔ)言性能,與特定單一語(yǔ)言的分類(lèi)器十分接近。以通過(guò)特定語(yǔ)言數(shù)據(jù)集訓(xùn)練的分類(lèi)器為參照,F(xiàn)acebook 的多語(yǔ)言詞嵌入模型在分類(lèi)訓(xùn)練中沒(méi)有出現(xiàn)過(guò)的新語(yǔ)言時(shí),能夠達(dá)到 95% 的性能。之前的翻譯再分類(lèi)的方法只能達(dá)到特定語(yǔ)言訓(xùn)練的分類(lèi)器的 82%。同時(shí),該方法相較于之前的先翻譯再訓(xùn)練的方法,能夠有 20-30 倍的速度提升。

應(yīng)用在 Facebook 上

Facebook將之前使用特定語(yǔ)言的模型轉(zhuǎn)換為多語(yǔ)言詞嵌入模型,作為通用和底層架構(gòu):

  • 一些 AI 驅(qū)動(dòng)的方法,例如 Recommendation 和 M Suggestions 能夠更快的服務(wù)到新語(yǔ)言

  • 快速推出更多語(yǔ)言的產(chǎn)品和功能

  • 這種方法通常比上述提到的其他方法更精準(zhǔn),這意味著人們?cè)?Facebook 上使用他們的首選語(yǔ)言時(shí)會(huì)有更好的體驗(yàn)。

    揭開(kāi)多語(yǔ)言詞嵌入模型的神秘面紗

Facebook 生態(tài)系統(tǒng)中很多方面中都使用了多語(yǔ)言詞嵌入模型,從檢測(cè)違規(guī)內(nèi)容的到支持事件推薦功能的分類(lèi)器。

正在進(jìn)行的工作:

通過(guò)多語(yǔ)言詞嵌入進(jìn)行擴(kuò)展是很有前景的,但目前還有更多的事情需要做。

多語(yǔ)言詞嵌入模型對(duì)于英語(yǔ),德語(yǔ),法語(yǔ)和西班牙語(yǔ)以及聯(lián)系更緊密的語(yǔ)言有更好的表現(xiàn)。隨著不斷擴(kuò)大應(yīng)用范圍,F(xiàn)acebook 正致力于嘗試適用于沒(méi)有大量數(shù)據(jù)的語(yǔ)言的新技術(shù)。同時(shí) Facebook 還在努力尋找各語(yǔ)言在文化背景下捕捉細(xì)微差別的方法,例如這種俗語(yǔ)「it's raining cats and dogs」(雷鋒網(wǎng) AI 科技評(píng)論注:直譯是下貓又下狗,而實(shí)際的意思是傾盆大雨)。

展望未來(lái),F(xiàn)acebook 正在與 FAIR 合作研究比詞嵌入模型更好的方法,以改善多語(yǔ)言 NLP,并通過(guò)使用諸如句子或段落等更高級(jí)結(jié)構(gòu)的嵌入來(lái)捕獲更多語(yǔ)義含義。通過(guò)這項(xiàng)技術(shù),希望與訓(xùn)練特定語(yǔ)言的模型相比,能夠得到更高的性能,并提高特定文化或語(yǔ)言背景下的和措辭準(zhǔn)確性。

FAIR 也在探索不使用雙語(yǔ)詞典的多語(yǔ)言詞嵌入方法。這些方法已經(jīng)展現(xiàn)出與目前使用的監(jiān)督方法相近的性能,可以幫助在難以獲得雙語(yǔ)詞典的少見(jiàn)語(yǔ)言中取得更好的結(jié)果。FAIR 已經(jīng)開(kāi)源了 MUSE 庫(kù)中無(wú)監(jiān)督和監(jiān)督的多語(yǔ)言嵌入模型。

via Facebook,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

揭開(kāi)多語(yǔ)言詞嵌入模型的神秘面紗

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)