MOE:抗拼寫錯(cuò)誤的詞向量

本文作者： AI研習(xí)社-譯站

2020-08-14 11:11

導(dǎo)語：傳統(tǒng)的詞嵌入無法處理未登錄詞(OOV)，F(xiàn)acebook通過引入錯(cuò)字遺忘(詞)嵌入(MOE)克服了這一缺陷。

字幕組雙語原文：抗拼寫錯(cuò)誤的詞向量

英語原文：New Model for Word Embeddings which are Resilient to Misspellings (MOE)

翻譯：雷鋒字幕組（wiige）

傳統(tǒng)的詞嵌入擅長處理大部分自然語言處理(NLP)領(lǐng)域的下游問題，比如文檔分類和命名實(shí)體識(shí)別(NER)。然而它的一個(gè)缺點(diǎn)是無法處理未登錄詞(OOV)。

Facebook通過引入錯(cuò)字遺忘(詞)嵌入(MOE)克服了這一缺陷。MOE通過擴(kuò)展fastText架構(gòu)來處理未登錄詞。因此介紹MOE之前，先介紹一下fastText的訓(xùn)練方法和架構(gòu)。

負(fù)采樣Skip-gram(SGNS)

fastText擴(kuò)展了word2vec的架構(gòu)，使用負(fù)采樣skip-gram來訓(xùn)練詞嵌入。Skip-gram使用當(dāng)前詞來預(yù)測(cè)周圍的詞，得到文本表示(即嵌入 )。負(fù)采樣是一種挑出假例(false case)來訓(xùn)練模型的方法。你可以查看這些文章(skip-gram和負(fù)采樣)了解更詳細(xì)的內(nèi)容。

下圖顯示了兩種訓(xùn)練word2vec詞向量的方法。連續(xù)詞袋(BOW)利用上下文來預(yù)測(cè)當(dāng)前詞，而Skip-gram則利用當(dāng)前詞來預(yù)測(cè)上下文。

MOE:抗拼寫錯(cuò)誤的詞向量

矢量空間中詞表征的效用估計(jì)(Tomas et al.，2013)

fastText

fastText幾乎全盤沿用了SGNS的思想。fastText特征之一是子字(subword), 一般用N-gram方法將單詞分割成子字。例如，n-gram字符數(shù)是3到5之間。這樣就可以將banana拆分為ban、ana、nan、bana、anan、nana、banan、anana。這樣，香蕉(banana)的詞嵌入就是這些子詞的嵌入之和。

fastText的訓(xùn)練目標(biāo)是對(duì)標(biāo)簽進(jìn)行分類。模型輸入是n-gram特征(即x1，x2, ......, xN)。這些特征將在隱藏層中被平均化最后送入輸出層。

MOE:抗拼寫錯(cuò)誤的詞向量

fastText的架構(gòu) (Joulin et al., 2016)

錯(cuò)字遺忘(詞)嵌入 (MOE)

MOE通過引入拼寫校正損失進(jìn)一步擴(kuò)展了fastText。引入拼寫校正損失的目的是將錯(cuò)誤拼寫的詞嵌入映射到其接近的正確拼寫的詞嵌入上。拼寫校正損失函數(shù)是一個(gè)典型的logistic函數(shù), 它是正確詞子字輸入向量和與錯(cuò)誤詞的子字輸入向量和的點(diǎn)積。

下面展示了bird（正確單詞）和bwrd（拼寫錯(cuò)誤的單詞）的詞嵌入是非常接近的。

MOE:抗拼寫錯(cuò)誤的詞向量

MOE（facebook）的表示方法

Take Away

子詞是處理拼寫錯(cuò)誤和未登錄詞的有力方法。MOE使用字符n-gram來建立子字詞典，而其他的先進(jìn)NLP模型（如BERT，GPT-2）則使用統(tǒng)計(jì)方式（如WordPiece，Byte Pair Encoding）來建立子詞典。

在許多NLP系統(tǒng)中，能夠處理未登錄詞是一個(gè)關(guān)鍵的優(yōu)勢(shì)。比如聊天機(jī)器人每當(dāng)拼寫錯(cuò)誤或新詞時(shí)，都必須為之處理大量的新OOV詞。

雷鋒字幕組是由AI愛好者組成的志愿者翻譯團(tuán)隊(duì)；團(tuán)隊(duì)成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運(yùn)營、IT咨詢?nèi)?、在校師生；志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業(yè)，北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。

了解字幕組請(qǐng)聯(lián)系微信：tlacttlact

轉(zhuǎn)載請(qǐng)聯(lián)系字幕組微信并注明出處：雷鋒字幕組

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。