0
本文作者: AI研習(xí)社-譯站 | 2020-08-14 11:11 |
字幕組雙語原文:抗拼寫錯誤的詞向量
英語原文:New Model for Word Embeddings which are Resilient to Misspellings (MOE)
翻譯:雷鋒字幕組(wiige)
傳統(tǒng)的詞嵌入擅長處理大部分自然語言處理(NLP)領(lǐng)域的下游問題,比如文檔分類和命名實(shí)體識別(NER)。然而它的一個缺點(diǎn)是無法處理未登錄詞(OOV)。
Facebook通過引入錯字遺忘(詞)嵌入(MOE)克服了這一缺陷。MOE通過擴(kuò)展fastText架構(gòu)來處理未登錄詞。因此介紹MOE之前,先介紹一下fastText的訓(xùn)練方法和架構(gòu)。
fastText擴(kuò)展了word2vec的架構(gòu),使用負(fù)采樣skip-gram來訓(xùn)練詞嵌入。Skip-gram使用當(dāng)前詞來預(yù)測周圍的詞,得到文本表示(即嵌入 )。負(fù)采樣是一種挑出假例(false case)來訓(xùn)練模型的方法。你可以查看這些文章(skip-gram和負(fù)采樣)了解更詳細(xì)的內(nèi)容。
下圖顯示了兩種訓(xùn)練word2vec詞向量的方法。連續(xù)詞袋(BOW)利用上下文來預(yù)測當(dāng)前詞,而Skip-gram則利用當(dāng)前詞來預(yù)測上下文。
矢量空間中詞表征的效用估計(jì)(Tomas et al.,2013)
fastText幾乎全盤沿用了SGNS的思想。fastText特征之一是子字(subword), 一般用N-gram方法將單詞分割成子字。例如,n-gram字符數(shù)是3到5之間。這樣就可以將banana拆分為ban、ana、nan、bana、anan、nana、banan、anana。這樣,香蕉(banana)的詞嵌入就是這些子詞的嵌入之和。
fastText的訓(xùn)練目標(biāo)是對標(biāo)簽進(jìn)行分類。模型輸入是n-gram特征(即x1,x2, ......, xN)。這些特征將在隱藏層中被平均化最后送入輸出層。
fastText的架構(gòu) (Joulin et al., 2016)
MOE通過引入拼寫校正損失進(jìn)一步擴(kuò)展了fastText。引入拼寫校正損失的目的是將錯誤拼寫的詞嵌入映射到其接近的正確拼寫的詞嵌入上。拼寫校正損失函數(shù)是一個典型的logistic函數(shù), 它是正確詞子字輸入向量和與錯誤詞的子字輸入向量和的點(diǎn)積。
下面展示了bird(正確單詞)和bwrd(拼寫錯誤的單詞)的詞嵌入是非常接近的。
MOE(facebook)的表示方法
子詞是處理拼寫錯誤和未登錄詞的有力方法。MOE使用字符n-gram來建立子字詞典,而其他的先進(jìn)NLP模型(如BERT,GPT-2)則使用統(tǒng)計(jì)方式(如WordPiece,Byte Pair Encoding)來建立子詞典。
在許多NLP系統(tǒng)中,能夠處理未登錄詞是一個關(guān)鍵的優(yōu)勢。比如聊天機(jī)器人每當(dāng)拼寫錯誤或新詞時,都必須為之處理大量的新OOV詞。
雷鋒字幕組是由AI愛好者組成的志愿者翻譯團(tuán)隊(duì);團(tuán)隊(duì)成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運(yùn)營、IT咨詢?nèi)恕⒃谛熒?;志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。
了解字幕組請聯(lián)系微信:tlacttlact
轉(zhuǎn)載請聯(lián)系字幕組微信并注明出處:雷鋒字幕組
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。