丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

MOE:抗拼寫錯誤的詞向量

本文作者: AI研習(xí)社-譯站 2020-08-14 11:11
導(dǎo)語:傳統(tǒng)的詞嵌入無法處理未登錄詞(OOV),F(xiàn)acebook通過引入錯字遺忘(詞)嵌入(MOE)克服了這一缺陷。

字幕組雙語原文:抗拼寫錯誤的詞向量

英語原文:New Model for Word Embeddings which are Resilient to Misspellings (MOE)

翻譯:雷鋒字幕組(wiige


傳統(tǒng)的詞嵌入擅長處理大部分自然語言處理(NLP)領(lǐng)域的下游問題,比如文檔分類和命名實(shí)體識別(NER)。然而它的一個缺點(diǎn)是無法處理未登錄詞(OOV)。

Facebook通過引入錯字遺忘(詞)嵌入(MOE)克服了這一缺陷。MOE通過擴(kuò)展fastText架構(gòu)來處理未登錄詞。因此介紹MOE之前,先介紹一下fastText的訓(xùn)練方法和架構(gòu)。

負(fù)采樣Skip-gram(SGNS)

fastText擴(kuò)展了word2vec的架構(gòu),使用負(fù)采樣skip-gram來訓(xùn)練詞嵌入。Skip-gram使用當(dāng)前詞來預(yù)測周圍的詞,得到文本表示(即嵌入 )。負(fù)采樣是一種挑出假例(false case)來訓(xùn)練模型的方法。你可以查看這些文章(skip-gram和負(fù)采樣)了解更詳細(xì)的內(nèi)容。 

下圖顯示了兩種訓(xùn)練word2vec詞向量的方法。連續(xù)詞袋(BOW)利用上下文來預(yù)測當(dāng)前詞,而Skip-gram則利用當(dāng)前詞來預(yù)測上下文。

MOE:抗拼寫錯誤的詞向量

矢量空間中詞表征的效用估計(jì)(Tomas et al.,2013)

fastText

fastText幾乎全盤沿用了SGNS的思想。fastText特征之一是子字(subword), 一般用N-gram方法將單詞分割成子字。例如,n-gram字符數(shù)是3到5之間。這樣就可以將banana拆分為ban、ana、nan、bana、anan、nana、banan、anana。這樣,香蕉(banana)的詞嵌入就是這些子詞的嵌入之和。

fastText的訓(xùn)練目標(biāo)是對標(biāo)簽進(jìn)行分類。模型輸入是n-gram特征(即x1,x2, ......, xN)。這些特征將在隱藏層中被平均化最后送入輸出層。

MOE:抗拼寫錯誤的詞向量

fastText的架構(gòu) (Joulin et al., 2016)

錯字遺忘(詞)嵌入 (MOE)

MOE通過引入拼寫校正損失進(jìn)一步擴(kuò)展了fastText。引入拼寫校正損失的目的是將錯誤拼寫的詞嵌入映射到其接近的正確拼寫的詞嵌入上。拼寫校正損失函數(shù)是一個典型的logistic函數(shù), 它是正確詞子字輸入向量和與錯誤詞的子字輸入向量和的點(diǎn)積。

下面展示了bird(正確單詞)和bwrd(拼寫錯誤的單詞)的詞嵌入是非常接近的。

MOE:抗拼寫錯誤的詞向量

MOE(facebook)的表示方法

Take Away

子詞是處理拼寫錯誤和未登錄詞的有力方法。MOE使用字符n-gram來建立子字詞典,而其他的先進(jìn)NLP模型(如BERT,GPT-2)則使用統(tǒng)計(jì)方式(如WordPiece,Byte Pair Encoding)來建立子詞典。

在許多NLP系統(tǒng)中,能夠處理未登錄詞是一個關(guān)鍵的優(yōu)勢。比如聊天機(jī)器人每當(dāng)拼寫錯誤或新詞時,都必須為之處理大量的新OOV詞。


雷鋒字幕組是由AI愛好者組成的志愿者翻譯團(tuán)隊(duì);團(tuán)隊(duì)成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運(yùn)營、IT咨詢?nèi)恕⒃谛熒?;志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。

了解字幕組請聯(lián)系微信:tlacttlact

轉(zhuǎn)載請聯(lián)系字幕組微信并注明出處:雷鋒字幕組

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

MOE:抗拼寫錯誤的詞向量

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說