丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

從語言學(xué)角度看詞嵌入模型

本文作者: AI研習(xí)社-譯站 2018-12-03 11:22
導(dǎo)語:在任何一個(gè)基于機(jī)器學(xué)習(xí)的自然語言處理(NLP)流水線中

從語言學(xué)角度看詞嵌入模型

本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :

Moving beyond the distributional model for word representation.

作者 |  Tanay Gahlot

翻譯 |  喬叔叔

校對(duì) | 醬番梨        整理 | 菠蘿妹

原文鏈接:

https://towardsdatascience.com/https-medium-com-tanaygahlot-moving-beyond-the-distributional-model-for-word-representation-b0823f1769f8


從語言學(xué)角度看詞嵌入模型

從語言學(xué)角度看詞嵌入模型

在任何一個(gè)基于機(jī)器學(xué)習(xí)的自然語言處理(NLP)流水線中,詞的向量化是其中典型的一個(gè)步驟,因?yàn)槲覀儾荒苤苯咏o計(jì)算機(jī)“喂單詞”。在詞的向量化過程中,我們?yōu)橐粋€(gè)單詞指定一個(gè)N維的向量,用來表示它的詞義。結(jié)果,這成了處理過程中最為重要的一個(gè)步驟之一,因?yàn)橐粋€(gè)“壞的”表示會(huì)導(dǎo)致失敗以及為接下來的NLP任務(wù)帶來不愿看到的影響。

在詞向量化的最常用的技術(shù)之一就是詞的分布式表示模型。它基于的一個(gè)假設(shè)是一個(gè)詞的意思能夠從它所在的上下文中推斷出來。大部分深度學(xué)習(xí)論文使用基于該分布式理論而來的詞向量,因?yàn)樗鼈兪恰叭蝿?wù)普適”(它們不是針對(duì)特定任務(wù))而且“語言普適”(它們不是針對(duì)特定語言)。不幸的是,分布式方法并不是詞向量化任務(wù)的魔效武器。在本博文中,我們會(huì)指出這個(gè)方法的一些問題并提供一些潛在的解決方案,以改善詞向量化的過程。

從語言學(xué)角度看詞嵌入模型

分布式表示模型有以下的問題,讓人感覺非常痛苦:

  • 罕見詞:對(duì)于在語料中出現(xiàn)頻率較低的詞,它們無法通過分布式表示學(xué)習(xí)得到一個(gè)很好的表示。

  • 多義混同:它們將一個(gè)詞的所有詞義混成一個(gè)表示。例如,單詞“bank”,在英文中可以指“河岸”或者是“金融機(jī)構(gòu)(銀行)”。分布式模型卻將所有的這些詞義混合在一個(gè)表示中。

  • 形態(tài)缺失:在表示學(xué)習(xí)的時(shí)候,它們并沒有考慮一個(gè)單詞多種形態(tài)。比如,“evaluate”和“evaluates”具有相似的意思,但是分布式表示模型卻將它們視為兩個(gè)不同的單詞。(譯者注:在英語中,一個(gè)單詞可能有多種形態(tài),特別是動(dòng)詞,有時(shí)態(tài)、人稱、主動(dòng)被動(dòng)等對(duì)應(yīng)的不同形態(tài)。在本例中evaluates是evaluate的第三人稱單數(shù)的一般現(xiàn)在時(shí)的形態(tài)。)

幸運(yùn)的是,為了解決這些問題,大家進(jìn)行了非常廣泛的研究。大致上,這些解決辦法可以分為3個(gè)主要類別。我們將會(huì)按照下面的順序一一介紹:

  • 形態(tài)敏感嵌入

  • 在詞嵌入中,將語言或功能約束進(jìn)行增強(qiáng)。

  • 多詞義處理


  形態(tài)敏感嵌入

這些技術(shù)在學(xué)習(xí)詞嵌入的時(shí)候,將詞的形態(tài)進(jìn)行了考慮。Fasttext就是這種技術(shù)的一個(gè)典型代表。它將一個(gè)單詞表示成了n-grams(n元模子)字符的匯總。例如單詞where就可以表示成。 每個(gè)n-gram字符被指定一個(gè)向量,這個(gè)向量接下來會(huì)被用來計(jì)算上下文向量與目標(biāo)向量匹配度的分值:

從語言學(xué)角度看詞嵌入模型

在使用這種方法(下表的sisg)對(duì)一些詞匯形態(tài)豐富的語言,比如德語(De)、法語(FR)、西班牙語(ES),俄語(RU)和捷克語(Cs),進(jìn)行語言建模的時(shí)候,經(jīng)評(píng)估,相較于沒有使用預(yù)訓(xùn)練詞向量的LSTM,以及使用了預(yù)訓(xùn)練詞向量卻沒有相關(guān)詞根信息的LSTM模型(下表的sg),效果都有了改善。

從語言學(xué)角度看詞嵌入模型

而且,既然fasttext將單詞表示為n元字符(n-gram)的組合,因此它就能為那些語料庫(kù)中從來沒有出現(xiàn)過的詞提供嵌入。在一些領(lǐng)域如生命科學(xué)領(lǐng)域,由于詞匯表非常有限(長(zhǎng)尾現(xiàn)象),語料中大部分的單詞都?xì)w入到未知類別中,該技術(shù)就顯得尤其有用。

Morphfitting提供了另外一個(gè)技術(shù)選項(xiàng)用來將詞的形態(tài)輸入到詞嵌入模型中。在這項(xiàng)工作中,他們用“相吸相斥”(Attract-Repel)方法來“后處理”(post-process)詞嵌入,該方法“吸引”曲折形態(tài)(通過詞的形式變化來表達(dá)有意義的句法信息,比如動(dòng)詞時(shí)態(tài),卻不改變?cè)~義),而“排斥”派生形態(tài)(新形式的單詞出現(xiàn)同時(shí)詞義也發(fā)生遷移變化)。在下一部分我們會(huì)詳細(xì)討論“相吸相斥”方法。

從語言學(xué)角度看詞嵌入模型

通過注入語言形態(tài)學(xué)的約束,Morphfitting在SimLex和SimVerb兩個(gè)數(shù)據(jù)集上的相關(guān)系數(shù)評(píng)估中都超過了下表給出的10個(gè)標(biāo)準(zhǔn)嵌入模型。

從語言學(xué)角度看詞嵌入模型


  在詞嵌入中,將語言或功能約束進(jìn)行增強(qiáng)

另外一類詞空間定義的方法是在詞嵌入的后處理中進(jìn)行語言/功能約束。在上一節(jié)中我們已經(jīng)看到這類方法的一個(gè)例子—Morphfitting。在這一節(jié),我們將會(huì)探索一下Morphfitting中使用的定義詞嵌入的方法—相吸相斥法(Attract-Repel)。

相吸相斥法(Attract-Repel)是一種后處理技術(shù),它根據(jù)語言約束將預(yù)訓(xùn)練的詞嵌入進(jìn)行進(jìn)一步定義。例如,在Morphfitting中,語言約束是以兩種集合的形式來表達(dá),再次給出表格2如下:

從語言學(xué)角度看詞嵌入模型

表格的上半部分是“相吸集合”(譯者注:由多個(gè)詞義相同的單詞對(duì)組成的集合),下半部分是“相斥集合”(譯者注:由多個(gè)詞義不同的單詞對(duì)組成的集合)。利用這些集合,一個(gè)迷你批次就形成了,它可以用來優(yōu)化下面的損失函數(shù): 

從語言學(xué)角度看詞嵌入模型

損失函數(shù)中的第一項(xiàng)對(duì)應(yīng)的是相吸集合,第二項(xiàng)對(duì)應(yīng)的是相斥集合。第三項(xiàng)則保留了分布式表示。而且,前面兩項(xiàng)也會(huì)引入負(fù)樣例,這是采用了PARAGRAM模型的主意。損失函數(shù)(又:成本函數(shù))的前兩項(xiàng)由下式給出:

從語言學(xué)角度看詞嵌入模型

從語言學(xué)角度看詞嵌入模型

第三項(xiàng)由下式給出:

從語言學(xué)角度看詞嵌入模型

人們可以用“相吸相斥”法注入用相吸相斥集來表示的語言約束,比如“同義與反義”或者“曲折形態(tài)與派生形態(tài)”。而相應(yīng)地,那些無法利用語言約束來表達(dá)的“相似性”或者“非相似性”,人們就不能進(jìn)行詞嵌入定義了。例如,不同“治療”類型的關(guān)系,就無法用相吸相斥法來捕獲。為了適應(yīng)這樣的功能關(guān)系,我們介紹另外一種方法叫做“功能改裝”(Functional Retrofitting)。

在功能改裝方法中,關(guān)系的語義學(xué)習(xí)與詞空間的學(xué)習(xí)是同步進(jìn)行的。而獲得這一點(diǎn)的方法,主要是將相吸相斥法中的點(diǎn)積替換成一個(gè)優(yōu)化學(xué)習(xí)過程得來的函數(shù)。

從語言學(xué)角度看詞嵌入模型

上式中的第一項(xiàng)保留了分布式嵌入,第二項(xiàng)和第三項(xiàng)則引入了知識(shí)圖譜中的正向關(guān)系空間(E+)與負(fù)向關(guān)系空間(E-)(譯者注:負(fù)向關(guān)系空間是沒有在知識(shí)圖譜中標(biāo)明的關(guān)系的集合),最后一項(xiàng)在學(xué)習(xí)函數(shù)中執(zhí)行正則化功能。

通過在國(guó)際系統(tǒng)醫(yī)學(xué)術(shù)語集(SNOMED-CT)之上預(yù)測(cè)兩個(gè)實(shí)體(i,j)之間的關(guān)系(r)而做的鏈路預(yù)測(cè),功能改裝方法的語義學(xué)習(xí)效果得到了驗(yàn)證。四種不同類型的功能改裝方法分別對(duì)四種關(guān)系( “具有發(fā)現(xiàn)部位Has Finding Site”、 “具有病理過程Has Pathological Process”、 “誘因Due to”、 “癥狀Cause of”)進(jìn)行了預(yù)測(cè),其結(jié)果如下表所示:

從語言學(xué)角度看詞嵌入模型

更多關(guān)于功能改裝的信息,你可以參考一篇由Christopher Potts寫的優(yōu)秀blog。如果你需要功能或語言約束來進(jìn)一步定義你的詞嵌入,請(qǐng)?jiān)囉肔inked Open Data Cloud上優(yōu)秀的、具有互聯(lián)關(guān)系的本體匯編。

上述的方法更新了各次匯報(bào)的詞嵌入。如果你對(duì)定義整個(gè)詞空間感興趣,你可以用反向傳播來這么做,正如Ivan Vuli?和Nikola Mrk?i?在EMNLP 2018論文中建議的那樣(Adversarial Propagation and Zero-Shot Cross-Lingual Transfer of Word Vector Specialization)。

從語言學(xué)角度看詞嵌入模型


  多詞義處理

最后一類詞嵌入定義技術(shù)是考慮詞的多義性,或者是考慮詞的上下文,或者是利用詞義庫(kù)。讓我們先從前一類方法開始 – ELMO。

在ELMO中,詞是基于上下文而被向量化的。因此為了能夠用向量表達(dá)一個(gè)詞,人們也需要指定某個(gè)詞出現(xiàn)的上下文。與那些沒有考慮上下文的向量化技術(shù)相比較,這個(gè)方法已經(jīng)證明是非常有效的。下例比較了ELMO(biLM)和Glove的最近鄰。

從語言學(xué)角度看詞嵌入模型

ELMO背后的基本思想是得出雙向語言模型(BiLM)各個(gè)中間層的內(nèi)部狀態(tài)加權(quán)匯總以及最后一層的字符卷積網(wǎng)絡(luò)表示。

從語言學(xué)角度看詞嵌入模型

從語言學(xué)角度看詞嵌入模型

ELMO的詞嵌入在三個(gè)下游任務(wù)SQuAD、SNLI和SRL中進(jìn)行了測(cè)試,相較于基準(zhǔn)它有了顯著的改進(jìn)。

從語言學(xué)角度看詞嵌入模型

更多關(guān)于ELMO的信息,請(qǐng)參考這篇AllenNLP寫的博文。如果你想從分布式詞表示中使用詞匯資源來壓縮語義,你可以用DECONF。在這個(gè)方法中,Mohammad Taher Pilehvar提出了一種機(jī)制來使用下面的優(yōu)化標(biāo)準(zhǔn),從而從分布式嵌入中壓縮語義嵌入:

從語言學(xué)角度看詞嵌入模型

上式中,第一項(xiàng)保留了語義分布表示的近似,第二項(xiàng)會(huì)將詞義嵌入向發(fā)生偏移的詞義推得更加靠近一些。這個(gè)過程可以很清晰地用下圖來描述。

從語言學(xué)角度看詞嵌入模型

偏移詞集是用一個(gè)定制的Page Rank算法基于一個(gè)詞匯術(shù)語(利用詞匯資源創(chuàng)建而來)的語義網(wǎng)絡(luò)計(jì)算而來的。

我們使用四個(gè)單詞相似度基準(zhǔn)方法分別做了皮爾森相關(guān)相關(guān)性和斯皮爾曼相關(guān)性評(píng)估,DECONF在絕大多數(shù)任務(wù)中都取得了最先進(jìn)的結(jié)果,如下表所示:

從語言學(xué)角度看詞嵌入模型


  結(jié)論

如果如處在沒有足夠訓(xùn)練數(shù)據(jù)來從頭學(xué)習(xí)詞嵌入的境況,我高度推薦使用上面提及的詞表示的方法來取得一些百分比的改善。關(guān)于本話題更深入的討論,我高度推薦Ivan Vuli?在ESSLLI 2018中Word vector specialisation的課程。


想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?

長(zhǎng)按鏈接點(diǎn)擊打開或點(diǎn)擊【從語言學(xué)角度看詞嵌入模型】:

https://ai.yanxishe.com/page/TextTranslation/1181


AI研習(xí)社每日更新精彩內(nèi)容,觀看更多精彩內(nèi)容:

這5種計(jì)算機(jī)視覺技術(shù),刷新你的世界觀

遷移學(xué)習(xí):如何將預(yù)訓(xùn)練CNN當(dāng)成特征提取器

新手必看:深度學(xué)習(xí)是什么?它的工作原理是什么?

Python高級(jí)技巧:用一行代碼減少一半內(nèi)存占用


等你來譯:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

預(yù)訓(xùn)練模型及其應(yīng)用 

一文帶你讀懂線性分類器 

(Python)3D人臉處理工具face3d 

讓你的電腦擁有“視力”,用卷積神經(jīng)網(wǎng)絡(luò)就可以!


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

從語言學(xué)角度看詞嵌入模型

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說