3
本文作者: MrBear | 編輯:幸麗娟 | 2019-07-11 10:11 | 專題:ACL 2019 |
雷鋒網(wǎng) AI 科技評論按:在近些年的自然語言處理研究中,「詞類比」是一個(gè)十分有趣的現(xiàn)象,最經(jīng)典的例子莫過于「國王-男人+女人=皇后」。然而,如何將神經(jīng)網(wǎng)路的黑盒拆開從而解釋這一神奇的現(xiàn)象,一直都是有待探索的有趣的科學(xué)問題。近日,ACL 2019 上一篇名為「Towards Understanding Linear Word Analogies」(https://arxiv.org/abs/1810.04882)的論文對該問題進(jìn)行了探究,從 csPMI 理論的角度對此進(jìn)行了解釋。
眾所周知,詞向量有一個(gè)神奇的特性,那就是:我們往往可以通過向量的算術(shù)來實(shí)現(xiàn)單詞的類比。最著名的例子就是:
但這是為什么呢?為什么算術(shù)運(yùn)算符適用于像「word2vec」這樣的非線性模型生成的向量呢?在向量空間中,要想通過訓(xùn)練語料庫使這些類比成立需要滿足什么條件?
令人驚訝的是,很少有理論試圖解釋這種現(xiàn)象,而那些現(xiàn)有的理論對詞頻或向量空間做出了很強(qiáng)的假設(shè)。在我們發(fā)表在 ACL 2019 上的論文「Towards Understanding Linear Word Analogies」(http://arxiv.org/abs/1810.04882)中,我們在不做出這種強(qiáng)假設(shè)的條件下,針對「GloVe」和「基于負(fù)采樣的skipgram」兩種嵌入模型提出了詞類比運(yùn)算的正式解釋。反過來,我們的理論也提供了:
1. 在 SGNS 和 GloVe 空間中關(guān)于歐幾里得距離的第一個(gè)基于信息論的解釋;
2. 使用加法構(gòu)成 SGNS 詞向量的新依據(jù);
3. 「GloVe」模型原始論文(https://nlp.stanford.edu/pubs/glove.pdf)中提出的對于詞類比的直觀解釋的正式證明。
最重要的一點(diǎn)是,我們的理論有實(shí)驗(yàn)論證的加持,比過去的解釋更為可靠。
在 2016 年 TACL 的一篇論文「A Latent Variable Model Approach to PMI-based Word Embeddings」中,論文作者提出了潛變量模型(https://arxiv.org/abs/1502.03520),這也是研究者首次嘗試對詞類比算術(shù)進(jìn)行嚴(yán)格解釋。Gittens 等人在論文「Skip-Gram – Zipf + Uniform = Vector Additivity」(https://www.aclweb.org/anthology/P17-1007)中對此理論提出了批評,他們認(rèn)為該理論假設(shè)詞向量是一種先驗(yàn)概率,并且是通過隨機(jī)地對從單位曲面上采樣得到的向量進(jìn)行放縮生成的(或者說具有與該過程一致的屬性)。潛變量模型也依賴于單詞向量的各向同性,即使已經(jīng)有實(shí)證研究證明 SGNS 向量通常不具有這種性質(zhì)(相關(guān)工作可參考:https://www.aclweb.org/anthology/D17-1308)。
2017 年 ACL 的一篇論文「Skip-Gram – Zipf + Uniform = Vector Additivity」提出的釋義模型(paraphrase model,https://www.aclweb.org/anthology/P17-1007)認(rèn)為,如果 p(w|c_1,...,c_m) = p(w|c) 成立,則上下文單詞序列 C={c_1,...,c_m}在語義上與某個(gè)單詞 c 等價(jià)。如果詞頻符合一個(gè)均勻分布,那么我們可以將單詞序列 C 的釋義寫作其上下文向量的和;向量的算術(shù)與該集合中的容斥(inclusion or exclusion)相對應(yīng)。然而,該論文的作者承認(rèn)該假設(shè)有些不切實(shí)際:詞頻往往遵循一個(gè)齊夫分布(Zipf distribution),該分布與標(biāo)準(zhǔn)分布相去甚遠(yuǎn)。最近一份發(fā)表在 ICML 2019 上的工作(https://arxiv.org/pdf/1901.09813.pdf)在完全不考慮 SGNS 中負(fù)采樣的影響的情況下,對此假設(shè)進(jìn)行變通。
最廣為接受的看法是,詞類比是形如「a 之于 b,相當(dāng)于 x 之于 y」的聲明,也就是說 a 和 x 經(jīng)過相同的變換后會分別得到 b 和 y,反之亦然。由于這是一個(gè)可逆變換,我們可以將其更形式化地定義為:詞類比 f 是一種在一組有序單詞對 S 上成立的可逆變換,當(dāng)且僅。當(dāng) f 可以表示為如
的形式時(shí),我們就稱其為一個(gè)線性詞類比。我們將對這種線性詞類比(例如,
)進(jìn)行進(jìn)一步的解釋。當(dāng)它們恰好成立時(shí),它們會(根據(jù)上述定義)在向量空間中形成一個(gè)平行四邊形結(jié)構(gòu):
這樣的平行四邊形具備一些我們可以利用的實(shí)用屬性。例如,一個(gè)四邊形是平行四邊形,當(dāng)且僅當(dāng)每一組對邊長度都相等(而且在跟高維的空間中,所有四個(gè)頂點(diǎn)共面)。這意味著:
一個(gè)線性詞類比在一組有序單詞對 S 上成立,當(dāng)且僅當(dāng)對于每一對(x,y)單詞對,有等;對于每兩對單詞對(a,b)和(x,y)有
,S 中所有的單詞的向量共面。
為了明確解釋上述條件的意義,我們需要能夠解釋兩個(gè)單詞向量之間的內(nèi)積(即點(diǎn)積)。
然而,現(xiàn)有的文獻(xiàn)只告訴我們?nèi)绾谓忉屢粋€(gè)單詞和一個(gè)上下文向量之間的內(nèi)積。不妨回想一下,SGNS 和 GloVe 為每個(gè)單詞創(chuàng)建了兩種表征,其中一種保證針對于該單詞是目標(biāo)單詞的情況,另一種表征針對于該單詞是上下文單詞的情況(即該單詞在其它單詞的上下文窗口中)。后一種表征被稱為「上下文向量」,通常會在訓(xùn)練后被刪除。
我們可以明確解釋一個(gè)單詞和上下文向量的內(nèi)積,因?yàn)榧词?SGNS 和 GloVe 實(shí)際上是迭代地學(xué)習(xí)向量,他們也會隱式地分解一個(gè)包含共現(xiàn)統(tǒng)計(jì)量的「單詞-上下文」矩陣。當(dāng)分解后的矩陣可以被完美地重建時(shí),為單詞向量,
為相應(yīng)的上下文向量:
第一個(gè)等式是 GloVe(https://nlp.stanford.edu/pubs/glove.pdf)的局部目標(biāo),其中代表共現(xiàn)次數(shù),b_x,b_y 代表學(xué)到的每個(gè)單詞的偏置。第二個(gè)等式由 Levy 和 Goldberg 提出(https://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization.pdf),他們證明了 SGNS 隱式地對「單詞-上下文」對的點(diǎn)互信息(PMI,https://en.wikipedia.org/wiki/Pointwise_mutual_information)矩陣進(jìn)行了分解,并減去了負(fù)樣本個(gè)數(shù) k 的對數(shù)。由于被分解的矩陣是對稱的,我們有
。
上下文空間中的類比
利用這些等式和分解后的「單詞-上下文」矩陣的對稱性,我們證明了:任何在單詞空間中成立的線性類比 f,都有一個(gè)相應(yīng)的在上下文空間中成立的線性類比 g。具體而言:
一個(gè)在無重建誤差的 SGNS 或 GloVe 單詞空間中的有序?qū)?S 上的線性類比
成立,當(dāng)且僅當(dāng)在相應(yīng)的上下文空間中的有序?qū)?S 上存在
,使得
。
這意味著我們可以將寫作
和
的內(nèi)積乘以 1/λ,從而使其更具有可解釋性。
現(xiàn)在,我們知道了線性類比在向量空間中成立所需要滿足的條件,以及如何解釋兩個(gè)單詞向量的內(nèi)積。
這意味著我們現(xiàn)在可以使用上述的 SGNS 或 GloVe 的等式,重寫這些關(guān)于訓(xùn)練語料庫的統(tǒng)計(jì)量的條件。無論我們選擇哪個(gè)等式,我們最終都會運(yùn)用到共現(xiàn)偏移點(diǎn)互信息定理(或簡稱 csPMI 定理)。值得一提的是,即使 SGNS 和 GloVe 是完全不同的嵌入模型,類比現(xiàn)象在其向量空間中出現(xiàn)的條件是相同的!
共現(xiàn)偏移點(diǎn)互信息定理(csPMI)
令 W 為無重建誤差的 SGNS 或 GloVe 單詞向量空間,M 為 SGNS 或 GloVe 隱式分解得到的「單詞-上下文」矩陣,S 為一組有序?qū)?,滿足 |S|>1,且 S 中的所有單詞都在 W 向量空間中有一個(gè)對應(yīng)的向量。
一個(gè)線性類別 f 在單詞對 S 上成立,當(dāng)且僅當(dāng):
每個(gè)(x,y)單詞對的 csPMI(x,y)相等
對于每兩個(gè)單詞對(x,y),(a,b),有 csPMI(a,x)=csPMI(b,y)
對于每兩個(gè)單詞對,
是線性相關(guān)的
例如,要使在一個(gè)無噪聲的 SGNS 或 GloVe 空間中成立
我們需要訓(xùn)練語料庫滿足下面的條件:
csPMI(king, queen) = csPMI(man, woman)
csPMI(king, man) = csPMI(queen, woman)
分解后的「單詞-上下文」矩陣中的四個(gè)單詞的行向量共面
對噪聲的魯棒性
實(shí)際上,即使在有噪聲的情況下,線性詞類比也是成立的。這是為什么呢?
1. 向量相等的定義實(shí)際上較為寬松。一個(gè)類比任務(wù)「(a,?)::(x,y)」可以通過尋找最接近的單詞來解決(不包括
是可能的答案的情況)。即使最終找到的答案可能并不精確,也并不在由
定義的平面上,但是我們?nèi)匀豢梢哉业秸_的答案。
2. 盡管該定理假設(shè)所有的單詞對都沒有重建誤差,如果我們不考慮共面性的約束,要想使得 f 在有序?qū)?S上恰好成立,只有需要被重建。
3. 類比只在頻繁出現(xiàn)的單詞對上成立,這樣就可以使噪聲更少。例如,在維基百科中,國家及其首都的類比的中位數(shù)為 3436.5,該類比的準(zhǔn)確率高達(dá) 95.4%;而國家及其貨幣的類比的中位數(shù)僅為 19,期準(zhǔn)確率則只有 9.2%。
直覺一直都是正確的!
提出原始的 GloVe 模型的論文(https://nlp.stanford.edu/pubs/glove.pdf)推測:形如「a 之于 b,相當(dāng)于 x 之于 y」的類比成立,當(dāng)且僅當(dāng)對于詞匯表中的所有單詞 ω,有:
盡管缺乏正式的證明,但這一直被認(rèn)為是對詞類比的直觀解釋。在我們的論文中,我們證明了這個(gè)推測確實(shí)是正確的(至少對于 SGNS 是正確的)。
向量加法形式的詞類比
通過引入零向量φ(在任意空間中映射到模為零向量)的概念,我們可以將向量加法設(shè)計(jì)成在
上的線性類比。如果 z 在單詞表中,則有
,其中
是與模型相關(guān)的常量。這反過來意味著:
這表明,增加兩個(gè) SGNS 向量隱式地降低了出現(xiàn)頻率更高的詞的權(quán)重,因?yàn)榧訖?quán)方案,例如 SIF(http://www.offconvex.org/2018/06/17/textembeddings/)、TF-IDF 需要視情況而定。比如說,如果將代表「x=’the’」和「y=’apple’」的向量相加,從而創(chuàng)建一個(gè)代表「z=’the_apple’」的向量。而且如果這實(shí)際上是單詞表中的一項(xiàng),我們希望有 csPMI(‘the_apple’,‘a(chǎn)pple’) > csPMI(‘the_apple’,‘the’)。盡管事實(shí)上,大多數(shù)雙字詞并不存在于單詞表中,但這有助于解釋經(jīng)驗(yàn)性的觀測結(jié)果(https://www.cs.cmu.edu/~jwieting/wieting2016ICLR.pdf):平均單詞向量是一種非常有效的組合單詞的方法。
解釋歐幾里得距離
存在,使得對于任意兩個(gè)在無噪聲的 SGNS 或 GloVe 空間中的單詞 x 和 y,有:
。
平方后的兩個(gè)單詞之間的歐幾里得距離是他們的負(fù) csPMI 的遞減線性函數(shù)。這是很直觀的:通過 csPMI 進(jìn)行度量時(shí),在訓(xùn)練語料庫中越相似的兩個(gè)單詞的詞向量之間的距離就越小。盡管如此,據(jù)我們所知,這還是第一次從信息論的角度解釋單詞向量空間中的歐幾里得距離。
正如前面提到的,之前的理論的一個(gè)關(guān)鍵問題是只有很少(如果有的話)的實(shí)驗(yàn)證據(jù)能夠支撐它們。下面,我們展示了兩個(gè)實(shí)驗(yàn)中的發(fā)現(xiàn),這兩個(gè)發(fā)現(xiàn)為我們的研究提供了證據(jù)。
估計(jì) csPMI
根據(jù) csPMI 定理,如果一個(gè)類比下號在一組無噪聲單詞向量空間中的單詞對上成立,那么每一對單詞都具有相同的 csPMI 值。為了檢驗(yàn)這一點(diǎn),我們計(jì)算了維基百科中共現(xiàn)的詞數(shù),并計(jì)算了 word2vec 論文中必須成立的單詞對的類比的平均 csPMI 值(例如,對于「首都-國家」單詞對來說,有 {(Paris, France)、(Berlin, Germany)} 成立)。接著,我們試圖使用在維基百科數(shù)據(jù)上訓(xùn)練的 SGNS 向量,通過傳統(tǒng)的最小化余弦距離的方式,對這些類比進(jìn)行求解。
在上面的表格中,我們可以看到:
1. 當(dāng) csPMI 的方差較小時(shí),類比的解的準(zhǔn)確率更高(皮爾遜相關(guān)系數(shù) r=-0.70)。這是因?yàn)楫?dāng)幾何平移性相同、并因此使得 csPMI 的值相同時(shí),類比更有可能更有可能在一組單詞對上成立。
2. 相似的類比(例如「首都-國家」和「首都-平民-國家」)具有相似的平均csPMI 值。我們的理論暗示了這一點(diǎn)(因?yàn)橄嗨频念惐扔邢嗨频钠揭葡蛄浚?/p>
3. 平均 csPMI 的變化反映了類比類型的變化,從地理信息(紅色)到時(shí)態(tài)(紫色)再到形容詞(藍(lán)色)。唯一的異常值是「currency」(貨幣),它具有很高的 csPMI 方差、非常低的準(zhǔn)確率,而且單詞對很少共同出現(xiàn)在維基百科中。還需注意的是,盡管類比于平均 csPMI 的變化情況非常一致,但是它們與平均 PMI 并沒有關(guān)系。
歐幾里得距離和 csPMI
為了檢驗(yàn) csPMI 定理對歐幾里得距離的解釋,我們繪制了在維基百科數(shù)據(jù)上訓(xùn)練的 SGNS 向量的以為橫坐標(biāo),以
為縱坐標(biāo)的圖像。
正如預(yù)期的那樣,橫縱坐標(biāo)之間有一個(gè)較強(qiáng)的正相關(guān)關(guān)系(皮爾遜相關(guān)系數(shù) r=0.502);兩個(gè)單詞越相似(正如 csPMI 定義的那樣),二者詞向量之間的歐幾里得距離越小。在歸一化單詞空間中,相關(guān)性也有這么強(qiáng)(皮爾遜相關(guān)系數(shù) r=0.514)。
在無噪聲的 SGNS 或 Glove 空間中,線性類比在一組單詞對上成立,當(dāng)且僅當(dāng)對于每個(gè)單詞和任意兩個(gè)單詞對來說,它們在分解出的「單詞-上下文」矩陣中的行向量共面的情況下,共現(xiàn)偏移點(diǎn)互信息(csPMI)相同。
反過來,這再次證明了人們長期以來對于「類比」現(xiàn)象為何成立的直覺,有助于解釋為什么向量加法是一種很好的組合單詞的方法,并對詞向量空間中的歐幾里得距離提出了一種新的解釋。于過去的詞類比算法理論不同,本文有充足的實(shí)驗(yàn)證據(jù)支撐 csPMI 定理,從而使其更站得住腳。
via https://kawine.github.io/blog/nlp/2019/06/21/word-analogies.html 雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章