Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步

本文作者： AI研習(xí)社-譯站

2018-06-19 14:43

導(dǎo)語：讓我們推導(dǎo)、舉例和用數(shù)學(xué)方法來闡釋 word2vec。

雷鋒網(wǎng)按：本文為雷鋒網(wǎng)字幕組編譯的技術(shù)博客，原標(biāo)題 A、Word2Vec?—?a baby step in Deep Learning but a giant leap towards Natural Language Processing，作者為機器學(xué)習(xí)工程師 Suvro Banerjee
翻譯 | 于志鵬林驍校對 | 程思婕整理 | 孔令雙
原文鏈接：
https://towardsdatascience.com/word2vec-a-baby-step-in-deep-learning-but-a-giant-leap-towards-natural-language-processing-40fe4e8602ba

引言

Word2Vec 模型用來學(xué)習(xí)單詞的向量表示，我們稱為「詞嵌入」。通常作為一種預(yù)處理步驟，在這之后詞向量被送入判別模型（通常是 RNN）生成預(yù)測結(jié)果和執(zhí)行各種有趣的操作。

為什么要學(xué)習(xí) word2vec

圖像和聲音處理系統(tǒng)所需豐富、高維的數(shù)據(jù)集，按各原始圖像的像素強度被編碼為向量的形式，所有信息都被編碼在這樣的數(shù)據(jù)中，因此就可以在系統(tǒng)中建立各種實體（如 cat 和 dog）之間的關(guān)系。

但是，傳統(tǒng)的自然語言處理系統(tǒng)通常將單詞視為離散的原子符號，所以 cat 可以被表示為 Id537，dog 可以表示為 Id143。這些編碼是任意的并且不能向系統(tǒng)提供任何關(guān)于各個原子符號之間關(guān)系的信息。這意味著，模型在處理 dogs 的數(shù)據(jù)時不能與模型已經(jīng)學(xué)習(xí)過的 cats 的特征聯(lián)系起來（如它們都有是動物，都有四條腿，都是寵物等等）。

將單詞表示為唯一的、離散的 ID 還會進(jìn)一步導(dǎo)致數(shù)據(jù)稀疏，還意味著我們可能需要更多的數(shù)據(jù)才能成功訓(xùn)練統(tǒng)計模型。使用向量表示就可以避免這些問題。

讓我們來看一個例子

傳統(tǒng)的 NLP 方法涉及許多語言學(xué)領(lǐng)域知識，要求你理解諸如「音素」及「詞素」等術(shù)語，因為語言學(xué)中有很多分類，音素學(xué)和詞素學(xué)是其中的兩種。讓我們來看看傳統(tǒng)的 NLP 方法如何嘗試?yán)斫庀旅娴膯卧~。

假設(shè)我們要獲取關(guān)于單詞的一些信息（諸如它所表達(dá)的情緒、它的定義等），運用語言學(xué)的方法我們將詞分為 3 個部分。即前綴、后綴、詞干。

Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步

比如，我們知道「un」前綴表示相反或否定的意思，我們也知道「ed」可以指定表示單詞的時態(tài)（過去時）。我們可以從「interest」的詞干中很容易的推斷出整個詞的含義和表達(dá)的情感. 是不是非常簡單？然而，當(dāng)考慮所有不同的前后綴時需要非常嫻熟的語言學(xué)家來理解所有可能組合的含義。

Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步

深度學(xué)習(xí)，本質(zhì)上就是表示學(xué)習(xí)。我們將要采用一些方法通過大數(shù)據(jù)集的訓(xùn)練來創(chuàng)建單詞的表示。

詞向量

Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步

假設(shè)我們用一個 d 維向量表示每一個單詞，假設(shè) d=6。我們想要為句子中的每個不重復(fù)單詞創(chuàng)建單詞詞向量。

Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步

現(xiàn)在來考慮一下如何賦值，我們希望可以用某種方式來表示這個單詞和它的上下文、含義、語義。一種方法是創(chuàng)建一個共生矩陣。

共生矩陣是這樣一種矩陣，它包含這個詞在所有語料庫（或訓(xùn)練集）中和所有其他詞組合出現(xiàn)的次數(shù)。我們來看一下共生矩陣的樣子。

Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步

通過上面這個簡單的共生矩陣的例子，我們可以獲得很多相當(dāng)有用的信息。比如，我們注意到「love」和「like」這兩個詞向量中都含有若干個 1，這是對他們所接名詞（NLP 和 dogs）的記數(shù)。對「I」的記數(shù)也含若干個1，因此表明這個單詞一定是某個動詞。當(dāng)處理多句的大數(shù)據(jù)集時，你可以想象這種相似性會變得更加清晰，比如「like」、「love」和其他同義詞將具有相似的詞向量，因為他們在相似的語境中。

目前，雖然我們有了一個很好的開端，但是我們也要注意到每個單詞的維度將隨著語料庫的增大而線性增加。如果我們有 100 萬個單詞（在 NLP 的標(biāo)準(zhǔn)中并不是很多），我們將會有一個 100 萬*100 萬大小的矩陣，并且是非常稀疏的（大量 0 元素）。在存儲效率方面這個顯然不是最好的方案。在尋找表示這些詞向量的最佳方法中有很多改進(jìn)。其中最著名的就是 Word2Vec 。

正式介紹

向量空間模型（VSMs）在連續(xù)向量空間中表示（嵌入）單詞，其中語義相似的單詞被映射到臨近點（嵌入在彼此附近）。VSMs 在 NLP 發(fā)展中有著悠久的歷史，但都依賴于分布式假設(shè)，該假設(shè)指出，出現(xiàn)在相同語境中的單詞具有相似語義。利用這一原則的方法可以分為兩類：

1.基于記數(shù)的方法（例如：潛在語義的分析）；
2.預(yù)測方法（例如：神經(jīng)概率語言模型）

他們的區(qū)別是--

用計數(shù)的方法計算某個詞在大型文本語料庫中與其相鄰詞匯共同出現(xiàn)的頻率的統(tǒng)計數(shù)據(jù)，然后將這些統(tǒng)計數(shù)據(jù)的每個詞映射為小且密集的向量。

預(yù)測模型直接嘗試根據(jù)學(xué)習(xí)的小密集嵌入向量（考慮模型的參數(shù)）來預(yù)測來自其鄰居的單詞。

Word2vec 是一種特別有效的計算預(yù)測模型，用于從原始文本中學(xué)習(xí)單詞嵌入。它有兩種形式，即連續(xù)字袋模型（CBOW）和 the Skip-Gram 模型。在算法上，這些模型是相似的，除了 CBOW 從源上下文單詞中預(yù)測目標(biāo)單詞，而 the skip-Gram 相反并預(yù)測來自目標(biāo)單詞源上下文的單詞。

在接下來的討論中，我們將重點討論 skipg 模型。

數(shù)學(xué)運用

傳統(tǒng)上，神經(jīng)概率語言模型使用最大似然原理進(jìn)行訓(xùn)練，以 softmax 函數(shù)的形式使給定前面的單詞 h（「history」）的下一個單詞 wt（「target」）的概率最大化。

Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步

利用 score(wt, h) 計算目標(biāo)詞 wt 與上下文 h 的兼容性（通常使用點積運算）。

我們通過在訓(xùn)練集上最大化它的對數(shù)似然來訓(xùn)練這個模型。所以，我們最大化以下?lián)p失函數(shù)。

Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步

這為語言建模提供了一個合適的標(biāo)準(zhǔn)化概率模型。

這個相同的論點也可以用稍微不同的公式來表示，它清楚地顯示了為了使這個目標(biāo)最大化而改變的變量（或參數(shù)）。

我們的目標(biāo)是找到一些詞匯表示，這些詞匯可以用于預(yù)測當(dāng)前單詞的周圍詞匯。特別是，我們希望最大化我們整個語料庫的平均對數(shù)概率：

Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步

這個方程從本質(zhì)上說，有一些概率 p 觀察當(dāng)前單詞 wt 的大小為 c 的窗口內(nèi)的特定單詞。這個概率取決于當(dāng)前單詞 wt 和參數(shù)θ的一些設(shè)置（由我們的模型確定）。我們希望設(shè)置這些參數(shù)θ，以便在整個語料庫中這個概率最大化。

基本參數(shù)化：Softmax 模型

基本 skip-gram 模型定義了通過 softmax 函數(shù)的概率 p，正如我們前面看到的那樣。如果我們認(rèn)為 wi 維數(shù)為 N 和θ的單熱編碼矢量，并且它是一個 N×K 矩陣嵌入矩陣，這表示我們的詞匯表中有 N 個詞，而我們學(xué)習(xí)的嵌入具有維數(shù) K，那么我們可以定義 -

Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步

值得注意的是，在學(xué)習(xí)之后，矩陣theta可以被認(rèn)為是嵌入查找矩陣。

在架構(gòu)方面，它是一個簡單的三層神經(jīng)網(wǎng)絡(luò)。

Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步

搭建三層網(wǎng)絡(luò)結(jié)構(gòu)（一個輸入層，一個隱藏層，一個輸出層）
傳入一個單詞，并讓它訓(xùn)練其附近的單詞
移除輸出層，但保留輸入層和隱藏層
接著，從詞匯表中輸入一個單詞。隱藏層給出的輸出是輸入單詞的「單詞嵌入」

這種參數(shù)化有一個主要的缺點，限制了它在大型的語料庫中的用處。具體來說，我們注意到為了計算我們模型的單個正向通過，我們必須對整個語料庫詞匯進(jìn)行總結(jié)，以評估 softmax 函數(shù)。對于大型數(shù)據(jù)集來說這是非常奢侈的，所以我們?yōu)榱擞嬎阈士紤]這個模型的替代近似。

提高計算效率

對于 word2vec 中的特征學(xué)習(xí)，我們不需要完整的概率模型。CBOW 和 skip-gram 模型是使用二分類目標(biāo)（邏輯回歸）來訓(xùn)練的，以在相同的上下文中將真實目標(biāo)詞語（wt）與 k 個虛數(shù)（干擾）詞語 w 進(jìn)行區(qū)分。

Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步

在數(shù)學(xué)上，該操作是對每個對象進(jìn)行最大化。

Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步

當(dāng)模型將高概率分配給真實詞，并將低概率分配給噪音詞，這個目標(biāo)被最大化。從技術(shù)上講，這被稱為負(fù)采樣，它提出的更新近似于極限中softmax函數(shù)的更新。但是在計算上它特別有吸引力，因為計算損失函數(shù)現(xiàn)在只能根據(jù)我們選擇的噪音詞的數(shù)量（k）而不是詞匯表（V）中的所有單詞，這使它訓(xùn)練速度更快。像Tensorflow這樣的軟件包使用了一種非常相似的損失函數(shù)，稱為噪聲對比估計（NCE）損失。

Skip-gram 模型的直觀感受

作為一個示例，我們需要考慮數(shù)據(jù)集－

the quick brown fox jumped over the lazy dog

我們首先形成一個單詞數(shù)據(jù)集和它們出現(xiàn)的上下文。現(xiàn)在，讓我們堅持使用 the vanilla 定義，并將「上下文」分別將單詞窗口定義為目標(biāo)單詞左側(cè)和右側(cè)。使用窗口大小為 1，我們就有了 (context, target) 對的數(shù)據(jù)集。

([the, brown], quick), ([quick, fox], brown), ([brown, jumped], fox), ...

回想一下，skip-gram 會顛倒上下文和目標(biāo)，并試圖從目標(biāo)詞中預(yù)測每個上下文單詞，因此任務(wù)將從「quick」，「quick」和「fox」中預(yù)測「the」和「brown」」。

因此我們的數(shù)據(jù)集成為（input，output），如下所示：

(quick, the), (quick, brown), (brown, quick), (brown, fox), ...

目標(biāo)函數(shù)是在整個數(shù)據(jù)集上定義的，但我們通常使用隨機梯度下降（SGD）對每個示例（或 batch_size 示例的「minibatch」進(jìn)行優(yōu)化，其中通常為 16 <= batch_size <= 512）進(jìn)行優(yōu)化。讓我們來看一下這個過程的一個步驟。

讓我們想象一下，在訓(xùn)練步驟中，我們觀察上面的第一個訓(xùn)練案例，其中的目標(biāo)是快速預(yù)測。我們通過從一些噪聲分布（通常是單字符分布）中選擇 num_noise 噪聲（對比）例子的數(shù)目來選擇（該單元假設(shè)每個詞語的出現(xiàn)與所有其他詞語的出現(xiàn)無關(guān)，也就是說我們可以將生成過程看作是一個骰子序列滾動序列 P（w）。

為了簡單起見，我們假設(shè) num_noise = 1，我們選擇 sheep 作為一個干擾的例子。接下來我們計算這對觀察到的和有噪聲例子的損失，即在時間步驟「t」的目標(biāo)變成 -

Word2Vec —— 深度學(xué)習(xí)的一小步，自然語言處理的一大步