丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

本文作者: AI研習(xí)社-譯站 2018-06-19 14:43
導(dǎo)語:讓我們推導(dǎo)、舉例和用數(shù)學(xué)方法來闡釋 word2vec。

雷鋒網(wǎng)按:本文為雷鋒網(wǎng)字幕組編譯的技術(shù)博客,原標(biāo)題 A、Word2Vec?—?a baby step in Deep Learning but a giant leap towards Natural Language Processing,作者為機(jī)器學(xué)習(xí)工程師 Suvro Banerjee

翻譯 | 于志鵬 林驍    校對 | 程思婕   整理  |  孔令雙

原文鏈接:

https://towardsdatascience.com/word2vec-a-baby-step-in-deep-learning-but-a-giant-leap-towards-natural-language-processing-40fe4e8602ba

引言

Word2Vec 模型用來學(xué)習(xí)單詞的向量表示,我們稱為「詞嵌入」。通常作為一種預(yù)處理步驟,在這之后詞向量被送入判別模型(通常是 RNN)生成預(yù)測結(jié)果和執(zhí)行各種有趣的操作。 

為什么要學(xué)習(xí) word2vec

圖像和聲音處理系統(tǒng)所需豐富、高維的數(shù)據(jù)集,按各原始圖像的像素強(qiáng)度被編碼為向量的形式,所有信息都被編碼在這樣的數(shù)據(jù)中,因此就可以在系統(tǒng)中建立各種實體(如 cat 和 dog)之間的關(guān)系。

但是,傳統(tǒng)的自然語言處理系統(tǒng)通常將單詞視為離散的原子符號,所以 cat 可以被表示為 Id537,dog 可以表示為 Id143。這些編碼是任意的并且不能向系統(tǒng)提供任何關(guān)于各個原子符號之間關(guān)系的信息。這意味著,模型在處理 dogs 的數(shù)據(jù)時不能與模型已經(jīng)學(xué)習(xí)過的 cats 的特征聯(lián)系起來(如它們都有是動物,都有四條腿,都是寵物等等)。

將單詞表示為唯一的、離散的 ID 還會進(jìn)一步導(dǎo)致數(shù)據(jù)稀疏,還意味著我們可能需要更多的數(shù)據(jù)才能成功訓(xùn)練統(tǒng)計模型。使用向量表示就可以避免這些問題。

讓我們來看一個例子 

傳統(tǒng)的 NLP 方法涉及許多語言學(xué)領(lǐng)域知識,要求你理解諸如「音素」及「詞素」等術(shù)語,因為語言學(xué)中有很多分類,音素學(xué)和詞素學(xué)是其中的兩種。讓我們來看看傳統(tǒng)的 NLP 方法如何嘗試?yán)斫庀旅娴膯卧~。 

假設(shè)我們要獲取關(guān)于單詞的一些信息(諸如它所表達(dá)的情緒、它的定義等),運用語言學(xué)的方法我們將詞分為 3 個部分。即前綴、后綴、詞干。

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

比如,我們知道「un」前綴表示相反或否定的意思,我們也知道「ed」可以指定表示單詞的時態(tài)(過去時)。我們可以從「interest」的詞干中很容易的推斷出整個詞的含義和表達(dá)的情感. 是不是非常簡單?然而,當(dāng)考慮所有不同的前后綴時需要非常嫻熟的語言學(xué)家來理解所有可能組合的含義。

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

深度學(xué)習(xí),本質(zhì)上就是表示學(xué)習(xí)。我們將要采用一些方法通過大數(shù)據(jù)集的訓(xùn)練來創(chuàng)建單詞的表示。

詞向量

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

假設(shè)我們用一個 d 維向量表示每一個單詞,假設(shè) d=6。我們想要為句子中的每個不重復(fù)單詞創(chuàng)建單詞詞向量。

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

現(xiàn)在來考慮一下如何賦值,我們希望可以用某種方式來表示這個單詞和它的上下文、含義、語義。一種方法是創(chuàng)建一個共生矩陣。 

共生矩陣是這樣一種矩陣,它包含這個詞在所有語料庫(或訓(xùn)練集)中和所有其他詞組合出現(xiàn)的次數(shù)。我們來看一下共生矩陣的樣子。

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

通過上面這個簡單的共生矩陣的例子,我們可以獲得很多相當(dāng)有用的信息。比如,我們注意到「love」和「like」這兩個詞向量中都含有若干個 1,這是對他們所接名詞(NLP 和 dogs)的記數(shù)。對「I」的記數(shù)也含若干個1,因此表明這個單詞一定是某個動詞。當(dāng)處理多句的大數(shù)據(jù)集時,你可以想象這種相似性會變得更加清晰,比如「like」、「love」和其他同義詞將具有相似的詞向量,因為他們在相似的語境中。 

目前,雖然我們有了一個很好的開端,但是我們也要注意到每個單詞的維度將隨著語料庫的增大而線性增加。如果我們有 100 萬個單詞 (在 NLP 的標(biāo)準(zhǔn)中并不是很多),我們將會有一個 100 萬*100 萬大小的矩陣,并且是非常稀疏的(大量 0 元素)。在存儲效率方面這個顯然不是最好的方案。在尋找表示這些詞向量的最佳方法中有很多改進(jìn)。其中最著名的就是 Word2Vec 。

正式介紹 

向量空間模型(VSMs)在連續(xù)向量空間中表示(嵌入) 單詞,其中語義相似的單詞被映射到臨近點(嵌入在彼此附近)。VSMs 在 NLP 發(fā)展中有著悠久的歷史,但都依賴于分布式假設(shè),該假設(shè)指出,出現(xiàn)在相同語境中的單詞具有相似語義。利用這一原則的方法可以分為兩類:

  1. 1.基于記數(shù)的方法(例如:潛在語義的分析);

  2. 2.預(yù)測方法(例如:神經(jīng)概率語言模型)

他們的區(qū)別是--

用計數(shù)的方法計算某個詞在大型文本語料庫中與其相鄰詞匯共同出現(xiàn)的頻率的統(tǒng)計數(shù)據(jù),然后將這些統(tǒng)計數(shù)據(jù)的每個詞映射為小且密集的向量。  

預(yù)測模型直接嘗試根據(jù)學(xué)習(xí)的小密集嵌入向量(考慮模型的參數(shù))來預(yù)測來自其鄰居的單詞。

 Word2vec 是一種特別有效的計算預(yù)測模型,用于從原始文本中學(xué)習(xí)單詞嵌入。它有兩種形式,即連續(xù)字袋模型(CBOW)和 the Skip-Gram 模型。在算法上,這些模型是相似的,除了 CBOW 從源上下文單詞中預(yù)測目標(biāo)單詞,而 the skip-Gram 相反并預(yù)測來自目標(biāo)單詞源上下文的單詞。

在接下來的討論中,我們將重點討論 skipg 模型。

數(shù)學(xué)運用  

傳統(tǒng)上,神經(jīng)概率語言模型使用最大似然原理進(jìn)行訓(xùn)練,以 softmax 函數(shù)的形式使給定前面的單詞 h(「history」)的下一個單詞 wt(「target」)的概率最大化。

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

利用 score(wt, h) 計算目標(biāo)詞 wt 與上下文 h 的兼容性(通常使用點積運算)。

我們通過在訓(xùn)練集上最大化它的對數(shù)似然來訓(xùn)練這個模型。所以,我們最大化以下?lián)p失函數(shù)。

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

這為語言建模提供了一個合適的標(biāo)準(zhǔn)化概率模型。  

這個相同的論點也可以用稍微不同的公式來表示,它清楚地顯示了為了使這個目標(biāo)最大化而改變的變量(或參數(shù))。  

我們的目標(biāo)是找到一些詞匯表示,這些詞匯可以用于預(yù)測當(dāng)前單詞的周圍詞匯。特別是,我們希望最大化我們整個語料庫的平均對數(shù)概率:

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

這個方程從本質(zhì)上說,有一些概率 p 觀察當(dāng)前單詞 wt 的大小為 c 的窗口內(nèi)的特定單詞。這個概率取決于當(dāng)前單詞 wt 和參數(shù)θ的一些設(shè)置(由我們的模型確定)。我們希望設(shè)置這些參數(shù)θ,以便在整個語料庫中這個概率最大化。

基本參數(shù)化:Softmax 模型 

基本 skip-gram 模型定義了通過 softmax 函數(shù)的概率 p,正如我們前面看到的那樣。如果我們認(rèn)為 wi 維數(shù)為 N 和θ的單熱編碼矢量,并且它是一個 N×K 矩陣嵌入矩陣,這表示我們的詞匯表中有 N 個詞,而我們學(xué)習(xí)的嵌入具有維數(shù) K,那么我們可以定義 -

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

值得注意的是,在學(xué)習(xí)之后,矩陣theta可以被認(rèn)為是嵌入查找矩陣。

在架構(gòu)方面,它是一個簡單的三層神經(jīng)網(wǎng)絡(luò)。

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

  1. 搭建三層網(wǎng)絡(luò)結(jié)構(gòu)(一個輸入層,一個隱藏層,一個輸出層)

  2. 傳入一個單詞,并讓它訓(xùn)練其附近的單詞

  3. 移除輸出層,但保留輸入層和隱藏層

  4. 接著,從詞匯表中輸入一個單詞。隱藏層給出的輸出是輸入單詞的「單詞嵌入」

這種參數(shù)化有一個主要的缺點,限制了它在大型的語料庫中的用處。具體來說,我們注意到為了計算我們模型的單個正向通過,我們必須對整個語料庫詞匯進(jìn)行總結(jié),以評估 softmax 函數(shù)。對于大型數(shù)據(jù)集來說這是非常奢侈的,所以我們?yōu)榱擞嬎阈士紤]這個模型的替代近似。

提高計算效率

對于 word2vec 中的特征學(xué)習(xí),我們不需要完整的概率模型。CBOW 和 skip-gram 模型是使用二分類目標(biāo)(邏輯回歸)來訓(xùn)練的,以在相同的上下文中將真實目標(biāo)詞語(wt)與 k 個虛數(shù)(干擾)詞語 w 進(jìn)行區(qū)分。

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

在數(shù)學(xué)上,該操作是對每個對象進(jìn)行最大化。

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

當(dāng)模型將高概率分配給真實詞,并將低概率分配給噪音詞,這個目標(biāo)被最大化。 從技術(shù)上講,這被稱為負(fù)采樣,它提出的更新近似于極限中softmax函數(shù)的更新。 但是在計算上它特別有吸引力,因為計算損失函數(shù)現(xiàn)在只能根據(jù)我們選擇的噪音詞的數(shù)量(k)而不是詞匯表(V)中的所有單詞, 這使它訓(xùn)練速度更快。 像Tensorflow這樣的軟件包使用了一種非常相似的損失函數(shù),稱為噪聲對比估計(NCE)損失。

Skip-gram 模型的直觀感受

作為一個示例,我們需要考慮數(shù)據(jù)集-

the quick brown fox jumped over the lazy dog

我們首先形成一個單詞數(shù)據(jù)集和它們出現(xiàn)的上下文?,F(xiàn)在,讓我們堅持使用 the vanilla 定義,并將「上下文」分別將單詞窗口定義為目標(biāo)單詞左側(cè)和右側(cè)。使用窗口大小為 1,我們就有了 (context, target) 對的數(shù)據(jù)集。

([the, brown], quick), ([quick, fox], brown), ([brown, jumped], fox), ...

回想一下,skip-gram 會顛倒上下文和目標(biāo),并試圖從目標(biāo)詞中預(yù)測每個上下文單詞,因此任務(wù)將從「quick」,「quick」和「fox」中預(yù)測「the」和「brown」」。  

因此我們的數(shù)據(jù)集成為(input,output),如下所示:

(quick, the), (quick, brown), (brown, quick), (brown, fox), ...

目標(biāo)函數(shù)是在整個數(shù)據(jù)集上定義的,但我們通常使用隨機(jī)梯度下降(SGD)對每個示例(或 batch_size 示例的「minibatch」進(jìn)行優(yōu)化,其中通常為 16 <= batch_size <= 512)進(jìn)行優(yōu)化。讓我們來看一下這個過程的一個步驟。

讓我們想象一下,在訓(xùn)練步驟中,我們觀察上面的第一個訓(xùn)練案例,其中的目標(biāo)是快速預(yù)測。我們通過從一些噪聲分布(通常是單字符分布)中選擇 num_noise 噪聲(對比)例子的數(shù)目來選擇(該單元假設(shè)每個詞語的出現(xiàn)與所有其他詞語的出現(xiàn)無關(guān),也就是說我們可以將生成過程看作是一個骰子序列滾動序列 P(w)。

為了簡單起見,我們假設(shè) num_noise = 1,我們選擇 sheep 作為一個干擾的例子。接下來我們計算這對觀察到的和有噪聲例子的損失,即在時間步驟「t」的目標(biāo)變成 -

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

我們的目標(biāo)是對嵌入?yún)?shù)θ進(jìn)行更新以最大化該目標(biāo)函數(shù)。 我們通過推導(dǎo)關(guān)于嵌入?yún)?shù)θ的損失梯度來做到這一點。

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

然后,我們通過向梯度方向的移動來更新嵌入?yún)?shù)。當(dāng)這個過程在整個訓(xùn)練集上重復(fù)時,這會對每個單詞產(chǎn)生「移動」嵌入向量的效果,直到模型成功地區(qū)分真實單詞和噪音單詞為止。

我們可以通過將它們向下投影到 3 維來可視化學(xué)習(xí)向量。當(dāng)我們觀察這些可視化變量時,很明顯,這些向量捕獲了一些關(guān)于單詞的語義信息以及它們之間的關(guān)系,在實際應(yīng)用上時非常有用的。

參考資料

  1. Word2Vec的Tensorflow實現(xiàn)

  2. 詞語和短語的分布式表征及其組合性 - Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg Corrado 和 Jeffrey Dean 的研究論文

  3. Aneesh Joshi對word2vec的實用指南

  4. Adit Deshpande自然語言的評論

  5. Rohan Verma的語言模型

雷鋒網(wǎng)字幕組編譯。

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

Word2Vec —— 深度學(xué)習(xí)的一小步,自然語言處理的一大步

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說