丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給AI研習(xí)社
發(fā)送

0

不是你無(wú)法入門(mén)自然語(yǔ)言處理(NLP),而是你沒(méi)找到正確的打開(kāi)方式

本文作者: AI研習(xí)社 2017-05-23 11:34
導(dǎo)語(yǔ):NLP 必讀系列。

雷鋒網(wǎng)按:本文作者 Mr.Scofield,原文載于作者個(gè)人博客,雷鋒網(wǎng)已獲授權(quán)。

  〇、序

之前一段時(shí)間,在結(jié)合深度學(xué)習(xí)做 NLP 的時(shí)候一直有思考一些問(wèn)題,其中有一個(gè)問(wèn)題算是最核心一個(gè):究竟深度網(wǎng)絡(luò)是怎么做到讓各種 NLP 任務(wù)解決地如何完美呢?到底我的數(shù)據(jù)在 NN 中發(fā)什么了什么呢?

并且,不少的 terms like: 詞向量、word embedding、分布式表示、word2vec、glove 等等,這一鍋粥的名詞術(shù)語(yǔ)分別代表什么,他們具體的關(guān)系是什么,他們是否處于平級(jí)關(guān)系?

出于對(duì)知識(shí)結(jié)構(gòu)追求完整梳理的強(qiáng)迫癥的老毛病,于是不停地查資料、思考、keep revolving……

然后就感覺(jué)有一點(diǎn)小進(jìn)展了。想到,不如將個(gè)人對(duì)其的理解,無(wú)論對(duì)錯(cuò),先拿出來(lái)跟peer分享下,或許能交換出更有意義的東西呢?

整篇文章的構(gòu)架是按照屬于概念在邏輯上的先后大小順序,一層一層一級(jí)一級(jí)地往下剖析、比較、說(shuō)明。

另外說(shuō)明下,here整篇文字內(nèi)容相對(duì)是比較入門(mén),甚至有的點(diǎn)可能描述的不太客觀正確,限于當(dāng)前的認(rèn)知水平……還請(qǐng)您海涵,希望您在評(píng)論中指正!

  一、DeepNLP的核心關(guān)鍵:語(yǔ)言表示(Representation)

最近有一個(gè)新名詞:Deep Learning + NLP =  DeepNLP。當(dāng)常規(guī)的機(jī)器學(xué)習(xí)Machine Learning升級(jí)發(fā)展到了一定的階段后,慢慢的被后起的深度學(xué)習(xí)Deep Learning奪勢(shì)而去,并如火如荼地引領(lǐng)了一波新高潮,因?yàn)镈eep Learning有machinelearning過(guò)而不及之處!那當(dāng) Deep Learning 進(jìn)入 NLP 領(lǐng)域,自然是要橫掃 ACL 一批 paper 才是。事實(shí)也是這樣的。

先提下數(shù)據(jù)特征表示問(wèn)題。數(shù)據(jù)表示是機(jī)器學(xué)習(xí)的核心問(wèn)題,在過(guò)去的Machine Learning階段,大量興起特征工程,人工設(shè)計(jì)大量的特征解決數(shù)據(jù)的有效表示問(wèn)題。而到了Deep Learning,想都別想,end-2-end,一步到位,hyper-parameter自動(dòng)幫你選擇尋找關(guān)鍵的特征參數(shù)。

那么,Deep Learning如何能在NLP中發(fā)揮出應(yīng)有的real power呢?很明顯,先不提如何設(shè)計(jì)出很強(qiáng)勢(shì)的網(wǎng)絡(luò)結(jié)構(gòu),不提如何在NLP中引入基于NN的解決例如情感分析、實(shí)體識(shí)別、機(jī)器翻譯、文本生成這些高級(jí)任務(wù),咱們首先得把語(yǔ)言表示這一關(guān)過(guò)了——如何讓語(yǔ)言表示成為NN能夠處理的數(shù)據(jù)類型。

我們看看圖像和語(yǔ)音是怎么表示數(shù)據(jù)的:

不是你無(wú)法入門(mén)自然語(yǔ)言處理(NLP),而是你沒(méi)找到正確的打開(kāi)方式

在語(yǔ)音中,用音頻頻譜序列向量所構(gòu)成的matrix作為前端輸入喂給NN進(jìn)行處理,good;在圖像中,用圖片的像素構(gòu)成的matrix展平成vector后組成的vector序列喂給NN進(jìn)行處理,good;那在自然語(yǔ)言處理中呢?噢你可能知道或者不知道,將每一個(gè)詞用一個(gè)向量表示出來(lái)!想法是挺簡(jiǎn)單的,對(duì),事實(shí)上就是這么簡(jiǎn)單,然而真有這么簡(jiǎn)單嗎?可能沒(méi)這么簡(jiǎn)單。

有人提到,圖像、語(yǔ)音屬于比較自然地低級(jí)數(shù)據(jù)表示形式,在圖像和語(yǔ)音領(lǐng)域,最基本的數(shù)據(jù)是信號(hào)數(shù)據(jù),我們可以通過(guò)一些距離度量,判斷信號(hào)是否相似,在判斷兩幅圖片是否相似時(shí),只需通過(guò)觀察圖片本身就能給出回答。而語(yǔ)言作為人類在進(jìn)化了幾百萬(wàn)年所產(chǎn)生的一種高層的抽象的思維信息表達(dá)的工具,其具有高度抽象的特征,文本是符號(hào)數(shù)據(jù),兩個(gè)詞只要字面不同,就難以刻畫(huà)它們之間的聯(lián)系,即使是“麥克風(fēng)”和“話筒”這樣的同義詞,從字面上也難以看出這兩者意思相同(語(yǔ)義鴻溝現(xiàn)象),可能并不是簡(jiǎn)單地一加一那么簡(jiǎn)單就能表示出來(lái),而判斷兩個(gè)詞是否相似時(shí),還需要更多的背景知識(shí)才能做出回答。

那么據(jù)上是不是可以自信地下一個(gè)結(jié)論呢:如何有效地表示出語(yǔ)言句子是決定NN能發(fā)揮出強(qiáng)大擬合計(jì)算能力的關(guān)鍵前提!

  二、NLP詞的表示方法類型

接下來(lái)將按照上面的思路,引出各種詞的表示方法。按照現(xiàn)今目前的發(fā)展,詞的表示分為獨(dú)熱表示one-hot、分布式表示distributed。

1、詞的獨(dú)熱表示one-hot representation

NLP 中最直觀,也是到目前為止最常用的詞表示方法是 One-hot Representation,這種方法把每個(gè)詞表示為一個(gè)很長(zhǎng)的向量。這個(gè)向量的維度是詞表大小,其中絕大多數(shù)元素為 0,只有一個(gè)維度的值為 1,這個(gè)維度就代表了當(dāng)前的詞。關(guān)于one-hot編碼的資料很多,街貨,這里簡(jiǎn)單舉個(gè)栗子說(shuō)明:

“話筒”表示為 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...]
“麥克”表示為 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 ...]

每個(gè)詞都是茫茫 0 海中的一個(gè) 1。這種 One-hot Representation 如果采用稀疏方式存儲(chǔ),會(huì)是非常的簡(jiǎn)潔:也就是給每個(gè)詞分配一個(gè)數(shù)字 ID。比如剛才的例子中,話筒記為 3,麥克記為 8(假設(shè)從 0 開(kāi)始記)。如果要編程實(shí)現(xiàn)的話,用 Hash 表給每個(gè)詞分配一個(gè)編號(hào)就可以了。這么簡(jiǎn)潔的表示方法配合上最大熵、SVM、CRF 等等算法已經(jīng)很好地完成了 NLP 領(lǐng)域的各種主流任務(wù)。

現(xiàn)在我們分析他的不當(dāng)處。1、向量的維度會(huì)隨著句子的詞的數(shù)量類型增大而增大;2、任意兩個(gè)詞之間都是孤立的,根本無(wú)法表示出在語(yǔ)義層面上詞語(yǔ)詞之間的相關(guān)信息,而這一點(diǎn)是致命的。

2、詞的分布式表示distributed representation

傳統(tǒng)的獨(dú)熱表示( one-hot representation)僅僅將詞符號(hào)化,不包含任何語(yǔ)義信息。如何將語(yǔ)義融入到詞表示中?Harris 在 1954 年提出的分布假說(shuō)( distributional hypothesis)為這一設(shè)想提供了理論基礎(chǔ):上下文相似的詞,其語(yǔ)義也相似。Firth 在 1957 年對(duì)分布假說(shuō)進(jìn)行了進(jìn)一步闡述和明確:詞的語(yǔ)義由其上下文決定( a word is characterized by thecompany it keeps)。

到目前為止,基于分布假說(shuō)的詞表示方法,根據(jù)建模的不同,主要可以分為三類:基于矩陣的分布表示、基于聚類的分布表示和基于神經(jīng)網(wǎng)絡(luò)的分布表示。盡管這些不同的分布表示方法使用了不同的技術(shù)手段獲取詞表示,但由于這些方法均基于分布假說(shuō),它們的核心思想也都由兩部分組成:一、選擇一種方式描述上下文;二、選擇一種模型刻畫(huà)某個(gè)詞(下文稱“目標(biāo)詞”)與其上下文之間的關(guān)系。

  三、NLP語(yǔ)言模型

在詳細(xì)介紹詞的分布式表示之前,需要將NLP中的一個(gè)關(guān)鍵概念描述清楚:語(yǔ)言模型。語(yǔ)言模型包括文法語(yǔ)言模型和統(tǒng)計(jì)語(yǔ)言模型。一般我們指的是統(tǒng)計(jì)語(yǔ)言模型。之所以要將語(yǔ)言模型擺在詞表示方法之前,是因?yàn)楹竺娴谋硎痉椒R上要用到這一概念。

統(tǒng)計(jì)語(yǔ)言模型: 統(tǒng)計(jì)語(yǔ)言模型把語(yǔ)言(詞的序列)看作一個(gè)隨機(jī)事件,并賦予相應(yīng)的概率來(lái)描述其屬于某種語(yǔ)言集合的可能性。給定一個(gè)詞匯集合 V,對(duì)于一個(gè)由 V 中的詞構(gòu)成的序列 S = ?w1, · · · , wT ? ∈ Vn,統(tǒng)計(jì)語(yǔ)言模型賦予這個(gè)序列一個(gè)概率 P(S),來(lái)衡量 S 符合自然語(yǔ)言的語(yǔ)法和語(yǔ)義規(guī)則的置信度。

用一句簡(jiǎn)單的話說(shuō),就語(yǔ)言模型就是計(jì)算一個(gè)句子的概率大小的這種模型。有什么意義呢?一個(gè)句子的打分概率越高,越說(shuō)明他是更合乎人說(shuō)出來(lái)的自然句子。

就是這么簡(jiǎn)單。常見(jiàn)的統(tǒng)計(jì)語(yǔ)言模型有N元文法模型(N-gram Model),最常見(jiàn)的是 unigram model、bigram model、trigram model 等等。形式化講,統(tǒng)計(jì)語(yǔ)言模型的作用是為一個(gè)長(zhǎng)度為 m 的字符串確定一個(gè)概率分布 P(w1; w2; :::; wm),表示其存在的可能性,其中 w1 到 wm 依次表示這段文本中的各個(gè)詞。一般在實(shí)際求解過(guò)程中,通常采用下式計(jì)算其概率值:

不是你無(wú)法入門(mén)自然語(yǔ)言處理(NLP),而是你沒(méi)找到正確的打開(kāi)方式

同時(shí)通過(guò)這些方法均也可以保留住一定的詞序信息,這樣就能把一個(gè)詞的上下文信息capture住。

具體的語(yǔ)言模型詳情屬于街貨,詳細(xì)請(qǐng)自行搜索。

  四、詞的分布式表示

1. 基于矩陣的分布表示

基于矩陣的分布表示通常又稱為分布語(yǔ)義模型,在這種表示下,矩陣中的一行,就成為了對(duì)應(yīng)詞的表示,這種表示描述了該詞的上下文的分布。由于分布假說(shuō)認(rèn)為上下文相似的詞,其語(yǔ)義也相似,因此在這種表示下,兩個(gè)詞的語(yǔ)義相似度可以直接轉(zhuǎn)化為兩個(gè)向量的空間距離。

常見(jiàn)到的Global Vector 模型( GloVe模型)是一種對(duì)“詞-詞”矩陣進(jìn)行分解從而得到詞表示的方法,屬于基于矩陣的分布表示。

2. 基于神經(jīng)網(wǎng)絡(luò)的分布表示,詞嵌入( word embedding)

基于神經(jīng)網(wǎng)絡(luò)的分布表示一般稱為詞向量、詞嵌入( word embedding)或分布式表示( distributed representation)。這正是我們的主角today。

神經(jīng)網(wǎng)絡(luò)詞向量表示技術(shù)通過(guò)神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)上下文,以及上下文與目標(biāo)詞之間的關(guān)系進(jìn)行建模。由于神經(jīng)網(wǎng)絡(luò)較為靈活,這類方法的最大優(yōu)勢(shì)在于可以表示復(fù)雜的上下文。在前面基于矩陣的分布表示方法中,最常用的上下文是詞。如果使用包含詞序信息的 n-gram 作為上下文,當(dāng) n 增加時(shí), n-gram 的總數(shù)會(huì)呈指數(shù)級(jí)增長(zhǎng),此時(shí)會(huì)遇到維數(shù)災(zāi)難問(wèn)題。而神經(jīng)網(wǎng)絡(luò)在表示 n-gram 時(shí),可以通過(guò)一些組合方式對(duì) n 個(gè)詞進(jìn)行組合,參數(shù)個(gè)數(shù)僅以線性速度增長(zhǎng)。有了這一優(yōu)勢(shì),神經(jīng)網(wǎng)絡(luò)模型可以對(duì)更復(fù)雜的上下文進(jìn)行建模,在詞向量中包含更豐富的語(yǔ)義信息。

  五、詞嵌入( word embedding)

1、概念

基于神經(jīng)網(wǎng)絡(luò)的分布表示又稱為詞向量、詞嵌入,神經(jīng)網(wǎng)絡(luò)詞向量模型與其它分布表示方法一樣,均基于分布假說(shuō),核心依然是上下文的表示以及上下文與目標(biāo)詞之間的關(guān)系的建模。

前面提到過(guò),為了選擇一種模型刻畫(huà)某個(gè)詞(下文稱“目標(biāo)詞”)與其上下文之間的關(guān)系,我們需要在詞向量中capture到一個(gè)詞的上下文信息。同時(shí),上面我們恰巧提到了統(tǒng)計(jì)語(yǔ)言模型正好具有捕捉上下文信息的能力。那么構(gòu)建上下文與目標(biāo)詞之間的關(guān)系,最自然的一種思路就是使用語(yǔ)言模型。從歷史上看,早期的詞向量只是神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的副產(chǎn)品。

2001年, Bengio 等人正式提出神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型( Neural Network Language Model ,NNLM),該模型在學(xué)習(xí)語(yǔ)言模型的同時(shí),也得到了詞向量。所以請(qǐng)注意一點(diǎn):詞向量可以認(rèn)為是神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)言模型的副產(chǎn)品。

2、理解

前面提過(guò),one-hot表示法具有維度過(guò)大的缺點(diǎn),那么現(xiàn)在將vector做一些改進(jìn):1、將vector每一個(gè)元素由整形改為浮點(diǎn)型,變?yōu)檎麄€(gè)實(shí)數(shù)范圍的表示;2、將原來(lái)稀疏的巨大維度壓縮嵌入到一個(gè)更小維度的空間。如圖示:

不是你無(wú)法入門(mén)自然語(yǔ)言處理(NLP),而是你沒(méi)找到正確的打開(kāi)方式

這也是詞向量又名詞嵌入的緣由了。

  六、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型與word2vec

好了,到目前為止我們已經(jīng)對(duì)的分布式表示以及詞嵌入的概念的層級(jí)關(guān)系有了個(gè)理性的認(rèn)識(shí)了,那這跟word2vec有什么聯(lián)系?

1、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型

上面說(shuō),通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)言模型可以得到詞向量,那么,究竟有哪些類型的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型呢?個(gè)人所知,大致有這么些個(gè):

● Neural Network Language Model ,NNLM
● Log-Bilinear Language Model, LBL
● Recurrent Neural Network based Language Model,RNNLM
● Collobert 和 Weston 在2008 年提出的 C&W 模型
● Mikolov 等人提出了 CBOW( Continuous Bagof-Words)和 Skip-gram 模型

到這,估計(jì)有人看到了兩個(gè)熟悉的term:CBOW、skip-gram,有看過(guò)word2vec的同學(xué)應(yīng)該對(duì)此有所了解。我們繼續(xù)。

2. word2vec與CBOW、Skip-gram

現(xiàn)在我們正式引出最火熱的另一個(gè)term:word2vec。

上面提到的5個(gè)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,只是個(gè)在邏輯概念上的東西,那么具體我們得通過(guò)設(shè)計(jì)將其實(shí)現(xiàn)出來(lái),而實(shí)現(xiàn)CBOW( Continuous Bagof-Words)和 Skip-gram 語(yǔ)言模型的工具正是well-known word2vec!另外,C&W 模型的實(shí)現(xiàn)工具是SENNA。

所以說(shuō),分布式詞向量并不是word2vec的作者發(fā)明的,他只是提出了一種更快更好的方式來(lái)訓(xùn)練語(yǔ)言模型罷了。分別是:連續(xù)詞袋模型Continous Bag of Words Model(CBOW)和Skip-Gram Model,這兩種都是可以訓(xùn)練出詞向量的方法,再具體代碼操作中可以只選擇其一,不過(guò)據(jù)論文說(shuō)CBOW要更快一些。

順便說(shuō)說(shuō)這兩個(gè)語(yǔ)言模型。統(tǒng)計(jì)語(yǔ)言模型statistical language model就是給你幾個(gè)詞,在這幾個(gè)詞出現(xiàn)的前提下來(lái)計(jì)算某個(gè)詞出現(xiàn)的(事后)概率。CBOW也是統(tǒng)計(jì)語(yǔ)言模型的一種,顧名思義就是根據(jù)某個(gè)詞前面的C個(gè)詞或者前后C個(gè)連續(xù)的詞,來(lái)計(jì)算某個(gè)詞出現(xiàn)的概率。Skip-Gram Model相反,是根據(jù)某個(gè)詞,然后分別計(jì)算它前后出現(xiàn)某幾個(gè)詞的各個(gè)概率。

以“我愛(ài)北京天安門(mén)”這句話為例。假設(shè)我們現(xiàn)在關(guān)注的詞是“愛(ài)”,C=2時(shí)它的上下文分別是“我”,“北京天安門(mén)”。CBOW模型就是把“我” “北京天安門(mén)” 的one hot表示方式作為輸入,也就是C個(gè)1xV的向量,分別跟同一個(gè)VxN的大小的系數(shù)矩陣W1相乘得到C個(gè)1xN的隱藏層hidden layer,然后C個(gè)取平均所以只算一個(gè)隱藏層。這個(gè)過(guò)程也被稱為線性激活函數(shù)(這也算激活函數(shù)?分明就是沒(méi)有激活函數(shù)了)。然后再跟另一個(gè)NxV大小的系數(shù)矩陣W2相乘得到1xV的輸出層,這個(gè)輸出層每個(gè)元素代表的就是詞庫(kù)里每個(gè)詞的事后概率。輸出層需要跟ground truth也就是“愛(ài)”的one hot形式做比較計(jì)算loss。這里需要注意的就是V通常是一個(gè)很大的數(shù)比如幾百萬(wàn),計(jì)算起來(lái)相當(dāng)費(fèi)時(shí)間,除了“愛(ài)”那個(gè)位置的元素肯定要算在loss里面,word2vec就用基于huffman編碼的Hierarchical softmax篩選掉了一部分不可能的詞,然后又用nagetive samping再去掉了一些負(fù)樣本的詞所以時(shí)間復(fù)雜度就從O(V)變成了O(logV)。Skip gram訓(xùn)練過(guò)程類似,只不過(guò)輸入輸出剛好相反。

補(bǔ)充下,Word embedding的訓(xùn)練方法大致可以分為兩類:一類是無(wú)監(jiān)督或弱監(jiān)督的預(yù)訓(xùn)練;一類是端對(duì)端(end to end)的有監(jiān)督訓(xùn)練。無(wú)監(jiān)督或弱監(jiān)督的預(yù)訓(xùn)練以word2vec和auto-encoder為代表。這一類模型的特點(diǎn)是,不需要大量的人工標(biāo)記樣本就可以得到質(zhì)量還不錯(cuò)的embedding向量。不過(guò)因?yàn)槿鄙倭巳蝿?wù)導(dǎo)向,可能和我們要解決的問(wèn)題還有一定的距離。因此,我們往往會(huì)在得到預(yù)訓(xùn)練的embedding向量后,用少量人工標(biāo)注的樣本去fine-tune整個(gè)模型。

相比之下,端對(duì)端的有監(jiān)督模型在最近幾年里越來(lái)越受到人們的關(guān)注。與無(wú)監(jiān)督模型相比,端對(duì)端的模型在結(jié)構(gòu)上往往更加復(fù)雜。同時(shí),也因?yàn)橛兄鞔_的任務(wù)導(dǎo)向,端對(duì)端模型學(xué)習(xí)到的embedding向量也往往更加準(zhǔn)確。例如,通過(guò)一個(gè)embedding層和若干個(gè)卷積層連接而成的深度神經(jīng)網(wǎng)絡(luò)以實(shí)現(xiàn)對(duì)句子的情感分類,可以學(xué)習(xí)到語(yǔ)義更豐富的詞向量表達(dá)。

3.個(gè)人對(duì)word embedding的理解

現(xiàn)在,詞向量既能夠降低維度,又能夠capture到當(dāng)前詞在本句子中上下文的信息(表現(xiàn)為前后距離關(guān)系),那么我們對(duì)其用來(lái)表示語(yǔ)言句子詞語(yǔ)作為NN的輸入是非常自信與滿意的。

另外一點(diǎn)很實(shí)用的建議,在你做某一項(xiàng)具體的NLP任務(wù)時(shí)如你要用到詞向量,那么我建議你:要么 1、選擇使用別人訓(xùn)練好的詞向量,注意,得使用相同語(yǔ)料內(nèi)容領(lǐng)域的詞向量;要么 2、自己訓(xùn)練自己的詞向量。我建議是前者,因?yàn)椤犹嗔恕?/strong>

  七、后言

說(shuō)到這里,其實(shí)我并沒(méi)有想繼續(xù)說(shuō)下去的打算了,即并沒(méi)有打算將word2vec的數(shù)學(xué)原理、詳解啥的統(tǒng)統(tǒng)來(lái)一頓講了,因?yàn)槲野l(fā)現(xiàn)網(wǎng)上關(guān)于講解word2vec的文章實(shí)在是太多了,多到幾乎所有的文章都是一樣的。所以我也沒(méi)有必要再copy一份過(guò)來(lái)咯。

所以,要詳細(xì)了解word2vec、cbow、skip-gram細(xì)節(jié)的請(qǐng)您仔細(xì)搜索。我相信,在了解了這一系列的前提上下文知識(shí)的背景下,你再去讀word2vec相關(guān)的細(xì)節(jié)文章時(shí),一定不會(huì)感到有多吃力。

另外這也反映出來(lái)了一個(gè)更大的問(wèn)題,即網(wǎng)絡(luò)文章缺少critical思維的原創(chuàng)性。

網(wǎng)上隨便一搜“word2vec”、“詞向量”,然后一大堆的關(guān)于word2vec、cbow、skip-gram數(shù)學(xué)公式的講解,并且還都是千篇一律的東西……但最讓人無(wú)法理解的是,基本上沒(méi)有人去詳細(xì)地提一提這些東西他的出現(xiàn)他的存在的上下文、他的發(fā)展的過(guò)程、他在整個(gè)相關(guān)技術(shù)框架的所處位置等等。這讓我很郁悶……

其實(shí)順便分享下,在我個(gè)人的方法論思維中,一個(gè)帶有完整上下文以及結(jié)構(gòu)構(gòu)建良好的知識(shí)框架,在某種程度上,比一些細(xì)枝末節(jié)的詳細(xì)知識(shí)點(diǎn)來(lái)的重要的多了!因?yàn)椋坏?gòu)建了一個(gè)完備的知識(shí)結(jié)構(gòu)框架,那么剩下你要做的是將一些零零碎碎的細(xì)節(jié)進(jìn)行填補(bǔ)而已;而反過(guò)來(lái)卻根本不行,知識(shí)堆砌只會(huì)讓你思維混亂,走不了多遠(yuǎn)。

所以here我也呼吁各位blogger,大家能充分發(fā)揮自己的能動(dòng)性,主動(dòng)去創(chuàng)造一些沒(méi)有的東西,分享一些獨(dú)有的思維見(jiàn)解,也算是對(duì)中國(guó)網(wǎng)絡(luò)blog以及CS事業(yè)的推動(dòng)貢獻(xiàn)?。 mean,即便是copy別人的原來(lái)的東西,也最好是咀嚼咀嚼,消化后加上自己的東西再share??!

  References:

《How to Generate a Good Word Embedding?》,Siwei Lai, Kang Liu, Liheng Xu, Jun Zhao
《基于神經(jīng)網(wǎng)絡(luò)的詞和文檔語(yǔ)義向量表示方法研究》,來(lái)斯惟
《面向自然語(yǔ)言處理的分布式表示學(xué)習(xí)》,邱錫鵬
《Deep Learning 實(shí)戰(zhàn)之 word2vec》

http://www.cnblogs.com/iloveai/p/word2vec.html
http://www.hankcs.com/nlp/word2vec.html
http://licstar.NET/archives/328
https://zhuanlan.zhihu.com/p/22477976
http://blog.csdn.Net/itplus/article/details/37969519
http://www.tuicool.com/articles/fmuyamf
http://licstar.net/archives/620#comment-1542
http://blog.csdn.net/ycheng_sjtu/article/details/48520293

雷鋒網(wǎng)相關(guān)閱讀:

從NLP到“自然語(yǔ)言理解”,F(xiàn)acebook如何讓Messenger更懂人類?

生成式對(duì)抗網(wǎng)絡(luò)GAN最近在NLP領(lǐng)域有哪些應(yīng)用?


實(shí)戰(zhàn)特訓(xùn):遠(yuǎn)場(chǎng)語(yǔ)音交互技術(shù)  

智能音箱這么火,聽(tīng)聲智科技CTO教你深入解析AI設(shè)備語(yǔ)音交互關(guān)鍵技術(shù)!

課程鏈接:http://www.mooc.ai/course/80

加入AI慕課學(xué)院人工智能學(xué)習(xí)交流QQ群:624413030,與AI同行一起交流成長(zhǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

不是你無(wú)法入門(mén)自然語(yǔ)言處理(NLP),而是你沒(méi)找到正確的打開(kāi)方式

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學(xué),連接 AI 開(kāi)發(fā)者。更多精彩內(nèi)容,請(qǐng)?jiān)L問(wèn):yanxishe.com
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄