自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

本文作者：陳圳

2016-07-19 19:14

導(dǎo)語：IJCAI論文導(dǎo)讀本文為最終章，主要介紹了自然語言的理解和連續(xù)詞語的表達。

微軟研究院在IJCAI2016的Tutorial上講述了自己將深度學(xué)習、深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于不同場景的情況，之前第二部分提到了深度學(xué)習在統(tǒng)計機器翻譯和會話中的應(yīng)用，第三部分是選中自然語言處理任務(wù)的連續(xù)表達。第四部分是自然語言的理解和連續(xù)語言詞語的表達。

聯(lián)合編輯：李尊，章敏，陳圳

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

自然語言理解，重點在于建立能與使用自然語言的人類進行交互的智能系統(tǒng)。其研究挑戰(zhàn)：1）文本意義表達 2）支持有用推理任務(wù)。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

連續(xù)詞語表達，重點在于知識基礎(chǔ)嵌入和基于知識基礎(chǔ)的問題回答&機器理解。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

連續(xù)詞語表達包括：

l 多種創(chuàng)建詞語矢量的流行辦法
l 編碼條件共存信息
l 測量語義相似井

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

語義嵌入將原始文本轉(zhuǎn)換成連續(xù)語義空間

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

嵌入有效的原因在于：

l 詞匯語義詞相似度
l 文本簡單的語義表達

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

對神經(jīng)網(wǎng)絡(luò)模型進行預(yù)先訓(xùn)練

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

詞語嵌入模型樣本、評估、相關(guān)工作

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

潛在語義分析包括：SVD概括原始數(shù)據(jù)、同義詞典中不存在明確關(guān)系、術(shù)語矢量投射K維潛在空間、詞語相似度等

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

RNN-LM詞語嵌入

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

SENNA詞語嵌入

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

CBOW/Skip-gram詞語嵌入

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

DSSM：學(xué)習詞語含義

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

GloVe：詞語表達的全局矢量

語義相關(guān)度能夠從詞語同現(xiàn)次數(shù)個概念來觀察

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

評估：語義詞相似度

l 數(shù)據(jù)：人類判斷詞組
l 詞語相似度排名與人類判斷之間的關(guān)系
l 獨立語義嵌入模型通常不能實現(xiàn)最好的結(jié)果

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

評估：關(guān)系相似度

判斷兩組詞是否有同樣的關(guān)系以及為什么它會有效？

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

意外發(fā)現(xiàn)：從遞歸神經(jīng)網(wǎng)絡(luò)語義模型提取的詞語嵌入，關(guān)系相似度由余弦值得來。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

實驗結(jié)果

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

在其他數(shù)據(jù)集上的相似結(jié)果

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

詞匯類比評估。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

討論。1.方向相似性無法處理語義關(guān)系；2.矢量計算=相似性計算3.通過計算找到最接近的x。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

一些相關(guān)工作——模擬不同的詞匯關(guān)系如：判斷是同義詞還是近義詞。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

相關(guān)工作——詞匯嵌入模型如：其它的詞匯嵌入模型；Word2Vec的分析和方向相似性；理論論證與統(tǒng)一；評估NLP的矢量空間表示。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

神經(jīng)語言的理解。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

知識庫：通過儲存上百萬實體的性能和它們之間的關(guān)系捕獲世界的知識。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

現(xiàn)在的KB在NLP&IR中的一些應(yīng)用——回答問題，信息提取，網(wǎng)絡(luò)搜索。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

知識庫推理-知識庫永遠不會完整，模擬多關(guān)系數(shù)據(jù)，知識庫嵌入效率和精準度都更高。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

知識庫嵌入：KB中每一個實體都由一個Rd矢量表示，通過fr（Ve1，Ve2）預(yù)測（e1，r，e2）是否是正確的。最在KB嵌入方面的工作：張量分解，神經(jīng)網(wǎng)絡(luò)。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

張量分解-知識庫表示（1/2）：收集-主-謂-賓-（e1，r，e2）

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

張量分解-知識庫表示（2/2）：0輸入意味著不正確或者不知道

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

張量分解對象

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

測量關(guān)系的程度

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

鍵入張量分解：關(guān)系的主要知識有鍵入信息，約束和損耗中唯一合法的實體。利用鍵入信息的好處有三點：模型訓(xùn)練時間短，大KB可高度擴展，預(yù)測精度更高。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

鍵入張量分解對象重建誤差

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

加入張量分解對象重建誤差

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

訓(xùn)練過程-交替最小二乘法

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

實驗—KB完成自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

實體檢索

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

相關(guān)性進行檢索及其平均精度

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

知識庫的嵌入模式

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

相關(guān)操作的評價函數(shù)及其參數(shù)

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

基于神經(jīng)網(wǎng)絡(luò)的KB嵌入式方法的經(jīng)驗比較：參數(shù)少表現(xiàn)更佳；雙線性操作符十分關(guān)鍵；建模時，乘法要優(yōu)于加法；pre-trained 短語和嵌入式向量對于表現(xiàn)十分關(guān)鍵。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

霍恩子句的最小化規(guī)則

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

相關(guān)路徑中進行學(xué)習

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

自然語言理解

連續(xù)的詞表達和詞匯語義學(xué)

知識庫嵌入

KB為基礎(chǔ)的問題回答和機器理解

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

語義分析

極具挑戰(zhàn)性的語言任務(wù)可能會導(dǎo)致重大失誤

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

極具挑戰(zhàn)性的語言任務(wù)可能會導(dǎo)致重大失誤

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

極具挑戰(zhàn)性的語言任務(wù)可能會導(dǎo)致重大失誤

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

問題配對有三種方法：通過釋義進行語義分析；使用源于單詞校對結(jié)果的單詞表創(chuàng)造短語配對特征；把問題用向量表示。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

鑲嵌子圖模式

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

使用DSSM確定推理鏈

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

深度學(xué)習的回答和問題數(shù)據(jù)集。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

把原始版本和匿名版本進行了比較。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

神經(jīng)網(wǎng)絡(luò)模式中Attentive Reader的具體運行結(jié)構(gòu)圖。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中Impatient Reader的運行結(jié)構(gòu)圖。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

各模式運行結(jié)果精準度的比較，其中以NN為基礎(chǔ)的模式表現(xiàn)最好。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT

對所有的問題進行了全面的檢查，發(fā)現(xiàn)問題在于需用智能的方法創(chuàng)建大規(guī)模的受監(jiān)督數(shù)據(jù)以及弄清楚理解程度問題。此外好的消息是實體能平等地進行工作且Attentive Reader模式表現(xiàn)最好。壞消息是任務(wù)難度較大，需達到最優(yōu)化（25%的問題還是無法回答）。

自然語言的理解和連續(xù)表達 | 微軟IJCAI 2016演講PPT