0
本文作者: 陳圳 | 2016-07-19 19:14 |
微軟研究院在IJCAI2016的Tutorial上講述了自己將深度學(xué)習、深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于不同場景的情況,之前第二部分提到了深度學(xué)習在統(tǒng)計機器翻譯和會話中的應(yīng)用,第三部分是選中自然語言處理任務(wù)的連續(xù)表達。第四部分是自然語言的理解和連續(xù)語言詞語的表達。
聯(lián)合編輯:李尊,章敏,陳圳
自然語言理解,重點在于 建立能與使用自然語言的人類進行交互的智能系統(tǒng)。其研究挑戰(zhàn):1)文本意義表達 2)支持有用推理任務(wù)。
連續(xù)詞語表達,重點在于知識基礎(chǔ)嵌入和基于知識基礎(chǔ)的問題回答&機器理解。
l 多種創(chuàng)建詞語矢量的流行辦法
l 編碼條件共存信息
l 測量語義相似井
語義嵌入將原始文本轉(zhuǎn)換成連續(xù)語義空間
嵌入有效的原因在于:
l 詞匯語義詞相似度
l 文本簡單的語義表達
對神經(jīng)網(wǎng)絡(luò)模型進行預(yù)先訓(xùn)練
詞語嵌入模型樣本、評估、相關(guān)工作
潛在語義分析包括:SVD概括原始數(shù)據(jù)、同義詞典中不存在明確關(guān)系、術(shù)語矢量投射K維潛在空間、詞語相似度等
RNN-LM詞語嵌入
SENNA詞語嵌入
CBOW/Skip-gram詞語嵌入
GloVe:詞語表達的全局矢量
語義相關(guān)度能夠從詞語同現(xiàn)次數(shù)個概念來觀察
評估:語義詞相似度
l 數(shù)據(jù):人類判斷詞組
l 詞語相似度排名與人類判斷之間的關(guān)系
l 獨立語義嵌入模型通常不能實現(xiàn)最好的結(jié)果
評估:關(guān)系相似度
判斷兩組詞是否有同樣的關(guān)系以及為什么它會有效?
意外發(fā)現(xiàn):從遞歸神經(jīng)網(wǎng)絡(luò)語義模型提取的詞語嵌入,關(guān)系相似度由余弦值得來。
實驗結(jié)果
在其他數(shù)據(jù)集上的相似結(jié)果
詞匯類比評估。
討論。1.方向相似性無法處理語義關(guān)系;2.矢量計算=相似性計算3.通過計算找到最接近的x。
一些相關(guān)工作——模擬不同的詞匯關(guān)系如:判斷是同義詞還是近義詞。
相關(guān)工作——詞匯嵌入模型如:其它的詞匯嵌入模型;Word2Vec的分析和方向相似性;理論論證與統(tǒng)一;評估NLP的矢量空間表示。
神經(jīng)語言的理解。
知識庫:通過儲存上百萬實體的性能和它們之間的關(guān)系捕獲世界的知識。
現(xiàn)在的KB在NLP&IR中的一些應(yīng)用——回答問題,信息提取,網(wǎng)絡(luò)搜索。
知識庫推理-知識庫永遠不會完整,模擬多關(guān)系數(shù)據(jù),知識庫嵌入效率和精準度都更高。
知識庫嵌入:KB中每一個實體都由一個Rd矢量表示,通過fr(Ve1,Ve2)預(yù)測(e1,r,e2)是否是正確的。最在KB嵌入方面的工作:張量分解,神經(jīng)網(wǎng)絡(luò)。
張量分解-知識庫表示(1/2):收集-主-謂-賓-(e1,r,e2)
張量分解-知識庫表示(2/2):0輸入意味著不正確或者不知道
張量分解對象
測量關(guān)系的程度
鍵入張量分解:關(guān)系的主要知識有鍵入信息,約束和損耗中唯一合法的實體。利用鍵入信息的好處有三點:模型訓(xùn)練時間短,大KB可高度擴展,預(yù)測精度更高。
鍵入張量分解對象重建誤差
加入張量分解對象重建誤差
訓(xùn)練過程-交替最小二乘法
實驗—KB完成
實體檢索
相關(guān)性進行檢索及其平均精度
知識庫的嵌入模式
相關(guān)操作的評價函數(shù)及其參數(shù)
基于神經(jīng)網(wǎng)絡(luò)的KB嵌入式方法的經(jīng)驗比較:參數(shù)少表現(xiàn)更佳;雙線性操作符十分關(guān)鍵;建模時,乘法要優(yōu)于加法;pre-trained 短語和嵌入式向量對于表現(xiàn)十分關(guān)鍵。
霍恩子句的最小化規(guī)則
相關(guān)路徑中進行學(xué)習
自然語言理解
連續(xù)的詞表達和詞匯語義學(xué)
知識庫嵌入
KB為基礎(chǔ)的問題回答和機器理解
語義分析
極具挑戰(zhàn)性的語言任務(wù)可能會導(dǎo)致重大失誤
極具挑戰(zhàn)性的語言任務(wù)可能會導(dǎo)致重大失誤
極具挑戰(zhàn)性的語言任務(wù)可能會導(dǎo)致重大失誤
問題配對有三種方法:通過釋義進行語義分析;使用源于單詞校對結(jié)果的單詞表創(chuàng)造短語配對特征;把問題用向量表示。
鑲嵌子圖模式
使用DSSM確定推理鏈
深度學(xué)習的回答和問題數(shù)據(jù)集。
把原始版本和匿名版本進行了比較。
神經(jīng)網(wǎng)絡(luò)模式中Attentive Reader的具體運行結(jié)構(gòu)圖。
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中Impatient Reader的運行結(jié)構(gòu)圖。
各模式運行結(jié)果精準度的比較,其中以NN為基礎(chǔ)的模式表現(xiàn)最好。
對所有的問題進行了全面的檢查,發(fā)現(xiàn)問題在于需用智能的方法創(chuàng)建大規(guī)模的受監(jiān)督數(shù)據(jù)以及弄清楚理解程度問題。此外好的消息是實體能平等地進行工作且Attentive Reader模式表現(xiàn)最好。壞消息是任務(wù)難度較大,需達到最優(yōu)化(25%的問題還是無法回答)。
連續(xù)空間表現(xiàn)對于一些神經(jīng)網(wǎng)絡(luò)語義理解任務(wù)還是很有幫助的;例如,連續(xù)詞語表達和詞匯任務(wù),知識庫鑲嵌,以KB為基礎(chǔ)的問題回答和機器理解。
在NN和連續(xù)表達方面實現(xiàn)了較大進步,例如,文本處理和知識推理。
對于未來展望提出了以下幾個方面:
建立一個通用的智能空間
文本,知識和推理等等
從部件模式到端至端解決方法。
總結(jié):
自然語言理解,重點在于 建立能與使用自然語言的人類進行交互的智能系統(tǒng)。此外需要連續(xù)詞語表達和詞匯語義學(xué)。
連續(xù)詞語表達,重點在于知識基礎(chǔ)嵌入和基于知識基礎(chǔ)的問題回答&機器理解。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。