0
本文作者: 陳圳 | 2016-07-19 19:14 |
微軟研究院在IJCAI2016的Tutorial上講述了自己將深度學習、深度神經網絡應用于不同場景的情況,之前第二部分提到了深度學習在統(tǒng)計機器翻譯和會話中的應用,第三部分是選中自然語言處理任務的連續(xù)表達。第四部分是自然語言的理解和連續(xù)語言詞語的表達。
聯(lián)合編輯:李尊,章敏,陳圳
自然語言理解,重點在于 建立能與使用自然語言的人類進行交互的智能系統(tǒng)。其研究挑戰(zhàn):1)文本意義表達 2)支持有用推理任務。
連續(xù)詞語表達,重點在于知識基礎嵌入和基于知識基礎的問題回答&機器理解。
l 多種創(chuàng)建詞語矢量的流行辦法
l 編碼條件共存信息
l 測量語義相似井
語義嵌入將原始文本轉換成連續(xù)語義空間
嵌入有效的原因在于:
l 詞匯語義詞相似度
l 文本簡單的語義表達
對神經網絡模型進行預先訓練
詞語嵌入模型樣本、評估、相關工作
潛在語義分析包括:SVD概括原始數據、同義詞典中不存在明確關系、術語矢量投射K維潛在空間、詞語相似度等
RNN-LM詞語嵌入
SENNA詞語嵌入
CBOW/Skip-gram詞語嵌入
GloVe:詞語表達的全局矢量
語義相關度能夠從詞語同現(xiàn)次數個概念來觀察
評估:語義詞相似度
l 數據:人類判斷詞組
l 詞語相似度排名與人類判斷之間的關系
l 獨立語義嵌入模型通常不能實現(xiàn)最好的結果
評估:關系相似度
判斷兩組詞是否有同樣的關系以及為什么它會有效?
意外發(fā)現(xiàn):從遞歸神經網絡語義模型提取的詞語嵌入,關系相似度由余弦值得來。
實驗結果
在其他數據集上的相似結果
詞匯類比評估。
討論。1.方向相似性無法處理語義關系;2.矢量計算=相似性計算3.通過計算找到最接近的x。
一些相關工作——模擬不同的詞匯關系如:判斷是同義詞還是近義詞。
相關工作——詞匯嵌入模型如:其它的詞匯嵌入模型;Word2Vec的分析和方向相似性;理論論證與統(tǒng)一;評估NLP的矢量空間表示。
神經語言的理解。
知識庫:通過儲存上百萬實體的性能和它們之間的關系捕獲世界的知識。
現(xiàn)在的KB在NLP&IR中的一些應用——回答問題,信息提取,網絡搜索。
知識庫推理-知識庫永遠不會完整,模擬多關系數據,知識庫嵌入效率和精準度都更高。
知識庫嵌入:KB中每一個實體都由一個Rd矢量表示,通過fr(Ve1,Ve2)預測(e1,r,e2)是否是正確的。最在KB嵌入方面的工作:張量分解,神經網絡。
張量分解-知識庫表示(1/2):收集-主-謂-賓-(e1,r,e2)
張量分解-知識庫表示(2/2):0輸入意味著不正確或者不知道
張量分解對象
測量關系的程度
鍵入張量分解:關系的主要知識有鍵入信息,約束和損耗中唯一合法的實體。利用鍵入信息的好處有三點:模型訓練時間短,大KB可高度擴展,預測精度更高。
鍵入張量分解對象重建誤差
加入張量分解對象重建誤差
訓練過程-交替最小二乘法
實驗—KB完成
實體檢索
相關性進行檢索及其平均精度
知識庫的嵌入模式
相關操作的評價函數及其參數
基于神經網絡的KB嵌入式方法的經驗比較:參數少表現(xiàn)更佳;雙線性操作符十分關鍵;建模時,乘法要優(yōu)于加法;pre-trained 短語和嵌入式向量對于表現(xiàn)十分關鍵。
霍恩子句的最小化規(guī)則
相關路徑中進行學習
自然語言理解
連續(xù)的詞表達和詞匯語義學
知識庫嵌入
KB為基礎的問題回答和機器理解
語義分析
極具挑戰(zhàn)性的語言任務可能會導致重大失誤
極具挑戰(zhàn)性的語言任務可能會導致重大失誤
極具挑戰(zhàn)性的語言任務可能會導致重大失誤
問題配對有三種方法:通過釋義進行語義分析;使用源于單詞校對結果的單詞表創(chuàng)造短語配對特征;把問題用向量表示。
鑲嵌子圖模式
使用DSSM確定推理鏈
深度學習的回答和問題數據集。
把原始版本和匿名版本進行了比較。
神經網絡模式中Attentive Reader的具體運行結構圖。
神經網絡結構中Impatient Reader的運行結構圖。
各模式運行結果精準度的比較,其中以NN為基礎的模式表現(xiàn)最好。
對所有的問題進行了全面的檢查,發(fā)現(xiàn)問題在于需用智能的方法創(chuàng)建大規(guī)模的受監(jiān)督數據以及弄清楚理解程度問題。此外好的消息是實體能平等地進行工作且Attentive Reader模式表現(xiàn)最好。壞消息是任務難度較大,需達到最優(yōu)化(25%的問題還是無法回答)。
連續(xù)空間表現(xiàn)對于一些神經網絡語義理解任務還是很有幫助的;例如,連續(xù)詞語表達和詞匯任務,知識庫鑲嵌,以KB為基礎的問題回答和機器理解。
在NN和連續(xù)表達方面實現(xiàn)了較大進步,例如,文本處理和知識推理。
對于未來展望提出了以下幾個方面:
建立一個通用的智能空間
文本,知識和推理等等
從部件模式到端至端解決方法。
總結:
自然語言理解,重點在于 建立能與使用自然語言的人類進行交互的智能系統(tǒng)。此外需要連續(xù)詞語表達和詞匯語義學。
連續(xù)詞語表達,重點在于知識基礎嵌入和基于知識基礎的問題回答&機器理解。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。