0
本文作者: 楊曉凡 | 2019-12-17 16:59 | 專(zhuān)題:NeurIPS 2019 |
雷鋒網(wǎng) AI 科技評(píng)論按:本文來(lái)自德國(guó) Fraunhofer 協(xié)會(huì) IAIS 研究所的研究科學(xué)家 Michael Galkin,他的研究課題主要是把知識(shí)圖結(jié)合到對(duì)話 AI 中。雷鋒網(wǎng) AI 科技評(píng)論全文編譯如下。
必須承認(rèn),圖的機(jī)器學(xué)習(xí)(Machine Learning on Graphs)已經(jīng)成為各大AI頂會(huì)的熱門(mén)話題,NeurIPS 當(dāng)然也不會(huì)例外。
在NeurIPS 2019上,僅主會(huì)場(chǎng)就有 100多個(gè)與圖相關(guān)的論文;另外,至少有三個(gè)workshop的主題與圖有關(guān):
Graph Representation Learning (大約有100多篇論文);
Knowledge Representation & Reasoning Meets Machine Learning (KR2ML)(也有50篇吧);
Conversational AI
我們希望在接下來(lái)的這篇文章里,能夠盡可能完整地討論基于圖的機(jī)器學(xué)習(xí)的研究趨勢(shì),當(dāng)然顯然不會(huì)包括所有。目錄如下:
Hyperbolic Graph Embeddings 雙曲圖嵌入
Logics & Knowledge Graph Embeddings 邏輯和知識(shí)圖嵌入
Markov Logic Networks Strike Back 馬爾科夫邏輯網(wǎng)絡(luò)卷土重來(lái)
Conversational AI & Graphs 對(duì)話 AI 和圖
Pre-training and Understanding Graph Neural Nets 圖神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練和理解
Conclusions 結(jié)論
傳統(tǒng)的嵌入算法都是在“平坦”的歐氏空間中學(xué)習(xí)嵌入向量,為了讓向量有更高的表示能力,就會(huì)選擇盡量高的維數(shù)(50維到200維),向量之間的距離也是根據(jù)歐氏幾何來(lái)計(jì)算。相比之下,雙曲算法中用到的是龐加萊(Poincare)球面和雙曲空間。在嵌入向量的使用場(chǎng)景里,可以把龐加萊球面看作一個(gè)連續(xù)的樹(shù)結(jié)構(gòu),樹(shù)的根節(jié)點(diǎn)在球的中心,枝干和葉子更靠近球面一些(如上面的動(dòng)圖)。
這樣一來(lái),雙曲嵌入表征層級(jí)結(jié)構(gòu)的能力就要比歐氏空間嵌入的能力高得多,同時(shí)需要的維數(shù)卻更少。不過(guò),雙曲網(wǎng)絡(luò)的訓(xùn)練和優(yōu)化依然是相當(dāng)難的。NeurIPS2018中有幾篇論文對(duì)雙曲神經(jīng)網(wǎng)絡(luò)的構(gòu)建做了深入的理論分析,今年在NeurIPS2019上我們終于看到了雙曲幾何和圖結(jié)構(gòu)結(jié)合的應(yīng)用。
論文 1:Hyperbolic Graph Convolutional Neural Networks
雙曲圖卷積神經(jīng)網(wǎng)絡(luò)
論文地址:https://papers.nips.cc/paper/8733-hyperbolic-graph-convolutional-neural-networks.pdf
開(kāi)源地址:https://github.com/HazyResearch/hgcn
論文 2:Hyperbolic Graph Neural Networks
雙曲圖神經(jīng)網(wǎng)絡(luò)
論文地址:https://papers.nips.cc/paper/9033-hyperbolic-graph-neural-networks.pdf
論文 1 和論文 2 兩者的思想是相似的,都希望把雙曲空間的好處和圖神經(jīng)網(wǎng)絡(luò)的表達(dá)能力結(jié)合起來(lái),只不過(guò)具體的模型設(shè)計(jì)有所區(qū)別。前一篇論文主要研究了節(jié)點(diǎn)分類(lèi)和連接預(yù)測(cè)任務(wù),相比于歐氏空間中的方法大大降低了錯(cuò)誤率,在Gromov雙曲性分?jǐn)?shù)較低(圖和樹(shù)結(jié)構(gòu)的相似度)的數(shù)據(jù)集上表現(xiàn)尤其好。后一篇論文關(guān)注的重點(diǎn)是圖分類(lèi)任務(wù)。
論文 3:Multi-relational Poincaré Graph Embeddings
多關(guān)系龐加萊圖嵌入
論文地址:https://papers.nips.cc/paper/8696-multi-relational-poincare-graph-embeddings.pdf
論文 3 在它們的多關(guān)系龐加萊模型(MuRP)的知識(shí)圖嵌入中用上了雙曲幾何。直覺(jué)上,正確的三元組客體應(yīng)該落在主體附近的某個(gè)超球面中,相關(guān)的這些決策邊界是由學(xué)習(xí)到的參數(shù)描繪的。作者用來(lái)優(yōu)化模型的是黎曼幾何SGD(大量數(shù)學(xué)警告)。在兩個(gè)標(biāo)準(zhǔn)的評(píng)測(cè)數(shù)據(jù)集 WN18RR 和 FB15k-237 上,MuRP 的效果比對(duì)比模型更好,因?yàn)樗案邆潆p曲幾何”而且也更適用于樹(shù)結(jié)構(gòu)(如果能像上面的論文一樣計(jì)算一下Gromov雙曲性分?jǐn)?shù)就更好了)。更有趣的是,MuRP只需要40維,得到的準(zhǔn)確率就和歐氏空間模型用100維甚至200維向量的結(jié)果差不多!明顯可以看到,雙曲空間的模型可以節(jié)省空間維度和存儲(chǔ)容量,同時(shí)還不需要有任何精度的犧牲。
我們還有一個(gè)雙曲知識(shí)圖嵌入比賽,獲獎(jiǎng)方法名為 RotationH,論文見(jiàn) https://grlearning.github.io/papers/101.pdf ,其實(shí)和上面的雙曲圖卷積神經(jīng)網(wǎng)絡(luò)論文的作者是同一個(gè)人。這個(gè)模型使用了雙曲空間的旋轉(zhuǎn)(思路上和RotatE https://arxiv.org/abs/1902.10197 模型相似,不過(guò)RotatE是復(fù)數(shù)空間的模型),也使用了可學(xué)習(xí)的曲率。RotationH 在WN18RR上刷新了最好成績(jī),而且在低維的設(shè)定下也有很好的表現(xiàn),比如,32維的RotationH就能得到和500維RotatE差不多的表現(xiàn)。
如果你碰巧在大學(xué)學(xué)習(xí)了sinh(雙曲正弦)、龐加萊球面、洛倫茲雙曲面之類(lèi)的高等幾何知識(shí)但是從來(lái)都不知道在哪能用上的話,你的機(jī)會(huì)來(lái)了,做雙曲幾何+圖神經(jīng)網(wǎng)絡(luò)吧。
如果你平時(shí)就有關(guān)注arXiv或者AI會(huì)議論文的話,你肯定已經(jīng)發(fā)現(xiàn),每年都會(huì)有一些越來(lái)越復(fù)雜的知識(shí)圖嵌入模型,每次都會(huì)把最佳表現(xiàn)的記錄刷新那么一點(diǎn)點(diǎn)。那么,知識(shí)圖的表達(dá)能力有沒(méi)有理論上限呢,或者有沒(méi)有人研究過(guò)模型本身能對(duì)哪些建模、對(duì)哪些不能建模呢?看到這篇文章的你可太幸運(yùn)了,下面這些答案送給你。
論文4:Group Representation Theory for Knowledge Graph Embedding
論文 4 從群論的角度來(lái)研究KG嵌入。結(jié)果表明,在復(fù)空間中可以對(duì)阿貝爾群進(jìn)行建模,且證明了RotatE(在復(fù)空間中進(jìn)行旋轉(zhuǎn))可以表示任何有限阿貝爾群。
有沒(méi)有被“群論”、“阿貝爾群”這些數(shù)學(xué)名詞嚇到?不過(guò)沒(méi)關(guān)系,這篇文章里有對(duì)相關(guān)的群論知識(shí)做簡(jiǎn)要介紹。不過(guò)這個(gè)工作在如何將這個(gè)工作拓展到1-N或N-N的關(guān)系上,還有很大的gap。作者提出一個(gè)假設(shè),即或許我們可以用四元數(shù)域H來(lái)代替復(fù)數(shù)空間C……
論文5:Quaternion Knowledge Graph Embeddings
鏈接:https://papers.nips.cc/paper/8541-quaternion-knowledge-graph-embeddings.pdf
……在這次NeurIPS' 19上,這個(gè)問(wèn)題被 Zhang et al. 解決了。他們提出了QuatE,一個(gè)四元數(shù)KG嵌入模型。什么是四元數(shù)?這個(gè)需要說(shuō)清楚。簡(jiǎn)單來(lái)說(shuō),復(fù)數(shù)有一個(gè)實(shí)部,一個(gè)虛部,例如a+ib;而四元數(shù),有三個(gè)虛部,例如 a+ib+jc+kd。相比復(fù)數(shù)會(huì)多出兩個(gè)自由度,且在計(jì)算上更為穩(wěn)定。QuatE將關(guān)系建模為4維空間(hypercomplex space)上的旋轉(zhuǎn),從而將complEx 和 RotatE統(tǒng)一起來(lái)。在RotatE中,你有一個(gè)旋轉(zhuǎn)平面;而在QuatE中,你會(huì)有兩個(gè)。此外,對(duì)稱(chēng)、反對(duì)稱(chēng)和逆的功能都保留了下來(lái)。與RotatE相比,QuatE在 FB15k-237上訓(xùn)練所需的自由參數(shù)減少了 80%。
我上面并沒(méi)有從群的角度來(lái)分析這篇文章,不過(guò)若感興趣,你可以嘗試去讀原文:
論文 6:Quantum Embedding of Knowledge for Reasoning
鏈接:https://papers.nips.cc/paper/8797-quantum-embedding-of-knowledge-for-reasoning.pdf
論文 6 提出了 Embed2Reason(E2R)的模型,這是一種受量子邏輯啟發(fā)的量子KG嵌入方法。該方法可以嵌入類(lèi)(概念)、關(guān)系和實(shí)例。
不要激動(dòng),這里面沒(méi)有量子計(jì)算。量子邏輯理論(QL)最初是由伯克霍夫和馮諾依曼于1936年提出,用于描述亞原子過(guò)程。E2R的作者把它借用過(guò)來(lái)保存KG的邏輯結(jié)構(gòu)。在QL中(因此也是E2R中),所有一元、二元以及復(fù)合謂詞實(shí)際上都是某些復(fù)雜向量空間的子空間,因此,實(shí)體及其按某種關(guān)系的組合都落在了特定的子空間內(nèi)。本來(lái),分布定律a AND(b OR c)=(a AND b)OR(a AND c)在QL中是不起作用的。但作者用了一個(gè)巧妙的技巧繞開(kāi)了這個(gè)問(wèn)題。
作者在論文中還介紹了如何使用QL對(duì)來(lái)自描述邏輯(DL)的術(shù)語(yǔ)(例如包含、否定和量詞)進(jìn)行建模!實(shí)驗(yàn)結(jié)果非常有趣:在FB15K上,E2R產(chǎn)生的Hits @ 1高達(dá)96.4%(因此H@10也能達(dá)到);不過(guò)在WN18上效果不佳。事實(shí)證明,E2R會(huì)將正確的事實(shí)排在首位或排在top10以下,這就是為什么在所有實(shí)驗(yàn)中H @ 1等于H @ 10的原因。
補(bǔ)充一點(diǎn),作者使用LUBM作為演繹推理的基準(zhǔn),該演繹推理包含了具有類(lèi)及其層次結(jié)構(gòu)的本體。實(shí)際上,這也是我關(guān)注的焦點(diǎn)之一,因?yàn)闃?biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集FB15K(-237)和WN18(RR)僅包含實(shí)例和關(guān)系,而沒(méi)有任何類(lèi)歸因。顯然,大型知識(shí)圖譜具有數(shù)千種類(lèi)型,處理該信息可以潛在地改善鏈接預(yù)測(cè)和推理性能。我還是很高興看到有越來(lái)越多的方法(如E2R)提倡將符號(hào)信息包含在嵌入中。
論文 7:Logical Expressiveness of Graph Neural Networks
讓我們繼續(xù)來(lái)考察圖神經(jīng)網(wǎng)絡(luò)的邏輯表達(dá)。論文 7 中對(duì)哪些GNN架構(gòu)能夠捕獲哪個(gè)邏輯級(jí)別進(jìn)行了大量的研究。目前為止,這個(gè)研究還僅限于一階邏輯的兩變量片段FOC_2,因?yàn)镕OC_2連接到用于檢查圖同構(gòu)的Weisfeiler-Lehman(WL)測(cè)試上。
作者證明,聚合組合神經(jīng)網(wǎng)絡(luò)(AC-GNN)的表達(dá)方式對(duì)應(yīng)于描述邏輯ALCQ,它是FOC_2的子集。作者還進(jìn)一步證明,如果我們添加一個(gè)獨(dú)處成分,將GNN轉(zhuǎn)換為聚合組合讀出GNN(ACR-GNN),則FOC_2中的每個(gè)公式都可以由ACR-GNN分類(lèi)器捕獲。這個(gè)工作怎么說(shuō)呢?簡(jiǎn)直是不能再棒了!
論文 8:Embedding Symbolic Knowledge into Deep Networks
鏈接:https://papers.nips.cc/paper/8676-embedding-symbolic-knowledge-into-deep-networks.pdf
論文 8 提出了模型LENSR,這是一個(gè)具有語(yǔ)義正則化的邏輯嵌入網(wǎng)絡(luò),它可以通過(guò)圖卷積網(wǎng)(GCN)將邏輯規(guī)則嵌入到d-DNNF(決策確定性否定范式)當(dāng)中。在這篇文章中,作者專(zhuān)注于命題邏輯(與上述論文中更具表現(xiàn)力的描述邏輯相反),并且表明將AND和OR的兩個(gè)正則化組件添加到損失函數(shù)就足夠了,而不用嵌入此類(lèi)規(guī)則。這個(gè)框架可以應(yīng)用在視覺(jué)關(guān)系預(yù)測(cè)任務(wù)中,當(dāng)給定一張圖片,你需要去預(yù)測(cè)兩個(gè)objects之間的正確關(guān)系。在這篇文章中,Top-5的準(zhǔn)確率直接將原有84.3%的SOTA提升到92.77%。
馬爾科夫邏輯網(wǎng)絡(luò)(Markov Logic Network)的目標(biāo)是把一階邏輯規(guī)則和概率圖模型結(jié)合起來(lái)。然而,直接使用馬爾科夫邏輯網(wǎng)絡(luò)不僅有拓展性問(wèn)題,推理過(guò)程的計(jì)算復(fù)雜度也過(guò)高。近幾年來(lái),用神經(jīng)網(wǎng)絡(luò)改進(jìn)馬爾科夫邏輯網(wǎng)絡(luò)的做法越來(lái)越多,今年我們能看到很多有潛力的網(wǎng)絡(luò)架構(gòu),它們把符號(hào)規(guī)則和概率模型結(jié)合到了一起。
論文9:Probabilistic Logic Neural Networks for Reasoning
鏈接:https://papers.nips.cc/paper/8987-probabilistic-logic-neural-networks-for-reasoning.pdf
論文 9 提出了 pLogicNet,這個(gè)模型是用來(lái)做知識(shí)圖推理的,而且知識(shí)圖嵌入和邏輯規(guī)則相結(jié)合。模型通過(guò)變差EM算法訓(xùn)練(實(shí)際上,這幾年用EM做訓(xùn)練&模型優(yōu)化的論文也有增加的趨勢(shì),這事可以之后單獨(dú)開(kāi)一篇文章細(xì)說(shuō))。論文的重點(diǎn)是,用一個(gè)馬爾科夫邏輯網(wǎng)絡(luò)定義知識(shí)圖中的三元組上的聯(lián)合分布(當(dāng)然了,這種做法要對(duì)未觀察到的三元組做一些限制,因?yàn)槊杜e出所有實(shí)體和關(guān)系上的所有三元組是做不到的),并給邏輯規(guī)則設(shè)定一個(gè)權(quán)重;你可以再自己選擇一個(gè)預(yù)訓(xùn)練知識(shí)圖嵌入(可以選TransE或者ComplEx,實(shí)際上隨便選一個(gè)都行)。在推理步驟中只能怪,模型會(huì)根據(jù)規(guī)則和知識(shí)圖嵌入找到缺失的三元組,然后在學(xué)習(xí)步驟中,規(guī)則的權(quán)重會(huì)根據(jù)已見(jiàn)到的、已推理的三元組進(jìn)行更新。pLogicNet 在標(biāo)準(zhǔn)的連接預(yù)測(cè)測(cè)試中展現(xiàn)出了強(qiáng)有力的表現(xiàn)。我很好奇如果你在模型里選用了 GNN 之類(lèi)的很厲害的知識(shí)圖嵌入會(huì)發(fā)生什么。
論文 10:Neural Markov Logic Networks
鏈接:https://kr2ml.github.io/2019/papers/KR2ML_2019_paper_18.pdf
論文 10 介紹了一個(gè)神經(jīng)馬爾科夫邏輯網(wǎng)絡(luò)的超類(lèi),它不需要顯式的一階邏輯規(guī)則,但它帶有一個(gè)神經(jīng)勢(shì)能函數(shù),可以在向量空間中編碼固有的規(guī)則。作者還用最大最小熵方法來(lái)優(yōu)化模型,這招很聰明(但是很少見(jiàn)到有人用)。但缺點(diǎn)就是拓展性不好,作者只在很小的數(shù)據(jù)集上做了實(shí)驗(yàn),然后他表示后續(xù)研究要解決的一大挑戰(zhàn)就是拓展性問(wèn)題。
論文11:Can Graph Neural Networks Help Logic Reasoning?
鏈接:https://kr2ml.github.io/2019/papers/KR2ML_2019_paper_22.pdf
最后,論文 11 研究了GNN和馬爾科夫邏輯網(wǎng)絡(luò)在邏輯推理、概率推理方面的表現(xiàn)孰強(qiáng)孰弱。作者們的分析表明,原始的GNN嵌入就有能力編碼知識(shí)圖中的隱含信息,但是無(wú)法建模謂詞之間的依賴(lài)關(guān)系,也就是無(wú)法處理馬爾科夫邏輯網(wǎng)絡(luò)的后向參數(shù)化。為了解決這個(gè)問(wèn)題,作者們?cè)O(shè)計(jì)了ExpressGNN架構(gòu),其中有額外的幾層可調(diào)節(jié)的嵌入,作用是對(duì)知識(shí)圖中的實(shí)體做層次化的編碼。
好了,硬核的機(jī)器學(xué)習(xí)算法講得差不多了,下面我們看點(diǎn)輕松的,比如NLP應(yīng)用。和NeurIPS正會(huì)一起開(kāi)的workshop里有很多有趣的對(duì)話AI+圖的論文。
論文12:Multi-domain Dialogue State Tracking as Dynamic Knowledge Graph Enhanced Question Answering
鏈接:http://alborz-geramifard.com/workshops/neurips19-Conversational-AI/Papers/51.pdf
這篇論文提出了一個(gè)通過(guò)問(wèn)答追蹤對(duì)話進(jìn)度(Dialogue State Tracking via Question Answering (DSTQA))的模型,用來(lái)在MultiWOZ環(huán)境中實(shí)現(xiàn)任務(wù)導(dǎo)向的對(duì)話系統(tǒng),更具體地,就是通過(guò)對(duì)話幫助用戶完成某個(gè)任務(wù),任務(wù)一共分為5個(gè)大類(lèi)、30個(gè)模版和超過(guò)4500個(gè)值。
它基于的是問(wèn)答(Question Answering )這個(gè)大的框架,系統(tǒng)問(wèn)的每個(gè)問(wèn)題都要先有一個(gè)預(yù)設(shè)模版和一組預(yù)設(shè)的值,用戶通過(guò)回答問(wèn)題確認(rèn)或者更改模版中的預(yù)設(shè)值。有個(gè)相關(guān)的假說(shuō)提出,同一段對(duì)話中的多個(gè)模版、多組值之間并不是完全獨(dú)立的,比如,你剛剛訂好五星級(jí)酒店的房間,然后你緊接著問(wèn)附近有什么餐館,那很有可能你想找的餐館也是中高檔的。論文中設(shè)計(jì)的整個(gè)架構(gòu)流程很繁瑣,我們就只講講他們的核心創(chuàng)新點(diǎn)吧:
首先,作者們把對(duì)話狀態(tài)建模為一個(gè)根據(jù)對(duì)話內(nèi)容逐漸擴(kuò)充的動(dòng)態(tài)知識(shí)圖。圖中的節(jié)點(diǎn)由大類(lèi)、模版和值構(gòu)成,建立節(jié)點(diǎn)之間關(guān)系的過(guò)程也利用了上面那個(gè)假說(shuō),就是因?yàn)椴煌哪0嬷g有一些值可以是相同的、部分重疊或者是有關(guān)聯(lián)的。
其次,用一個(gè)圖注意力網(wǎng)絡(luò)(Graph Attention Net)學(xué)習(xí)為圖中的節(jié)點(diǎn)分配權(quán)重,網(wǎng)絡(luò)的輸出也會(huì)被送入一個(gè)門(mén)機(jī)制,用來(lái)決定要在問(wèn)題文本中表現(xiàn)出圖的多大的一部分。
作者們也使用了角色嵌入,這樣模型可以由系統(tǒng)的話語(yǔ)和用戶的話語(yǔ)共同訓(xùn)練
最后,作者們同時(shí)使用了CharCNN和ELMO嵌入來(lái)做對(duì)話文本內(nèi)容的編碼
DSTQA 在 MultiWOZ 2.0 和 MultiWOZ 2.0 上都刷新了最好成績(jī),在 WOZ 2.0 上也和當(dāng)前的最好方法不相上下。根據(jù)作者們的誤差分析,主要的丟分點(diǎn)來(lái)自于真實(shí)值的標(biāo)注有一些不準(zhǔn)確的 —— 大規(guī)模眾包數(shù)據(jù)集中就是經(jīng)常會(huì)發(fā)生這種情況,沒(méi)什么辦法,攤手
論文 13:Neural Assistant: Joint Action Prediction, Response Generation, and Latent Knowledge Reasoning
鏈接:http://alborz-geramifard.com/workshops/neurips19-Conversational-AI/Papers/32.pdf
論文13 介紹了一個(gè)神經(jīng)網(wǎng)絡(luò)助理模型,這個(gè)對(duì)話系統(tǒng)架構(gòu)不僅能考慮到對(duì)話歷史,也能利用到知識(shí)庫(kù)中的事實(shí)信息。系統(tǒng)架構(gòu)可以看作是Transformer架構(gòu)的拓展,它會(huì)編碼對(duì)話歷史中的文本;知識(shí)庫(kù)中的內(nèi)容是簡(jiǎn)單的單詞三元組比如(餐館A,價(jià)格,便宜)(沒(méi)有 Wikidata 那種花哨的知識(shí)圖模式),這些三元組也會(huì)被Transformer編碼。最后,解碼器會(huì)同時(shí)處理歷史文本編碼和知識(shí)圖編碼,用來(lái)生成輸出語(yǔ)句,以及決定是否要進(jìn)行下一步動(dòng)作。
之前的論文中有很多人在所有的知識(shí)庫(kù)三元組上計(jì)算softmax(只要知識(shí)庫(kù)稍微大一點(diǎn),這種做法就非常低效),這篇論文就沒(méi)這么做,他們根據(jù)知識(shí)庫(kù)中的實(shí)體是否在真實(shí)值回答中出現(xiàn)的情況做弱監(jiān)督學(xué)習(xí)。他們的架構(gòu)在 MultiWOZ 設(shè)置下比原本的Transformer架構(gòu)得到更好的表現(xiàn),預(yù)測(cè)動(dòng)作以及實(shí)體出現(xiàn)的F1分?jǐn)?shù)超過(guò)90%。不過(guò),他們的進(jìn)一步分析顯示出,知識(shí)庫(kù)中的條目超過(guò)一萬(wàn)條之后準(zhǔn)確率就會(huì)開(kāi)始快速下降。所以,嗯,如果你有心思把整個(gè)Wikidata的70億條三元組都搬過(guò)來(lái)的話,目前還是不行的。
論文 14:A Comprehensive Exploration on WikiSQL with Table-Aware Word Contextualization
鏈接:https://kr2ml.github.io/2019/papers/KR2ML_2019_paper_8.pdf
當(dāng)你設(shè)計(jì)面向任務(wù)的系統(tǒng)的時(shí)候,往往有很多內(nèi)容是無(wú)法長(zhǎng)期留在內(nèi)存里的,你需要把它們存在外部存儲(chǔ)中,然后需要的時(shí)候去檢索。如果是圖數(shù)據(jù),你可以用SPARQL或者Cypher建立圖數(shù)據(jù)庫(kù)來(lái)操作;或者用經(jīng)典的SQL數(shù)據(jù)庫(kù)也行。對(duì)于后一種情況,最近出現(xiàn)了很多新任務(wù)(https://medium.com/@mgalkin/knowledge-graphs-nlp-emnlp-2019-part-i-e4e69fd7957c),其中WikiSQL 是第一批引起了學(xué)術(shù)研究人員興趣的。
如今,只經(jīng)過(guò)了不到兩年的時(shí)間,我們就已經(jīng)可以說(shuō)這個(gè)數(shù)據(jù)集已經(jīng)基本被解決了,基于神經(jīng)網(wǎng)絡(luò)的方法也獲得了超過(guò)人類(lèi)的表現(xiàn)。這篇論文中提出了語(yǔ)義解析模型 SQLova ,它通過(guò)BERT編碼問(wèn)題和表頭、用基于注意力的編碼器生成SQL查詢(比如 SELECT 命令、WHERE 條件、聚合函數(shù)等等) 、然后還能對(duì)生成的查詢語(yǔ)句進(jìn)行排序和評(píng)價(jià)。
作者們?cè)谡撐闹兄赋?,不使用語(yǔ)義解析、只使用BERT的暴力編碼的話,效果要差得多,所以語(yǔ)言模型還是不能亂用。模型的測(cè)試準(zhǔn)確率達(dá)到了90%(順便說(shuō)一句,還有一個(gè)叫 X-SQL 的模型拿到了接近92%的準(zhǔn)確率,https://arxiv.org/pdf/1908.08113.pdf ),而人類(lèi)的準(zhǔn)確率只有88%;根據(jù)錯(cuò)誤分析來(lái)看,系統(tǒng)表現(xiàn)的最大瓶頸基本就是數(shù)據(jù)標(biāo)注錯(cuò)誤了(和上面那個(gè)MulitWOZ的例子類(lèi)似)。
除此之外我還有幾篇NLP相關(guān)的論文想推薦給大家:
Relational Graph Representation Learning for Open-Domain Question Answering
用于開(kāi)放領(lǐng)域問(wèn)答的關(guān)系圖表征學(xué)習(xí)
這篇論文提出了一個(gè)帶有注意力的關(guān)系GNN,能夠解決基于普通文本的以及把WebQuestionsSP外掛數(shù)據(jù)集作為知識(shí)圖的問(wèn)答任務(wù)。
Populating Web Scale Knowledge Graphs using Distantly Supervised Relation Extraction and Validation
通過(guò)遠(yuǎn)距離有監(jiān)督關(guān)系提取和驗(yàn)證,制作大規(guī)模網(wǎng)絡(luò)知識(shí)圖
這篇論文解決了如何同時(shí)提取文本中的關(guān)系并立即通過(guò)預(yù)訓(xùn)練的知識(shí)圖嵌入對(duì)候選的知識(shí)圖做實(shí)事檢查。這個(gè)方法可以拓展到包含百萬(wàn)級(jí)三元組的知識(shí)圖上(比如 Common Crawl — DBpedia 語(yǔ)料庫(kù)有超過(guò)六百萬(wàn)個(gè)三元組)
Incorporating rules into end-to-end dialog systems
在端到端對(duì)話系統(tǒng)中集成規(guī)則
http://alborz-geramifard.com/workshops/neurips19-Conversational-AI/Papers/43.pdf
作者們研究了如何把規(guī)則集成到端到端的對(duì)話系統(tǒng)以及上下文中,目的是讓生成的文本更多樣化,比如,如果用戶已經(jīng)要求查詢某個(gè)數(shù)據(jù)了,系統(tǒng)就不會(huì)重新和用戶打招呼、重新讓用戶選任務(wù)模版。其中表現(xiàn)最好的一種配置會(huì)把對(duì)話上下文和規(guī)則編碼到一起。他們的方法通用性很好,可以和各種生成回答的網(wǎng)絡(luò)架構(gòu)共同使用。
在這一節(jié),我會(huì)介紹一些從更通用的角度研究GNN的論文,包括一些研究GNN模型的可解釋性的論文。
論文 15:Pre-training Graph Neural Networks
這篇論文挺火的,這是提出并解釋預(yù)訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)框架的首批論文之一。我們都很熟悉預(yù)訓(xùn)練語(yǔ)言模型了,就是先在海量文本上預(yù)訓(xùn)練一個(gè)語(yǔ)言模型,然后在某個(gè)具體任務(wù)上做精細(xì)調(diào)節(jié)。從思路上來(lái)說(shuō),預(yù)訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練語(yǔ)言模型很像,問(wèn)題重點(diǎn)在于這種做法在圖上能不能行得通。簡(jiǎn)單的答案就是:可以!不過(guò)使用它的時(shí)候還是要小心謹(jǐn)慎。
對(duì)于用預(yù)訓(xùn)練模型在節(jié)點(diǎn)級(jí)別(比如節(jié)點(diǎn)分類(lèi))和圖級(jí)別(比如圖分類(lèi))捕捉結(jié)構(gòu)和領(lǐng)域知識(shí),作者們都在論文中提出了有價(jià)值的見(jiàn)解,那就是,對(duì)于在節(jié)點(diǎn)級(jí)別學(xué)習(xí)結(jié)構(gòu)屬性來(lái)說(shuō),內(nèi)容預(yù)測(cè)任務(wù)的重點(diǎn)是在負(fù)采樣的幫助下根據(jù)嵌入預(yù)測(cè)一個(gè)節(jié)點(diǎn)周邊的節(jié)點(diǎn)(仿佛很像word2vec的訓(xùn)練對(duì)不對(duì)),其中通過(guò)掩蔽的方式,隨機(jī)遮住一些節(jié)點(diǎn)/邊的屬性,然后讓網(wǎng)絡(luò)預(yù)測(cè)它們。
作者們也說(shuō)明了為什么聚合-合并-讀出的GNN結(jié)構(gòu)(Aggregate-Combine-Readout GNN)的網(wǎng)絡(luò)更適合這類(lèi)任務(wù),是因?yàn)樗鼈冎С钟靡粋€(gè)置換不變的池化函數(shù)獲取一個(gè)圖的全部表征。實(shí)驗(yàn)表明,只使用圖級(jí)別的有監(jiān)督預(yù)訓(xùn)練時(shí),向下游任務(wù)遷移會(huì)造成表現(xiàn)下降,所以需要同時(shí)結(jié)合節(jié)點(diǎn)級(jí)別和圖級(jí)別的表征。把特征這樣組合之后能在40種不同的預(yù)測(cè)任務(wù)中帶來(lái)6%到11%的ROC-AUC提升。
所以,這代表圖上的遷移學(xué)習(xí)時(shí)代已經(jīng)正式來(lái)到我們面前了嗎?會(huì)有更多優(yōu)秀的研究人員為預(yù)訓(xùn)練GNN模型編寫(xiě)優(yōu)秀的庫(kù),讓大家都可以更方便地使用預(yù)訓(xùn)練GNN嗎?
論文 16:Graph Transformer Networks
鏈接:https://papers.nips.cc/paper/9367-graph-transformer-networks.pdf
這篇論文為異質(zhì)圖設(shè)計(jì)了圖Transformer(Graph Transformer)架構(gòu)。異質(zhì)圖是指,圖中含有多種類(lèi)型的節(jié)點(diǎn)和邊。圖Transformer網(wǎng)絡(luò)(GTN)中通過(guò)1x1卷積來(lái)獲取元路徑(邊組成的鏈)的表征。接著,他們思路的關(guān)鍵在于,在此基礎(chǔ)上再生成一系列任意長(zhǎng)度的新的元路徑(元-元路徑?),長(zhǎng)度可以由Transformer層的數(shù)量指定,這些元路徑理論上可以為下游任務(wù)編碼更多有有價(jià)值的信號(hào)。作者們的實(shí)驗(yàn)中,GTN憑借和圖注意力網(wǎng)絡(luò)(Graph Attention Nets)相近的參數(shù)數(shù)量刷新了節(jié)點(diǎn)任務(wù)分類(lèi)的最好成績(jī)。
論文 17:GNNExplainer: Generating Explanations for Graph Neural Networks
鏈接:https://papers.nips.cc/paper/9123-gnnexplainer-generating-explanations-for-graph-neural-networks.pdf
這里要介紹的最后一篇論文瞄準(zhǔn)的是“圖神經(jīng)網(wǎng)絡(luò)的可解釋性”這個(gè)重要任務(wù),論文中提出了用來(lái)解釋圖神經(jīng)網(wǎng)絡(luò)的輸出的GNN Explainer,這是一個(gè)模型無(wú)關(guān)的框架,它能為任意任務(wù)上的、任意一個(gè)基于圖的模型的預(yù)測(cè)結(jié)果做出解釋。比如說(shuō),你在用圖注意力網(wǎng)絡(luò)做節(jié)點(diǎn)分類(lèi)/圖分類(lèi)任務(wù),然后你想看看你的問(wèn)題的可解釋的結(jié)果,那你直接用GNN Explainer就好了。
他們的設(shè)計(jì)思路是,GNN Explainer會(huì)讓模型預(yù)測(cè)和結(jié)合圖、節(jié)點(diǎn)特征形成的子圖結(jié)構(gòu)之間的共同信息最大化(當(dāng)然了,生成子圖的過(guò)程需要一些優(yōu)化技巧,畢竟檢測(cè)所有可能的子圖是辦不到的)。這個(gè)框架給出的解釋的形式是,它會(huì)返回一個(gè)帶有最重要的通路和特征的子圖,這就很容易被人類(lèi)解讀了。論文里有一些很清晰的示例圖(如下方)。很棒的論文,鼓掌!
結(jié)論
在圖上做機(jī)器學(xué)習(xí)是完全可行的!而且不管是CV、NLP、強(qiáng)化學(xué)習(xí)都能做。按照NeurIPS這樣的規(guī)模,我們可以期待看到更多有趣的評(píng)審意見(jiàn)和給人啟發(fā)的見(jiàn)解。順便,我覺(jué)得有不少NeurIPS的workshop論文都可以在明年的ICLR2020再次看到。
via https://medium.com/@mgalkin/machine-learning-on-graphs-neurips-2019-875eecd41069,雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章