0
雷鋒網(wǎng) AI 科技評論按,表示實體之間關系的關系數(shù)據(jù)在網(wǎng)絡(如在線社交網(wǎng)絡)和物理世界(如蛋白質(zhì)交互網(wǎng)絡)中隨處可見。這些數(shù)據(jù)可以表示為一個帶有節(jié)點(如用戶、蛋白質(zhì))和連接它們的邊(如社交網(wǎng)絡中的朋友關系、蛋白質(zhì)之間的相互作用)的圖。
不久前,谷歌 AI 發(fā)布了一篇博文,介紹了他們在圖 embedding 上面的兩篇論文成果。其中,其中一篇論文解決了如何更好地描述具有重疊區(qū)域的網(wǎng)絡,第二篇論文解決了圖 embedding 中超參數(shù)調(diào)整的基本問題。雷鋒網(wǎng) AI 科技評論將他們的博文編譯如下。
考慮到圖的廣泛流行,圖分析在機器學習中起著基礎性的作用,在集群、關系預測、隱私和其他方面都有應用。要將機器學習方法應用于圖(例如,預測新的友誼,或發(fā)現(xiàn)未知的蛋白質(zhì)相互作用),需要學習一種可用于 ML 算法的圖形表示。
然而,圖本質(zhì)上是由離散部分(如節(jié)點和邊)組成的組合結構,而許多常見的 ML 方法(如神經(jīng)網(wǎng)絡)更傾向于連續(xù)結構,特別是向量表示。矢量表示在神經(jīng)網(wǎng)絡中特別重要,因為它們可以直接用作輸入層。為了解決在 ML 中使用離散圖表示困難的問題,圖嵌入方法為圖學習一個連續(xù)的向量空間,將圖中的每個節(jié)點或邊分配給向量空間中的特定位置。在這一領域,一種流行的方法是基于隨機移走的表示學習,正如在 DeepWalk 中引入的一樣。
左圖:代表社交網(wǎng)絡的著名 Karate 圖表。右圖:使用 DeepWalk 在圖中連續(xù)嵌入節(jié)點的空間。
在這里,我們展示了最近兩篇關于圖 embedding 的論文的結果:The web conference 2019 會議論文「Is a Single Embedding Enough? Learning Node Representations that Capture Multiple Social Contexts」和 Neurips' 2018 論文「Watch Your Step: Learning Node Embeddings via Graph Attention」。第一篇文章介紹了一種新穎的技術來學習每個節(jié)點的多個嵌入,從而能夠更好地描述具有重疊區(qū)域的網(wǎng)絡。第二個問題解決了圖嵌入中超參數(shù)調(diào)整的基本問題,使人們可以輕松地部署圖嵌入方法。我們也很高興地宣布,我們已經(jīng)在 Google Research Github 圖嵌入庫中發(fā)布了這兩篇論文的代碼。
學習節(jié)點表示,捕獲多個社交背景
在幾乎所有情況下,標準圖嵌入方法的關鍵假設是必須為每個節(jié)點學習單個嵌入。因此,嵌入方法的作用可以認為是識別在圖的幾何圖形中,表征每個節(jié)點的單個角色或位置。然而,最近的研究發(fā)現(xiàn),真實社區(qū)中的節(jié)點屬于多個重疊的區(qū)域,扮演著多個角色。想想你的社交網(wǎng)絡,在那里你既參與到你的家庭社區(qū)中,又參與到你的工作社區(qū)中。這引發(fā)了以下問題:是否有可能開發(fā)將節(jié)點嵌入多個向量中,表示它們參與重疊的區(qū)域的方法?
在我們的 The web conference 2019 論文中,我們開發(fā)了 Splitter,這是一種無監(jiān)督的嵌入方法,允許圖中的節(jié)點具有多個嵌入,以便更好地表示它們在多個社區(qū)中的參與。我們的方法是基于最近在基于 ego-network 分析的重疊聚類中的創(chuàng)新,特別是使用了人物圖概念。該方法獲取一個圖 G,并創(chuàng)建一個新的圖 P(稱為角色圖),其中 G 中的每個節(jié)點都由一系列稱為角色節(jié)點的副本表示。節(jié)點的每個角色表示它所屬的本地社區(qū)中節(jié)點的實例。對于圖中的每個節(jié)點 U,我們分析節(jié)點的 ego-network(即連接節(jié)點與其鄰居的圖,在本例中是 A、B、C、D),以發(fā)現(xiàn)節(jié)點所屬的本地社區(qū)。例如,在下圖中,節(jié)點 U 屬于兩個社區(qū):集群 1(與 A 和 B 一起,表示 U 的家人)和集群 2(與 C 和 D 一起,表示 U 的同事)。
節(jié)點 U 的 ego-net
然后,我們使用這些信息將節(jié)點 U「分割」為兩個角色 U1(家庭角色)和 U2(工作角色)。這將兩個社區(qū)分離開來,使它們不再重疊。
ego-splitting 將兩個角色中的 U 節(jié)點分離
該技術已被用于改善圖形嵌入方法中的最新結果。這種改進的關鍵原因是該方法能夠消除社交網(wǎng)絡和其他現(xiàn)實世界的圖中高度重疊的社區(qū)的歧義。我們進一步通過對作者所屬的重疊研究群體(如機器學習和數(shù)據(jù)挖掘)的合作關系圖的深入分析來驗證這一結果。
左上角:具有高度重疊社區(qū)的典型圖。右上角:使用 node2vec 在左側(cè) embedding 圖的傳統(tǒng)方法。左下角:上圖中的角色圖。右下角:角色圖的拆分器 embedding。
通過圖注意力自動調(diào)整超參數(shù)
圖 embedding 方法在各種基于 ML 的應用程序上表現(xiàn)出了突出的性能,但它們有許多必須手動設置的超參數(shù)。例如,在學習 embedding 時,附近的節(jié)點比遠處的節(jié)點更重要嗎?即使專家可以微調(diào)這些超參數(shù),但他們必須對每個圖單獨進行調(diào)整。為了避免這種手工操作,在第二篇論文中,我們提出了一種自動學習最優(yōu)超參數(shù)的方法。
具體來說,許多圖 embedding 方法,如 DeepWalk 等,都采用隨機移走來探索給定節(jié)點周圍的上下文(即直接鄰居、鄰居的鄰居等)。這樣的隨機移走可以有許多超參數(shù),允許調(diào)整圖的局部搜索,從而調(diào)節(jié) embedding 到附近節(jié)點的注意力。不同的圖可能會呈現(xiàn)不同的最佳注意力模式,因此會呈現(xiàn)不同的最佳超參數(shù)(見下圖,其中我們展示了兩種不同的注意力分布)。
我們的新方法自動進行超參數(shù)調(diào)整,注意你的步驟,使用注意力模型來學習不同圖的上下文分布。上面顯示的是兩個關于中心節(jié)點(黃色)和上下文分布(紅色漸變)的示例,由模型學習得來。左邊的圖顯示了一個更分散的注意力模型,而右邊的分布顯示了一個集中在直接鄰居上的模型。
這項工作屬于日益壯大的 AutoML 家族,我們希望減輕優(yōu)化超參數(shù)的負擔,這是實際機器學習中的一個常見問題。許多 AutoML 方法都使用神經(jīng)結構搜索。本文給出了一個變量,我們使用 embedding 中超參數(shù)與圖論矩陣公式之間的數(shù)學關系?!窤uto」部分對應于通過反向傳播學習圖的超參數(shù)。
我們相信,我們的貢獻將進一步推進圖 embedding 的研究現(xiàn)狀。我們學習多節(jié)點 embedding 的方法在豐富和深入研究的重疊社區(qū)檢測領域中起到了一定的作用。我們相信后一種圖 embedding 方法將為今后的研究帶來豐碩的成果。這一領域的一個開放性問題是使用多種 embedding 方法進行分類。此外,我們在學習超參數(shù)方面的貢獻將減少昂貴的手動調(diào)優(yōu)工作,促進圖 embedding 的研究。我們希望這些論文和代碼的發(fā)布將有助于推動這些研究。
如果想要了解更多信息,請訪問我們的主頁!
via:https://ai.googleblog.com/2019/06/innovations-in-graph-representation.html
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。