0
本文作者: camel | 2018-04-30 19:57 |
雷鋒網(wǎng) AI 科技評(píng)論按:近日張鈸院士和朱軍教授團(tuán)隊(duì)在 arXiv 上貼出一篇論文《Graphical Generative Adversarial Networks》,論文提出了一種 Graphical-GAN 模型框架,該模型綜合了深度隱式模型(Deep Implicit Model)和概率圖模型(Probabilistic Graphical Models)的優(yōu)點(diǎn),能夠利用數(shù)據(jù)的基本結(jié)構(gòu)來(lái)進(jìn)一步提升生成網(wǎng)絡(luò)的表現(xiàn)。
在談?wù)撨@個(gè)模型之前,雷鋒網(wǎng)先簡(jiǎn)單介紹一下深度隱式模型和概率圖模型。
研究機(jī)器學(xué)習(xí)的同學(xué)應(yīng)該對(duì)生成模型都不陌生,它是指一系列用于隨機(jī)生成可觀測(cè)數(shù)據(jù)的模型。換句話說(shuō)就是,假設(shè)在一個(gè)連續(xù)的或離散的高維空間 X 中,存在一個(gè)變量 X 服從一個(gè)未知分布 P_data (X )。我們根據(jù)一些可觀測(cè) 的樣本 x(1),x(2),··· ,x(N) 來(lái)估計(jì)這個(gè)未知分布。生成模型就是建立一個(gè)分布模 型 P_model (X ) 來(lái)近似未知的數(shù)據(jù)分布 P_data (X ),并可以用這個(gè)模型來(lái)生成一些 樣本,使得「生成」樣本和「真實(shí)」樣本盡可能地相似。但在實(shí)際中,觀測(cè)到的樣本往往只是真實(shí)樣本的一部分變量,叫做可觀測(cè)變量。除了可觀測(cè)變量外,還有一些變量是不可觀測(cè)的,叫做隱藏變量 (Latent Variables),或隱變量。假設(shè)隱變量 Z 是另外一個(gè)相對(duì)低維的空間 Z 中的變 量,完整的生成式模式應(yīng)該是建模 P_model(X,Z)。根據(jù)鏈?zhǔn)椒▌t P_model(X,Z) =P_model (Z )P_model (X |Z ),生成式模式可以轉(zhuǎn)換為對(duì)兩個(gè)分布的建模:一個(gè)是觀測(cè)變量 X 的條件分布 P_model (X |Z ),另一個(gè)是隱變量的先驗(yàn)分布 P_model (Z )。
生成模型有兩種,一種是 prescribed 模型,一種是 Implicit 模型。本文提到的深度隱式模型,即為后者與深度學(xué)習(xí)的結(jié)合,就是利用神經(jīng)網(wǎng)絡(luò)的方式來(lái)隱式地建模條件分布 p(x | z)。而其中所謂的隱式建模,是指并不對(duì)條件分布 p ( x | z ) 本身進(jìn)行建模,而是建模生成過(guò)程,即學(xué)習(xí)一個(gè)映射函數(shù) g : z → x。神經(jīng)網(wǎng)絡(luò)的輸入為隱變量 z,輸出為觀測(cè)變量 x。本質(zhì)上來(lái)說(shuō),GAN 也是深度隱式模型的一種形式,這里就不再詳細(xì)敘述。
據(jù)本篇論文作者表示,目前已知的深度隱式模型能夠生成相當(dāng)真實(shí)的圖像,但是沒(méi)有能夠很好地利用數(shù)據(jù)中的基本結(jié)構(gòu),例如圖像的離散語(yǔ)義信息、視頻幀之間的連續(xù)性等。
另一方面,在概率論和統(tǒng)計(jì)學(xué)中,概率圖模型是指一種用圖結(jié)構(gòu)來(lái)描述多元隨機(jī) 變量之間條件獨(dú)立關(guān)系的概率模型。圖,是由節(jié)點(diǎn)和節(jié)點(diǎn)之間的邊組成。在概率圖模型中,每一個(gè)節(jié)點(diǎn)都表示 一個(gè)隨機(jī)變量 (或一組隨機(jī)變量),邊表示這些隨機(jī)變量之間的概率依賴關(guān)系。
常見(jiàn)的概率圖模型可以分為兩類:有向圖模型和無(wú)向圖模型。前者也叫 做貝葉斯網(wǎng)絡(luò),為有向非循環(huán)圖,邊的方向代表了因果關(guān)系。本篇文章所采用的即貝葉斯網(wǎng)絡(luò)。無(wú)向圖模型也叫 做馬爾可夫隨機(jī)場(chǎng),每條邊代表來(lái)兩個(gè)變量之間有概率依賴關(guān)系,但是并不表明 任何因果關(guān)系。對(duì)于一個(gè)非全連接的圖模型,都可以根據(jù)條件獨(dú)立性將聯(lián)合概 率分布進(jìn)行因子分解,表示為一組局部的條件概率分布的乘積。下面為貝葉斯網(wǎng)絡(luò)的嚴(yán)格定義:
在機(jī)器學(xué)習(xí)中,很多機(jī)器學(xué)習(xí)模型都可以看作是概率模型,也即將學(xué)習(xí)任務(wù)歸結(jié)于計(jì)算輸入和輸出之間的條件概率分 布。概率圖模型顯然可以表示數(shù)據(jù)中結(jié)構(gòu),但是它的缺點(diǎn)是隨著節(jié)點(diǎn)數(shù)的增加,算法將會(huì)變得非常復(fù)雜,因此它無(wú)法處理圖像這類復(fù)雜的數(shù)據(jù)。
Graphical-GAN,如上面所說(shuō),結(jié)合了深度隱式模型和概率圖模型兩者的優(yōu)點(diǎn)。具體來(lái)說(shuō),作者在 Graphical-GAN 中使用貝葉斯網(wǎng)絡(luò)來(lái)表示變量間的結(jié)構(gòu);另一方面,用深度隱似然函數(shù)來(lái)為復(fù)雜數(shù)據(jù)建模。
表示成數(shù)學(xué)形式,隱式模型中的條件分布可寫為:
其中X、Z如上所說(shuō)為可觀測(cè)變量和隱變量,而G表示關(guān)聯(lián)有向無(wú)環(huán)圖(也即貝葉斯網(wǎng)絡(luò))。由于貝葉斯網(wǎng)絡(luò)的局部結(jié)構(gòu)性質(zhì),分布可以進(jìn)一步分解為:
這里的 Pa_G(x)(x 包含可觀測(cè)變量和隱變量)即為前面貝葉斯定義中的 x_pi_k,表示了關(guān)聯(lián)圖 G 中 x_j 的父節(jié)點(diǎn)。當(dāng)給定依賴性結(jié)構(gòu)的情況下,變量之間的依賴函數(shù)就可以參數(shù)化為深度神經(jīng)網(wǎng)絡(luò),進(jìn)而來(lái)擬合復(fù)雜的數(shù)據(jù)。這種結(jié)合了圖的深度隱式模型,作者將之稱為圖生成對(duì)抗網(wǎng)絡(luò)(Graphical-GAN)。
由于模型本身是高度非線性的,這導(dǎo)致計(jì)算后驗(yàn)概率 p(z|*) 難以計(jì)算。為了解決這個(gè)問(wèn)題,作者采用一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)近似計(jì)算,這在統(tǒng)計(jì)中稱做推理網(wǎng)絡(luò);換句話說(shuō)就是,利用一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì) p(z|x; θ) 的近似分布 q(z|x; φ),這里φ是網(wǎng)絡(luò)參數(shù)。這里的細(xì)節(jié)類似于上面的過(guò)程,在此就不再展開(kāi)。
剩下的工作就是同時(shí)學(xué)習(xí)生成模型和識(shí)別模型中的參數(shù),讓 p 和 q 盡可能地相似。作者提出兩種基于散度最小化的算法,一種為全局算法,一種為局部算法。如圖所示:
在全局算法中直接忽略數(shù)據(jù)中的結(jié)構(gòu)信息,去最小化 p(X , Z) 和 q(X , Z) 之間的散度。最小化問(wèn)題就變成了:
寫成 GAN 的形式就是:
另一方面,局部算法考慮數(shù)據(jù)中的結(jié)構(gòu)信息,將前面 P_G(X,Z) 簡(jiǎn)化寫為
這里,A 為前面 (x | Pa_G(x)) 或(z | Pa_G(z))的縮寫,F(xiàn)_G 是相應(yīng)的因子集合。于是這里的最小化問(wèn)題以 GAN 的形式寫出即為:
在實(shí)際中,涉及到結(jié)構(gòu)化數(shù)據(jù),有兩種常見(jiàn)的典型案例,上面的圖例中也有提到。一種情況是,數(shù)據(jù)集由具有離散屬性或類的圖像組成,例如 MNIST(數(shù)字)、SVHN(彩色背景數(shù)字)、CIFAR10(自然)、CelebA(人臉)等數(shù)據(jù)集;一種情況是具有時(shí)間依賴性的圖像序列組成的數(shù)據(jù)集,例如 Moving MNIST、3D chairs 等。
作者根據(jù) Graphical-GAN,針對(duì)這兩類數(shù)據(jù)集設(shè)計(jì)了兩個(gè)模型 GMGAN 和 SSGAN,從而來(lái)生成有意義的樣本。
模型:GMGAN
結(jié)果:以 MNIST 數(shù)據(jù)集為例。GAN-G 和 GMVAE 為對(duì)照模型。GMGAN-G 和 GMGAN-L 分別代表全局算法模型和局部算法模型。k 表示固定混合度。
如果通過(guò)生成樣本不容易看出哪個(gè)更優(yōu)的話,也可以通過(guò)下表數(shù)據(jù)來(lái)對(duì)比:
可以看出
a. GMGAN 算法生成樣本的表現(xiàn)媲美(甚至優(yōu)于)于其他模型;
b. 局部算法優(yōu)于全局算法,原因在于它利用了數(shù)據(jù)中的結(jié)構(gòu)信息。
模型:SSGAN
結(jié)果:在上面的實(shí)驗(yàn)中,由于 MNIST 樣本的生成已經(jīng)相對(duì)成熟,各模型的差距或許還不能充分體現(xiàn)出來(lái)。下面我們來(lái)看在 Moving MNIST(也即數(shù)字隨著時(shí)間運(yùn)動(dòng))數(shù)據(jù)集和 3D chairs 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。
上圖顯示了當(dāng)時(shí)間 T 設(shè)為 16 時(shí),幾個(gè)模型生成的樣本。其他幾個(gè)模型在這種數(shù)據(jù)集上的結(jié)果是不忍直視的。
同樣的表現(xiàn)也體現(xiàn)在 3D Chairs 的生成上,這里設(shè)置 T=31。從這些樣本的結(jié)果可以看出 Graphical-GAN 在利用數(shù)據(jù)結(jié)構(gòu)后的優(yōu)異表現(xiàn)。
雷鋒網(wǎng)總結(jié):這篇論文提出了 Graphical-GAN 的模型框架,基于該框架所構(gòu)建的模型能夠利用結(jié)構(gòu)化數(shù)據(jù)中的結(jié)構(gòu)信息,從而進(jìn)一步提高生成樣本的質(zhì)量。在文章中,作者針對(duì)離散結(jié)構(gòu)和時(shí)間結(jié)構(gòu)分別用兩個(gè)實(shí)例驗(yàn)證了這個(gè)模型框架的有效性和優(yōu)越性。作者表示,本文所使用的代碼隨后將在 Github 上分享。
文章中,作者也提到在未來(lái)的研究中可能將對(duì) Graphical-GAN 做以下方面的擴(kuò)展:1)在模型結(jié)構(gòu)方面,將學(xué)習(xí)算法和推理算法廣義化;2)在模型驗(yàn)證方面,將使用具有更復(fù)雜結(jié)構(gòu)的實(shí)例(例如樹(shù))來(lái)做;3)在實(shí)用方面,嘗試對(duì)結(jié)構(gòu)化數(shù)據(jù)使用半監(jiān)督學(xué)習(xí)的方法。
參考資料:
[2] Shakir Mohamed, Balaji Lakshminarayanan, Learning in Implicit Generative Models, arXiv:1610.03483
[3] 邱錫鵬,神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
[4] Bayesian network, Wikipedia_en
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。