0
本文作者: camel | 2018-04-30 19:57 |
雷鋒網(wǎng) AI 科技評論按:近日張鈸院士和朱軍教授團(tuán)隊(duì)在 arXiv 上貼出一篇論文《Graphical Generative Adversarial Networks》,論文提出了一種 Graphical-GAN 模型框架,該模型綜合了深度隱式模型(Deep Implicit Model)和概率圖模型(Probabilistic Graphical Models)的優(yōu)點(diǎn),能夠利用數(shù)據(jù)的基本結(jié)構(gòu)來進(jìn)一步提升生成網(wǎng)絡(luò)的表現(xiàn)。
在談?wù)撨@個模型之前,雷鋒網(wǎng)先簡單介紹一下深度隱式模型和概率圖模型。
研究機(jī)器學(xué)習(xí)的同學(xué)應(yīng)該對生成模型都不陌生,它是指一系列用于隨機(jī)生成可觀測數(shù)據(jù)的模型。換句話說就是,假設(shè)在一個連續(xù)的或離散的高維空間 X 中,存在一個變量 X 服從一個未知分布 P_data (X )。我們根據(jù)一些可觀測 的樣本 x(1),x(2),··· ,x(N) 來估計這個未知分布。生成模型就是建立一個分布模 型 P_model (X ) 來近似未知的數(shù)據(jù)分布 P_data (X ),并可以用這個模型來生成一些 樣本,使得「生成」樣本和「真實(shí)」樣本盡可能地相似。但在實(shí)際中,觀測到的樣本往往只是真實(shí)樣本的一部分變量,叫做可觀測變量。除了可觀測變量外,還有一些變量是不可觀測的,叫做隱藏變量 (Latent Variables),或隱變量。假設(shè)隱變量 Z 是另外一個相對低維的空間 Z 中的變 量,完整的生成式模式應(yīng)該是建模 P_model(X,Z)。根據(jù)鏈?zhǔn)椒▌t P_model(X,Z) =P_model (Z )P_model (X |Z ),生成式模式可以轉(zhuǎn)換為對兩個分布的建模:一個是觀測變量 X 的條件分布 P_model (X |Z ),另一個是隱變量的先驗(yàn)分布 P_model (Z )。
生成模型有兩種,一種是 prescribed 模型,一種是 Implicit 模型。本文提到的深度隱式模型,即為后者與深度學(xué)習(xí)的結(jié)合,就是利用神經(jīng)網(wǎng)絡(luò)的方式來隱式地建模條件分布 p(x | z)。而其中所謂的隱式建模,是指并不對條件分布 p ( x | z ) 本身進(jìn)行建模,而是建模生成過程,即學(xué)習(xí)一個映射函數(shù) g : z → x。神經(jīng)網(wǎng)絡(luò)的輸入為隱變量 z,輸出為觀測變量 x。本質(zhì)上來說,GAN 也是深度隱式模型的一種形式,這里就不再詳細(xì)敘述。
據(jù)本篇論文作者表示,目前已知的深度隱式模型能夠生成相當(dāng)真實(shí)的圖像,但是沒有能夠很好地利用數(shù)據(jù)中的基本結(jié)構(gòu),例如圖像的離散語義信息、視頻幀之間的連續(xù)性等。
另一方面,在概率論和統(tǒng)計學(xué)中,概率圖模型是指一種用圖結(jié)構(gòu)來描述多元隨機(jī) 變量之間條件獨(dú)立關(guān)系的概率模型。圖,是由節(jié)點(diǎn)和節(jié)點(diǎn)之間的邊組成。在概率圖模型中,每一個節(jié)點(diǎn)都表示 一個隨機(jī)變量 (或一組隨機(jī)變量),邊表示這些隨機(jī)變量之間的概率依賴關(guān)系。
常見的概率圖模型可以分為兩類:有向圖模型和無向圖模型。前者也叫 做貝葉斯網(wǎng)絡(luò),為有向非循環(huán)圖,邊的方向代表了因果關(guān)系。本篇文章所采用的即貝葉斯網(wǎng)絡(luò)。無向圖模型也叫 做馬爾可夫隨機(jī)場,每條邊代表來兩個變量之間有概率依賴關(guān)系,但是并不表明 任何因果關(guān)系。對于一個非全連接的圖模型,都可以根據(jù)條件獨(dú)立性將聯(lián)合概 率分布進(jìn)行因子分解,表示為一組局部的條件概率分布的乘積。下面為貝葉斯網(wǎng)絡(luò)的嚴(yán)格定義:
在機(jī)器學(xué)習(xí)中,很多機(jī)器學(xué)習(xí)模型都可以看作是概率模型,也即將學(xué)習(xí)任務(wù)歸結(jié)于計算輸入和輸出之間的條件概率分 布。概率圖模型顯然可以表示數(shù)據(jù)中結(jié)構(gòu),但是它的缺點(diǎn)是隨著節(jié)點(diǎn)數(shù)的增加,算法將會變得非常復(fù)雜,因此它無法處理圖像這類復(fù)雜的數(shù)據(jù)。
Graphical-GAN,如上面所說,結(jié)合了深度隱式模型和概率圖模型兩者的優(yōu)點(diǎn)。具體來說,作者在 Graphical-GAN 中使用貝葉斯網(wǎng)絡(luò)來表示變量間的結(jié)構(gòu);另一方面,用深度隱似然函數(shù)來為復(fù)雜數(shù)據(jù)建模。
表示成數(shù)學(xué)形式,隱式模型中的條件分布可寫為:
其中X、Z如上所說為可觀測變量和隱變量,而G表示關(guān)聯(lián)有向無環(huán)圖(也即貝葉斯網(wǎng)絡(luò))。由于貝葉斯網(wǎng)絡(luò)的局部結(jié)構(gòu)性質(zhì),分布可以進(jìn)一步分解為:
這里的 Pa_G(x)(x 包含可觀測變量和隱變量)即為前面貝葉斯定義中的 x_pi_k,表示了關(guān)聯(lián)圖 G 中 x_j 的父節(jié)點(diǎn)。當(dāng)給定依賴性結(jié)構(gòu)的情況下,變量之間的依賴函數(shù)就可以參數(shù)化為深度神經(jīng)網(wǎng)絡(luò),進(jìn)而來擬合復(fù)雜的數(shù)據(jù)。這種結(jié)合了圖的深度隱式模型,作者將之稱為圖生成對抗網(wǎng)絡(luò)(Graphical-GAN)。
由于模型本身是高度非線性的,這導(dǎo)致計算后驗(yàn)概率 p(z|*) 難以計算。為了解決這個問題,作者采用一個神經(jīng)網(wǎng)絡(luò)來近似計算,這在統(tǒng)計中稱做推理網(wǎng)絡(luò);換句話說就是,利用一個神經(jīng)網(wǎng)絡(luò)來估計 p(z|x; θ) 的近似分布 q(z|x; φ),這里φ是網(wǎng)絡(luò)參數(shù)。這里的細(xì)節(jié)類似于上面的過程,在此就不再展開。
剩下的工作就是同時學(xué)習(xí)生成模型和識別模型中的參數(shù),讓 p 和 q 盡可能地相似。作者提出兩種基于散度最小化的算法,一種為全局算法,一種為局部算法。如圖所示:
在全局算法中直接忽略數(shù)據(jù)中的結(jié)構(gòu)信息,去最小化 p(X , Z) 和 q(X , Z) 之間的散度。最小化問題就變成了:
寫成 GAN 的形式就是:
另一方面,局部算法考慮數(shù)據(jù)中的結(jié)構(gòu)信息,將前面 P_G(X,Z) 簡化寫為
這里,A 為前面 (x | Pa_G(x)) 或(z | Pa_G(z))的縮寫,F(xiàn)_G 是相應(yīng)的因子集合。于是這里的最小化問題以 GAN 的形式寫出即為:
在實(shí)際中,涉及到結(jié)構(gòu)化數(shù)據(jù),有兩種常見的典型案例,上面的圖例中也有提到。一種情況是,數(shù)據(jù)集由具有離散屬性或類的圖像組成,例如 MNIST(數(shù)字)、SVHN(彩色背景數(shù)字)、CIFAR10(自然)、CelebA(人臉)等數(shù)據(jù)集;一種情況是具有時間依賴性的圖像序列組成的數(shù)據(jù)集,例如 Moving MNIST、3D chairs 等。
作者根據(jù) Graphical-GAN,針對這兩類數(shù)據(jù)集設(shè)計了兩個模型 GMGAN 和 SSGAN,從而來生成有意義的樣本。
模型:GMGAN
結(jié)果:以 MNIST 數(shù)據(jù)集為例。GAN-G 和 GMVAE 為對照模型。GMGAN-G 和 GMGAN-L 分別代表全局算法模型和局部算法模型。k 表示固定混合度。
如果通過生成樣本不容易看出哪個更優(yōu)的話,也可以通過下表數(shù)據(jù)來對比:
可以看出
a. GMGAN 算法生成樣本的表現(xiàn)媲美(甚至優(yōu)于)于其他模型;
b. 局部算法優(yōu)于全局算法,原因在于它利用了數(shù)據(jù)中的結(jié)構(gòu)信息。
模型:SSGAN
結(jié)果:在上面的實(shí)驗(yàn)中,由于 MNIST 樣本的生成已經(jīng)相對成熟,各模型的差距或許還不能充分體現(xiàn)出來。下面我們來看在 Moving MNIST(也即數(shù)字隨著時間運(yùn)動)數(shù)據(jù)集和 3D chairs 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。
上圖顯示了當(dāng)時間 T 設(shè)為 16 時,幾個模型生成的樣本。其他幾個模型在這種數(shù)據(jù)集上的結(jié)果是不忍直視的。
同樣的表現(xiàn)也體現(xiàn)在 3D Chairs 的生成上,這里設(shè)置 T=31。從這些樣本的結(jié)果可以看出 Graphical-GAN 在利用數(shù)據(jù)結(jié)構(gòu)后的優(yōu)異表現(xiàn)。
雷鋒網(wǎng)總結(jié):這篇論文提出了 Graphical-GAN 的模型框架,基于該框架所構(gòu)建的模型能夠利用結(jié)構(gòu)化數(shù)據(jù)中的結(jié)構(gòu)信息,從而進(jìn)一步提高生成樣本的質(zhì)量。在文章中,作者針對離散結(jié)構(gòu)和時間結(jié)構(gòu)分別用兩個實(shí)例驗(yàn)證了這個模型框架的有效性和優(yōu)越性。作者表示,本文所使用的代碼隨后將在 Github 上分享。
文章中,作者也提到在未來的研究中可能將對 Graphical-GAN 做以下方面的擴(kuò)展:1)在模型結(jié)構(gòu)方面,將學(xué)習(xí)算法和推理算法廣義化;2)在模型驗(yàn)證方面,將使用具有更復(fù)雜結(jié)構(gòu)的實(shí)例(例如樹)來做;3)在實(shí)用方面,嘗試對結(jié)構(gòu)化數(shù)據(jù)使用半監(jiān)督學(xué)習(xí)的方法。
參考資料:
[2] Shakir Mohamed, Balaji Lakshminarayanan, Learning in Implicit Generative Models, arXiv:1610.03483
[3] 邱錫鵬,神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
[4] Bayesian network, Wikipedia_en
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。