0
本文作者: 奕欣 | 2018-06-06 17:26 |
雷鋒網(wǎng) AI 科技評(píng)論按:本論文由阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室華先勝團(tuán)隊(duì)與 UCF 齊國(guó)君教授領(lǐng)導(dǎo)的 UCF MAPLE 實(shí)驗(yàn)室合作完成,被 CVPR 2018 收錄為 poster 論文。
從學(xué)術(shù)開發(fā)和企業(yè)活動(dòng)上看,阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室在雷鋒網(wǎng)學(xué)術(shù)頻道 AI 科技評(píng)論旗下數(shù)據(jù)庫(kù)項(xiàng)目「AI 影響因子」中有不錯(cuò)的表現(xiàn)。實(shí)驗(yàn)室分別在 SQuAD 和 KITTI 比賽中獲得第一名,近期在 AAAI 2018 上,達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室共有 4 篇論文被錄用,在CVPR 2018上,也有多篇論文被錄用,成績(jī)斐然。
以下為論文介紹:
GAN 自誕生以來(lái)吸引了眾多相關(guān)的研究,并在理論、算法和應(yīng)用方面取得了很多重大的突破。我們?cè)噲D從一個(gè)全新的幾何角度,用局部的觀點(diǎn)建立一種與之前經(jīng)典 GAN 模型所采用的整體方法不同的理論和模型,并以此建立和半監(jiān)督機(jī)器學(xué)習(xí)中 Laplace-Beltrami 算子的聯(lián)系,使之不再局限于傳統(tǒng)的圖模型 (Graph) 方法,并在用少量標(biāo)注樣本訓(xùn)練深度學(xué)習(xí)模型上取得了優(yōu)異的性能;同時(shí),我們還展示了如果用 Localized GAN (LGAN) 對(duì)給定圖像在局部坐標(biāo)系下進(jìn)行編輯修改,從而獲得具有不同角度、姿態(tài)和風(fēng)格的新圖像;我們還將進(jìn)一步揭示如何從流型切向量獨(dú)立性的角度來(lái)解釋和解決 GAN 的 mode collapse 問題。
該工作由 UCF 齊國(guó)君教授領(lǐng)導(dǎo)的 UCF MAPLE 實(shí)驗(yàn)室 (MAchine Perception and LEarning) 和阿里巴巴華先勝博士領(lǐng)導(dǎo)的城市大腦機(jī)器視覺研究組合作完成,并將發(fā)表在 CVPR 2018 上。
論文地址:https://arxiv.org/abs/1711.06020
GAN 除了用來(lái)生成數(shù)據(jù),我們認(rèn)為一個(gè)非常重要的作用是:我們第一次有了一個(gè)比較理想的工具,可以用來(lái)表示和描述數(shù)據(jù)流型 (manifold)。之前,如果我們想表示流型,一般是借助于一個(gè)圖模型(Graph)。在圖模型里,我們用節(jié)點(diǎn)表示數(shù)據(jù)點(diǎn),用邊表示數(shù)據(jù)直接的相似性。有了 Graph,我們可以定量計(jì)算數(shù)據(jù)點(diǎn)上函數(shù)的變化。比如,在分類問題中,我們感興趣的函數(shù)是分類函數(shù),輸出的是數(shù)據(jù)點(diǎn)的標(biāo)簽。有了基于 Graph 的流型,我們就可以建立一個(gè)分類模型:它輸出的分類標(biāo)簽在相似樣本上具有最小的變化。這個(gè)就是一種平滑性的假設(shè),是基于圖的半監(jiān)督方法的核心假設(shè)。
上圖:基于圖的流型表示和半監(jiān)督分類。
盡管這種基于圖的半監(jiān)督方法取得了很大的成功,但是它的缺點(diǎn)也是很明顯的。當(dāng)數(shù)據(jù)點(diǎn)數(shù)量非常巨大的時(shí)候,構(gòu)建這樣一個(gè) Graph 的代價(jià)會(huì)非常大。為了解決這個(gè)問題,Graph 為我們提供了一個(gè)很好的基礎(chǔ)。通過(guò)訓(xùn)練得到的生成器 G(z),其實(shí)就是一個(gè)非常好的流型模型。這里 z 就是流型上的參數(shù)坐標(biāo),通過(guò)不斷變化 z,我們就可以在高維空間中劃出一個(gè)流型結(jié)構(gòu)。
有了這樣一個(gè)流型和它的描述 G,我們可以在數(shù)據(jù)流型上研究各種幾何結(jié)構(gòu)。比如切向量空間、曲率,進(jìn)而去定義在流型上,沿著各個(gè)切向量,函數(shù)會(huì)如何變化等等。好了,這里 GAN 就和半監(jiān)督學(xué)習(xí)聯(lián)系起來(lái)了。以前我們是用 Graph 這種離散的結(jié)果去研究分類函數(shù)的變化,并通過(guò)最小化這種變化去得到平滑性假設(shè)。
現(xiàn)在,有了流型直接的參數(shù)化描述 G(z),我們就能直接去刻畫一個(gè)函數(shù)(比如分類問題中的分類器)在流型上的變化,進(jìn)而去建立一個(gè)基于這種參數(shù)化流型的半監(jiān)督分類理論,而非去借助基于圖的流型模型。
具體來(lái)說(shuō),半監(jiān)督圖流型中,我們常用到 Laplacian 矩陣來(lái)做訓(xùn)練;現(xiàn)在,有了參數(shù)化的流型后,我們就可以直接定義 Laplace-Beltrami 算子,從而實(shí)現(xiàn)半監(jiān)督的訓(xùn)練。下面是基于這個(gè)方法在一些數(shù)據(jù)集上得到的結(jié)果。更多的結(jié)果可以參考我們的論文「Global versus Localized Generative Adversarial Networks「。
上表:在 SVHN, CIFAR-10 和 CIFAR-100 上的半監(jiān)督學(xué)習(xí)效果。
這里,有個(gè)比較精細(xì)的問題。通常的 GAN 模型,得到的是一個(gè)全局的參數(shù)話模型:我們只有一個(gè) z 變量去參數(shù)化整個(gè)流型。事實(shí)上,在數(shù)學(xué)上,這種整體的參數(shù)化王是不存在的,比如我們無(wú)法用一個(gè)參數(shù)坐標(biāo)去覆蓋整個(gè)球面。這時(shí)我們往往要借助于通過(guò)若干個(gè)局部的坐標(biāo)系去覆蓋整個(gè)流型。
同時(shí),使用局部坐標(biāo)系的另一個(gè)更加實(shí)際的好處是,我們給定一個(gè)目標(biāo)數(shù)據(jù)點(diǎn) x 后,整體坐標(biāo)系 G(z) 要求我們必須知道對(duì)應(yīng)的一個(gè)參數(shù)坐標(biāo) z;而使用局部坐標(biāo)系后,我們就直接可以在 x 附近去建立一個(gè)局部坐標(biāo)系 G(x,z) 去研究流型周圍的幾何結(jié)構(gòu),而不用去解一個(gè)逆問題去去它對(duì)應(yīng)的 z 了。這個(gè)極大地方便了我們處理流型上不同數(shù)據(jù)點(diǎn)。
上圖:流型的局部參數(shù)化表示。
沿著這個(gè)思路,我們可以利用參數(shù)化的局部坐標(biāo)和它表示的流型來(lái)研究一系列問題。
1. 比較理論的研究可以專注于,有了這些局部參數(shù)表示,如何去定義出一整套黎曼流型的數(shù)學(xué)結(jié)構(gòu),比如局部的曲率,黎曼度量,和如果沿著流型去算測(cè)地線和兩個(gè)數(shù)據(jù)點(diǎn)之間的測(cè)地距離。
2. 從應(yīng)用的角度,給定了一個(gè)圖像 x,用局部表示 G(x,z) 可以對(duì)這個(gè) x 在它的局部領(lǐng)域中做各種編輯操作或者控制圖像的各種屬性,從而可以幫助我們生成想要的圖像;比如不同角度的人臉、人體姿態(tài)、物體,甚至不同風(fēng)格、表現(xiàn)不同情感的圖像等等。這在安防、內(nèi)容生成、虛擬現(xiàn)實(shí)等領(lǐng)域都會(huì)有廣泛的應(yīng)用前景。
當(dāng)然,從幾何和流型參數(shù)化的角度還可以給出對(duì) GAN 更深入的理解,比如對(duì) mode collapse 問題。在 GAN 的相關(guān)研究中,mode collapse 是一個(gè)被廣泛關(guān)注的問題。有很多相關(guān)的論文在從不同角度來(lái)研究和解決這個(gè)問題。
而基于 Localized GAN 所揭示的幾何方法,我們可以從流型局部崩潰的角度來(lái)解釋和避免 GAN 的 mode collapse。具體來(lái)說(shuō),給定了一個(gè) z,當(dāng) z 發(fā)生變化的時(shí)候,對(duì)應(yīng)的 G(z) 沒有變化,那么在這個(gè)局部,GAN 就發(fā)生了 mode collapse,也就是不能產(chǎn)生不斷連續(xù)變化的樣本。這個(gè)現(xiàn)象從幾何上來(lái)看,就是對(duì)應(yīng)的流型在這個(gè)局部點(diǎn)處,沿著不同的切向量方向不再有變化。換言之,所有切向量不再彼此相互獨(dú)立--某些切向量要么消失,要么相互之間變得線性相關(guān),從而導(dǎo)致流型的維度在局部出現(xiàn)缺陷(dimension deficient)。
為了解決這個(gè)問題,最直接的是我們可以給流型的切向量加上一個(gè)正交約束 (Orthonormal constraint),從而避免這種局部的維度缺陷。下圖是在 CelebA 數(shù)據(jù)集上得到的結(jié)果??梢钥吹?,通過(guò)對(duì)不同的切向量加上正交化的約束,我們可以在不同參數(shù)方向上成功地得到不同的變化。
上圖:在給定輸入圖像的局部坐標(biāo)系下對(duì)人臉的不同屬性進(jìn)行編輯。
值得注意的是,盡管我們是從局部 GAN 的角度推導(dǎo)和實(shí)現(xiàn)了對(duì)切向量的正交化約束,這個(gè)思路和方法同樣適用于傳統(tǒng)的整體 GAN 模型。我們只需要在訓(xùn)練整體 GAN 模型的同時(shí),在每個(gè)訓(xùn)練數(shù)據(jù)樣本或者一個(gè) batch 的子集上也加上這個(gè)約束來(lái)求取相應(yīng)的下降梯度就同樣可以訓(xùn)練整體 GAN 模型;這個(gè)方向可以引申出未來(lái)的相關(guān)工作。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。