0
本文作者: 奕欣 | 2018-06-06 17:26 |
雷鋒網 AI 科技評論按:本論文由阿里巴巴達摩院機器智能技術實驗室華先勝團隊與 UCF 齊國君教授領導的 UCF MAPLE 實驗室合作完成,被 CVPR 2018 收錄為 poster 論文。
從學術開發(fā)和企業(yè)活動上看,阿里巴巴達摩院機器智能技術實驗室在雷鋒網學術頻道 AI 科技評論旗下數(shù)據庫項目「AI 影響因子」中有不錯的表現(xiàn)。實驗室分別在 SQuAD 和 KITTI 比賽中獲得第一名,近期在 AAAI 2018 上,達摩院機器智能技術實驗室共有 4 篇論文被錄用,在CVPR 2018上,也有多篇論文被錄用,成績斐然。
以下為論文介紹:
GAN 自誕生以來吸引了眾多相關的研究,并在理論、算法和應用方面取得了很多重大的突破。我們試圖從一個全新的幾何角度,用局部的觀點建立一種與之前經典 GAN 模型所采用的整體方法不同的理論和模型,并以此建立和半監(jiān)督機器學習中 Laplace-Beltrami 算子的聯(lián)系,使之不再局限于傳統(tǒng)的圖模型 (Graph) 方法,并在用少量標注樣本訓練深度學習模型上取得了優(yōu)異的性能;同時,我們還展示了如果用 Localized GAN (LGAN) 對給定圖像在局部坐標系下進行編輯修改,從而獲得具有不同角度、姿態(tài)和風格的新圖像;我們還將進一步揭示如何從流型切向量獨立性的角度來解釋和解決 GAN 的 mode collapse 問題。
該工作由 UCF 齊國君教授領導的 UCF MAPLE 實驗室 (MAchine Perception and LEarning) 和阿里巴巴華先勝博士領導的城市大腦機器視覺研究組合作完成,并將發(fā)表在 CVPR 2018 上。
論文地址:https://arxiv.org/abs/1711.06020
GAN 除了用來生成數(shù)據,我們認為一個非常重要的作用是:我們第一次有了一個比較理想的工具,可以用來表示和描述數(shù)據流型 (manifold)。之前,如果我們想表示流型,一般是借助于一個圖模型(Graph)。在圖模型里,我們用節(jié)點表示數(shù)據點,用邊表示數(shù)據直接的相似性。有了 Graph,我們可以定量計算數(shù)據點上函數(shù)的變化。比如,在分類問題中,我們感興趣的函數(shù)是分類函數(shù),輸出的是數(shù)據點的標簽。有了基于 Graph 的流型,我們就可以建立一個分類模型:它輸出的分類標簽在相似樣本上具有最小的變化。這個就是一種平滑性的假設,是基于圖的半監(jiān)督方法的核心假設。
上圖:基于圖的流型表示和半監(jiān)督分類。
盡管這種基于圖的半監(jiān)督方法取得了很大的成功,但是它的缺點也是很明顯的。當數(shù)據點數(shù)量非常巨大的時候,構建這樣一個 Graph 的代價會非常大。為了解決這個問題,Graph 為我們提供了一個很好的基礎。通過訓練得到的生成器 G(z),其實就是一個非常好的流型模型。這里 z 就是流型上的參數(shù)坐標,通過不斷變化 z,我們就可以在高維空間中劃出一個流型結構。
有了這樣一個流型和它的描述 G,我們可以在數(shù)據流型上研究各種幾何結構。比如切向量空間、曲率,進而去定義在流型上,沿著各個切向量,函數(shù)會如何變化等等。好了,這里 GAN 就和半監(jiān)督學習聯(lián)系起來了。以前我們是用 Graph 這種離散的結果去研究分類函數(shù)的變化,并通過最小化這種變化去得到平滑性假設。
現(xiàn)在,有了流型直接的參數(shù)化描述 G(z),我們就能直接去刻畫一個函數(shù)(比如分類問題中的分類器)在流型上的變化,進而去建立一個基于這種參數(shù)化流型的半監(jiān)督分類理論,而非去借助基于圖的流型模型。
具體來說,半監(jiān)督圖流型中,我們常用到 Laplacian 矩陣來做訓練;現(xiàn)在,有了參數(shù)化的流型后,我們就可以直接定義 Laplace-Beltrami 算子,從而實現(xiàn)半監(jiān)督的訓練。下面是基于這個方法在一些數(shù)據集上得到的結果。更多的結果可以參考我們的論文「Global versus Localized Generative Adversarial Networks「。
上表:在 SVHN, CIFAR-10 和 CIFAR-100 上的半監(jiān)督學習效果。
這里,有個比較精細的問題。通常的 GAN 模型,得到的是一個全局的參數(shù)話模型:我們只有一個 z 變量去參數(shù)化整個流型。事實上,在數(shù)學上,這種整體的參數(shù)化王是不存在的,比如我們無法用一個參數(shù)坐標去覆蓋整個球面。這時我們往往要借助于通過若干個局部的坐標系去覆蓋整個流型。
同時,使用局部坐標系的另一個更加實際的好處是,我們給定一個目標數(shù)據點 x 后,整體坐標系 G(z) 要求我們必須知道對應的一個參數(shù)坐標 z;而使用局部坐標系后,我們就直接可以在 x 附近去建立一個局部坐標系 G(x,z) 去研究流型周圍的幾何結構,而不用去解一個逆問題去去它對應的 z 了。這個極大地方便了我們處理流型上不同數(shù)據點。
上圖:流型的局部參數(shù)化表示。
沿著這個思路,我們可以利用參數(shù)化的局部坐標和它表示的流型來研究一系列問題。
1. 比較理論的研究可以專注于,有了這些局部參數(shù)表示,如何去定義出一整套黎曼流型的數(shù)學結構,比如局部的曲率,黎曼度量,和如果沿著流型去算測地線和兩個數(shù)據點之間的測地距離。
2. 從應用的角度,給定了一個圖像 x,用局部表示 G(x,z) 可以對這個 x 在它的局部領域中做各種編輯操作或者控制圖像的各種屬性,從而可以幫助我們生成想要的圖像;比如不同角度的人臉、人體姿態(tài)、物體,甚至不同風格、表現(xiàn)不同情感的圖像等等。這在安防、內容生成、虛擬現(xiàn)實等領域都會有廣泛的應用前景。
當然,從幾何和流型參數(shù)化的角度還可以給出對 GAN 更深入的理解,比如對 mode collapse 問題。在 GAN 的相關研究中,mode collapse 是一個被廣泛關注的問題。有很多相關的論文在從不同角度來研究和解決這個問題。
而基于 Localized GAN 所揭示的幾何方法,我們可以從流型局部崩潰的角度來解釋和避免 GAN 的 mode collapse。具體來說,給定了一個 z,當 z 發(fā)生變化的時候,對應的 G(z) 沒有變化,那么在這個局部,GAN 就發(fā)生了 mode collapse,也就是不能產生不斷連續(xù)變化的樣本。這個現(xiàn)象從幾何上來看,就是對應的流型在這個局部點處,沿著不同的切向量方向不再有變化。換言之,所有切向量不再彼此相互獨立--某些切向量要么消失,要么相互之間變得線性相關,從而導致流型的維度在局部出現(xiàn)缺陷(dimension deficient)。
為了解決這個問題,最直接的是我們可以給流型的切向量加上一個正交約束 (Orthonormal constraint),從而避免這種局部的維度缺陷。下圖是在 CelebA 數(shù)據集上得到的結果??梢钥吹?,通過對不同的切向量加上正交化的約束,我們可以在不同參數(shù)方向上成功地得到不同的變化。
上圖:在給定輸入圖像的局部坐標系下對人臉的不同屬性進行編輯。
值得注意的是,盡管我們是從局部 GAN 的角度推導和實現(xiàn)了對切向量的正交化約束,這個思路和方法同樣適用于傳統(tǒng)的整體 GAN 模型。我們只需要在訓練整體 GAN 模型的同時,在每個訓練數(shù)據樣本或者一個 batch 的子集上也加上這個約束來求取相應的下降梯度就同樣可以訓練整體 GAN 模型;這個方向可以引申出未來的相關工作。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。