0
雷鋒網AI 科技評論按:2018 年 4 月 14 日-15 日,中國圖象圖形學學會圍繞「生物特征識別」這一主題,在中科院自動化所舉辦第四期「CSIG 圖像圖形學科前沿講習班」。
生物特征識別(BIOMETRICS)技術,是指通過計算機利用人體所固有的生理特征(指紋、虹膜、面相、DNA等)或行為特征(步態(tài)、擊鍵習慣等)來進行個人身份鑒定的技術。
本期講習班邀請曠視科技首席科學家孫劍,中科院自動化所研究員孫哲南、王亮、赫然,中科院計算所研究員山世光、清華大學副教授馮建江、徐明星,中山大學教授鄭偉詩等八位學者分別就人臉、虹膜、指紋、步態(tài)、音紋等人體特征的研究現(xiàn)狀做了詳細報告。雷鋒網 AI 科技評論作為合作媒體針對會議進行報道。會議整體內容請參考雷鋒網報道:
CSIG 圖像圖形學科前沿講習班,曠視和中科院帶來生物特征識別精彩報告(一)
CSIG 圖像圖形學科前沿講習班,山世光等四位學者帶來生物特征識別精彩報告(二)
本篇文章為講習班報告第三篇,由中科院自動化所研究員赫然講解,報告題目為:大規(guī)模人臉圖像編輯理論、方法及應用。
赫然:2009年畢業(yè)于中科院自動化所,獲博士學位。中國科學院自動化研究所模式識別國家重點實驗室研究員,中國科學院腦科學與模式技術卓越創(chuàng)新中心年輕骨干。2017年至今,擔任中國科學院大學人工智能技術學院模式識別教研室副主任。從事模式識別應用基礎理論研究,并應用到生物特征識別和智能視頻監(jiān)控,在智慧城市監(jiān)管需求的平臺上取得成功應用,取得一定經濟效益。近期主要聚焦在生成式深度學習及大規(guī)模圖像編輯中遇到的瓶頸問題,展開圖像模式分析基礎理論研究。出版信息理論學習專著1部,在IEEE TPAMI、TIP、TIFS、TNNLS、TKDE等權威國際期刊以及NIPS、ICCV、CVPR、IJCAI、AAAI、SIGIR、ACM MM等權威會議發(fā)表論文120篇,研究工作獲得國家自然科學基金優(yōu)秀青年科學基金資助。
赫然:
大家下午好,我叫赫然。今天的主題是「大規(guī)模人臉圖像編輯」。這里有兩個要點,一是大規(guī)模,二是對人臉圖像進行編輯。所謂人臉圖像編輯,即對輸入的人臉圖像進行一系列操作處理,在內容和表觀上對圖像進行重組和編輯,進而創(chuàng)造出完全不同的人臉圖像。我們希望機器能夠對現(xiàn)有的圖像進行自動處理,并且得到一些新的圖像,而這些新圖像則需要同時符合人的認知和特定的需求。該問題是當前機器學習、計算機視覺重要的研究內容之一,并且在交互娛樂、衛(wèi)生醫(yī)療、公共安全等領域有著廣泛的應用場景。今天介紹的內容分為兩個部分:第一部分介紹圖像編輯涉及的理論基礎,第二部分介紹它的方法和應用。
在計算機處理圖像的過程中,涉及一個基本的概念就是全光函數(shù)。它是決定空間中光線呈現(xiàn)形式的因素組成的一個函數(shù),包括光譜信息、時間信息、空間信息、深度信息、亮度信息和方向信息等。如果波長固定,那就是灰度圖像,如果有多個波長,那就是彩色圖像;如果是時間有變化那么就是視頻;空間信息自然不用說了;如果考慮深度信息就是深度成像,在成像時會測量圖像的深度信息;如果考慮亮度信息就是高動態(tài)圖像;如果考慮光線方向,就是光場相機。所有這些組成了全光函數(shù),在人臉識別中我們需要對這個函數(shù)有所了解,從而得到比較符合真實世界的圖像。目前,我們智能感知與計算研究中心依托國家自然科學基金委重大儀器專項[1]和華為公司合作項目[4][5],已設計和搭建全光人臉采集系統(tǒng)和深度數(shù)碼變焦圖像分析設備。這部分工作主要由中心的張堃博和胡坦浩完成。
圖像編輯的基本研究目標是希望生成/合成的圖像是符合人的視覺認知的,通俗而言就是讓觀察者判斷不出這個圖像是真實的還是計算機生成的?;谶@些考慮,中科院的陳霖院士提出了視覺拓撲優(yōu)先的概念,他認為人在識別人臉時對拓撲信息的變化的感知優(yōu)先于其它信息。實際上,對于拓撲結構變化的敏感性是生物感知系統(tǒng)中的基本特性,例如蜜蜂對空心圓和實心圓的拓撲結構變化非常敏感。相關成果發(fā)表在《科學》雜志上。視覺拓撲優(yōu)先機制的數(shù)學建模問題一直是一個困難問題,我們中心在國家自然基金委重點基金項目[3]的支持下,深入研究了視覺拓撲優(yōu)先的多種數(shù)學表達形式,例如全局和局部結構、小波分解、heatmap和人臉解析圖等。根據拓撲變換的性質,相關的人臉圖像編輯任務可以分為拓撲不變任務和拓撲變換任務。
這里涉及到最常用的模型是生成模型,即學習聯(lián)合概率密度分布,它可以從統(tǒng)計的角度表示數(shù)據的分布情況,能夠反映同類數(shù)據本身的相似度。生成模型的主要功能有兩個:一是進行密度估計,二是生成樣本。生成/合成人臉時,所要的就是生成/合成的人臉和真實人臉相似。生成模型中大家比較熟悉的就是GAN,即生成對抗網絡。大家都比較熟悉,我在這里就不再詳細介紹了。此外,我們也結合變分自編碼機和膠囊模型來研究新的生成式模型。
每個人都有自己的身份信息。人臉生成/合成任務自然希望能夠保持這個身份信息。在身份保持方面,我們的研究借鑒視覺認知中最基本的概念,即,定序測量(Ordinal Measures,OM)。這是一個基本的度量方式。人類所采用的度量方式主要包含以下四種。
生活中,定序測量的思想隨處可見。比如我們只需要知道籃球比足球重,至于重多少克則大多數(shù)情況下是沒有必要知道的。根據 OM 概念,中科院的譚鐵牛院士提出一個既簡單又好用的方法,即,通過簡單的比較大小,實現(xiàn)計算機視覺的復雜特征提取。最初這個研究工作應用到虹膜識別,判斷虹膜是否屬于同一個人?;舅悸肪褪峭ㄟ^比較大小得到一個特征編碼,通過這個特征編碼便可以進行分類。目前這種思想已經被廣泛應用于計算機視覺中。
我們把這種定序測量的方式引入到卷積神經網絡的激活函數(shù)中。常用的激活函數(shù)有兩種:ReLU 和Maxout。通常認為,由于 Maxout 需要使用兩條直線才能近似 ReLU,因此,Maxout 網絡通常是 ReLU 網絡大小的兩倍以上。而我們這個方法采用的定序測量非常簡單,就是比數(shù)值大小,誰的值小誰就被抑制掉,因此可以得到一個比較小的卷積神經網絡。
不同于以前的方法,我們借鑒神經學中一個基本的概念:側向抑制。這是神經元的激活機制,即通過對比機制來減少臨近神經元的激活,同時神經元能夠抑制一些神經信號傳播,這種方式能夠增加神經信號的清晰度。借用這種概念,我們在網絡中添加了側向抑制的機制,以眉毛區(qū)域為例,其相鄰水平位置激活,相鄰豎直位置就會被抑制。引入上述概念后,依托于國家自然科學基金委重點項目[2],我們中心的吳翔等設計了一個輕量級的神經網絡 Light CNN [6],該網絡具有提煉度高,空間占用小的特點。它在人臉識別以及車輛識別問題上都已經取得了較好的效果。這個網絡所具有的結構小而分辨率高的特點能夠輔助我們在人臉圖像編輯過程中進行身份判別。該工作發(fā)表在 IEEE TIFS, 2018 上。目前,該研究工作受到國內外研究者的較大關注,相關代碼已經在 github 上公布,依據網絡層數(shù)不同,分為 LightCNN9 和 LightCNN29 兩個版本。
以上四個部分就是我們在研究人臉圖像的過程中遇到的基礎問題。首先,需要對光的結構比較了解,只有了解了光的信息才有比較好的成像效果;其次,因為圖像是給人看的,因此生成的圖像要符合人的認知;另外,介紹了一種基本的網絡結構,即生成對抗網絡,來指導人臉圖像的編輯;最后是身份保持損失,目的是希望合成后的人臉圖像保持原有的身份信息。這四個部分構成了圖像編輯的主要基礎部分,當然還有一些其它部分。
接下來介紹一下我們中心近期做的一些相關研究內容,由于時間關系,主要包括七個主要部分。每個部分在計算機視覺中都是獨立的分支,在金融民生或公共安全領域也都有很重要的應用。
第一個是圖像超分辨率,即在給定低分辨率(LR)輸入的情況下估計出高分辨率(HR)圖像的問題。例如攝像頭采集的圖像一般分辨率比較低,如何對它進行超分,得到一張清晰的圖像并保持其身份信息,就是我們所研究的內容。
超分算法一般可以分為兩大類,一類屬于通用的超分算法,例如基于插值的方法、基于圖像統(tǒng)計的方法或者基于字典學習等的方法,這類算法適用于所有的圖像超分問題。另一類屬于特定領域的超分算法,例如基于先驗統(tǒng)計的方法,現(xiàn)在也有基于生成模型的方法以及感知損失函數(shù)的方法。
我們中心的黃懷波等提出在超分的過程中使用小波分解技術[13]。假設超分圖像的每個位置在超分時都依賴于原始的圖像對應的地方,這樣我們的超分算法不會破壞全局信息。通常,超分問題被建模為一個概率問題。在這種模型中,給定輸入的圖像,直接預測完整的圖像,這個預測過程不能保證是不變的。不同于此,我們在訓練時輸入一張高清的圖像,然后進行小波分解,對分解后的圖像分別預測,之后再合成完整高清圖像,這樣得到的結果就可以盡量避免出現(xiàn)偏差。
另外一個比較重要、也是現(xiàn)在各大公司比較關注的人臉視角旋轉應用,即將歸一化的人臉旋轉到任意姿態(tài)。例如從一張正臉圖像生成側臉圖像;或反之,從采集到的一張側臉恢復其正臉圖像,公安領域常有此需求。
視角旋轉有 x、y、z 三個方向,我們目前只考慮左右偏轉。如果從單張圖像進行旋轉的話,這需要「無中生有」,因為有些信息是沒有的,所以旋轉時結果存在偏差。人臉旋轉有兩部分研究內容,一部分是 2D 模型,一部分是 3D 模型。
既然圖像合成比較難,又不能直接預測,因此,我們引入幾個局部通路專門負責人臉局部信息的合成,該工作發(fā)表在 ICCV 2017 [15]。根據人臉五官,我們引入四個局部通路,再加上一個全局的通路,同時保持全局和局部的拓撲保持不變。局部四個部分進行分別合成,最后再與全局進行融合,得到一個正臉。我們中心在該問題上的后續(xù)工作成果[9]發(fā)表在 CVPR2018 上。
另外一個做的比較多的就是上妝去妝。「上妝」自然是希望在拍攝后把人臉進行妝顏美化,去妝則是去除掉圖像中的妝容從而變?yōu)樗仡仭?/span>作為一個單獨的研究問題,上妝去妝從 2009 年開始陸續(xù)得到研究者的關注。2018 年,我們中心的李祎等提出利用生成網絡來完成去妝[11],并在 AAAI2018 上發(fā)表。我們主要希望針對手機用戶,使得去妝之后能夠得到比較好的視覺結果。跟前面的方法類似,這里仍需要保持拓撲結構,同時我們提出兩層對抗網絡,采用兩個判別器,一個是進行身份信息判別,另外一個對是否為真實圖像進行判別。
最新的自動上妝工作是2018年美國 Adobe 公司提出的模型。該方法以 cycleGAN 模型為基礎,對眼部、唇部和其他面部皮膚分別上妝,之后再把分塊上妝結果反貼回原臉。由于該方法在合成全臉化妝效果時使用的是 image warping 方法,因此該方法實際上采用的是一種半生成模型。
表情編輯涉及到兩個問題,一個是表情合成,一個是表情去除。2018 年,我們中心的宋凌霄等提出一個新的表情合成/去除的算法[14],包括一下幾個基本部分:一、拓撲結構變化,因為眨眼的時候拓撲結構發(fā)生變化,因此希望用這個信息指導表情的變化;二、身份保持,我們不希望添加了表情后變成了另外一個人。我們的工作有兩個特點,一個特點是能夠得到一個真實圖像,另外一個是能夠識別身份信息。
下面是我們方法得到的合成效果。
從娛樂領域而言,預測臉部年齡的變化是一個重要的應用,其基本任務就是如何使人臉圖像老化/年輕化。
年齡變換在電影中應用比較廣泛,例如年輕的演員在電影中變老,或年老的演員需要扮演年輕人等。在公安領域也有應用,比如尋找丟失多年的兒童;當然在隱私防范或生活娛樂中也有很多應用。
年齡合成作為計算機視覺的一個分支問題,其研究始于 1994 年。我們中心的李佩佩等在 2018 年提出了一種基于全局和局部的生成方法[12]。做年齡合成時,我們知道一般額頭、眼睛以及嘴角變化比較大。因此除了做一個全局通道外,我們還在模型匯總另外添加了三個局部通道,隨后將這三個局部通道合起來后再與全局通道融合在一起。同時,我們也使用多個判別器來保證合成結果的視覺效果。這是我們得到的實驗結果:
接下來的工作是人臉補充,即把遮擋了的人臉補全,這在圖像編輯中也有很重要作用。現(xiàn)有方法可以歸納為三類:早期是使用基于補丁的方法,即通過觀察缺失內容的上下文信息,從相同圖像或外部圖像數(shù)據庫中搜索相似的補丁;其次是基于擴散方程的方法,即利用擴散方程迭代地沿著邊界將低級特征從上下文區(qū)域傳播到缺失區(qū)域;第三種則是基于稀疏表示的方法,即如果缺了某塊兒區(qū)域,便通過編碼或者解碼,把原始的圖像補充上去[8]。2017 年,國外學者進一步研究了基于生成模型的人臉補充,其目的是希望生成的拓撲結構和真實的拓撲結構保持一致。
在圖像感知的時候,拓撲結構先于其它結構,所以我們考慮把拓撲結構作為先驗條件?;谶@種考慮,我們中心的宋林森等提出一種新的方法(Geometry-Aware Face Completion and Editing),先預測缺失的地方,隨后再把這個拓撲結構跟原圖一起輸入,來生成真實的圖像。
所謂跨光譜合成,指根據某種光譜/模態(tài)下的人臉圖像,直接合成其他光譜/模態(tài)人臉 圖像的技術。這個技術廣泛應用于異質人臉識別,例如下圖的可見光圖像和近紅外圖像間的人臉識別。這個問題的挑戰(zhàn)和光線有關,一方面不同的圖像之間光線差別比較大,而另一方面可用于跨光譜訓練的圖像數(shù)據集也比較小。不過這個領域的研究也比較多,包括基于字典學習的方法、基于補丁映射的方法和基于生成模型的方法等。
我們的工作[10]是基于生成模型的方法,發(fā)表在 AAAI 2018 上,這應該是第一篇使用GAN模型的跨光譜合成方法。我們構建了生成對抗異質人臉識別模型(AD-HFR),并使用了全局和局部的結構,除了對整個臉部進行生成外,還對眼睛部分進行了專門處理,并且包含了身份保持函數(shù)。
本次報告主要介紹了人臉圖像編輯涉及的基礎理論和應用方法。由于時間關系,基礎理論部分還有部分內容沒有深入介紹;而在應用部分,今天主要講了超分辨率等,但還有人臉生成等許多應用沒有涉及。
事實上人臉圖像編輯,是計算機視覺中一個長期的研究目標,當前仍有很多問題沒有解決。例如,當前研究的人臉圖像分辨率大多是 128×128,隨著手機的發(fā)展,其分辨率將會越來越高,那么如何編輯更高分辨率的圖像?同時,很多場景對精確度的需求也變得越來越高,比如在 3D 重建中,醫(yī)療領域希望人臉的深度信息精度能夠從 0.1 厘米提升到 0.05 毫米,這樣便可以精準估計面部運動和身份信息。另外,一些特殊應用場景會要求生成十幾萬人乃至幾億人的人臉數(shù)據。另一方面,人臉圖像編輯也是機器學習的重要研究內容,它的理論學習方法、硬件和軟件都需要更大的突破,才能得到符合人類視覺感知的結果。
感謝中心成員張堃博、宋凌霄、吳翔、李祎、胡坦浩、黃懷波、李志航、李佩佩、胡一博和宋林森等人對于本次報告給予的協(xié)助和支持。謝謝大家。
[1] 復雜場景中多模態(tài)生物特征獲取設備. 國家自然科學基金委重大儀器專項.
[2] 基于定序測量的物體識別理論和方法. 國家自然科學基金委重點項目.
[3] 基于非歐空間的視覺計算理論與方法. 國家自然科學基金委重點項目.
[4] 基于深度學習的人臉超分辨率技術合作項目, 華為公司.
[5] 多視角人臉圖像合成技術合作項目, 華為公司.
[6] Xiang Wu, Ran He, Zhenan Sun, Tieniu Tan. A Light CNN for Deep Face Representation with Noisy Labels. IEEE Trans. Information Forensics and Security (2018).
[7] Shu Zhang, Ran He, Zhenan Sun, Tieniu Tan. DeMeshNet: Blind Face Inpainting for Deep MeshFace Verification. IEEE Trans. Information Forensics and Security 13(3): 637-647 (2018).
[8] Ran He, Wei-Shi Zheng, Tieniu Tan, Zhenan Sun. Half-Quadratic-Based Iterative Minimization for Robust Sparse Representation. IEEE Trans. Pattern Anal. Mach. Intell. 36(2): 261-275 (2014).
[9] Yibo Hu, Xiang Wu, Bing Yu, Ran He and Zhenan Sun. Pose-Guided Photorealistic Face Rotation. CVPR 2018.
[10] Lingxiao Song, Man Zhang, Xiang Wu, Ran He. Adversarial Discriminative Heterogeneous Face Recognition, AAAI 2018.
[11] Yi Li, Lingxiao Song, Xiang Wu, Ran He, Tieniu Tan. Anti-Makeup: Learning A Bi-Level Adversarial Network for Makeup-Invariant Face Verification, AAAI 2018.
[12] Peipei Li, Yibo Hu, Qi Li, Ran He, Zhenan Sun. Global and Local Consistent Age Generative Adversarial Networks. ICPR 2018.
[13] Huaibo Huang, Ran He, Zhenan Sun, Tieniu Tan. Wavelet-SRNet: A Wavelet-Based CNN for Multi-scale Face Super Resolution. ICCV 2017: 1698-1706.
[14] Lingxiao Song, Zhihe Lu, Ran He, Zhenan Sun, Tieniu Tan. Geometry Guided Adversarial Facial Expression Synthesis. CoRR abs/1712.03474 (2018).
[15] Rui Huang, Shu Zhang, Tianyu Li, Ran He. Beyond face rotation: Global and local perception gan for photorealistic and identity preserving frontal view synthesis. ICCV 2017.
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。