朋克學(xué)術(shù)大牛上演“換頭術(shù)”，原來深度學(xué)習(xí)還能這樣玩?。ǜ秸撐南螺d）｜SIGGRAPH ASIA 2016

本文作者：奕欣

2016-12-05 21:00

導(dǎo)語：今天早上的主題分享為“geometric deep learning”（幾何深度學(xué)習(xí)），主要介紹了目前在深度學(xué)習(xí)技術(shù)下目前的3D圖像分析研究進(jìn)展。

電影及視頻游戲行業(yè)的新興及發(fā)展，無疑是計(jì)算機(jī)圖像研究領(lǐng)域的一劑催化劑。SIGGRAPH ASIA 2016 的學(xué)術(shù)主席，倫敦學(xué)院教授 Niloy Mitra 在開幕式上表示，「計(jì)算機(jī)圖像技術(shù)正在對實(shí)體產(chǎn)業(yè)產(chǎn)生影響，比如為產(chǎn)品視覺化及圖像優(yōu)化提供工具。這項(xiàng)技術(shù)源于視覺效果及游戲產(chǎn)業(yè)的計(jì)算機(jī)圖像需求，并為數(shù)學(xué)、物理、藝術(shù)及計(jì)算機(jī)科學(xué)提供一座融合的橋梁。」

而作為 A 類會(huì)議的 SIGGNRAPH ASIA 2016，又怎能錯(cuò)過這一領(lǐng)域的學(xué)術(shù)交流及分享？今天早上的主題分享為「geometric deep learning」（幾何深度學(xué)習(xí)），主要介紹了目前在深度學(xué)習(xí)技術(shù)下目前的 3D 圖像分析研究進(jìn)展，并圍繞（非）歐幾里得數(shù)據(jù)進(jìn)行探討。

在介紹中，主辦方特地提到這個(gè)課程是為零基礎(chǔ)的聽眾而準(zhǔn)備的，雷鋒網(wǎng)整理了兩個(gè)普適性及認(rèn)知度較強(qiáng)的演講與大家分享。

意大利大學(xué)計(jì)算機(jī)科學(xué)教授 Michael M. Bronstein 是今天上臺(tái)的第一位嘉賓，雷鋒網(wǎng)了解到，Bronstein 的上一次公開分享是去年九月份的 ICIP，而就在本次的學(xué)術(shù)課程上，他分享了上個(gè)月剛提交在 arxiv 的論文《幾何深度學(xué)習(xí)：超越歐幾里德數(shù)據(jù)》，主要涉及的是計(jì)算機(jī)視覺及模式識(shí)別的分享。

本文除了這位大神外，還有 Facebook 前人工智能團(tuán)隊(duì)博士后成員 Joan Bruna 和現(xiàn)人工智能負(fù)責(zé)人 Yann LeCun 的加持，難怪成為了本次學(xué)術(shù)分享打頭陣的研究論文。

Bronstein 認(rèn)為，許多信號(hào)處理問題涉及其基礎(chǔ)結(jié)構(gòu)是非歐幾里得的數(shù)據(jù)，但可以通過建模來實(shí)現(xiàn)。使用最近鄰圖在高維歐幾里德空間中作為點(diǎn)給出的建模數(shù)據(jù)是數(shù)據(jù)科學(xué)中日益流行的趨勢，允許從業(yè)者訪問數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。而鑒于幾何數(shù)據(jù)的復(fù)雜性和非常大的數(shù)據(jù)集的可用性（在社交網(wǎng)絡(luò)的情況下，數(shù)十億級(jí)），機(jī)器學(xué)習(xí)技術(shù)就成為了（幾乎）唯一可取的方法，因?yàn)樯疃葘W(xué)習(xí)能夠用于解決具有基礎(chǔ)歐幾里得結(jié)構(gòu)的大數(shù)據(jù)集的問題。

例如：

在社交網(wǎng)絡(luò)中，用戶的特征可以被建模為社交圖的信號(hào)。
在傳感器網(wǎng)絡(luò)中，圖像模型由分布式互連傳感器構(gòu)成，其讀數(shù)則被建模為頂點(diǎn)上的時(shí)間信號(hào)。
在遺傳學(xué)中，基因表達(dá)數(shù)據(jù)被建模為在調(diào)節(jié)網(wǎng)絡(luò)上定義的信號(hào)。
在神經(jīng)科學(xué)中，圖形模型用于表示大腦的解剖和功能結(jié)構(gòu)。

Bronstein 的分享稍顯拘謹(jǐn)和嚴(yán)肅，而隨后上臺(tái)分享的 USC 視覺及圖像實(shí)驗(yàn)室兼南加州大學(xué)的助理教授黎灝則以一種輕松詼諧的方式讓大家了解他的研究進(jìn)展。染著一頭黃毛，留著朋克發(fā)型的黎灝是德國出生的臺(tái)灣人，憑借他對 3D 圖像技術(shù)所做的貢獻(xiàn)，2013 年當(dāng)選 MIT TR 35 創(chuàng)新者。

他長這樣：

朋克學(xué)術(shù)大牛上演“換頭術(shù)”，原來深度學(xué)習(xí)還能這樣玩！（附論文下載）｜SIGGRAPH ASIA 2016

來自臺(tái)灣的訪問學(xué)者程昱林（音譯，YuLen Chung）向雷鋒網(wǎng)提起黎灝的時(shí)候帶著一臉自豪和崇敬，他表示在整個(gè)早上的幾位講者中，對黎灝的演講印象最為深刻?！杆难芯靠梢哉f代表了深度學(xué)習(xí)在視覺圖像上的應(yīng)用成果，雖然還處于早期階段，但如果數(shù)據(jù)足夠多的話，相信這對整個(gè)動(dòng)畫界有著巨大影響?！?/p>

在會(huì)上，黎灝首先展示了他理想中的圖像處理狀態(tài)：

只憑借一張 Matt Furniss 、川普、希拉里、或是馬云爸爸的正面照片，計(jì)算機(jī)就能夠「腦補(bǔ)」出他們頭部的 3D 模型（甚至還有美顏功能，能把皺紋都給抹掉）。

自然這一切都要通過人工智能才能實(shí)現(xiàn)，基于大數(shù)據(jù)的深度學(xué)習(xí)無疑為研究者們提供了絕佳的素材。

黎灝隨即在會(huì)上邀請 Bronstein 上臺(tái)做了個(gè)「換頭」小實(shí)驗(yàn)。通過攝像頭拍攝正面視頻，計(jì)算機(jī)能夠在短短幾秒鐘內(nèi)生成 Bronstein 的 3D 頭像，并且在黎灝回到臺(tái)前對著視頻演講時(shí)，大屏幕上依然呈現(xiàn)的是 Bronstein 的頭像，但動(dòng)作卻與黎灝的進(jìn)行同步。

一個(gè)小小的演示很快讓在場的觀眾們了解到臉部替換（face replacement）的含義，實(shí)際上這與最近非常流行的人臉識(shí)別自拍軟件的原理是一致的，主要都是通過「識(shí)別人臉——判斷五官位置——添加與五官匹配的素材——完成『換頭』／『美顏』」來實(shí)現(xiàn)，

在鏡頭前，一名研究人員對著鏡頭做出戴眼鏡、轉(zhuǎn)頭、喝水、抓耳撓腮等動(dòng)作，隨后計(jì)算機(jī)對人臉進(jìn)行識(shí)別和判斷，剔除掉遮擋住面部的無關(guān)參數(shù)（眼睛、杯子、手臂等），最后把設(shè)計(jì)好的一些素材添加到原有圖片上。

朋克學(xué)術(shù)大牛上演“換頭術(shù)”，原來深度學(xué)習(xí)還能這樣玩?。ǜ秸撐南螺d）｜SIGGRAPH ASIA 2016

不過，目前用于娛樂的自拍軟件不過是小打小鬧，黎灝的研究已經(jīng)將使用范圍擴(kuò)大到全頭，并延展到全身。而為了讓機(jī)器學(xué)習(xí)實(shí)現(xiàn)更為準(zhǔn)確的面部識(shí)別，除了將參數(shù)點(diǎn)細(xì)化之外，增加「干擾項(xiàng)」也同樣是研究所需要的。日常的訓(xùn)練素材包括了正面清晰的面部照片外，還有用各種顏色的方框遮擋住面部局部五官的一些照片，此外，因?yàn)槭趾腿四樀哪w色非常接近，且離人臉最近，因此研究團(tuán)隊(duì)也提供了大量各類手臂的局部照片，并把它們「P」到人臉上，供計(jì)算機(jī)進(jìn)行甄別和學(xué)習(xí)。

朋克學(xué)術(shù)大牛上演“換頭術(shù)”，原來深度學(xué)習(xí)還能這樣玩?。ǜ秸撐南螺d）｜SIGGRAPH ASIA 2016

除了上述方式外，以前其他研究團(tuán)隊(duì)也做過大量實(shí)驗(yàn)，提供了更為細(xì)化的部位特寫照片（如靜態(tài)的嘴巴圖片或動(dòng)態(tài)的說話視頻）。

接下來，黎灝介紹了目前兩種主流的 3D 對象分類方式。

一為普林斯頓大學(xué)研究的基于三維數(shù)據(jù)的「立體柵格化」（volumetric representation），將對象的 3D 數(shù)據(jù)表示為 30*30*30 的立體數(shù)據(jù)，并在上面直接進(jìn)行卷積網(wǎng)絡(luò)的訓(xùn)練。
二為馬薩諸塞大學(xué)在 2015 ICCV 發(fā)表的「多重視角下的神經(jīng)網(wǎng)絡(luò)構(gòu)建 3D 圖像識(shí)別」，該方法主要從多個(gè)角度對進(jìn)行二維圖像拍攝作為訓(xùn)練數(shù)據(jù)，隨后進(jìn)行卷積訓(xùn)練。

黎灝表示，這兩種圖像訓(xùn)練方式的結(jié)果不盡相同，相對而言第二種方式的處理度稍好一些，能達(dá)到 90.1%，而第一種為 77.3%。但他表示，在同一像素級(jí)別的前提下，第一種方式的分類準(zhǔn)確度能達(dá)到 86% 以上，而后者低了近 10 個(gè)百分點(diǎn)。

因此黎灝團(tuán)隊(duì)參考的是第二種模式，采用 Kinect 傳感收集數(shù)據(jù)，提升全身的 3D 影像在建模方式上的優(yōu)化，并已實(shí)現(xiàn)動(dòng)態(tài)實(shí)時(shí)傳輸?shù)男Ч?/p>

除此之外，目前學(xué)術(shù)圈已經(jīng)有不少基于的人體 3D 建模，不過黎灝的研究實(shí)現(xiàn)了身著衣服也能實(shí)現(xiàn)建模。由于衣服對計(jì)算機(jī)識(shí)別的干擾性較大，如何排除這些可能存在的因素也是一個(gè)突破性的進(jìn)展。

不過它還存在兩個(gè)缺點(diǎn)：

首先是硬件限制。對數(shù)據(jù)進(jìn)行計(jì)算誠然需要高精度的 GPU 加速，如何在處理速度和質(zhì)量上實(shí)現(xiàn)平衡，目前團(tuán)隊(duì)還沒有實(shí)現(xiàn)這一點(diǎn)。
其次是暫時(shí)團(tuán)隊(duì)只能處理人體建模，尚未將識(shí)別領(lǐng)域延展到其他物體上。

在會(huì)后，程昱林向雷鋒網(wǎng)表示，這一局限性可能會(huì)讓動(dòng)畫產(chǎn)業(yè)的應(yīng)用受到局限，因?yàn)橹荒懿蹲饺梭w圖像的話，范圍還是窄了一些。但他也表示，「這算得上是一個(gè)很不錯(cuò)的突破了，至少可以穿著衣服實(shí)現(xiàn)建模，在動(dòng)畫造型就有了更多的可能性。」

深度學(xué)習(xí)在計(jì)算機(jī)圖像研究領(lǐng)域已經(jīng)有了如此多突破，相信很快能夠真正實(shí)現(xiàn)產(chǎn)業(yè)化的應(yīng)用。雷鋒網(wǎng)記者今天在采訪 Polygon Picture 制作人，本次計(jì)算機(jī)動(dòng)畫節(jié)的聯(lián)合主席 Shuzo John Shiota 時(shí)，他也談到了產(chǎn)學(xué)研的結(jié)合同樣有利于動(dòng)畫效果的提高，「SIGGRAPH 與計(jì)算機(jī)動(dòng)畫節(jié)的聯(lián)系非常緊密，可以說后者是最受歡迎和關(guān)注的內(nèi)容之一。本次的大賽評(píng)選可以說是科技在藝術(shù)界的一個(gè)結(jié)合，而 Polygon 可能會(huì)在未來尋求感興趣的相關(guān)研究所團(tuán)隊(duì)一起合作，讓技術(shù)能夠順利落地?！?/p>

第一天的 SIGGRAPH ASIA 2016 的相關(guān)介紹還有很多，雷鋒網(wǎng)所列舉的學(xué)術(shù)領(lǐng)域只是一管窺豹。更多詳細(xì)報(bào)道還請關(guān)注 SIGGRAPH ASIA 2016 專題，雷鋒網(wǎng)將持續(xù)帶來前線報(bào)道。

論文下載地址：

Geometric deep learning: going beyond Euclidean data：

https://arxiv.org/abs/1611.08097

Real-Time Facial Segmentation and Performance Capture from RGB Input：

https://arxiv.org/abs/1604.02647

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。