微軟的這些研究讓你瞬間變成藝術(shù)家

本文作者： camel

2017-08-02 15:14

導(dǎo)語：微軟研究院的StyleBank高效解決圖像風(fēng)格轉(zhuǎn)換。

雷鋒網(wǎng)AI科技評論按：在當(dāng)前這個時代，可能你完全沒有藝術(shù)細胞，不過沒關(guān)系，人工智能和機器學(xué)習(xí)方面的最新研究將幫助你，讓你瞬間成為藝術(shù)家——你上傳照片或視頻，它能迅速將其轉(zhuǎn)化成有創(chuàng)造性的、可以拿出來展覽的藝術(shù)品。

據(jù)雷鋒網(wǎng)了解，目前微軟在雷德蒙德和北京的研究人員目前就在開發(fā)這么一種利用人工智能的計算機視覺技術(shù)，它能夠?qū)⑺囆g(shù)風(fēng)格應(yīng)用到你上傳的照片或視頻上，甚至還能夠?qū)蓮堈掌囊曈X風(fēng)格進行交換，例如把阿凡達和蒙娜麗莎揉合在一起。

微軟的這些研究讓你瞬間變成藝術(shù)家

這種圖像風(fēng)格交換的技術(shù)被稱為StyleBank，現(xiàn)已應(yīng)用到今年六月份更新的一款手機軟件微軟Pix（Microsoft Pix）。微軟Pix是一款集成了微軟在智能算法上20多篇研究成果的軟件，它能讓用戶按下快門即可得到一張漂亮的照片。

風(fēng)格交換的研究主要是探究如何將藝術(shù)風(fēng)格從一張圖片轉(zhuǎn)移到另一張圖片，例如將后印象主義的風(fēng)格應(yīng)用到你后花園的照片上。而對像微軟Pix這樣的應(yīng)用，其挑戰(zhàn)在于如何為用戶提供更多的可選風(fēng)格，以及快速高效地將風(fēng)格應(yīng)用到圖像上。

微軟的這些研究讓你瞬間變成藝術(shù)家

StyleBank的研究人員對這一問題的解決方案是，將視覺風(fēng)格明確地表示為卷積濾波器組的集合，每一個卷積濾波器組代表一種風(fēng)格。當(dāng)要將圖像轉(zhuǎn)換成特定風(fēng)格時，自動編碼器會將輸入圖片分解為獨立于任何一種風(fēng)格的多層特征圖。隨后用選擇的風(fēng)格所對應(yīng)的濾波器組與多層的特征圖進行卷積，最后再通過解碼器對卷積后的圖像進行渲染。在此，神經(jīng)網(wǎng)絡(luò)完全將風(fēng)格與內(nèi)容分離。與這個領(lǐng)域其他方法相比，由于明確地表示為卷積濾波器組集合，這種方法能夠更有效地訓(xùn)練出新的風(fēng)格，更快速地渲染風(fēng)格化后的圖像。這樣就解決了微軟Pix上述的兩個問題。

微軟的這些研究讓你瞬間變成藝術(shù)家

StyleBank的主要研究成員是微軟北京實驗室的研究員Gang Hua、Lu Yuan 、 Jing Liao以及實習(xí)生 Dongdong Chen 。其中Gang Hua是微軟亞洲研究院視覺計算組的首席研究經(jīng)理，同時還是斯蒂芬技術(shù)研究院的訪問教授；Lu Yuan是微軟亞洲研究院的視覺計算組的首席研究員。他們與微軟研究院的微軟Pix團隊進行了密切的合作，將這種風(fēng)格交換的功能集成到了微軟Pix軟件當(dāng)中。2017年7月21日至26日在夏威夷檀香山舉行的2017計算機視覺與模式識別大會（CVPR 2017）上，Gang Hua的團隊介紹了他們的這項工作。

不僅如此，他們還擴展了StyleBank的技術(shù)，以在線的形式呈現(xiàn)穩(wěn)定的風(fēng)格化視頻。他們利用連續(xù)幀之間特征對應(yīng)的瞬時信息，實時地獲得一致且穩(wěn)定的風(fēng)格化視頻序列。該技術(shù)自適應(yīng)地混合了來自前一幀和當(dāng)前幀的特征圖，有效地避免了在逐幀渲染視頻中普遍存在的重影假象。他們這項技術(shù)將會在今年10月22日至29日意大利威尼斯舉辦的2017年國際計算機視覺大會（ICCV 2017）上發(fā)表。

此外，他們（除Lu Yuan，Jing Liao外，參與此項工作的還有在美國雷德蒙德微軟研究院認知組的Sing Bing Kang）在7月30日-8月2日洛杉磯舉行的SIGGRAPH 2017上還報告了他們的另外一項研究工作。這項工作描述了一種用于圖片間視覺屬性轉(zhuǎn)換的技術(shù)，即兩張明顯不同的但有視覺上語義相似結(jié)構(gòu)（圖片包含相似的視覺內(nèi)容，例如都有一張臉）的圖片能夠相互交換屬性。

微軟的這些研究讓你瞬間變成藝術(shù)家

例如，利用他們這項技術(shù)可以將《阿凡達》中一個角色的臉放到達芬奇的蒙娜麗莎中，反之也可以將蒙娜麗莎的臉放到阿凡達的角色中。這項技術(shù)主要就是在兩個輸入圖像之間找到強語義對應(yīng)，這就像我們在語言中進行類比一樣，所以他們把這項技術(shù)稱為“深度圖像類比”（Deep Image Analogy）。

雷鋒網(wǎng)表示，期待今年這三場會議中他們能將以上這三項技術(shù)的更多細節(jié)分享給我們，以后至少不會不明不白地“被”成為藝術(shù)家。

via Microsoft

2、StyleBank：一種神經(jīng)圖像風(fēng)格變換的顯性表征（StyleBank: An Explicit Representation for Neural Image Style Transfer）

3、通過深度圖像類比的視覺屬性變換（Visual Attribute Transfer through Deep Image Analogy）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

6人收藏

相關(guān)文章