0
雷鋒網(wǎng)AI科技評論按:在當(dāng)前這個(gè)時(shí)代,可能你完全沒有藝術(shù)細(xì)胞,不過沒關(guān)系,人工智能和機(jī)器學(xué)習(xí)方面的最新研究將幫助你,讓你瞬間成為藝術(shù)家——你上傳照片或視頻,它能迅速將其轉(zhuǎn)化成有創(chuàng)造性的、可以拿出來展覽的藝術(shù)品。
據(jù)雷鋒網(wǎng)了解,目前微軟在雷德蒙德和北京的研究人員目前就在開發(fā)這么一種利用人工智能的計(jì)算機(jī)視覺技術(shù),它能夠?qū)⑺囆g(shù)風(fēng)格應(yīng)用到你上傳的照片或視頻上,甚至還能夠?qū)蓮堈掌囊曈X風(fēng)格進(jìn)行交換,例如把阿凡達(dá)和蒙娜麗莎揉合在一起。
這種圖像風(fēng)格交換的技術(shù)被稱為StyleBank,現(xiàn)已應(yīng)用到今年六月份更新的一款手機(jī)軟件微軟Pix(Microsoft Pix)。微軟Pix是一款集成了微軟在智能算法上20多篇研究成果的軟件,它能讓用戶按下快門即可得到一張漂亮的照片。
風(fēng)格交換的研究主要是探究如何將藝術(shù)風(fēng)格從一張圖片轉(zhuǎn)移到另一張圖片,例如將后印象主義的風(fēng)格應(yīng)用到你后花園的照片上。而對像微軟Pix這樣的應(yīng)用,其挑戰(zhàn)在于如何為用戶提供更多的可選風(fēng)格,以及快速高效地將風(fēng)格應(yīng)用到圖像上。
StyleBank的研究人員對這一問題的解決方案是,將視覺風(fēng)格明確地表示為卷積濾波器組的集合,每一個(gè)卷積濾波器組代表一種風(fēng)格。當(dāng)要將圖像轉(zhuǎn)換成特定風(fēng)格時(shí),自動(dòng)編碼器會(huì)將輸入圖片分解為獨(dú)立于任何一種風(fēng)格的多層特征圖。隨后用選擇的風(fēng)格所對應(yīng)的濾波器組與多層的特征圖進(jìn)行卷積,最后再通過解碼器對卷積后的圖像進(jìn)行渲染。在此,神經(jīng)網(wǎng)絡(luò)完全將風(fēng)格與內(nèi)容分離。 與這個(gè)領(lǐng)域其他方法相比,由于明確地表示為卷積濾波器組集合,這種方法能夠更有效地訓(xùn)練出新的風(fēng)格,更快速地渲染風(fēng)格化后的圖像。這樣就解決了微軟Pix上述的兩個(gè)問題。
StyleBank的主要研究成員是微軟北京實(shí)驗(yàn)室的研究員Gang Hua、Lu Yuan 、 Jing Liao以及實(shí)習(xí)生 Dongdong Chen 。其中Gang Hua是微軟亞洲研究院視覺計(jì)算組的首席研究經(jīng)理,同時(shí)還是斯蒂芬技術(shù)研究院的訪問教授;Lu Yuan是微軟亞洲研究院的視覺計(jì)算組的首席研究員。他們與微軟研究院的微軟Pix團(tuán)隊(duì)進(jìn)行了密切的合作,將這種風(fēng)格交換的功能集成到了微軟Pix軟件當(dāng)中。2017年7月21日至26日在夏威夷檀香山舉行的2017計(jì)算機(jī)視覺與模式識(shí)別大會(huì)(CVPR 2017)上,Gang Hua的團(tuán)隊(duì)介紹了他們的這項(xiàng)工作。
不僅如此,他們還擴(kuò)展了StyleBank的技術(shù),以在線的形式呈現(xiàn)穩(wěn)定的風(fēng)格化視頻。他們利用連續(xù)幀之間特征對應(yīng)的瞬時(shí)信息,實(shí)時(shí)地獲得一致且穩(wěn)定的風(fēng)格化視頻序列。該技術(shù)自適應(yīng)地混合了來自前一幀和當(dāng)前幀的特征圖,有效地避免了在逐幀渲染視頻中普遍存在的重影假象。他們這項(xiàng)技術(shù)將會(huì)在今年10月22日至29日意大利威尼斯舉辦的2017年國際計(jì)算機(jī)視覺大會(huì)(ICCV 2017)上發(fā)表。
此外,他們(除Lu Yuan,Jing Liao外,參與此項(xiàng)工作的還有在美國雷德蒙德微軟研究院認(rèn)知組的Sing Bing Kang)在7月30日-8月2日洛杉磯舉行的SIGGRAPH 2017上還報(bào)告了他們的另外一項(xiàng)研究工作。這項(xiàng)工作描述了一種用于圖片間視覺屬性轉(zhuǎn)換的技術(shù),即兩張明顯不同的但有視覺上語義相似結(jié)構(gòu)(圖片包含相似的視覺內(nèi)容,例如都有一張臉)的圖片能夠相互交換屬性。
例如,利用他們這項(xiàng)技術(shù)可以將《阿凡達(dá)》中一個(gè)角色的臉放到達(dá)芬奇的蒙娜麗莎中,反之也可以將蒙娜麗莎的臉放到阿凡達(dá)的角色中。這項(xiàng)技術(shù)主要就是在兩個(gè)輸入圖像之間找到強(qiáng)語義對應(yīng),這就像我們在語言中進(jìn)行類比一樣,所以他們把這項(xiàng)技術(shù)稱為“深度圖像類比”(Deep Image Analogy) 。
雷鋒網(wǎng)表示,期待今年這三場會(huì)議中他們能將以上這三項(xiàng)技術(shù)的更多細(xì)節(jié)分享給我們,以后至少不會(huì)不明不白地“被”成為藝術(shù)家。
via Microsoft
相關(guān)文獻(xiàn)鏈接:
1、連續(xù)在線視頻風(fēng)格轉(zhuǎn)換(Coherent Online Video Style Transfer)
3、通過深度圖像類比的視覺屬性變換(Visual Attribute Transfer through Deep Image Analogy)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。