0
雷鋒網(wǎng) AI 科技評論按:能夠迭代進(jìn)化、模仿指定數(shù)據(jù)特征的GAN(生成式對抗性網(wǎng)絡(luò))已經(jīng)是公認(rèn)的處理圖像生成問題的好方法,自從提出以來相關(guān)的研究成果不少,在圖像增強(qiáng)、超分辨率、風(fēng)格轉(zhuǎn)換任務(wù)中的效果可謂是驚人的。 (具體可以參見 Valse 2017 | 生成對抗網(wǎng)絡(luò)(GAN)研究年度進(jìn)展評述 - 雷鋒網(wǎng) )
今年也有利用GAN做的簡筆畫到圖像轉(zhuǎn)換模型pix2pix(代碼地址 https://github.com/phillipi/pix2pix ,demo地址 https://affinelayer.com/pixsrv/ )。除了下圖轉(zhuǎn)換貓的,還有建筑物的、鞋子的、包包的,模型非常有想象力,隨便畫也沒關(guān)系,感興趣的讀者可以自己到demo地址里畫畫看。
GAN既然已經(jīng)有如此的圖像生成能力了,我們能不能用GAN生成藝術(shù)作品呢,畢竟許多現(xiàn)代藝術(shù)作品看照片好像也并不怎么復(fù)雜,比如下面這幅;超寫實(shí)主義的就更不用說了。
然而,要?jiǎng)?chuàng)造出一副人類覺得有藝術(shù)價(jià)值的作品并沒有那么簡單。人類喜歡創(chuàng)新性的作品,人類不喜歡完全模仿的作品;《蒙娜麗莎》和《蘭亭集序》只有原作者的原版才被認(rèn)可是世界藝術(shù)瑰寶,后世的人就算基于它們創(chuàng)作,也要有自己的創(chuàng)新,才能帶來新的藝術(shù)價(jià)值,才能被觀賞者認(rèn)可。
根據(jù)GAN的基本結(jié)構(gòu),鑒別器D要判斷生成器G生成的圖像是否和其它已經(jīng)提供給鑒別器D的圖像是同一個(gè)類別(特征相符),這就決定了最好的情況下輸出的圖像也只能是對現(xiàn)有作品的模仿,如果有創(chuàng)新,就會(huì)被鑒別器D識(shí)別出來,就達(dá)不成目標(biāo)了。上面幾個(gè)GAN的例子就能體現(xiàn)出鑒別器D帶來的這個(gè)特點(diǎn),用GAN生成的藝術(shù)作品也就注定缺乏實(shí)質(zhì)性的創(chuàng)新,藝術(shù)價(jià)值有限。
那么,能不能讓GAN具有一些創(chuàng)新的能力,讓這些創(chuàng)新有藝術(shù)價(jià)值、帶有這些創(chuàng)新的作品還能夠被人類認(rèn)可呢?羅格斯大學(xué)藝術(shù)與人工智能實(shí)驗(yàn)室、Facebook人工智能研究院(FAIR)、查爾斯頓學(xué)院藝術(shù)史系三方合作的這篇論文就通過CAN(Creative Adversarial Network,創(chuàng)造性對抗網(wǎng)絡(luò))給出了一種答案。神經(jīng)網(wǎng)絡(luò)庫Keras的作者Fran?ois Chollet也在Twitter上推薦了這篇文章。
可以看到,生成的藝術(shù)作品風(fēng)格非常多樣,從簡單的抽象畫到復(fù)雜的線條組合都有,內(nèi)容層次也有區(qū)分。論文中也有對比測試結(jié)果,CAN生成的作品不僅比GAN生成的更討人喜歡,甚至來自巴塞爾藝術(shù)展的人類藝術(shù)作品都比不上CAN。(具體數(shù)據(jù)看后文)
剛才說到,藝術(shù)作品需要有創(chuàng)新性,CAN中的C就是Creative,創(chuàng)新性的意思。那么創(chuàng)新性要如何衡量呢、如何達(dá)到呢?
以往基于GAN的圖像生成方法研究中,人類可以把訓(xùn)練好的網(wǎng)絡(luò)生成的圖像和客觀事實(shí)相對比(超分辨率、圖像補(bǔ)全問題中)或者根據(jù)經(jīng)驗(yàn)判斷(風(fēng)格轉(zhuǎn)換問題中),用來衡量網(wǎng)絡(luò)的效果;也有過一些更早期的算法,讓人類作為訓(xùn)練反饋的一環(huán),引導(dǎo)網(wǎng)絡(luò)的訓(xùn)練過程。但是對于這次的課題需要設(shè)計(jì)一個(gè)能自動(dòng)訓(xùn)練和生成、還要衡量作品的創(chuàng)新性的系統(tǒng)而言,以往的方法就起不到什么幫助。
同時(shí),在作者們看來,為了能模仿人類藝術(shù)創(chuàng)作的過程,算法中很重要的一部分就是要把算法的創(chuàng)意過程和人類藝術(shù)家以往的藝術(shù)作品聯(lián)系起來,像人類一樣把對以往藝術(shù)的理解和創(chuàng)造新藝術(shù)形態(tài)的能力整合在一起。 為了能夠想辦法找到一個(gè)能夠衡量創(chuàng)新性、參與迭代訓(xùn)練的創(chuàng)新性指標(biāo),作者們找來了一組藝術(shù)理論。
D.E.Berlyne認(rèn)為,從生理心理學(xué)的角度講,人類的狀態(tài)中有一種叫做“喚醒水平”的指標(biāo),它可以衡量一個(gè)人有多警醒、多興奮;喚醒水平可以從最低的睡覺、休息,一直到暴怒、激動(dòng)。而一副作品具有“喚醒潛力”的總體特質(zhì),它可以提升或者降低觀者的喚醒水平;它是作品新穎性、意外性、復(fù)雜性、多義性和疑惑性高低的綜合體現(xiàn),這幾個(gè)屬性越高,作品的喚醒潛力就越高。
Colin Martindale(1943-2008)提出過一個(gè)假說,他認(rèn)為在任一時(shí)刻,創(chuàng)意藝術(shù)家們都會(huì)嘗試增加他們作品的“喚醒潛力”,這就是一種拓寬創(chuàng)作習(xí)慣邊界的方法。但是,這種增加動(dòng)作必須使得觀察者的負(fù)面反應(yīng)盡可能?。ūM量使觀察者不付出額外的努力),否則過于激進(jìn)的產(chǎn)品就會(huì)受到負(fù)面的評價(jià)。
Colin Martindale還提出過一個(gè)假說,他認(rèn)為當(dāng)藝術(shù)家探索藝術(shù)風(fēng)格的更多作用的時(shí)候,轉(zhuǎn)換藝術(shù)風(fēng)格就會(huì)有提高“喚醒潛力”的作用。
這組理論只是解釋藝術(shù)創(chuàng)新的理論中的寥寥幾個(gè),但是它們綜合起來給出了兩個(gè)具有計(jì)算性的、可以用于迭代訓(xùn)練的指標(biāo):
創(chuàng)新作品的創(chuàng)新程度不能過高,觀者不認(rèn)為作品是藝術(shù)作品的可能性應(yīng)當(dāng)盡可能??;
新的藝術(shù)風(fēng)格就是創(chuàng)新的體現(xiàn)。
根據(jù)提煉出的這兩個(gè)指標(biāo),論文中基于GAN的原型構(gòu)建了這樣一種新型的對抗性網(wǎng)絡(luò)CAN。
首先,對于“指標(biāo)1:創(chuàng)新作品的創(chuàng)新程度不能過高,觀者不認(rèn)為作品是藝術(shù)作品的可能性應(yīng)當(dāng)盡可能小”,就可以轉(zhuǎn)換為經(jīng)典的對抗性網(wǎng)絡(luò),G生成圖像,經(jīng)過藝術(shù)作品訓(xùn)練過的D判斷G生成圖像的是不是藝術(shù)作品。這樣的對抗性網(wǎng)絡(luò)生成的圖像就已經(jīng)可以被人類看作是藝術(shù)作品。
然后,論文中的模型還根據(jù)“指標(biāo)2:新的藝術(shù)風(fēng)格就是創(chuàng)新的體現(xiàn)”增加了一部分新結(jié)構(gòu)用來處理藝術(shù)風(fēng)格。
論文中使用了25類不同的帶標(biāo)簽藝術(shù)作品用于D的訓(xùn)練,包含了抽象印象派、立體派、現(xiàn)代派、巴洛克、文藝復(fù)興早期等等風(fēng)格的共7萬5千多幅。然后經(jīng)過訓(xùn)練的D除了要反饋一幅圖像“是否是藝術(shù)作品”外,還要反饋“能否分辨圖像是哪種藝術(shù)風(fēng)格”。G然后就會(huì)利用D的反饋生成盡量難以分辨藝術(shù)風(fēng)格的圖像——難以歸類到現(xiàn)有分類中的,就是創(chuàng)新了。
“是否是藝術(shù)作品”、“是否難以分辨藝術(shù)風(fēng)格”是兩種對立的信號(hào),前一種信號(hào)會(huì)迫使生成器G生成能夠被看作的藝術(shù)的圖像,但是假如它在現(xiàn)有的藝術(shù)風(fēng)格范疇中就達(dá)到了這個(gè)目標(biāo),鑒別器D就能夠分辨出圖像的藝術(shù)風(fēng)格了,然后生成器就會(huì)受到懲罰。這樣后一種信號(hào)就會(huì)讓生成器生成難以分辨風(fēng)格的作品。所以兩種信號(hào)就可以共同作用,讓生成器能夠盡可能探索整個(gè)創(chuàng)意空間中藝術(shù)作品的范圍邊界,同時(shí)最大化生成的作品盡可能游離于現(xiàn)有的標(biāo)準(zhǔn)藝術(shù)風(fēng)格之外。
這也就是論文標(biāo)題「CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms」的含義,創(chuàng)造性對抗網(wǎng)絡(luò)可以學(xué)習(xí)藝術(shù)風(fēng)格,然后背離這些現(xiàn)有的風(fēng)格進(jìn)行藝術(shù)創(chuàng)作。
相比GAN,CAN增加的反饋是“是否難以分辨藝術(shù)風(fēng)格”,追求的是生成的圖像藝術(shù)風(fēng)格難以分辨。雖然根據(jù)藝術(shù)理論的推導(dǎo),新的藝術(shù)風(fēng)格是一種創(chuàng)新,但既然是多加了一個(gè)反饋,追求“生成的圖像藝術(shù)風(fēng)格容易分辨”可以嗎?會(huì)不會(huì)也能生成不錯(cuò)的作品呢?
從另一個(gè)角度看,假如追求“難以分辨”的CAN確實(shí)比追求“容易分辨”的CAN生成的圖像更好,那這就是模型選取了合理的反饋的最佳體現(xiàn)。
說做就做。除了CAN之外,論文中還建立了三種模型用來對比。
DCGAN 64x64:經(jīng)過藝術(shù)作品訓(xùn)練的DCGAN(深度卷積生成式對抗網(wǎng)絡(luò)),輸出分辨率為64x64
DCGAN 256x256:相比DCGAN 64x64,生成器多加了兩層網(wǎng)絡(luò),輸出分辨率為256x256
scCAN:style-classification-CAN,追求“生成的圖像藝術(shù)風(fēng)格容易分辨”的CAN
這三種模型生成的畫面像下面這樣
scCAN生成的畫面中確實(shí)有了可辨認(rèn)的風(fēng)格,比如人物特寫、風(fēng)景或者群像。但是直觀看上去并不怎么討人喜歡。
讓我們再來看一組CAN生成的圖像,上方是人類評價(jià)最高的、下方是人類評價(jià)最低的。應(yīng)該說都比scCAN生成的圖像精彩得多。
根據(jù)剛才的圖像可以看到,CAN的效果當(dāng)然不錯(cuò),DCGAN 256x256的圖像其實(shí)也挺好。那么CAN的圖像對觀畫的人來說是不是真的已經(jīng)難以分辨創(chuàng)作者了呢?跟真的藝術(shù)家創(chuàng)作的作品相比高下又如何呢?
為了具體比較,論文中做了幾個(gè)實(shí)驗(yàn),讓人類給不同組的作品打分。
實(shí)驗(yàn)1、2: 來自抽象印象派藝術(shù)家的作品、選自巴塞爾藝術(shù)展的作品、CAN生成的圖像、DCGAN生成的圖像,一共4組作品,由普通人判斷這些作品來自人還是電腦,并給作品打分。
結(jié)果:實(shí)驗(yàn)1里有53%的人認(rèn)為CAN的圖像是來自人類的,認(rèn)為DCGAN 64x64的圖像來自人的有35%; 實(shí)驗(yàn)2里認(rèn)為CAN的圖像來自人類的比例是75%,DCGAN 256x256則是65%。來自抽象印象派藝術(shù)家的作品無疑是比例最高的,但有意思的是,兩個(gè)實(shí)驗(yàn)里認(rèn)為巴塞爾藝術(shù)展的作品來自人的比例都還不如CAN高(實(shí)驗(yàn)1中41%,實(shí)驗(yàn)2中48%)。
實(shí)驗(yàn)3:讓人類評價(jià)者從用心程度、視覺結(jié)構(gòu)、互動(dòng)性、啟發(fā)性幾個(gè)角度給作品評分,結(jié)果CAN全部得分最高。這個(gè)結(jié)果可謂出人意料。
實(shí)驗(yàn)4:為了確認(rèn)CAN和scCAN之間新穎性和美學(xué)表現(xiàn)的高低,請了一群藝術(shù)史學(xué)生對隨機(jī)選出的CAN和scCAN圖像進(jìn)行評價(jià)。認(rèn)為CAN的圖像更新穎的比例為59.47%,認(rèn)為CAN的圖像更加有美學(xué)吸引力的比例為60%,確實(shí)有顯著區(qū)別。
論文中表示,雖然這樣的模型還是不能對藝術(shù)風(fēng)格概念有任何語義方面的理解,不過它確實(shí)展現(xiàn)出了從以往的藝術(shù)作品中學(xué)習(xí)的能力。至于為什么人類會(huì)在多個(gè)方面給CAN打出高分,作者們也希望和大家進(jìn)行開放性的探討。
論文原文地址: https://arxiv.org/abs/1706.07068 ,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。