0
本文作者: 陳伊莉 | 2020-03-30 23:24 |
當(dāng)人們研究人工智能生成和檢測(cè)圖像的方式時(shí),都需要明確一個(gè)研究主題。近期康奈爾大學(xué)的三位研究人員 Daniel V. Ruiz,Gabriel Salomon,Eduardo Todt 決定訓(xùn)練人工智能將長(zhǎng)頸鹿的圖片轉(zhuǎn)化成鳥(niǎo)的圖片,用生成對(duì)抗網(wǎng)絡(luò)(GANs) 產(chǎn)生新數(shù)據(jù)來(lái)研究這種圖像到圖像轉(zhuǎn)換(image-to-image translation)。這篇論文還投中了 Computer on the Beach (COTB'20) 2020 會(huì)議。
論文地址:https://arxiv.org/abs/2001.03637
目前圖像到圖像轉(zhuǎn)換的應(yīng)用已經(jīng)比較廣泛,包括從衛(wèi)星圖像生成地圖到僅從輪廓生成完整的服裝圖像。這篇論文研究將長(zhǎng)頸鹿轉(zhuǎn)變?yōu)轼B(niǎo)其實(shí)頗具挑戰(zhàn),因?yàn)閮煞N動(dòng)物有不同的大小、紋理和形態(tài)。他們訓(xùn)練了一個(gè)名為 InstaGAN 的無(wú)監(jiān)督跨域轉(zhuǎn)換模型,讓它接受了大量長(zhǎng)頸鹿和鳥(niǎo)的圖片訓(xùn)練。
InstaGAN 由韓國(guó)科學(xué)技術(shù)院和浦項(xiàng)科技大學(xué)的研究人員在 2019 年提出,相關(guān)論文《InstaGAN: Instance-Aware Image-to-Image Translation》還被 ICLR2019 接收。
最后鳥(niǎo)類(lèi)成品保留原始圖片的布局和背景,只是將長(zhǎng)頸鹿直接轉(zhuǎn)換成鳥(niǎo)類(lèi)。需要強(qiáng)調(diào)的是,生成的鳥(niǎo)并不存在,這僅僅是 InstaGAN 生造的結(jié)果。
這次論文的創(chuàng)新點(diǎn),用作者自己的話說(shuō)就是,“我們這次沒(méi)有把蘋(píng)果變成橘子,而是把大象變成了香蕉”。因?yàn)橹盁o(wú)監(jiān)督的圖像到圖像轉(zhuǎn)換,例子大多是將站著的獅子轉(zhuǎn)換為趴著,將貓轉(zhuǎn)化為狗,馬變成斑馬等,但這些訓(xùn)練在比例、形狀都很相似,所以難度有所差異。
他們具體是怎么做的呢?
用于訓(xùn)練 GAN 和生成相關(guān)的圖像有兩個(gè)數(shù)據(jù)集:COCO(Common objects in Context) 和 Caltech-UCSD Birds 200。COCO 數(shù)據(jù)集有超過(guò) 91 種類(lèi)型的 328000 張圖片,作者們從中選了 2546 張和 101 張的長(zhǎng)頸鹿圖片分別用于訓(xùn)練和驗(yàn)證,又從另一個(gè)主要涵蓋 200 多個(gè)種類(lèi)的鳥(niǎo)數(shù)據(jù)集 Caltech-UCSD Birds 200-2011 中,八二分,選擇 80% 也就是 9414 張的鳥(niǎo)類(lèi)圖片用于訓(xùn)練,20% 也就是 374 張用于驗(yàn)證。
每張圖片都能看到長(zhǎng)頸鹿和鳥(niǎo)的輪廓。AI 主要工作是兩塊,一是把長(zhǎng)頸鹿變成鳥(niǎo),另一部分是判斷它看到的圖片是真的鳥(niǎo)還是假的長(zhǎng)頸鹿—鳥(niǎo)。
接下來(lái)開(kāi)始訓(xùn)練。大多數(shù)參數(shù)與 InstaGAN 初始論文中一樣。通過(guò)雙線性插值(bilinear interpolation)將長(zhǎng)頸鹿和小鳥(niǎo)數(shù)據(jù)集的圖像大小調(diào)整為 256x256 ,GPU 訓(xùn)練花費(fèi)了將近 3 周時(shí)間(如果用 2 個(gè)英偉達(dá) RTX 2080 GPU,時(shí)間能減少到一周半)。
InstaGAN 在訓(xùn)練中使用的 loss functions 包括:Least-squares GAN loss,cycle loss,context loss 和 identity loss,根據(jù)它們?cè)谧罱K結(jié)果中的重要性進(jìn)行加權(quán)。cycle loss 權(quán)重最高。LSGAN 也是如此,因?yàn)樗纳屏耸諗啃?,減少了可能消失的梯度問(wèn)題(vanishing gradient issues),這需要超過(guò) 100 個(gè) epoch 來(lái)實(shí)現(xiàn)良好的視覺(jué)效果和損失最小化。
在三周的訓(xùn)練結(jié)束后,他們得到一個(gè)人造鳥(niǎo)圖集 FakeSet 。下圖顯示了圖像到圖像轉(zhuǎn)換的一些例子。
可以看到原始圖像和蒙版,以及轉(zhuǎn)換之后的圖像和蒙版。請(qǐng)注意,姿勢(shì)、空間排列和背景是沒(méi)有改變的的。也就是說(shuō),InstaGAN 已經(jīng)相當(dāng)好地學(xué)會(huì)了轉(zhuǎn)換圖像,這些圖像中,長(zhǎng)頸鹿幾乎沒(méi)有遮擋,都是側(cè)身站立,而在相同的位置上如今也產(chǎn)生鳥(niǎo)類(lèi)。有意思的是,InstaGAN 學(xué)到了一個(gè)有趣的“欺騙”方法——生成深色的鳥(niǎo),與淺色背景形成對(duì)比,如此能更好地騙過(guò)人類(lèi)、機(jī)器鑒別者。
接下來(lái)讓我們來(lái)看看 InstaGAN 生成的成品圖。
有些轉(zhuǎn)換的效果令人印象深刻。InstaGAN 學(xué)會(huì)了如何模糊頂部的風(fēng)景,使它們看起來(lái)像微距鏡頭即使過(guò)渡的地方并不是十分絲滑,一只長(zhǎng)頸鹿的肩膀還在,但是 AI 巧妙地把它處理成了一塊石頭,希望你不會(huì)注意到。
背景模糊效果還不錯(cuò),在處理前景時(shí),InstaGAN 造了一根木頭作為鳥(niǎo)的棲息處,并突出了樹(shù)枝、巖石裂縫等細(xì)節(jié),也模糊了附近的鳥(niǎo)腳,整個(gè)效果比較自然。但有幾張圖片還能隱隱看到長(zhǎng)頸鹿的肚子和腿,于是 InstaGAN 把它們變成了綠色,可能是希望能錯(cuò)認(rèn)是一片葉子之類(lèi)的植物。
當(dāng)然很多時(shí)候轉(zhuǎn)換效果并不好。由于可能受到不尋常背景的影響,人工智能沒(méi)有成功地改變圖像外觀。這里也很明顯,人工智能移除長(zhǎng)頸鹿的一般策略是,將鳥(niǎo)的身體復(fù)制粘貼到長(zhǎng)頸鹿的頭、脖子和肩膀部分,然后盡力隱藏長(zhǎng)頸鹿的腿。如果帶著這樣的想法看上圖幾張照片,你會(huì)立刻發(fā)現(xiàn)長(zhǎng)頸鹿的大長(zhǎng)腿還在那里,模型的多次失敗都與難以掩蓋的長(zhǎng)頸鹿的腿有關(guān)。
為了評(píng)估生成的圖像的真實(shí)性和質(zhì)量,作者進(jìn)行了定性和定量分析。定性分析是,隨機(jī)挑選 FakeSet 335 張圖片去評(píng)估圖片,標(biāo)準(zhǔn)是轉(zhuǎn)換質(zhì)量、輪廓和紋理幾項(xiàng),選項(xiàng)只有兩個(gè)——"Good???? 或者 "Bad???? 。每個(gè)屬性的最終分?jǐn)?shù)是 335 張圖片的平均分,用 0 到 1 之間的分?jǐn)?shù)表示( 0 表示質(zhì)量差,1 表示質(zhì)量好)。如果一個(gè)屬性的值等于 0.75 ,則意味著 3/4 的圖片在該屬性中表現(xiàn)良好,1/4 的圖片表現(xiàn)不佳。具體可見(jiàn)下表。
為了進(jìn)行定量分析,他們使用了一個(gè)預(yù)先訓(xùn)練好的 Mask R-CNN(Mask Region-based Convolutional Neural Network)新生成的數(shù)據(jù)集 FakeSet ,對(duì) 2546 張圖片進(jìn)行分析,評(píng)估結(jié)果是,289 幅圖片是垃圾(甚至沒(méi)有檢測(cè)到鳥(niǎo)類(lèi)存在),717 幅不令人滿(mǎn)意(常用指標(biāo) F-score 低于 0.8 ),1540 幅令人滿(mǎn)意。F-score 遵循一個(gè)偏斜的正態(tài)分布,傾向于最佳分?jǐn)?shù)。
綜上,該論文結(jié)論是,F(xiàn)akeSet 實(shí)現(xiàn)了接近真實(shí)數(shù)據(jù)集的檢測(cè)和分割結(jié)果,雖然大多數(shù)圖像并不完全真實(shí),但是正確轉(zhuǎn)化的比例也很高,檢測(cè)和分割結(jié)果也是高可信的(高于80%)。這說(shuō)明生成的圖像足夠逼真,不管是肉眼難以察覺(jué),也經(jīng)得起最先進(jìn)的深層神經(jīng)網(wǎng)絡(luò)的檢驗(yàn)。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。