0
本文作者: 楊曉凡 | 2019-01-28 15:41 |
雷鋒網(wǎng) AI 科技評(píng)論按:下面的 AI 生成的手繪圖看起來(lái)怎么樣?有耳目一新的感覺(jué)嗎?像你不好好聽(tīng)課的時(shí)候在草稿紙上隨便畫的風(fēng)格嗎?
從照片生成簡(jiǎn)筆畫或者素描樣式的手繪圖像是許多普通人都感興趣的計(jì)算機(jī)視覺(jué)任務(wù)。但是這項(xiàng)任務(wù)并沒(méi)有那么容易做好。一直以來(lái)計(jì)算機(jī)視覺(jué)研究人員們花了很多精力關(guān)注的任務(wù)都是圖像分類和語(yǔ)義分割,即便是像素級(jí)、實(shí)例區(qū)分的語(yǔ)義分割也只能抓取到不同物體的外部輪廓,對(duì)同樣刻畫了物體形狀、但是位于外輪廓線內(nèi)部的線條就無(wú)能為力了;而另一方面,各類邊緣檢測(cè)算法雖然能捕捉到邊緣,但是無(wú)法區(qū)分出人類重點(diǎn)關(guān)注的、帶有較多語(yǔ)意信息的輪廓內(nèi)部的主要線條并予以加強(qiáng)。高度簡(jiǎn)化的簡(jiǎn)筆畫又會(huì)與實(shí)物相距甚遠(yuǎn)。
近期的一篇新論文《Photo-Sketching: Inferring Contour Drawings from Images》(照片速寫:從圖像生成輪廓繪畫,arxiv.org/abs/1901.00542)就在這個(gè)問(wèn)題上邁出了自己的一步。一作是 CMU 的中國(guó)留學(xué)生 Mengtian Li,他本科在南京大學(xué)匡亞明學(xué)院;別的作者來(lái)自 Adobe 研究院、Uber 以及 Argo AI。
作者們的方法并不意外,收集一個(gè)新的手繪數(shù)據(jù)集(真人進(jìn)行的照片手繪),然后訓(xùn)練神經(jīng)網(wǎng)絡(luò)。不過(guò)與類似研究有所不同的是,作者們收集的是一個(gè)一對(duì)多的數(shù)據(jù)集,每張照片可以對(duì)應(yīng)多個(gè)真人手繪 ground truth 圖像。所以作者們認(rèn)為這不應(yīng)當(dāng)是在傳統(tǒng)的「優(yōu)化調(diào)節(jié)邊緣檢測(cè)器」路線上繼續(xù)發(fā)展,同時(shí)直接使用各類現(xiàn)成的 cGAN 也無(wú)法帶來(lái)理想的表現(xiàn)。作者們提出了一種新的、可以處理多種不同的稀疏輸入的 cGAN 來(lái)進(jìn)行處理。作者們與其它方法進(jìn)行了定性以及定量的對(duì)比。
為了便于視覺(jué)理解及簡(jiǎn)筆畫生成的后續(xù)研究,作者們也一并發(fā)布了這個(gè)數(shù)據(jù)集,它由一組組圖像和對(duì)應(yīng)的輪廓簡(jiǎn)筆畫組成。數(shù)據(jù)中含有 1000 張戶外場(chǎng)景的照片,每張照片都有 5 張對(duì)應(yīng)的人類繪制的輪廓簡(jiǎn)筆畫(一共 5000 張)。簡(jiǎn)筆畫中的筆畫已經(jīng)與照片中的邊界做過(guò)粗略的對(duì)齊,便于把人類的筆畫和照片中的邊界對(duì)應(yīng)起來(lái)。
數(shù)據(jù)集是通過(guò)亞馬遜眾包平臺(tái) Mechanical Turk 收集的。收集過(guò)程中先給參與者展示墊在半透明背景下的照片,然后要求他們?cè)谏厦嬗煤?jiǎn)筆畫描繪出圖中的邊界。為了獲得高質(zhì)量的簡(jiǎn)筆畫(標(biāo)注),研究人員們專門設(shè)計(jì)了一個(gè)標(biāo)注界面,其中含有一個(gè)詳細(xì)的指導(dǎo)頁(yè)面,展示了許多正面和負(fù)面例子。標(biāo)注還會(huì)經(jīng)過(guò)人工的質(zhì)量檢查;內(nèi)部邊線有缺失的、缺少重要的畫面內(nèi)容的、手繪的邊界線與原圖有較大出入的、無(wú)法識(shí)別簡(jiǎn)筆畫內(nèi)容的、簡(jiǎn)筆畫中的人物非常糟糕的、在空的部分畫了線,這六類質(zhì)量不高的圖像都有可能被拒絕。所以實(shí)際上,在收集到這 5000 張可用的手繪簡(jiǎn)筆畫的同時(shí),研究人員們也獲得了 1947 張質(zhì)量不高而被拒絕的簡(jiǎn)筆畫;這些畫未來(lái)可以用作自動(dòng)質(zhì)量控制的樣本。
論文摘要:邊界、邊線、輪廓,這三者在計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺(jué)兩個(gè)領(lǐng)域都是重要的研究課題。一方面,它們是表達(dá)了三維形狀的二維平面元素;另一方面,它們是互相遮蓋的物體的指示器,我們正是借助它們才能分辨不同的物體或者語(yǔ)義概念。在這篇論文中,作者們的目標(biāo)是生成物體輪廓繪畫,也就是類似邊線的筆畫,通過(guò)它們勾畫出視覺(jué)場(chǎng)景的主要線條。早期的研究中通常把這類任務(wù)稱作“邊緣檢測(cè)”。然而,邊緣檢測(cè)任務(wù)的理想輸出中包含的視覺(jué)元素與輪廓繪畫之間其實(shí)有著不小區(qū)別,而且也缺失了輪廓繪畫中的藝術(shù)風(fēng)格。作者們解決這個(gè)問(wèn)題的方式是收集了一個(gè)新的輪廓簡(jiǎn)筆畫數(shù)據(jù)集,并提出了一種基于學(xué)習(xí)的方法來(lái)解析不同的標(biāo)注之間的多樣性;而且與邊緣檢測(cè)器不同的是,他們的方法可以在真實(shí)照片和手繪素材不完全對(duì)齊的情況下工作。相比以往的方法,作者們的方法定型、定量地都取得了更好的表現(xiàn)。令人驚訝的是,當(dāng)作者們?cè)?BSDS500 數(shù)據(jù)集上精細(xì)調(diào)節(jié)模型時(shí),他們?cè)谕怀鲞吔鐧z測(cè)任務(wù)中取得了目前最好的成績(jī),這表明他們的輪廓繪畫可能可以成為邊緣標(biāo)注的一種可拓展的替代方案,但同時(shí)對(duì)于標(biāo)注人員來(lái)說(shuō)更容易做、也更有趣。
項(xiàng)目主頁(yè):http://www.cs.cmu.edu/~mengtial/proj/sketch/
論文地址:https://arxiv.org/abs/1901.00542
P.S. 單獨(dú)的手繪圖像技術(shù)和數(shù)據(jù)集可以參見(jiàn)雷鋒網(wǎng) AI 科技評(píng)論往期文章 《谷歌大腦教機(jī)器畫簡(jiǎn)筆畫,神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?》以及《同濟(jì)大學(xué)「智能大數(shù)據(jù)可視化實(shí)驗(yàn)室」開(kāi)源FaceX,包含500余萬(wàn)張卡通人臉表情簡(jiǎn)筆畫》
雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。