0
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
NeuroNuggets: CVPR 2018 in Review, Part I
作者 | Sergey Nikolenko、Aleksey Artamonov
翻譯 | 老趙 校對(duì) | 李晶
整理 | 菠蘿妹
原文鏈接:
https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-i-f22b8c223202
NeuroNuggets:CVPR 2018年回顧,第一部分
在Neuromation,我們一直在尋找有助于我們的研究的新的有趣想法。 還有什么比頂級(jí)會(huì)議更適合尋找它們的地方。 我們已經(jīng)在CVPR(計(jì)算機(jī)視覺(jué)和模式識(shí)別)會(huì)議的研討會(huì)DeepGlobe介紹了我們?nèi)绾稳〉贸晒Α?這次我們將仔細(xì)研究一下CVPR本身最有趣的論文。 這段時(shí)間,頂級(jí)會(huì)議是非常重要的事情,所以我們準(zhǔn)備了一系列的推文。 我們介紹的論文沒(méi)有特別的順序,不僅選擇優(yōu)秀的論文,而且與我們?cè)贜euromation所做的研究相關(guān)。 這一次,Aleksey Artamonov(你以前見(jiàn)過(guò)的人)準(zhǔn)備了這份列表,我試圖對(duì)其補(bǔ)充一些介紹。 在這個(gè)系列中,我們將非常簡(jiǎn)短,試圖從每篇論文中提取最多一個(gè)有趣的點(diǎn),所以在這種方式我們不能真正了解完整的工作,并強(qiáng)烈建議完整閱讀論文。
GAN和計(jì)算機(jī)視覺(jué)
在第一部分中,我們專(zhuān)注于生成模型,即不僅可以區(qū)分貓狗,還可以生成新的貓和狗圖像的機(jī)器學(xué)習(xí)模型。 對(duì)于計(jì)算機(jī)視覺(jué),最成功的一類(lèi)生成模型是生成性對(duì)抗網(wǎng)絡(luò)(GAN),其鑒別器網(wǎng)絡(luò)學(xué)習(xí)區(qū)分生成的對(duì)象和真實(shí)對(duì)象,生成器學(xué)習(xí)去欺騙鑒別器。 我們已經(jīng)多次寫(xiě)過(guò)GAN(例如,這里和這里),所以讓我們直接進(jìn)入正題。
Y. Bai等人,用生成性對(duì)抗網(wǎng)絡(luò)在戶(hù)外尋找小小的面孔
在沙特和中國(guó)研究人員的合作中,作者使用GAN來(lái)檢測(cè)和放大人群照片上的非常小的面孔。 即使僅檢測(cè)小面孔也是一個(gè)有趣的問(wèn)題,普通的人臉檢測(cè)器(例如,在我們之前的帖子中出現(xiàn))通常無(wú)法解決該問(wèn)題。 在這里,作者提出了一個(gè)端到端的流水線來(lái)提取面部,然后應(yīng)用生成模型將其提升到4倍(一個(gè)稱(chēng)為超分辨率的過(guò)程)。 以下是論文中的流水線概覽:
H. Chang等人,PairedCycleGAN:用于和去除化妝的不對(duì)稱(chēng)樣式轉(zhuǎn)移
條件GAN已經(jīng)廣泛用于圖像處理; 我們已經(jīng)提到過(guò)超分辨率,GAN也成功應(yīng)用于風(fēng)格轉(zhuǎn)換。 使用GAN,可以學(xué)習(xí)與特定圖像元素相對(duì)應(yīng)的顯著特征 - 然后更改它們。 在這項(xiàng)工作中,來(lái)自普林斯頓、伯克利和Adobe的研究人員提出了一個(gè)修飾照片的框架。 這項(xiàng)工作的一個(gè)有趣的部分是作者為不同的臉部組成部分(眼睛,嘴唇,皮膚)訓(xùn)練單獨(dú)的生成器并分別應(yīng)用它們,用不同的網(wǎng)絡(luò)提取臉部組成部分:
F. Mueller等人,GANerated Hands for Mon-time RGB for Real-Time 3D Hand Tracking
我們已經(jīng)寫(xiě)過(guò)關(guān)于姿勢(shì)估計(jì)的文章。 姿勢(shì)估計(jì)的一個(gè)非常重要的子集(通常需要單獨(dú)的模型)是手部跟蹤。 通過(guò)揮動(dòng)雙手來(lái)操縱計(jì)算機(jī)的科幻主題尚未完全實(shí)現(xiàn),仍然需要專(zhuān)門(mén)的硬件,如Kinect。 像往常一樣,主要問(wèn)題之一是數(shù)據(jù):在哪里可以找到3D標(biāo)記的真實(shí)視頻流?在這項(xiàng)工作中,作者提出了一種條件GAN架構(gòu),能夠?qū)⒑铣傻?D模型轉(zhuǎn)換為圖像 然后用于訓(xùn)練手部跟蹤網(wǎng)絡(luò)。 這項(xiàng)工作非常吸引我們,合成數(shù)據(jù)是Neuromation研究的重點(diǎn),所以我們之后可能會(huì)更詳細(xì)地考慮它。 同時(shí),這里是“合成到實(shí)際”的GAN架構(gòu):
L. Wei 等人,Person Transfer GAN to Bridge Domain Gap for Person Re-Identification
人物重新識(shí)別(ReID)是在不同條件和不同情況下拍攝的不同照片上找到同一個(gè)人的問(wèn)題。 這個(gè)問(wèn)題自然而然地成為許多研究的主題,現(xiàn)在已經(jīng)相對(duì)較好地解決了,但是領(lǐng)域差異問(wèn)題仍然存在:不同的數(shù)據(jù)集與人物的圖像具有非常不同的條件(照明,背景等),在一個(gè)數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò)在轉(zhuǎn)移到另一個(gè)數(shù)據(jù)集(以及例如現(xiàn)實(shí)世界的應(yīng)用程序)時(shí)損失很大。 上圖展示了不同的數(shù)據(jù)集。 為了解決這個(gè)問(wèn)題,這項(xiàng)工作提出了一種GAN架構(gòu),能夠?qū)D像從一種“數(shù)據(jù)集樣式”轉(zhuǎn)移到另一種“數(shù)據(jù)集樣式”,使用GAN來(lái)通過(guò)復(fù)雜的變換增強(qiáng)真實(shí)數(shù)據(jù)。 它的工作原理如下:
K.Wang等人,用于眼睛圖像合成和眼睛凝視估計(jì)的分層生成模型
倫斯勒理工學(xué)院的這項(xiàng)工作解決一個(gè)非常特殊的問(wèn)題:生成人眼的圖像。 這不僅對(duì)于生成圖像中漂亮的眼睛重要,而且用生成的眼睛解決視線估計(jì)問(wèn)題:人們?cè)诳词裁矗?這將為真正的科幻界面鋪平道路......但這仍然是未來(lái),目前甚至合成眼睛生成也是一個(gè)非常難的問(wèn)題。 作者提出了一個(gè)復(fù)雜的眼形合成概率模型,并提出了一個(gè)GAN架構(gòu),根據(jù)這個(gè)模型生成眼睛 - 取得了巨大的成功。
J. Yu等人,Generative Image Inpainting with Contextual Attention
Adobe Research和伊利諾伊大學(xué)厄本那 - 香檳分校的這項(xiàng)工作試圖解決填補(bǔ)圖像空白這個(gè)極具挑戰(zhàn)性的問(wèn)題(見(jiàn)上面的例子)。 通常,修復(fù)圖像需要了解潛在場(chǎng)景:在上圖中的右上角,你已經(jīng)知道臉部是什么樣的,以及我們根據(jù)看到的頭發(fā)和頸部預(yù)測(cè)臉可能是什么樣的。 在這項(xiàng)工作中,作者提出了一種基于GAN的方法,可以利用周?chē)鷪D像的特征來(lái)改善生成。 該結(jié)構(gòu)由兩部分組成,首先生成粗略結(jié)果,然后使用另一個(gè)網(wǎng)絡(luò)對(duì)其進(jìn)行細(xì)化。 結(jié)果非常不錯(cuò):
今天就是這樣。 這只是第一部分,我們將在下一期繼續(xù)進(jìn)行CVPR 2018回顧,再見(jiàn)。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
Sergey Nikolenko
Chief Research Officer, Neuromation
Aleksey Artamonov
Senior Researcher, Neuromation
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
長(zhǎng)按鏈接點(diǎn)擊打開(kāi)或點(diǎn)擊【CVPR 2018摘要:第一部分】:
http://ai.yanxishe.com/page/TextTranslation/1193
AI研習(xí)社每日更新精彩內(nèi)容,觀看更多精彩內(nèi)容:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。