CV 屆的金雞百花獎：盤點我心中的 CVPR 2018 創(chuàng)意 TOP10

本文作者： AI研習社-譯站

2018-07-16 15:04

導(dǎo)語：CVPR 2018的10篇最酷論文

雷鋒網(wǎng)按：本文為雷鋒字幕組編譯的技術(shù)博客，原標題 The 10 coolest papers from CVPR 2018 ，作者為 George Seif 。

翻譯 | 程煒廖穎校對 | 林驍整理 | MY

2018 計算機視覺與模式識別會議（CVPR）上周在美國鹽湖城舉行，它是世界計算機視覺領(lǐng)域的頂級會議。今年，CVPR 收到了主要會議論文投稿 3300 份，接受了其中的 979 份。超過 6500 人出席了會議！6500 人齊聚一堂：

CV 屆的金雞百花獎：盤點我心中的 CVPR 2018 創(chuàng)意 TOP10

2018年度CVPR宏偉的會議廳

每年，CVPR 都會帶來杰出的人以及他們偉大的研究，我們總能看到并學(xué)習到新的東西。當然，總有些論文發(fā)表新的突破性成果并帶來新的知識。這些論文經(jīng)常為計算機視覺的許多子領(lǐng)域帶來最新技術(shù)。

最近，很樂于看到的是具有創(chuàng)造性的論文！伴隨著深度學(xué)習在計算機視覺領(lǐng)域的突飛猛進，我們?nèi)栽谔剿魉械目赡苄?。許多論文將提出全新的深度網(wǎng)絡(luò)在視覺上的應(yīng)用。它們可能不是最根本的、具有突破性的工作，但它們很有趣。它們提供了創(chuàng)造性和啟發(fā)性的視野，經(jīng)常從新的角度引發(fā)新的想法?？偠灾?，它們很酷！

在這里，我將向你們展示我認為是CVPR 2018中最酷的10篇論文。我們將看到最近才可能使用深度網(wǎng)絡(luò)的新應(yīng)用。另外，其他論文提供了一個如何使用它們的新方法。你可以沿著這個方向找到一些新的想法。無需多言，讓我們來看看吧！

利用綜合數(shù)據(jù)訓(xùn)練深度網(wǎng)絡(luò)：通過域隨機化來彌補現(xiàn)實差距

這篇論文來自英偉達（ NVIDIA ）。它在使用合成數(shù)據(jù)來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò) （CNNs）上獲得長足進步。它為 Unreal Engine 創(chuàng)建了一個插件，用于生成合成的訓(xùn)練數(shù)據(jù)。真正的關(guān)鍵是它們將訓(xùn)練數(shù)據(jù)的變量隨機化，包括：

對象的數(shù)量和類型
干擾項的數(shù)量、類型、顏色和尺度
感興趣物體的紋理和背景照片
虛擬攝影機相對于場景的位置
攝像機相對于場景的角度
點光源的數(shù)量和位置

他們展示了一些大有前途的結(jié)果，證明了用合成數(shù)據(jù)進行預(yù)訓(xùn)練的有效性。這個結(jié)果是以前沒有達到。如果你缺少一些重要資源，它可能會對如何生成和使用合成數(shù)據(jù)有所幫助。

CV 屆的金雞百花獎：盤點我心中的 CVPR 2018 創(chuàng)意 TOP10

該論文中出現(xiàn)的圖片

WISPE:數(shù)碼相機弱監(jiān)督照片增強器

真是機智??！他們訓(xùn)練生成對抗網(wǎng)絡(luò) （GAN）來自動美化照片。最酷的部分是它是弱監(jiān)督的，你不需要輸入-輸出圖像對！你訓(xùn)練的網(wǎng)絡(luò)需要的是一組“好看”的圖像（對于輸出的標注圖像）和一組你想要增強的“難看”的圖像（對于輸入圖像）。然后，對 GAN 進行訓(xùn)練以產(chǎn)生輸入圖像的美化后的版本，通常極大地增強圖像的顏色和對比度。

它是快速并且容易使用的，因為你不需要精確的圖像對，最后你會得到一個“通用”的圖像增強器。我也喜歡這種弱監(jiān)督的方法。無監(jiān)督的學(xué)習似乎相當遙遠。但是對于計算機視覺中的許多子領(lǐng)域來說，弱監(jiān)督似乎是一個有前途、有利可圖的方向。

CV 屆的金雞百花獎：盤點我心中的 CVPR 2018 創(chuàng)意 TOP10

該論文中出現(xiàn)的圖片

Polygon-RNN++ 分割數(shù)據(jù)集的高效交互標注

深度網(wǎng)絡(luò)工作得如此好的一個主要原因是有大量和完全注釋的數(shù)據(jù)集可供使用。然而，對于許多計算機視覺任務(wù)來說，這樣的數(shù)據(jù)既耗時又昂貴。特別是分割數(shù)據(jù)需要圖像中的每個像素的類標記。正如你所想象的…對于大數(shù)據(jù)集來說，這個過程可能永遠持續(xù)下去！

Polygon-RNN++ 允許用戶在圖片中每個目標周圍設(shè)置粗略的多邊形，然后神經(jīng)網(wǎng)絡(luò)會自動生成分割標記。這篇論文很好地論述了這種方法，這種方法也可以在分割任務(wù)中創(chuàng)建快速、簡單的標記。

CV 屆的金雞百花獎：盤點我心中的 CVPR 2018 創(chuàng)意 TOP10

該論文中出現(xiàn)的圖片

在時尚大片中創(chuàng)造膠囊衣柜

我今天應(yīng)該穿什么呢？如果每天早上都有人或東西來回答這個問題而不需要你去想，那該有多好啊。如果想擁有這樣的東西，來認識一下膠囊衣柜（Capsule Wardrobes）吧。

這篇論文作者設(shè)計了一個模型，給定一個待選服裝和飾品的清單，膠囊用最少的物品組成物品集，而這個集合可以提供最多的混搭配備。模型使用目標函數(shù)進行基本的訓(xùn)練，而目標函數(shù)的設(shè)計是用來獲取視覺兼容性、多功能性和用戶特定喜好的關(guān)鍵因素。使用膠囊衣柜，可以輕松地從你的衣櫥里找到符合你品位的最佳搭配。

CV 屆的金雞百花獎：盤點我心中的 CVPR 2018 創(chuàng)意 TOP10

該論文中出現(xiàn)的圖片

Super SloMo :視頻插值中多幅中間幀的高質(zhì)量估計

你有想過用超級慢動作拍攝一些超級酷的東西嗎？不妨看看英偉達（Nvdia）的 Super SloMo 吧！他們的卷積神經(jīng)網(wǎng)絡(luò)估計出視頻中間幀，并且能夠?qū)藴实?30fps 的視頻轉(zhuǎn)換為看上去驚人的 240fps 下的慢動作！模型估計幀間光流，使用該模型還可以不影響畫質(zhì)地插入視頻幀，從而慢鏡頭看上去也是清晰的。

CV 屆的金雞百花獎：盤點我心中的 CVPR 2018 創(chuàng)意 TOP10

一顆子彈穿過雞蛋，super SloMo！

誰在控制狗？根據(jù)視覺數(shù)據(jù)對狗的行為建模

這可能是有史以來最酷的研究論文名字！它的思路是嘗試并建模狗的所行所想。作者在狗的四肢安裝了大量的傳感器來收集它的運動數(shù)據(jù)，也在其頭部安裝照相機來獲取狗看世界的第一視角。使用了一組卷積神經(jīng)網(wǎng)絡(luò)特征提取器來提取從視頻幀中得到的圖像中的特征，然后這些特征就和傳感器數(shù)據(jù)一起傳到一組長短期記憶網(wǎng)絡(luò)，來學(xué)習和預(yù)測狗的行為。這是一個很新穎且具有創(chuàng)造力的應(yīng)用。這個任務(wù)獨特的框架和實現(xiàn)，都讓這篇文章值得一讀！希望這篇文章可以給未來的研究激發(fā)創(chuàng)造力，不管是對我們采集數(shù)據(jù)的方式還是深度學(xué)習技術(shù)的應(yīng)用。

CV 屆的金雞百花獎：盤點我心中的 CVPR 2018 創(chuàng)意 TOP10

該論文中出現(xiàn)的圖片

學(xué)習著分割一切

最近幾年，何凱明團隊（早先在微軟亞洲研究院，現(xiàn)在在 Facebook 人工智能研究實驗室）進行了大量的計算機視覺研究。他們文章的厲害之處就在于將創(chuàng)新性與簡潔性有效結(jié)合。 ResNets 和 Mask R-CNN 都不是最瘋狂、最復(fù)雜的研究思路。它們都非常簡單、易于實現(xiàn)，在實踐中也非常有效。這一篇也是一樣。

學(xué)習著分割一切是 Mask R-CNN 的擴展，使得神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中不看見類也能進行分割！這對快速、低成本獲取數(shù)據(jù)集標記十分有效。它可以獲得不可見目標類強大的基準庫分割，這對在野外部署分割神經(jīng)網(wǎng)絡(luò)是十分重要的，因為在那樣的環(huán)境中，存在著大量的不可見目標類。整體看來，這是我們朝著如何思考最大限度利用深度神經(jīng)網(wǎng)絡(luò)模型正確方向走了一步。

CV 屆的金雞百花獎：盤點我心中的 CVPR 2018 創(chuàng)意 TOP10

該論文中出現(xiàn)的圖片

在筆記本上親臨球賽

在世界杯進行之際，這篇論文的發(fā)布可以獲得最佳時機獎了！這真的是 CVPR 計算機視覺里比較酷的應(yīng)用之一。簡單地說，給定一個足球比賽視頻能夠輸出比賽的三維動態(tài)重建，從而訓(xùn)練模型。這就意味著你可以使用增強現(xiàn)實技術(shù)在任何地方觀看這場比賽！

模型比較機智的地方在于不同類型信息的結(jié)合使用。使用視頻比賽數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)，根據(jù)這些數(shù)據(jù)可以非常輕易地提取三維網(wǎng)格。測試時，運動員的邊界框、姿態(tài)和軌跡（在多幀之間）被提取來對其進行分割。這些三維分割可以簡單地投影到任意空間（這樣你就可以任意制作虛擬球場）實現(xiàn)增強現(xiàn)實的足球比賽觀看！在我看來，使用合成數(shù)據(jù)來訓(xùn)練時很聰明的做法，同樣也是很有趣的應(yīng)用！

CV 屆的金雞百花獎：盤點我心中的 CVPR 2018 創(chuàng)意 TOP10

該論文中出現(xiàn)的圖片

LayoutNet ：從單幅彩色圖像實現(xiàn)房間布局的三維建模

我們中大多數(shù)有都有過這樣的想法：給某個東西拍張照片，然后在數(shù)字三維對其進行重建。這篇論文就是一個計算機視覺的應(yīng)用，也正好是來實現(xiàn)這個想法的，尤其是對房間的三維重建。他們將全景圖像作為輸入來獲得房間的整個視野，輸出就是一個非常精確的三維重建的房間布局！這個模型有足夠的能力來生成不同形狀的房間，房間中可以包含許多不同的家居擺設(shè)。這個應(yīng)用非常有趣，不用看大量計算機視覺研究員的工作，可以很好地閱讀。

CV 屆的金雞百花獎：盤點我心中的 CVPR 2018 創(chuàng)意 TOP10

該論文中出現(xiàn)的圖片

學(xué)習轉(zhuǎn)換架構(gòu)實現(xiàn)可擴展圖像識別

最后但也重要的就是關(guān)于深度學(xué)習的未來的思考：神經(jīng)架構(gòu)搜索（NAS）。 NAS 背后的基本思想是取代手動設(shè)計網(wǎng)絡(luò)架構(gòu)，我們可以采用另外的神經(jīng)網(wǎng)絡(luò)來 “搜索”最好的模型結(jié)構(gòu)。這個搜索基于回報函數(shù)，是很聰明的?；貓蠛瘮?shù)對那些在驗證數(shù)據(jù)集上表現(xiàn)良好的模型進行獎勵。作者在文中展示了一個比手動設(shè)計更加精確的架構(gòu)。這在未來是有很大發(fā)展空間的，尤其是特定應(yīng)用的設(shè)計。因為我們只需要將全部精力放在設(shè)計好手動設(shè)計 NAS 算法，而不是為我們特定的應(yīng)用設(shè)計特定的網(wǎng)絡(luò)。一個良好設(shè)計大的 NAS 算法是足夠靈活的，可以為任意特定任務(wù)找到好的網(wǎng)絡(luò)。

CV 屆的金雞百花獎：盤點我心中的 CVPR 2018 創(chuàng)意 TOP10