0
本文作者: AI研習社-譯站 | 2018-07-16 15:04 |
雷鋒網(wǎng)按:本文為雷鋒字幕組編譯的技術(shù)博客,原標題 The 10 coolest papers from CVPR 2018 ,作者為 George Seif 。
翻譯 | 程煒 廖穎 校對 | 林驍 整理 | MY
2018 計算機視覺與模式識別會議 (CVPR) 上周在美國鹽湖城舉行,它是世界計算機視覺領(lǐng)域的頂級會議。今年,CVPR 收到了主要會議論文投稿 3300 份,接受了其中的 979 份。超過 6500 人出席了會議!6500 人齊聚一堂:
2018年度CVPR宏偉的會議廳
每年,CVPR 都會帶來杰出的人以及他們偉大的研究,我們總能看到并學(xué)習到新的東西。當然,總有些論文發(fā)表新的突破性成果并帶來新的知識。這些論文經(jīng)常為計算機視覺的許多子領(lǐng)域帶來最新技術(shù)。
最近,很樂于看到的是具有創(chuàng)造性的論文!伴隨著深度學(xué)習在計算機視覺領(lǐng)域的突飛猛進,我們?nèi)栽谔剿魉械目赡苄?。許多論文將提出全新的深度網(wǎng)絡(luò)在視覺上的應(yīng)用。它們可能不是最根本的、具有突破性的工作,但它們很有趣。它們提供了創(chuàng)造性和啟發(fā)性的視野,經(jīng)常從新的角度引發(fā)新的想法??偠灾?,它們很酷!
在這里,我將向你們展示我認為是CVPR 2018中最酷的10篇論文。我們將看到最近才可能使用深度網(wǎng)絡(luò)的新應(yīng)用。另外,其他論文提供了一個如何使用它們的新方法。你可以沿著這個方向找到一些新的想法。無需多言,讓我們來看看吧!
利用綜合數(shù)據(jù)訓(xùn)練深度網(wǎng)絡(luò):通過域隨機化來彌補現(xiàn)實差距
這篇論文來自英偉達 ( NVIDIA )。它在使用合成數(shù)據(jù)來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò) (CNNs) 上獲得長足進步。它為 Unreal Engine 創(chuàng)建了一個插件,用于生成合成的訓(xùn)練數(shù)據(jù)。真正的關(guān)鍵是它們將訓(xùn)練數(shù)據(jù)的變量隨機化,包括:
對象的數(shù)量和類型
干擾項的數(shù)量、類型、顏色和尺度
感興趣物體的紋理和背景照片
虛擬攝影機相對于場景的位置
攝像機相對于場景的角度
點光源的數(shù)量和位置
他們展示了一些大有前途的結(jié)果,證明了用合成數(shù)據(jù)進行預(yù)訓(xùn)練的有效性。這個結(jié)果是以前沒有達到。如果你缺少一些重要資源,它可能會對如何生成和使用合成數(shù)據(jù)有所幫助。
該論文中出現(xiàn)的圖片
真是機智??!他們訓(xùn)練生成對抗網(wǎng)絡(luò) (GAN) 來自動美化照片。最酷的部分是它是弱監(jiān)督的,你不需要輸入-輸出圖像對!你訓(xùn)練的網(wǎng)絡(luò)需要的是一組“好看”的圖像(對于輸出的標注圖像)和一組你想要增強的“難看”的圖像(對于輸入圖像)。然后,對 GAN 進行訓(xùn)練以產(chǎn)生輸入圖像的美化后的版本,通常極大地增強圖像的顏色和對比度。
它是快速并且容易使用的,因為你不需要精確的圖像對,最后你會得到一個“通用”的圖像增強器。我也喜歡這種弱監(jiān)督的方法。無監(jiān)督的學(xué)習似乎相當遙遠。但是對于計算機視覺中的許多子領(lǐng)域來說,弱監(jiān)督似乎是一個有前途、有利可圖的方向。
該論文中出現(xiàn)的圖片
Polygon-RNN++ 分割數(shù)據(jù)集的高效交互標注
深度網(wǎng)絡(luò)工作得如此好的一個主要原因是有大量和完全注釋的數(shù)據(jù)集可供使用。然而,對于許多計算機視覺任務(wù)來說,這樣的數(shù)據(jù)既耗時又昂貴。特別是分割數(shù)據(jù)需要圖像中的每個像素的類標記。正如你所想象的…對于大數(shù)據(jù)集來說,這個過程可能永遠持續(xù)下去!
Polygon-RNN++ 允許用戶在圖片中每個目標周圍設(shè)置粗略的多邊形,然后神經(jīng)網(wǎng)絡(luò)會自動生成分割標記。這篇論文很好地論述了這種方法,這種方法也可以在分割任務(wù)中創(chuàng)建快速、簡單的標記。
該論文中出現(xiàn)的圖片
我今天應(yīng)該穿什么呢? 如果每天早上都有人或東西來回答這個問題而不需要你去想,那該有多好啊。如果想擁有這樣的東西,來認識一下膠囊衣柜 (Capsule Wardrobes) 吧。
這篇論文作者設(shè)計了一個模型,給定一個待選服裝和飾品的清單,膠囊用最少的物品組成物品集,而這個集合可以提供最多的混搭配備。模型使用目標函數(shù)進行基本的訓(xùn)練,而目標函數(shù)的設(shè)計是用來獲取視覺兼容性、多功能性和用戶特定喜好的關(guān)鍵因素。使用膠囊衣柜,可以輕松地從你的衣櫥里找到符合你品位的最佳搭配。
該論文中出現(xiàn)的圖片
Super SloMo :視頻插值中多幅中間幀的高質(zhì)量估計
你有想過用超級慢動作拍攝一些超級酷的東西嗎? 不妨看看英偉達 (Nvdia) 的 Super SloMo 吧!他們的卷積神經(jīng)網(wǎng)絡(luò)估計出視頻中間幀,并且能夠?qū)藴实?30fps 的視頻轉(zhuǎn)換為看上去驚人的 240fps 下的慢動作!模型估計幀間光流,使用該模型還可以不影響畫質(zhì)地插入視頻幀,從而慢鏡頭看上去也是清晰的。
一顆子彈穿過雞蛋,super SloMo!
誰在控制狗? 根據(jù)視覺數(shù)據(jù)對狗的行為建模
這可能是有史以來最酷的研究論文名字!它的思路是嘗試并建模狗的所行所想。作者在狗的四肢安裝了大量的傳感器來收集它的運動數(shù)據(jù),也在其頭部安裝照相機來獲取狗看世界的第一視角。使用了一組卷積神經(jīng)網(wǎng)絡(luò)特征提取器來提取從視頻幀中得到的圖像中的特征,然后這些特征就和傳感器數(shù)據(jù)一起傳到一組長短期記憶網(wǎng)絡(luò),來學(xué)習和預(yù)測狗的行為。這是一個很新穎且具有創(chuàng)造力的應(yīng)用。這個任務(wù)獨特的框架和實現(xiàn),都讓這篇文章值得一讀!希望這篇文章可以給未來的研究激發(fā)創(chuàng)造力,不管是對我們采集數(shù)據(jù)的方式還是深度學(xué)習技術(shù)的應(yīng)用。
該論文中出現(xiàn)的圖片
最近幾年,何凱明團隊(早先在微軟亞洲研究院,現(xiàn)在在 Facebook 人工智能研究實驗室)進行了大量的計算機視覺研究。他們文章的厲害之處就在于將創(chuàng)新性與簡潔性有效結(jié)合。 ResNets 和 Mask R-CNN 都不是最瘋狂、最復(fù)雜的研究思路。它們都非常簡單、易于實現(xiàn),在實踐中也非常有效。這一篇也是一樣。
學(xué)習著分割一切是 Mask R-CNN 的擴展,使得神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中不看見類也能進行分割! 這對快速、低成本獲取數(shù)據(jù)集標記十分有效。它可以獲得不可見目標類強大的基準庫分割,這對在野外部署分割神經(jīng)網(wǎng)絡(luò)是十分重要的,因為在那樣的環(huán)境中,存在著大量的不可見目標類。整體看來,這是我們朝著如何思考最大限度利用深度神經(jīng)網(wǎng)絡(luò)模型正確方向走了一步。
該論文中出現(xiàn)的圖片
在世界杯進行之際,這篇論文的發(fā)布可以獲得最佳時機獎了!這真的是 CVPR 計算機視覺里比較酷的應(yīng)用之一。簡單地說,給定一個足球比賽視頻能夠輸出比賽的三維動態(tài)重建,從而訓(xùn)練模型。這就意味著你可以使用增強現(xiàn)實技術(shù)在任何地方觀看這場比賽!
模型比較機智的地方在于不同類型信息的結(jié)合使用。使用視頻比賽數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),根據(jù)這些數(shù)據(jù)可以非常輕易地提取三維網(wǎng)格。測試時,運動員的邊界框、姿態(tài)和軌跡(在多幀之間)被提取來對其進行分割。 這些三維分割可以簡單地投影到任意空間(這樣你就可以任意制作虛擬球場)實現(xiàn)增強現(xiàn)實的足球比賽觀看!在我看來,使用合成數(shù)據(jù)來訓(xùn)練時很聰明的做法,同樣也是很有趣的應(yīng)用!
該論文中出現(xiàn)的圖片
LayoutNet :從單幅彩色圖像實現(xiàn)房間布局的三維建模
我們中大多數(shù)有都有過這樣的想法:給某個東西拍張照片,然后在數(shù)字三維對其進行重建 。這篇論文就是一個計算機視覺的應(yīng)用,也正好是來實現(xiàn)這個想法的,尤其是對房間的三維重建。他們將全景圖像作為輸入來獲得房間的整個視野,輸出就是一個非常精確的三維重建的房間布局!這個模型有足夠的能力來生成不同形狀的房間,房間中可以包含許多不同的家居擺設(shè)。這個應(yīng)用非常有趣,不用看大量計算機視覺研究員的工作,可以很好地閱讀。
該論文中出現(xiàn)的圖片
學(xué)習轉(zhuǎn)換架構(gòu)實現(xiàn)可擴展圖像識別
最后但也重要的就是關(guān)于深度學(xué)習的未來的思考:神經(jīng)架構(gòu)搜索 (NAS)。 NAS 背后的基本思想是取代手動設(shè)計網(wǎng)絡(luò)架構(gòu),我們可以采用另外的神經(jīng)網(wǎng)絡(luò)來 “搜索”最好的模型結(jié)構(gòu)。這個搜索基于回報函數(shù),是很聰明的?;貓蠛瘮?shù)對那些在驗證數(shù)據(jù)集上表現(xiàn)良好的模型進行獎勵。作者在文中展示了一個比手動設(shè)計更加精確的架構(gòu)。這在未來是有很大發(fā)展空間的,尤其是特定應(yīng)用的設(shè)計。因為我們只需要將全部精力放在設(shè)計好手動設(shè)計 NAS 算法,而不是為我們特定的應(yīng)用設(shè)計特定的網(wǎng)絡(luò)。一個良好設(shè)計大的 NAS 算法是足夠靈活的,可以為任意特定任務(wù)找到好的網(wǎng)絡(luò)。
該論文中出現(xiàn)的圖片
總結(jié)
感謝你的閱讀!真心希望你學(xué)到新穎有用的知識,有朝一日可能將其中一些用到你自己的工作當中。如果你喜歡我們的內(nèi)容,請給我們點贊吧,讓更多的人看到這個海報,和我們一起加入學(xué)習之旅吧!
原文鏈接:https://towardsdatascience.com/the-10-coolest-papers-from-cvpr-2018-11cb48585a49
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。