0
本文為 AI 研習社編譯的技術(shù)博客,原標題 :
The 10 coolest papers from CVPR 2018
作者 | George Seif
翻譯 | Vincents 校對 | 鄧普斯?杰弗
審核 | 永恒如新的日常 整理 | Pita
原文鏈接:
https://towardsdatascience.com/the-10-coolest-papers-from-cvpr-2018-11cb48585a49
2018年計算機視覺和模式識別會議(CVPR)上周在美國鹽湖城舉行。該會議是計算機視覺領(lǐng)域的世界頂級會議。今年,CVPR 收到3300篇主要會議論文并且最終被接收的論文多達 979 篇。超過6,500人參加了會議,這可以說是史詩級的大規(guī)模! 6500人在下圖的會議廳參會:
CVPR2018大會會場
每年,CVPR都會帶來優(yōu)秀的人才以及他們很棒的研究; 并且總能看到和學習到一些新的東西。當然,每年都有一些論文發(fā)表新的突破性成果,并為該領(lǐng)域帶來一些很有用的新知識。 這些論文經(jīng)常在計算機視覺的許多子領(lǐng)域帶來最先進的前沿技術(shù)。
最近,喜聞樂見的是那些開箱即用的創(chuàng)意論文!隨著深度學習在計算機視覺領(lǐng)域的不斷應用,我們?nèi)匀辉谔剿鞲鞣N可能性。許多論文將展示深度網(wǎng)絡(luò)在計算機視覺中的全新應用。 它們可能不是根本上的突破性作品,但它們很有趣,并且可以為該領(lǐng)域提供創(chuàng)造性和啟發(fā)性的視角,從它們呈現(xiàn)的新角度經(jīng)??梢砸l(fā)新的想法。總而言之,它們非???!
在這里,我將向您展示我認為在2018年CVPR上的10篇最酷論文。我們將看到最近才使用的深度網(wǎng)絡(luò)實現(xiàn)的新應用,以及其他的一些提供了新的使用方法和技巧的應用。您可能會在此過程中從中獲得一些新想法;)。話不多說,讓我們開始吧!
使用合成數(shù)據(jù)訓練深度網(wǎng)絡(luò):通過域隨機化彌合現(xiàn)實差距
本文來自Nvidia,充分利用合成數(shù)據(jù)來訓練卷積神經(jīng)網(wǎng)絡(luò)(CNN)。 他們?yōu)樘摶靡?創(chuàng)建了一個插件,該插件將生成綜合訓練數(shù)據(jù)。 真正的關(guān)鍵是他們隨機化了許多訓練數(shù)據(jù)中可以包含的變量,包括:
對象的數(shù)量和類型
干擾物的數(shù)量,類型,顏色和尺度
感興趣的對象和背景照片的紋理
虛擬相機相對于場景的位置
相機相對于場景的角度
點光源的數(shù)量和位置
他們展示了一些非常有前景的結(jié)果,證明了合成數(shù)據(jù)預訓練的有效性; 達到了前所未有的結(jié)果。 這也為沒有重要數(shù)據(jù)來源時提供了一種思路:生成并使用合成數(shù)據(jù)。
圖片來自論文:使用合成數(shù)據(jù)訓練深度網(wǎng)絡(luò):通過域隨機化彌合現(xiàn)實差距
WESPE:用于數(shù)碼相機的弱監(jiān)督照片增強器
這篇非常精妙!研究人員訓練了一個生成對抗網(wǎng)絡(luò)(GAN),能夠自動美化圖片。最酷的部分是,它是弱監(jiān)督的,你不需要有輸入和輸出的圖像對!想要訓練網(wǎng)絡(luò),你只需要擁有一套“好看”的圖片(用于輸出的正確標注)和一套想進一步調(diào)整的“粗糙”的圖片(用于輸入圖像)。生成對抗網(wǎng)絡(luò)被訓練成輸出輸入圖像更符合審美的版本,通常是改進色彩和圖片的對比度。
這一模型非常簡單并且能快速上手,因為你不需要精確的圖像對,并且最終會得到一個“通用的"圖片增強器。我還喜歡這篇論文的一點是它是弱監(jiān)督的方法,非監(jiān)督學習看起來很遙遠。但是對計算機視覺領(lǐng)域的許多子類來說,弱監(jiān)督似乎是一個更可靠更有希望的方向。
圖片來自論文:WESPE:用于數(shù)碼相機的弱監(jiān)督照片增強器
用Polygon-RNN ++實現(xiàn)分段數(shù)據(jù)集的高效交互式標注
深度網(wǎng)絡(luò)能夠良好運行的一個主要原因是有大型的經(jīng)過標注的可用的數(shù)據(jù)集。然而對很多機器視覺任務(wù)來說,想獲得這樣的數(shù)據(jù)會很耗費時間并且成本高昂。特別是分割的數(shù)據(jù)需要對圖片中的每個像素進行分類標注。所以對大型數(shù)據(jù)集來說,你可以想象......標注任務(wù)永遠不可能標完!
Polygon-RNN++能夠讓你在圖中每個目標物體的周圍大致圈出多邊形形狀,然后網(wǎng)絡(luò)會自動生成分割的標注!論文中表明,這一方法的表現(xiàn)非常不錯,并且能在分割任務(wù)中快速生成簡單標注!
圖片來自論文:用Polygon-RNN ++實現(xiàn)分段數(shù)據(jù)集的高效交互式標注
從時尚圖片創(chuàng)造膠囊衣柜
“嗯......今天我該穿什么?” 如果某人或某個東西能夠每天早上為你回答這個問題,那么你不必再去問這個問題,會不會很好?這樣的話你就不用了嗎?那么我們就跟膠囊衣柜(Capsule Wardrobes)打個招呼吧!
在這篇論文中,作者設(shè)計了一個模型,給出候選服裝和配件的清單,可以對單品進行組合,提供最大可能的混合搭配方案。它基本上使用目標函數(shù)進行訓練,這些目標函數(shù)旨在捕獲視覺兼容性,多功能性和用戶特定偏好的關(guān)鍵要素。 有了膠囊衣柜,您可以輕松地從衣柜中獲得最適合您的服裝搭配!
圖片來源論文:從時尚圖片中創(chuàng)造膠囊衣柜
Super SloMo:視頻插值中多個中間幀的高質(zhì)量估計
你曾經(jīng)是否想過以超慢的動作拍攝超級酷炫的東西呢?Nvdia 的這項研究 Super SloMo 就能幫你實現(xiàn)!研究中他們使用 CNN 估計視頻的中間幀,并能將標準的 30fps 視頻轉(zhuǎn)換為 240fps 的慢動作!該模型估計視頻中間幀之間的光流信息,并在這些信息中間插入視頻幀,使慢動作的視頻看起來也能清晰銳利。
一顆子彈穿過一個雞蛋,Super SloMo!
是誰放狗出去?用視覺數(shù)據(jù)構(gòu)建狗的行為模型
這可能是有史以來最酷的研究論文!這項研究的想法是試圖模擬狗的思想和行為。研究人員將許多傳感器連接到狗的四肢以收集其運動和行為數(shù)據(jù)。此外,他們還在狗的頭部安裝一個攝像頭,以便看到和從狗的第一人稱視角所看到的世界相同。然后,將一組 CNN 特征提取器用于從視頻幀獲取圖像特征,并將其與傳感器數(shù)據(jù)一起傳遞給一組 LSTM 模型,以便學習并預測狗的動作和行為。這是一項非常新穎而富有創(chuàng)造性的應用研究,其整體的任務(wù)框架及獨特的執(zhí)行方式都是本文的亮點!希望這項研究能夠為我們未來收集數(shù)據(jù)和應用深度學習技術(shù)的方式帶來更多的創(chuàng)造力。
圖片來自論文:用視覺數(shù)據(jù)構(gòu)建狗的行為模型
學習分割一切
在過去的幾年里,何凱明團隊 (以前在微軟研究院,現(xiàn)就職于 Facebook AI Research) 提出了許多重大的計算機視覺研究成果。他們的研究最棒之處在于將創(chuàng)造力和簡單性相結(jié)合,諸如將 ResNets和 Mask R-CNN 相結(jié)合的研究,這些都不是最瘋狂或最復雜的研究思路,但是它們簡單易行,并在實踐中非常有效。 這一次也不例外。
該團隊最新的研究 Learning to Segment Every Thing 是 MaskR-CNN 研究的擴展,它使模型準確地分割訓練期間未出現(xiàn)的類別目標!這對于獲取快速且廉價的分割數(shù)據(jù)標注是非常有用的。事實上,該研究能夠獲得一些未知目標的基準分割效果,這對于在自然條件中部署這樣的分割模型來說是至關(guān)重要的,因為在這樣的環(huán)境下可能存在許多未知的目標??偟膩碚f,這絕對是我們思考如何充分利用深層神經(jīng)網(wǎng)絡(luò)模型的正確方向。
圖片來自論文: 學習分割一切
桌上足球
本文的研究是在 FIFA 世界杯開幕時正式發(fā)表的,理應獲得最佳時機獎!這的確是 CVPR 上在計算機視覺領(lǐng)域的“更酷”應用之一。簡而言之,作者訓練了一個模型,在給定足球比賽視頻的情況下,該模型能夠輸出相應視頻的動態(tài) 3D 重建,這意味著你可以利用增強現(xiàn)實技術(shù)在任何地方查看它!
本文最大的亮點是結(jié)合使用許多不同類型的信息。使用視頻比賽數(shù)據(jù)訓練網(wǎng)絡(luò),從而相當容易地提取 3D 網(wǎng)格信息。在測試時,提取運動員的邊界框,姿勢及跨越多個幀的運動軌跡以便分割運動員。接著你可以輕松地將這些 3D 片段投射到任何平面上。在這種情況下,你可以通過制作虛擬的足球場,以便在 AR 條件下觀看的足球比賽!在我看來,這是一種使用合成數(shù)據(jù)進行訓練的聰明方法。無論如何它都是一個有趣的應用程序!
圖片來自論文:桌上足球
LayoutNet:從單個 RGB 圖像重建 3D 房間布局
這是一個計算機視覺的應用程序,我們可能曾經(jīng)想過:使用相機拍攝某些東西,然后用數(shù)字 3D 技術(shù)重建它。這也正是本文研究的目的,特別是重建3D 房間布局。研究人員使用全景圖像作為網(wǎng)絡(luò)的輸入,以獲得房間的完整視圖。網(wǎng)絡(luò)的輸出是 3D 重建后的房間布局,具有相當高的準確性!該模型足夠強大,可以推廣到不同形狀、包含許多不同家具的房間。這是一個有趣而好玩、又不需要投入太多研究人員就能實現(xiàn)的應用。
圖片來自論文:LayoutNet:從單個 RGB 圖像重建 3D 房間布局
學習可遷移的結(jié)構(gòu)用于可擴展的圖像識別任務(wù)
最后要介紹的是一項許多人都認為是深度學習未來的研究:神經(jīng)架構(gòu)搜索 (NAS)。NAS 背后的基本思想是我們可以使用另一個網(wǎng)絡(luò)來“搜索”最佳的模型結(jié)構(gòu),而不需要手動地設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)。這個搜索過程是基于獎勵函數(shù)進行的,通過獎勵模型以使其在驗證數(shù)據(jù)集上有良好的表現(xiàn)。此外,作者在論文中表明,這種模型結(jié)構(gòu)比起手動設(shè)計的模型能夠獲得更高的精度。這將是未來巨大的研究方向,特別是對于設(shè)計特定的應用程序而言。因為我們真正關(guān)注的是設(shè)計好的 NAS 算法,而不是為我們特定的應用設(shè)計特定的網(wǎng)絡(luò)。精心設(shè)計的 NAS 算法將足夠靈活,并能夠為任何特定任務(wù)找到良好的網(wǎng)絡(luò)結(jié)構(gòu)。
圖片來自論文:學習可遷移的結(jié)構(gòu)用于可擴展的圖像識別任務(wù)
結(jié)語
感謝您的閱讀! 希望您學到了一些新的有用的東西,甚至可能為你自己的工作找到了一些新的想法!如果您覺得不錯,請分享給更多人可以看到這篇文章,并與我們一起跳上學習的列車!
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻?
長按鏈接點擊打開或點擊【CVPR 2018 最酷的十篇論文】:
https://ai.yanxishe.com/page/TextTranslation/1306
AI研習社每日更新精彩內(nèi)容,觀看更多精彩內(nèi)容:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
等你來譯:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。