0
本文作者: 楊曉凡 | 2017-07-25 15:23 | 專題:CVPR 2017 |
雷鋒網(wǎng) AI 科技評論按:CVPR 2017的獲獎?wù)撐囊呀?jīng)在大會的第一天中公布,共有6篇論文獲得四項榮譽。雷鋒網(wǎng) AI 科技評論對6篇獲獎?wù)撐淖隽撕喴榻B如下。
本屆CVPR共有兩篇最佳論文,其中就有一篇來自蘋果。
「Densely Connected Convolutional Networks」
論文作者:康奈爾大學(xué) Gao Huang,清華大學(xué) Zhuang Liu,康奈爾大學(xué) Kilian Q. Weinberger,F(xiàn)acebook 人工智能研究院 Laurens van der Maaten
論文地址:https://arxiv.org/abs/1608.06993
論文簡介:近期的研究已經(jīng)展現(xiàn)這樣一種趨勢,如果卷積網(wǎng)絡(luò)中離輸入更近或者離輸出更近的層之間的連接更短,網(wǎng)絡(luò)就基本上可以更深、更準(zhǔn)確,訓(xùn)練時也更高效。這篇論文就對這種趨勢進行了深入的研究,并提出了密集卷積網(wǎng)絡(luò)(DenseNet),其中的每一層都和它之后的每一層做前饋連接。對于以往的卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)中的每一層都和其后的層連接,L層的網(wǎng)絡(luò)中就具有L個連接;而在DenseNet中,直接連接的總數(shù)則是L(L+1)/2個。對每一層來說,它之前的所有的層的 feature-map 都作為了它的輸入,然后它自己的 feature-map 則會作為所有它之后的層的輸入。
DenseNet 類型的網(wǎng)絡(luò)有這樣幾個引人注目的優(yōu)點:它們可以緩和梯度消失的問題,可以加強特征傳播,可以鼓勵特征的重用,而且顯著減少參數(shù)的數(shù)量。論文中在 CIFAR-10、CIFAR-100、SVHN、ImageNet 這四個高競爭性的物體識別任務(wù)中進行了 benchmark,DenseNet 在多數(shù)測試中都相比目前的頂尖水平取得了顯著提升,同時需要的內(nèi)存和計算力還更少。
「Learning From Simulated and Unsupervised Images through Adversarial Training」
論文作者:蘋果公司 Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang, Russ Webb
論文地址:https://arxiv.org/abs/1612.07828
論文簡介:隨著圖像領(lǐng)域的進步,用生成的圖像訓(xùn)練機器學(xué)習(xí)模型的可行性越來越高,大有避免人工標(biāo)注真實圖像的潛力。但是,由于生成的圖像和真實圖像的分布有所區(qū)別,用生成的圖像訓(xùn)練的模型可能沒有用真實圖像訓(xùn)練的表現(xiàn)那么好。為了縮小這種差距,論文中提出了一種模擬+無監(jiān)督的學(xué)習(xí)方式,其中的任務(wù)就是學(xué)習(xí)到一個模型,它能夠用無標(biāo)注的真實數(shù)據(jù)提高模擬器生成的圖片的真實性,同時還能夠保留模擬器生成的圖片的標(biāo)注信息。論文中構(gòu)建了一個類似于 GANs 的對抗性網(wǎng)絡(luò)來進行這種模擬+無監(jiān)督學(xué)習(xí),只不過論文中網(wǎng)絡(luò)的輸入是圖像而不是隨機向量。為了保留標(biāo)注信息、避免圖像瑕疵、穩(wěn)定訓(xùn)練過程,論文中對標(biāo)準(zhǔn) GAN 算法進行了幾個關(guān)鍵的修改,分別對應(yīng)“自我正則化”項、局部對抗性失真損失、用過往的美化后圖像更新鑒別器。
論文中表明這些措施可以讓網(wǎng)絡(luò)生成逼真的圖像,并用定性的方法和用戶實驗的方法進行了演示;定量測試則是用生成的數(shù)據(jù)訓(xùn)練模型估計目光注視方向、估計手部姿態(tài)。結(jié)果表明,經(jīng)過模型美化后的生成圖像可以為模型表現(xiàn)帶來顯著提升,在 MGIIGaze 數(shù)據(jù)集中不依靠任何有標(biāo)注的真實數(shù)據(jù)就可以取得超過以往的表現(xiàn)。
論文詳解:上周時候蘋果開放了自己的機器學(xué)習(xí)博客“蘋果機器學(xué)習(xí)日記”,其中第一篇就是對這篇獲獎?wù)撐牡脑斀猓卒h網(wǎng) AI 科技評論編譯文章在這里,歡迎感興趣的讀者詳細了解。
「Annotating Object Instance with a Polygon-RNN」
論文作者:多倫多大學(xué)計算機學(xué)院Llu′?s Castrejon,Kaustav Kundu,Raquel Urtasun,Sanja Fidler
論文地址:https://arxiv.org/abs/1704.05548
論文簡介:論文中介紹了一種半自動的物體標(biāo)注方法。這套系統(tǒng)的思路是,不再像以往一樣把圖像中的物體分割作為一種像素標(biāo)注問題,把它看作一個多邊形位置預(yù)測問題,從而模仿目前已有的標(biāo)注數(shù)據(jù)集的方式生成檢測標(biāo)注框。具體來講,論文中的方法在輸入圖像后可以依次生成多邊形的邊把圖像中的物體圍起來。這個過程中,人類標(biāo)注員可以隨時參與并糾正錯誤的頂點,從而得到人類標(biāo)注員眼中盡可能準(zhǔn)確的分割。
根據(jù)論文中的測試,他們的方法可以在 Cityscapes 的所有類別中把標(biāo)注速度提升至4.7倍,同時還可與原本真值的重合度 IoU 達到78.4%,與人類標(biāo)注者之間的典型重合率相符。對于車輛圖像,標(biāo)注速度可以提升至7.3倍,重合度達到82.2%。論文中也研究了這種方法對于從未見過的數(shù)據(jù)集的泛化能力。
「YOLO9000: Better, Faster, Stronger」
論文作者:華盛頓大學(xué),Allen 人工智能學(xué)院的 Joseph Redmon 與 Ali Farhadi
論文地址:https://arxiv.org/abs/1612.08242
論文簡介:論文中介紹了名為“YOLO9000”的頂級水平的實時物體檢測系統(tǒng),它可以檢測的物體種類達到了9000種。論文中首先介紹了對原始的 YOLO 系統(tǒng)的多方面提升,有些是論文中新提出的方法,有些是從之前別人的成果中借鑒的。提升后的 YOLOv2 模型在 PASCAL VOC 和 COCO 這樣標(biāo)準(zhǔn)的物體檢測任務(wù)中有頂級的表現(xiàn)。在使用一個新的、多尺度訓(xùn)練方法之后,這個 YOLOv2 模型可以處理各種不同的圖像,從而在速度和準(zhǔn)確性之間輕松地取得了平衡。在67FPS下,YOLOv2 可以在 VOC 2007中取得76.8mAP;在40FPS下,分?jǐn)?shù)可以提升為78.6mAP。這樣的準(zhǔn)確率不僅超越了目前最好的帶有 ResNet 和 SSD 的 Faster R-CNN,而且運行速度還明顯更快。論文中最后還提出了一種將物體檢測和物體分類合并訓(xùn)練的方法,論文作者們借助這種方法,同時運用物體檢測數(shù)據(jù)集 COCO 和物體分類數(shù)據(jù)集 ImageNet 訓(xùn)練得到了 YOLO9000。有的物體類別并沒有對應(yīng)的物體檢測數(shù)據(jù),而合并訓(xùn)練的方法讓 YOLO9000 遇到它們的也時候也能夠預(yù)測檢測結(jié)果。
為了驗證方法的效果,論文中進行了物體檢測的驗證測試,YOLO9000 只用了200個類別中44個類別的檢測數(shù)據(jù),就在 ImageNet 的檢測驗證數(shù)據(jù)集中取得了 19.7mAP;對于 COCO 中沒有的156個類別,YOLO9000得到了16.0mAP。不過YOLO9000能夠檢測的類別遠不只這200個類,它可以預(yù)測超過9000個不同類別物體的檢測結(jié)果,而且仍然可以實時運行。
「Computational Imaging on the Electric Grid」
論文作者:以色列理工學(xué)院電氣工程學(xué)院 Mark Sheinin、Yoav Y. Schechner,多倫多大學(xué)計算機學(xué)院 Kiriakos N. Kutulakos
論文簡介:夜晚的風(fēng)景隨著交流電照明一起跳動。通過被動方式感知這種跳動,論文中用一種新的方式揭示了夜景中的另一番畫面:夜景中燈泡的類型是哪些、上至城市規(guī)模的供電區(qū)域相位如何,以及光的傳輸矩陣。為了提取這些信息需要先消除燈光的反射和半反射,對夜景做高動態(tài)范圍處理,然后對圖像采集中未觀察到的燈泡做場景渲染。最后提到的這個場景渲染是由一個包含各種來源的燈泡響應(yīng)函數(shù)數(shù)據(jù)庫支持的,論文中進行了收集并可以提供給讀者。并且論文中還構(gòu)建了一個新型的軟件曝光高動態(tài)范圍成像技術(shù),專門用于供電區(qū)域的交流電照明。
Longuet-Higgins 獎以英國著名理論化學(xué)家、認(rèn)知科學(xué)家 H. Christopher Longuet-Higgins 的名字命名。該獎設(shè)立于 2005 年,用以獎勵對 CV 研究產(chǎn)生根本性影響的學(xué)術(shù)論文,專門用來獎勵十年以前在 CVPR 發(fā)表、“經(jīng)得起時間考驗”產(chǎn)生廣泛影響的論文。它是世界上第一個針對過往論文的獎項。這個獎項是由 IEEE 計算機協(xié)會的“模式分析和機器智能技術(shù)委員會”TCPAMI 評選的。
在頒布該獎項時還有一個有意思的花絮——主持人介紹說,設(shè)立這樣一個獎項的初衷,是因為“大家都知道,許多對學(xué)界貢獻很大、影響力也很大的論文,在當(dāng)年并不是最佳論文?!?/p>
「Object retrieval with large vocabularies and fast spatial matching」
論文作者:牛津大學(xué)科學(xué)工程學(xué)院James Philbin、Ondˇrej Chum、Josef Sivic、Andrew Zisserman,微軟硅谷研究院 Michael Isard
論文地址:https://pdfs.semanticscholar.org/943d/793f6cbbc6551d758c1eefca2a9333bd8921.pdf
論文簡介:這篇論文介紹了一個大規(guī)模的物體圖像搜尋系統(tǒng)。系統(tǒng)把用戶在一副圖片中框選的區(qū)域作為查詢輸入,然后就可以返回一個有序列表,其中都是從指定的大數(shù)據(jù)集中找到的含有同一個物體的圖像。論文中用從 Flickr 上爬超下來的超過100萬張圖像組成一個數(shù)據(jù)集,用牛津大學(xué)的地標(biāo)作為查詢輸入,展示了系統(tǒng)的可拓展性和查詢性能。
由于數(shù)據(jù)集規(guī)模的原因,實驗過程中給圖像特征構(gòu)建列表的過程是時間和性能的主要瓶頸?;谶@個問題,論文中對比了不同規(guī)模拓展的方法在構(gòu)建特征列表方面的表現(xiàn),并且介紹了一種全新的基于隨機樹的量化方法,這種方法在廣泛的真值中都具有最好的表現(xiàn)。論文中的實驗表明這種量化方法對搜索結(jié)果質(zhì)量的提高也有重要作用。為了進一步提升搜索性能,系統(tǒng)中還增加了一個高效的空間驗證階段來對論文中構(gòu)建的這種基于特征列表的方法進行重新標(biāo)識,結(jié)果表明它可以穩(wěn)定地提高搜索質(zhì)量,雖然當(dāng)特征列表很大的時候效果并不顯著。作者們覺得這篇論文是通往更多圖片、互聯(lián)網(wǎng)規(guī)模的圖像語料庫的前途光明的一步。
六篇論文打包下載如下鏈接: http://pan.baidu.com/s/1dFgq4d7 密碼: 3t73
更多 CVPR 后續(xù)報道、更多近期學(xué)術(shù)會議現(xiàn)場報道,請繼續(xù)關(guān)注 雷鋒網(wǎng) AI 科技評論。
相關(guān)文章:
CVPR最有趣的5篇論文,不容錯過!內(nèi)含最佳學(xué)生論文! | CVPR2017
CVPR現(xiàn)場直擊:一文盡覽最頂級的CV+學(xué)術(shù)盛會!| CVPR 2017
騰訊 AI Lab入選 CVPR 的六篇論文逐一看 | CVPR 2017
CVPR 獲獎?wù)撐墓?,蘋果斬獲最佳論文!| CVPR 2017
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章