0
本文作者: 楊曉凡 | 2017-07-25 15:23 | 專題:CVPR 2017 |
雷鋒網 AI 科技評論按:CVPR 2017的獲獎論文已經在大會的第一天中公布,共有6篇論文獲得四項榮譽。雷鋒網 AI 科技評論對6篇獲獎論文做了簡要介紹如下。
本屆CVPR共有兩篇最佳論文,其中就有一篇來自蘋果。
「Densely Connected Convolutional Networks」
論文作者:康奈爾大學 Gao Huang,清華大學 Zhuang Liu,康奈爾大學 Kilian Q. Weinberger,Facebook 人工智能研究院 Laurens van der Maaten
論文地址:https://arxiv.org/abs/1608.06993
論文簡介:近期的研究已經展現這樣一種趨勢,如果卷積網絡中離輸入更近或者離輸出更近的層之間的連接更短,網絡就基本上可以更深、更準確,訓練時也更高效。這篇論文就對這種趨勢進行了深入的研究,并提出了密集卷積網絡(DenseNet),其中的每一層都和它之后的每一層做前饋連接。對于以往的卷積神經網絡,網絡中的每一層都和其后的層連接,L層的網絡中就具有L個連接;而在DenseNet中,直接連接的總數則是L(L+1)/2個。對每一層來說,它之前的所有的層的 feature-map 都作為了它的輸入,然后它自己的 feature-map 則會作為所有它之后的層的輸入。
DenseNet 類型的網絡有這樣幾個引人注目的優(yōu)點:它們可以緩和梯度消失的問題,可以加強特征傳播,可以鼓勵特征的重用,而且顯著減少參數的數量。論文中在 CIFAR-10、CIFAR-100、SVHN、ImageNet 這四個高競爭性的物體識別任務中進行了 benchmark,DenseNet 在多數測試中都相比目前的頂尖水平取得了顯著提升,同時需要的內存和計算力還更少。
「Learning From Simulated and Unsupervised Images through Adversarial Training」
論文作者:蘋果公司 Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang, Russ Webb
論文地址:https://arxiv.org/abs/1612.07828
論文簡介:隨著圖像領域的進步,用生成的圖像訓練機器學習模型的可行性越來越高,大有避免人工標注真實圖像的潛力。但是,由于生成的圖像和真實圖像的分布有所區(qū)別,用生成的圖像訓練的模型可能沒有用真實圖像訓練的表現那么好。為了縮小這種差距,論文中提出了一種模擬+無監(jiān)督的學習方式,其中的任務就是學習到一個模型,它能夠用無標注的真實數據提高模擬器生成的圖片的真實性,同時還能夠保留模擬器生成的圖片的標注信息。論文中構建了一個類似于 GANs 的對抗性網絡來進行這種模擬+無監(jiān)督學習,只不過論文中網絡的輸入是圖像而不是隨機向量。為了保留標注信息、避免圖像瑕疵、穩(wěn)定訓練過程,論文中對標準 GAN 算法進行了幾個關鍵的修改,分別對應“自我正則化”項、局部對抗性失真損失、用過往的美化后圖像更新鑒別器。
論文中表明這些措施可以讓網絡生成逼真的圖像,并用定性的方法和用戶實驗的方法進行了演示;定量測試則是用生成的數據訓練模型估計目光注視方向、估計手部姿態(tài)。結果表明,經過模型美化后的生成圖像可以為模型表現帶來顯著提升,在 MGIIGaze 數據集中不依靠任何有標注的真實數據就可以取得超過以往的表現。
論文詳解:上周時候蘋果開放了自己的機器學習博客“蘋果機器學習日記”,其中第一篇就是對這篇獲獎論文的詳解,雷鋒網 AI 科技評論編譯文章在這里,歡迎感興趣的讀者詳細了解。
「Annotating Object Instance with a Polygon-RNN」
論文作者:多倫多大學計算機學院Llu′?s Castrejon,Kaustav Kundu,Raquel Urtasun,Sanja Fidler
論文地址:https://arxiv.org/abs/1704.05548
論文簡介:論文中介紹了一種半自動的物體標注方法。這套系統的思路是,不再像以往一樣把圖像中的物體分割作為一種像素標注問題,把它看作一個多邊形位置預測問題,從而模仿目前已有的標注數據集的方式生成檢測標注框。具體來講,論文中的方法在輸入圖像后可以依次生成多邊形的邊把圖像中的物體圍起來。這個過程中,人類標注員可以隨時參與并糾正錯誤的頂點,從而得到人類標注員眼中盡可能準確的分割。
根據論文中的測試,他們的方法可以在 Cityscapes 的所有類別中把標注速度提升至4.7倍,同時還可與原本真值的重合度 IoU 達到78.4%,與人類標注者之間的典型重合率相符。對于車輛圖像,標注速度可以提升至7.3倍,重合度達到82.2%。論文中也研究了這種方法對于從未見過的數據集的泛化能力。
「YOLO9000: Better, Faster, Stronger」
論文作者:華盛頓大學,Allen 人工智能學院的 Joseph Redmon 與 Ali Farhadi
論文地址:https://arxiv.org/abs/1612.08242
論文簡介:論文中介紹了名為“YOLO9000”的頂級水平的實時物體檢測系統,它可以檢測的物體種類達到了9000種。論文中首先介紹了對原始的 YOLO 系統的多方面提升,有些是論文中新提出的方法,有些是從之前別人的成果中借鑒的。提升后的 YOLOv2 模型在 PASCAL VOC 和 COCO 這樣標準的物體檢測任務中有頂級的表現。在使用一個新的、多尺度訓練方法之后,這個 YOLOv2 模型可以處理各種不同的圖像,從而在速度和準確性之間輕松地取得了平衡。在67FPS下,YOLOv2 可以在 VOC 2007中取得76.8mAP;在40FPS下,分數可以提升為78.6mAP。這樣的準確率不僅超越了目前最好的帶有 ResNet 和 SSD 的 Faster R-CNN,而且運行速度還明顯更快。論文中最后還提出了一種將物體檢測和物體分類合并訓練的方法,論文作者們借助這種方法,同時運用物體檢測數據集 COCO 和物體分類數據集 ImageNet 訓練得到了 YOLO9000。有的物體類別并沒有對應的物體檢測數據,而合并訓練的方法讓 YOLO9000 遇到它們的也時候也能夠預測檢測結果。
為了驗證方法的效果,論文中進行了物體檢測的驗證測試,YOLO9000 只用了200個類別中44個類別的檢測數據,就在 ImageNet 的檢測驗證數據集中取得了 19.7mAP;對于 COCO 中沒有的156個類別,YOLO9000得到了16.0mAP。不過YOLO9000能夠檢測的類別遠不只這200個類,它可以預測超過9000個不同類別物體的檢測結果,而且仍然可以實時運行。
「Computational Imaging on the Electric Grid」
論文作者:以色列理工學院電氣工程學院 Mark Sheinin、Yoav Y. Schechner,多倫多大學計算機學院 Kiriakos N. Kutulakos
論文簡介:夜晚的風景隨著交流電照明一起跳動。通過被動方式感知這種跳動,論文中用一種新的方式揭示了夜景中的另一番畫面:夜景中燈泡的類型是哪些、上至城市規(guī)模的供電區(qū)域相位如何,以及光的傳輸矩陣。為了提取這些信息需要先消除燈光的反射和半反射,對夜景做高動態(tài)范圍處理,然后對圖像采集中未觀察到的燈泡做場景渲染。最后提到的這個場景渲染是由一個包含各種來源的燈泡響應函數數據庫支持的,論文中進行了收集并可以提供給讀者。并且論文中還構建了一個新型的軟件曝光高動態(tài)范圍成像技術,專門用于供電區(qū)域的交流電照明。
Longuet-Higgins 獎以英國著名理論化學家、認知科學家 H. Christopher Longuet-Higgins 的名字命名。該獎設立于 2005 年,用以獎勵對 CV 研究產生根本性影響的學術論文,專門用來獎勵十年以前在 CVPR 發(fā)表、“經得起時間考驗”產生廣泛影響的論文。它是世界上第一個針對過往論文的獎項。這個獎項是由 IEEE 計算機協會的“模式分析和機器智能技術委員會”TCPAMI 評選的。
在頒布該獎項時還有一個有意思的花絮——主持人介紹說,設立這樣一個獎項的初衷,是因為“大家都知道,許多對學界貢獻很大、影響力也很大的論文,在當年并不是最佳論文?!?/p>
「Object retrieval with large vocabularies and fast spatial matching」
論文作者:牛津大學科學工程學院James Philbin、Ondˇrej Chum、Josef Sivic、Andrew Zisserman,微軟硅谷研究院 Michael Isard
論文地址:https://pdfs.semanticscholar.org/943d/793f6cbbc6551d758c1eefca2a9333bd8921.pdf
論文簡介:這篇論文介紹了一個大規(guī)模的物體圖像搜尋系統。系統把用戶在一副圖片中框選的區(qū)域作為查詢輸入,然后就可以返回一個有序列表,其中都是從指定的大數據集中找到的含有同一個物體的圖像。論文中用從 Flickr 上爬超下來的超過100萬張圖像組成一個數據集,用牛津大學的地標作為查詢輸入,展示了系統的可拓展性和查詢性能。
由于數據集規(guī)模的原因,實驗過程中給圖像特征構建列表的過程是時間和性能的主要瓶頸?;谶@個問題,論文中對比了不同規(guī)模拓展的方法在構建特征列表方面的表現,并且介紹了一種全新的基于隨機樹的量化方法,這種方法在廣泛的真值中都具有最好的表現。論文中的實驗表明這種量化方法對搜索結果質量的提高也有重要作用。為了進一步提升搜索性能,系統中還增加了一個高效的空間驗證階段來對論文中構建的這種基于特征列表的方法進行重新標識,結果表明它可以穩(wěn)定地提高搜索質量,雖然當特征列表很大的時候效果并不顯著。作者們覺得這篇論文是通往更多圖片、互聯網規(guī)模的圖像語料庫的前途光明的一步。
六篇論文打包下載如下鏈接: http://pan.baidu.com/s/1dFgq4d7 密碼: 3t73
更多 CVPR 后續(xù)報道、更多近期學術會議現場報道,請繼續(xù)關注 雷鋒網 AI 科技評論。
相關文章:
CVPR最有趣的5篇論文,不容錯過!內含最佳學生論文! | CVPR2017
CVPR現場直擊:一文盡覽最頂級的CV+學術盛會!| CVPR 2017
騰訊 AI Lab入選 CVPR 的六篇論文逐一看 | CVPR 2017
CVPR 獲獎論文公布,蘋果斬獲最佳論文!| CVPR 2017
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章