0
本文作者: 楊曉凡 | 2017-07-25 15:23 | 專(zhuān)題:CVPR 2017 |
雷鋒網(wǎng) AI 科技評(píng)論按:CVPR 2017的獲獎(jiǎng)?wù)撐囊呀?jīng)在大會(huì)的第一天中公布,共有6篇論文獲得四項(xiàng)榮譽(yù)。雷鋒網(wǎng) AI 科技評(píng)論對(duì)6篇獲獎(jiǎng)?wù)撐淖隽撕?jiǎn)要介紹如下。
本屆CVPR共有兩篇最佳論文,其中就有一篇來(lái)自蘋(píng)果。
「Densely Connected Convolutional Networks」
論文作者:康奈爾大學(xué) Gao Huang,清華大學(xué) Zhuang Liu,康奈爾大學(xué) Kilian Q. Weinberger,F(xiàn)acebook 人工智能研究院 Laurens van der Maaten
論文地址:https://arxiv.org/abs/1608.06993
論文簡(jiǎn)介:近期的研究已經(jīng)展現(xiàn)這樣一種趨勢(shì),如果卷積網(wǎng)絡(luò)中離輸入更近或者離輸出更近的層之間的連接更短,網(wǎng)絡(luò)就基本上可以更深、更準(zhǔn)確,訓(xùn)練時(shí)也更高效。這篇論文就對(duì)這種趨勢(shì)進(jìn)行了深入的研究,并提出了密集卷積網(wǎng)絡(luò)(DenseNet),其中的每一層都和它之后的每一層做前饋連接。對(duì)于以往的卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)中的每一層都和其后的層連接,L層的網(wǎng)絡(luò)中就具有L個(gè)連接;而在DenseNet中,直接連接的總數(shù)則是L(L+1)/2個(gè)。對(duì)每一層來(lái)說(shuō),它之前的所有的層的 feature-map 都作為了它的輸入,然后它自己的 feature-map 則會(huì)作為所有它之后的層的輸入。
DenseNet 類(lèi)型的網(wǎng)絡(luò)有這樣幾個(gè)引人注目的優(yōu)點(diǎn):它們可以緩和梯度消失的問(wèn)題,可以加強(qiáng)特征傳播,可以鼓勵(lì)特征的重用,而且顯著減少參數(shù)的數(shù)量。論文中在 CIFAR-10、CIFAR-100、SVHN、ImageNet 這四個(gè)高競(jìng)爭(zhēng)性的物體識(shí)別任務(wù)中進(jìn)行了 benchmark,DenseNet 在多數(shù)測(cè)試中都相比目前的頂尖水平取得了顯著提升,同時(shí)需要的內(nèi)存和計(jì)算力還更少。
「Learning From Simulated and Unsupervised Images through Adversarial Training」
論文作者:蘋(píng)果公司 Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang, Russ Webb
論文地址:https://arxiv.org/abs/1612.07828
論文簡(jiǎn)介:隨著圖像領(lǐng)域的進(jìn)步,用生成的圖像訓(xùn)練機(jī)器學(xué)習(xí)模型的可行性越來(lái)越高,大有避免人工標(biāo)注真實(shí)圖像的潛力。但是,由于生成的圖像和真實(shí)圖像的分布有所區(qū)別,用生成的圖像訓(xùn)練的模型可能沒(méi)有用真實(shí)圖像訓(xùn)練的表現(xiàn)那么好。為了縮小這種差距,論文中提出了一種模擬+無(wú)監(jiān)督的學(xué)習(xí)方式,其中的任務(wù)就是學(xué)習(xí)到一個(gè)模型,它能夠用無(wú)標(biāo)注的真實(shí)數(shù)據(jù)提高模擬器生成的圖片的真實(shí)性,同時(shí)還能夠保留模擬器生成的圖片的標(biāo)注信息。論文中構(gòu)建了一個(gè)類(lèi)似于 GANs 的對(duì)抗性網(wǎng)絡(luò)來(lái)進(jìn)行這種模擬+無(wú)監(jiān)督學(xué)習(xí),只不過(guò)論文中網(wǎng)絡(luò)的輸入是圖像而不是隨機(jī)向量。為了保留標(biāo)注信息、避免圖像瑕疵、穩(wěn)定訓(xùn)練過(guò)程,論文中對(duì)標(biāo)準(zhǔn) GAN 算法進(jìn)行了幾個(gè)關(guān)鍵的修改,分別對(duì)應(yīng)“自我正則化”項(xiàng)、局部對(duì)抗性失真損失、用過(guò)往的美化后圖像更新鑒別器。
論文中表明這些措施可以讓網(wǎng)絡(luò)生成逼真的圖像,并用定性的方法和用戶(hù)實(shí)驗(yàn)的方法進(jìn)行了演示;定量測(cè)試則是用生成的數(shù)據(jù)訓(xùn)練模型估計(jì)目光注視方向、估計(jì)手部姿態(tài)。結(jié)果表明,經(jīng)過(guò)模型美化后的生成圖像可以為模型表現(xiàn)帶來(lái)顯著提升,在 MGIIGaze 數(shù)據(jù)集中不依靠任何有標(biāo)注的真實(shí)數(shù)據(jù)就可以取得超過(guò)以往的表現(xiàn)。
論文詳解:上周時(shí)候蘋(píng)果開(kāi)放了自己的機(jī)器學(xué)習(xí)博客“蘋(píng)果機(jī)器學(xué)習(xí)日記”,其中第一篇就是對(duì)這篇獲獎(jiǎng)?wù)撐牡脑斀?,雷鋒網(wǎng) AI 科技評(píng)論編譯文章在這里,歡迎感興趣的讀者詳細(xì)了解。
「Annotating Object Instance with a Polygon-RNN」
論文作者:多倫多大學(xué)計(jì)算機(jī)學(xué)院Llu′?s Castrejon,Kaustav Kundu,Raquel Urtasun,Sanja Fidler
論文地址:https://arxiv.org/abs/1704.05548
論文簡(jiǎn)介:論文中介紹了一種半自動(dòng)的物體標(biāo)注方法。這套系統(tǒng)的思路是,不再像以往一樣把圖像中的物體分割作為一種像素標(biāo)注問(wèn)題,把它看作一個(gè)多邊形位置預(yù)測(cè)問(wèn)題,從而模仿目前已有的標(biāo)注數(shù)據(jù)集的方式生成檢測(cè)標(biāo)注框。具體來(lái)講,論文中的方法在輸入圖像后可以依次生成多邊形的邊把圖像中的物體圍起來(lái)。這個(gè)過(guò)程中,人類(lèi)標(biāo)注員可以隨時(shí)參與并糾正錯(cuò)誤的頂點(diǎn),從而得到人類(lèi)標(biāo)注員眼中盡可能準(zhǔn)確的分割。
根據(jù)論文中的測(cè)試,他們的方法可以在 Cityscapes 的所有類(lèi)別中把標(biāo)注速度提升至4.7倍,同時(shí)還可與原本真值的重合度 IoU 達(dá)到78.4%,與人類(lèi)標(biāo)注者之間的典型重合率相符。對(duì)于車(chē)輛圖像,標(biāo)注速度可以提升至7.3倍,重合度達(dá)到82.2%。論文中也研究了這種方法對(duì)于從未見(jiàn)過(guò)的數(shù)據(jù)集的泛化能力。
「YOLO9000: Better, Faster, Stronger」
論文作者:華盛頓大學(xué),Allen 人工智能學(xué)院的 Joseph Redmon 與 Ali Farhadi
論文地址:https://arxiv.org/abs/1612.08242
論文簡(jiǎn)介:論文中介紹了名為“YOLO9000”的頂級(jí)水平的實(shí)時(shí)物體檢測(cè)系統(tǒng),它可以檢測(cè)的物體種類(lèi)達(dá)到了9000種。論文中首先介紹了對(duì)原始的 YOLO 系統(tǒng)的多方面提升,有些是論文中新提出的方法,有些是從之前別人的成果中借鑒的。提升后的 YOLOv2 模型在 PASCAL VOC 和 COCO 這樣標(biāo)準(zhǔn)的物體檢測(cè)任務(wù)中有頂級(jí)的表現(xiàn)。在使用一個(gè)新的、多尺度訓(xùn)練方法之后,這個(gè) YOLOv2 模型可以處理各種不同的圖像,從而在速度和準(zhǔn)確性之間輕松地取得了平衡。在67FPS下,YOLOv2 可以在 VOC 2007中取得76.8mAP;在40FPS下,分?jǐn)?shù)可以提升為78.6mAP。這樣的準(zhǔn)確率不僅超越了目前最好的帶有 ResNet 和 SSD 的 Faster R-CNN,而且運(yùn)行速度還明顯更快。論文中最后還提出了一種將物體檢測(cè)和物體分類(lèi)合并訓(xùn)練的方法,論文作者們借助這種方法,同時(shí)運(yùn)用物體檢測(cè)數(shù)據(jù)集 COCO 和物體分類(lèi)數(shù)據(jù)集 ImageNet 訓(xùn)練得到了 YOLO9000。有的物體類(lèi)別并沒(méi)有對(duì)應(yīng)的物體檢測(cè)數(shù)據(jù),而合并訓(xùn)練的方法讓 YOLO9000 遇到它們的也時(shí)候也能夠預(yù)測(cè)檢測(cè)結(jié)果。
為了驗(yàn)證方法的效果,論文中進(jìn)行了物體檢測(cè)的驗(yàn)證測(cè)試,YOLO9000 只用了200個(gè)類(lèi)別中44個(gè)類(lèi)別的檢測(cè)數(shù)據(jù),就在 ImageNet 的檢測(cè)驗(yàn)證數(shù)據(jù)集中取得了 19.7mAP;對(duì)于 COCO 中沒(méi)有的156個(gè)類(lèi)別,YOLO9000得到了16.0mAP。不過(guò)YOLO9000能夠檢測(cè)的類(lèi)別遠(yuǎn)不只這200個(gè)類(lèi),它可以預(yù)測(cè)超過(guò)9000個(gè)不同類(lèi)別物體的檢測(cè)結(jié)果,而且仍然可以實(shí)時(shí)運(yùn)行。
「Computational Imaging on the Electric Grid」
論文作者:以色列理工學(xué)院電氣工程學(xué)院 Mark Sheinin、Yoav Y. Schechner,多倫多大學(xué)計(jì)算機(jī)學(xué)院 Kiriakos N. Kutulakos
論文簡(jiǎn)介:夜晚的風(fēng)景隨著交流電照明一起跳動(dòng)。通過(guò)被動(dòng)方式感知這種跳動(dòng),論文中用一種新的方式揭示了夜景中的另一番畫(huà)面:夜景中燈泡的類(lèi)型是哪些、上至城市規(guī)模的供電區(qū)域相位如何,以及光的傳輸矩陣。為了提取這些信息需要先消除燈光的反射和半反射,對(duì)夜景做高動(dòng)態(tài)范圍處理,然后對(duì)圖像采集中未觀(guān)察到的燈泡做場(chǎng)景渲染。最后提到的這個(gè)場(chǎng)景渲染是由一個(gè)包含各種來(lái)源的燈泡響應(yīng)函數(shù)數(shù)據(jù)庫(kù)支持的,論文中進(jìn)行了收集并可以提供給讀者。并且論文中還構(gòu)建了一個(gè)新型的軟件曝光高動(dòng)態(tài)范圍成像技術(shù),專(zhuān)門(mén)用于供電區(qū)域的交流電照明。
Longuet-Higgins 獎(jiǎng)以英國(guó)著名理論化學(xué)家、認(rèn)知科學(xué)家 H. Christopher Longuet-Higgins 的名字命名。該獎(jiǎng)設(shè)立于 2005 年,用以獎(jiǎng)勵(lì)對(duì) CV 研究產(chǎn)生根本性影響的學(xué)術(shù)論文,專(zhuān)門(mén)用來(lái)獎(jiǎng)勵(lì)十年以前在 CVPR 發(fā)表、“經(jīng)得起時(shí)間考驗(yàn)”產(chǎn)生廣泛影響的論文。它是世界上第一個(gè)針對(duì)過(guò)往論文的獎(jiǎng)項(xiàng)。這個(gè)獎(jiǎng)項(xiàng)是由 IEEE 計(jì)算機(jī)協(xié)會(huì)的“模式分析和機(jī)器智能技術(shù)委員會(huì)”TCPAMI 評(píng)選的。
在頒布該獎(jiǎng)項(xiàng)時(shí)還有一個(gè)有意思的花絮——主持人介紹說(shuō),設(shè)立這樣一個(gè)獎(jiǎng)項(xiàng)的初衷,是因?yàn)椤按蠹叶贾?,許多對(duì)學(xué)界貢獻(xiàn)很大、影響力也很大的論文,在當(dāng)年并不是最佳論文?!?/p>
「Object retrieval with large vocabularies and fast spatial matching」
論文作者:牛津大學(xué)科學(xué)工程學(xué)院James Philbin、Ondˇrej Chum、Josef Sivic、Andrew Zisserman,微軟硅谷研究院 Michael Isard
論文地址:https://pdfs.semanticscholar.org/943d/793f6cbbc6551d758c1eefca2a9333bd8921.pdf
論文簡(jiǎn)介:這篇論文介紹了一個(gè)大規(guī)模的物體圖像搜尋系統(tǒng)。系統(tǒng)把用戶(hù)在一副圖片中框選的區(qū)域作為查詢(xún)輸入,然后就可以返回一個(gè)有序列表,其中都是從指定的大數(shù)據(jù)集中找到的含有同一個(gè)物體的圖像。論文中用從 Flickr 上爬超下來(lái)的超過(guò)100萬(wàn)張圖像組成一個(gè)數(shù)據(jù)集,用牛津大學(xué)的地標(biāo)作為查詢(xún)輸入,展示了系統(tǒng)的可拓展性和查詢(xún)性能。
由于數(shù)據(jù)集規(guī)模的原因,實(shí)驗(yàn)過(guò)程中給圖像特征構(gòu)建列表的過(guò)程是時(shí)間和性能的主要瓶頸?;谶@個(gè)問(wèn)題,論文中對(duì)比了不同規(guī)模拓展的方法在構(gòu)建特征列表方面的表現(xiàn),并且介紹了一種全新的基于隨機(jī)樹(shù)的量化方法,這種方法在廣泛的真值中都具有最好的表現(xiàn)。論文中的實(shí)驗(yàn)表明這種量化方法對(duì)搜索結(jié)果質(zhì)量的提高也有重要作用。為了進(jìn)一步提升搜索性能,系統(tǒng)中還增加了一個(gè)高效的空間驗(yàn)證階段來(lái)對(duì)論文中構(gòu)建的這種基于特征列表的方法進(jìn)行重新標(biāo)識(shí),結(jié)果表明它可以穩(wěn)定地提高搜索質(zhì)量,雖然當(dāng)特征列表很大的時(shí)候效果并不顯著。作者們覺(jué)得這篇論文是通往更多圖片、互聯(lián)網(wǎng)規(guī)模的圖像語(yǔ)料庫(kù)的前途光明的一步。
六篇論文打包下載如下鏈接: http://pan.baidu.com/s/1dFgq4d7 密碼: 3t73
更多 CVPR 后續(xù)報(bào)道、更多近期學(xué)術(shù)會(huì)議現(xiàn)場(chǎng)報(bào)道,請(qǐng)繼續(xù)關(guān)注 雷鋒網(wǎng) AI 科技評(píng)論。
相關(guān)文章:
CVPR最有趣的5篇論文,不容錯(cuò)過(guò)!內(nèi)含最佳學(xué)生論文! | CVPR2017
CVPR現(xiàn)場(chǎng)直擊:一文盡覽最頂級(jí)的CV+學(xué)術(shù)盛會(huì)!| CVPR 2017
騰訊 AI Lab入選 CVPR 的六篇論文逐一看 | CVPR 2017
CVPR 獲獎(jiǎng)?wù)撐墓迹O(píng)果斬獲最佳論文!| CVPR 2017
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章