0
本文作者: 奕欣 | 2018-04-20 14:55 | 專題:CVPR 2018 |
雷鋒網(wǎng) AI 科技評論按:CVPR 2018 總投稿量超 4000 篇,最終錄取數(shù)超 900 篇,錄取率不到 23%。其中,優(yōu)必選悉尼 AI 研究院有 4 篇論文被錄用為 poster。論文詳細(xì)解讀如下:
論文1:An Efficient and Provable Approach for Mixture Proportion Estimation Using Linear Independence Assumption
為了研究混合分布中各個組成分別的比例系數(shù),假設(shè)各個組成分布滿足線性獨立的假設(shè)(即不存在一種組合系數(shù),使得這些組成分布的線性組合所得到的分布函數(shù)處處為0),并且假設(shè)每個組成分布中都可以采樣到少量的數(shù)據(jù)。首先論證了組成分布線性獨立(組成分布不相同即可)的假設(shè)要弱于現(xiàn)有的估計其比例方法的各種假設(shè)。其次,提出先將各個分布嵌入到再生核Hilbert空間,再利用最大平均差異的方法求取各組成分布的比例系數(shù)。該方法能夠(1)保證比例系數(shù)的唯一性和可識別性;(2)保證估計的比例系數(shù)能夠收斂到最優(yōu)解,而且收斂率不依賴于數(shù)據(jù)本身;(3) 通過求解一個簡單的二次規(guī)劃問題來快速獲取比例系數(shù)。這項研究擁有廣泛的應(yīng)用背景,比如含有噪聲標(biāo)簽的學(xué)習(xí),半監(jiān)督學(xué)習(xí)等等。
論文2:Deep Ordinal Regression Network for Monocular Depth Estimation
在3D視覺感知主題里,單目圖像深度估計是一個重要并且艱難的任務(wù)。雖然目前的方法已經(jīng)取得了一些不錯的成績,但是這些方法普遍忽略了深度間固有的有序關(guān)系。針對這一問題,我們提出在模型中引入排序機制來幫助更準(zhǔn)確地估計圖像的深度信息。具體來說,我們首先將真值深度(ground-truth depth)按照區(qū)間遞增的方法預(yù)分為許多深度子區(qū)間;然后設(shè)計了一個像素到像素的有序回歸(ordinal regression)損失函數(shù)來模擬這些深度子區(qū)間的有序關(guān)系。在網(wǎng)絡(luò)結(jié)構(gòu)方面,不同于傳統(tǒng)的編碼解碼 (encoder-decoder)深度估計網(wǎng)絡(luò), 我們采用洞卷積 (dilated convolution)型網(wǎng)絡(luò)來更好地提取多尺度特征和獲取高分辨率深度圖。另外,我們借鑒全局池化和全連接操作,提出了一個有效的全局信息學(xué)習(xí)器。我們的方法在KITTI,NYUV2和Make3D三個數(shù)據(jù)集上都實現(xiàn)了當(dāng)前最佳的結(jié)果。并且在KITTI新開的測試服務(wù)器上取得了比官方baseline高出30%~70%的分?jǐn)?shù)。
論文3:Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval
由于深度學(xué)習(xí)的成功,最近跨模態(tài)檢索獲得了顯著發(fā)展。但是,仍然存在一個關(guān)鍵的瓶頸,即如何縮小多模態(tài)之間的模態(tài)差異,進一步提高檢索精度。本文提出了一種自我監(jiān)督對抗哈希(SSAH)方法。這種將對抗學(xué)習(xí)以自我監(jiān)督的方式引入跨模態(tài)哈希研究,目前還處于研究早期。這項工作的主要貢獻是采用了一組對抗網(wǎng)絡(luò)來最大化不同模態(tài)之間的語義相關(guān)性和表示一致性。另外,作者還設(shè)計了一個自我監(jiān)督的語義網(wǎng)絡(luò),這個網(wǎng)絡(luò)針對多標(biāo)簽信息進一步挖掘高層語義信息,使用得到的語義信息作為監(jiān)督來指導(dǎo)不同模態(tài)的特征學(xué)習(xí)過程,以此,模態(tài)間的相似關(guān)系可以同時在共同語義空間和海明空間兩個空間內(nèi)得以保持,有效地減小了模態(tài)之間的差異,進而產(chǎn)生精確的哈希碼,提高檢索精度。在三個基準(zhǔn)數(shù)據(jù)集上進行的大量實驗表明所提出的 SSAH 優(yōu)于最先進的方法。
論文4:Geometry-Aware Scene Text Detection with Instance Transformation Network
自然場景文字識別由于其文字外形、布局十分多變,是計算機視覺中具有挑戰(zhàn)性的問題。在本文中,我們提出了幾何感知建模方法(geometry-aware modeling)和端對端學(xué)習(xí)機制(end-to-end learning scheme)來處理場景文字編碼的問題。我們提出了一種新的實例轉(zhuǎn)換網(wǎng)絡(luò)(instance transformation network),使用網(wǎng)內(nèi)變換嵌入的方法學(xué)習(xí)幾何感知編碼,從而實現(xiàn)一次通過的文本檢測。新的實例變換網(wǎng)絡(luò)采用了轉(zhuǎn)換回歸,文本和非文本分類和坐標(biāo)回歸的端對端多任務(wù)學(xué)習(xí)策略?;鶞?zhǔn)數(shù)據(jù)集上的實驗表明了所提方法在多種幾何構(gòu)型下的有效性。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。