丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

騰訊 AI Lab 21 篇 CVPR 2018 錄用論文詳解

本文作者: 奕欣 2018-03-21 15:53 專(zhuān)題:CVPR 2018
導(dǎo)語(yǔ):雷鋒網(wǎng) AI 科技評(píng)論按:CVPR 2018 日前已公布錄用名單,騰訊 AI Lab 共有 21 篇論文入選。本文轉(zhuǎn)載于「騰訊 AI 實(shí)驗(yàn)室」,雷鋒網(wǎng) AI 科
論文
名稱(chēng):CVPR
時(shí)間:2018
企業(yè):騰訊

雷鋒網(wǎng) AI 科技評(píng)論按:CVPR 2018 日前已公布錄用名單,騰訊 AI Lab 共有 21 篇論文入選。本文轉(zhuǎn)載于「騰訊 AI 實(shí)驗(yàn)室」,雷鋒網(wǎng) AI 科技評(píng)論經(jīng)授權(quán)轉(zhuǎn)載。

近十年來(lái)在國(guó)際計(jì)算機(jī)視覺(jué)領(lǐng)域最具影響力、研究?jī)?nèi)容最全面的頂級(jí)學(xué)術(shù)會(huì)議 CVPR,近日揭曉 2018 年收錄論文名單,騰訊 AI Lab 共有 21 篇論文入選,位居國(guó)內(nèi)企業(yè)前列,我們將在下文進(jìn)行詳解,歡迎交流與討論。

去年 CVPR 的論文錄取率為 29%,騰訊 AI Lab 共有 6 篇論文入選。2017 年,騰訊 AI Lab 共有 100 多篇論文發(fā)表在 AI 頂級(jí)會(huì)議上,包括 ICML(4 篇)、ACL(3 篇)、NIPS(8 篇)等。

我們還堅(jiān)持與學(xué)界、企業(yè)界和行業(yè)「共享 AI+未來(lái)」,已與美國(guó)麻省理工大學(xué)、英國(guó)牛津大學(xué)、香港科技大學(xué)、香港中文大學(xué)等多所海內(nèi)外知名院校開(kāi)展學(xué)術(shù)合作,并通過(guò)年度學(xué)術(shù)論壇、聯(lián)合研究、訪問(wèn)學(xué)者、博士生及研究生獎(jiǎng)學(xué)金等多種形式,推動(dòng)前沿研究探索、應(yīng)用與人才培養(yǎng)。

計(jì)算機(jī)視覺(jué)未來(lái)方向與挑戰(zhàn)

計(jì)算機(jī)視覺(jué)(Computer Vision)的未來(lái),就是多媒體 AI 崛起,機(jī)器之眼被慢慢打開(kāi)的未來(lái)。多媒體有的時(shí)候又稱(chēng)為富媒體,是對(duì)圖像、語(yǔ)音、動(dòng)畫(huà)和交互信息的統(tǒng)稱(chēng)。多媒體 AI 就是對(duì)這些所有內(nèi)容的智能處理。一份國(guó)際報(bào)告顯示,到 2021 年,視頻將占全球個(gè)人互聯(lián)網(wǎng)流量的比例,將從 15 年的 70% 增長(zhǎng)到 82%,成為信息的主要載體。目前我們計(jì)算機(jī)視覺(jué)中心的工作重點(diǎn),從以往單純的圖像轉(zhuǎn)向視頻 AI,研究視頻的編輯、理解、分析和生成等。

  • 第一個(gè)方向是研究如何讓 AI 理解視頻中更深層、更細(xì)節(jié)的信息,分析視頻里人物與人物間、人物與物體間,到物體與場(chǎng)景間的具體關(guān)系,這是業(yè)界熱門(mén)且亟待突破的研究方向。

  • 第二個(gè)方向,不僅要研究視覺(jué)信號(hào),還著眼于多模態(tài)信息,如計(jì)算機(jī)視覺(jué)加文本、加語(yǔ)音等信號(hào)的結(jié)合。比如視覺(jué)+文本上,我們的圖像與視頻描述生成技術(shù)已有一定進(jìn)展。

  • 第三個(gè)方向是多媒體 AI 在垂直領(lǐng)域的應(yīng)用。如在機(jī)器人領(lǐng)域,用視覺(jué)信息讓 AI 感知周?chē)澜?,?gòu)建整個(gè)空間信息,進(jìn)行導(dǎo)航和避障等操作。在醫(yī)療領(lǐng)域,分析醫(yī)療影像數(shù)據(jù),結(jié)合病歷文本信息等,讓 AI 深入?yún)⑴c到輔助診療中。

這個(gè)領(lǐng)域的未來(lái)挑戰(zhàn),更多是對(duì)具體應(yīng)用場(chǎng)景,比如安防、無(wú)人駕駛等難度大的具體應(yīng)用場(chǎng)景,進(jìn)行更細(xì)致規(guī)劃和技術(shù)延伸。

騰訊 AI Lab 21 篇入選論文詳解

1. 基于遞歸的左右雙目對(duì)比模型的立體匹配

Left-Right Comparative Recurrent Model for Stereo Matching

本文由 AI Lab 主導(dǎo)完成。充分利用左右雙目的視差信息對(duì)于立體視差估計(jì)問(wèn)題非常關(guān)鍵。左右一致性檢測(cè)是通過(guò)參考對(duì)側(cè)信息來(lái)提高視差估計(jì)質(zhì)量的有效方法。然而,傳統(tǒng)的左右一致性檢測(cè)是孤立的后處理過(guò)程,而且重度依賴(lài)手工設(shè)計(jì)。本文提出了一種全新的左右雙目對(duì)比的遞歸模型,同時(shí)實(shí)現(xiàn)左右一致性檢測(cè)和視差估計(jì)。在每個(gè)遞歸步上,模型同時(shí)為雙目預(yù)測(cè)視差結(jié)果,然后進(jìn)行在線左右雙目對(duì)比并識(shí)別出很可能預(yù)測(cè)錯(cuò)誤的左右不匹配區(qū)域。本文提出了一種「軟注意力機(jī)制」更好地利用學(xué)習(xí)到的誤差圖來(lái)指導(dǎo)模型在下一步預(yù)測(cè)中有針對(duì)性地修正更新低置信度的區(qū)域。通過(guò)這種左右對(duì)比的遞歸模型,生成的視差圖質(zhì)量能夠不斷提高。在 KITTI 2015、Scene Flow 和 Middlebury 標(biāo)準(zhǔn)庫(kù)上的實(shí)驗(yàn)驗(yàn)證了本方法的有效性,并顯示本方法能取得最高的立體匹配視差估計(jì)性能。

2. MRF 中的 CNN:基于內(nèi)嵌 CNN 的高階時(shí)空 MRF 的視頻對(duì)象分割

CNN in MRF: Video Object Segmentation via Inference in A CNN-Based Higher-Order Spatio-Temporal MRF

本文由 AI Lab 獨(dú)立完成。本文討論了視頻對(duì)象分割的問(wèn)題,其中輸入視頻的第一幀初始對(duì)象的掩膜是給定的。作者提出了一個(gè)新的時(shí)空馬爾可夫隨機(jī)場(chǎng)(MRF)模型來(lái)解決問(wèn)題。與傳統(tǒng)的 MRF 模型不同,作者提出的模型中像素之間的空間相關(guān)性由卷積神經(jīng)網(wǎng)絡(luò)(CNN)編碼。具體而言,對(duì)于給定的對(duì)象,可以通過(guò)用該對(duì)象預(yù)先訓(xùn)練的 CNN 來(lái)預(yù)測(cè)一組空間相鄰像素進(jìn)行分割標(biāo)記的概率。因此,集合中像素之間的更高階更豐富的依賴(lài)關(guān)系可以由 CNN 隱式建模。然后通過(guò)光流建立時(shí)間依賴(lài)關(guān)系,所得到的 MRF 模型結(jié)合了用于解決視頻對(duì)象分割的空間和時(shí)間線索。然而,由于其中非常高階的依賴(lài)關(guān)系,在 MRF 模型中執(zhí)行推理非常困難。為此,作者提出了一種新穎的嵌入 CNN 的近似算法來(lái)有效地執(zhí)行 MRF 模型中的推理。該算法通過(guò)迭代交替執(zhí)行兩個(gè)步驟:時(shí)間融合步驟和前饋 CNN 步驟。通過(guò)使用一種簡(jiǎn)單的基于外觀的分割 CNN 進(jìn)行初始化,作者提出的模型性能超過(guò)了 DAVIS 2017 挑戰(zhàn)賽的獲獎(jiǎng)方法,而無(wú)需借助模型集成或任何專(zhuān)用檢測(cè)器。

3. CosFace: 面向深度人臉識(shí)別的增強(qiáng)邊緣余弦損失函數(shù)設(shè)計(jì)

CosFace: Large Margin Cosine Loss for Deep Face Recognition

本文由 AI Lab 獨(dú)立完成。由于深度卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的研究進(jìn)展,人臉識(shí)別已經(jīng)取得了革命性的進(jìn)展。人臉識(shí)別的核心任務(wù)包括人臉驗(yàn)證和人臉辨識(shí)。然而,在傳統(tǒng)意義上的深度卷積神經(jīng)網(wǎng)絡(luò)的 softmax 代價(jià)函數(shù)的監(jiān)督下,所學(xué)習(xí)的模型通常缺乏足夠的判別性。為了解決這一問(wèn)題,近期一系列損失函數(shù)被提出來(lái),如 Center Loss,L-Softmax,A-Softmax。所有這些改進(jìn)算法都基于一個(gè)核心思想:增強(qiáng)類(lèi)間差異并且減小類(lèi)內(nèi)差異。

在本文中,作者從一個(gè)新的角度來(lái)解決這個(gè)問(wèn)題,并設(shè)計(jì)了一個(gè)新的損失函數(shù),即增強(qiáng)邊緣余弦損失函數(shù) (LMCL)。更具體地說(shuō),通過(guò)對(duì)特征向量和權(quán)向量的 L2 歸一化,把 softmax 損失函數(shù)轉(zhuǎn)化為余弦損失函數(shù),這樣做消除了半徑方向的變化,并在此基礎(chǔ)上引入了一個(gè)余弦邊界值 m 來(lái)進(jìn)一步最大化所學(xué)習(xí)的特征在角度空間的決策間距。因此,采用這種歸一化和增強(qiáng)余弦決策邊距的方法,能夠更有效的起到最大化類(lèi)間差異和最小化類(lèi)內(nèi)差異的作用。作者在最權(quán)威的人臉公開(kāi)測(cè)試集上進(jìn)行了實(shí)驗(yàn)評(píng)估,這些測(cè)試集包括 MegaFace Challenge, Youtube Faces (YTF),和 Labeled Face in the Wild (LFW),取得了極其優(yōu)異的性能,驗(yàn)證了研發(fā)的新方法的有效性。

4. 類(lèi)人化標(biāo)注:多樣性和獨(dú)特性圖像標(biāo)注

Tagging like Humans: Diverse and Distinct Image Annotation

本文由 AI Lab 主導(dǎo)完成。作者提出了一種全新的自動(dòng)圖像標(biāo)注的生成式模型,名為多樣性和獨(dú)特性圖像標(biāo)注(D2IA)。受到人類(lèi)標(biāo)注集成的啟發(fā),D2IA 將產(chǎn)生語(yǔ)義相關(guān),獨(dú)特且多樣性的標(biāo)簽。第一步,利用基于行列式點(diǎn)過(guò)程(DPP)的序列采樣,產(chǎn)生一個(gè)標(biāo)簽子集,使得子集中的每個(gè)標(biāo)簽與圖像內(nèi)容相關(guān),且標(biāo)簽之間語(yǔ)義上是獨(dú)特的(即沒(méi)有語(yǔ)義冗余)。第二步,對(duì) DPP 模型加上隨機(jī)擾動(dòng)得到不同的概率分布,進(jìn)而可以通過(guò)第一步中的序列采樣產(chǎn)生多個(gè)不同的標(biāo)簽子集。作者利用生成對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)訓(xùn)練 D2IA,在兩個(gè)基準(zhǔn)數(shù)據(jù)集上開(kāi)展了充分的實(shí)驗(yàn),包括定量和定性的對(duì)比,以及人類(lèi)主觀測(cè)試。實(shí)驗(yàn)結(jié)果說(shuō)明,相對(duì)于目前最先進(jìn)的自動(dòng)圖像標(biāo)注方法,本文的方法可以產(chǎn)生更加多樣和獨(dú)特的標(biāo)簽。

5. 用當(dāng)前重構(gòu)過(guò)去的正則化 RNN 的描述生成

Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present

本文由 AI Lab 主導(dǎo)完成。近年來(lái),基于編碼-解碼框架的描述生成技術(shù)被廣泛的研究并應(yīng)用于不同的領(lǐng)域,如圖像的描述生成和代碼的注釋生成等。本文提出了一種新的名為自動(dòng)重構(gòu)網(wǎng)絡(luò)(ARNet)的框架,這種框架可以與傳統(tǒng)的編解碼框架相結(jié)合,并以端到端的方式對(duì)輸入數(shù)據(jù)生成描述。ARNet 使用 RNN 中當(dāng)前時(shí)刻的隱狀態(tài)去重構(gòu)前一個(gè)時(shí)刻的隱狀態(tài),基于此,ARNet 可以鼓勵(lì)當(dāng)前時(shí)刻的隱狀態(tài)去包含前一個(gè)時(shí)刻隱狀態(tài)的更多信息,同時(shí)這樣可以對(duì) RNN 中的隱狀態(tài)的變化起到正則化的作用。實(shí)驗(yàn)表明,本文所提出的 ARNet 在圖像描述和代碼注釋任務(wù)上可以提高現(xiàn)今編解碼網(wǎng)絡(luò)的性能。另外,ARNet 可以顯著地緩解描述生成技術(shù)中訓(xùn)練過(guò)程與推斷過(guò)程的不一致的問(wèn)題。

6. 視頻描述的重構(gòu)網(wǎng)絡(luò)

Reconstruction Network for Video Captioning

本文由 AI Lab 主導(dǎo)完成。在論文中,利用自然語(yǔ)言描述視頻序列的視覺(jué)內(nèi)容使這個(gè)問(wèn)題得到解決。不同于以前的視頻生成描述工作,主要利用視頻內(nèi)容中的線索生成語(yǔ)言描述,本文提出一個(gè)重構(gòu)網(wǎng)絡(luò)(RecNet)和編碼器-解碼器-重構(gòu)器結(jié)構(gòu),該結(jié)構(gòu)可同時(shí)利用前向信息流(從視頻到語(yǔ)句)和后向信息流(從語(yǔ)句到視頻)生成視頻描述。具體來(lái)說(shuō),編碼器 - 解碼器利用前向信息流產(chǎn)生基于被編碼視頻語(yǔ)義特征的句子描述。作者設(shè)計(jì)了兩種重構(gòu)器來(lái)利用后向信息流,基于解碼器的隱藏狀態(tài)序列重構(gòu)視頻特征。由編碼器 - 解碼器得到的傳統(tǒng)損失和由重構(gòu)器造成的重構(gòu)損失以端到端的形式聯(lián)合訓(xùn)練 RecNet。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提出的重構(gòu)器可以增強(qiáng)編碼器 - 解碼器模型性能,并可顯著提高視頻描述的準(zhǔn)確性。

7. 面向視頻理解的端到端動(dòng)作表示學(xué)習(xí)

End-to-End Learning of Motion Representation for Video Understanding

本文由 AI Lab 主導(dǎo)完成,并入選 Spotlight 文章。盡管端到端的特征學(xué)習(xí)已經(jīng)取得了重要的進(jìn)展,但是人工設(shè)計(jì)的光流特征仍然被廣泛用于各類(lèi)視頻分析任務(wù)中。為了彌補(bǔ)這個(gè)不足,作者創(chuàng)造性地提出了一個(gè)能從數(shù)據(jù)中學(xué)習(xí)出類(lèi)光流特征并且能進(jìn)行端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò):TVNet。當(dāng)前,TV-L1 方法通過(guò)優(yōu)化方法來(lái)求解光流,是最常用的方法之一。作者發(fā)現(xiàn),把 TV-L1 的每一步迭代通過(guò)特定設(shè)計(jì)翻譯成神經(jīng)網(wǎng)絡(luò)的某一層,就能得到 TVNet 的初始版本。因此,TVNet 能無(wú)需訓(xùn)練就能被直接使用。更重要的是,TVNet 能被嫁接到任何分類(lèi)神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建從數(shù)據(jù)端到任務(wù)端的統(tǒng)一結(jié)構(gòu),從而避免了傳統(tǒng)多階段方法中需要預(yù)計(jì)算、預(yù)存儲(chǔ)光流的需要。最后,TVNet 的某些參數(shù)是可以被通過(guò)端到端訓(xùn)練來(lái)進(jìn)一步優(yōu)化,這有助于 TVNet 學(xué)習(xí)出更豐富以及與任務(wù)更相關(guān)的特征而不僅僅是光流。在兩個(gè)動(dòng)作識(shí)別的標(biāo)準(zhǔn)數(shù)據(jù)集 HMDB51 和 UCF101 上,該方法取得了比同類(lèi)方法更好的分類(lèi)結(jié)果。與 TV-L1 相比,TVNet 在節(jié)省光流提取時(shí)間和存儲(chǔ)空間的基礎(chǔ)上,明顯提高了識(shí)別精度。

8. 基于門(mén)限融合網(wǎng)絡(luò)的圖像去霧方法

Gated Fusion Network for Single Image Dehazing

本文與中國(guó)科學(xué)院信息工程研究所、加州大學(xué)默賽德分校等合作完成。本文提出一種基于門(mén)限融合網(wǎng)絡(luò)的霧霾圖像的復(fù)原方法。該門(mén)限融合網(wǎng)絡(luò)由一個(gè)編碼解碼網(wǎng)絡(luò)構(gòu)成。其中,編碼網(wǎng)絡(luò)用于對(duì)霧霾圖像本身及其多種變換圖像進(jìn)行特征編碼,解碼網(wǎng)絡(luò)則用于估計(jì)這些變換圖像對(duì)應(yīng)的權(quán)重。具體而言,對(duì)一張霧霾圖像,作者對(duì)其進(jìn)行多種變換,包括圖像白平衡、對(duì)比度增強(qiáng)和伽馬矯正等操作提取圖像內(nèi)部的不同顏色或?qū)Ρ榷忍卣?,然后將得到的變換圖像輸入到門(mén)限融合卷積神經(jīng)網(wǎng)絡(luò)中,利用神經(jīng)網(wǎng)絡(luò)對(duì)霧霾圖像的每個(gè)變換圖像估計(jì)一個(gè)權(quán)重矩陣,再利用權(quán)重矩陣對(duì)所有的變換圖像進(jìn)行融合獲得最終的去霧結(jié)果圖。另外,為了去除恢復(fù)結(jié)果中容易出現(xiàn)的光圈效應(yīng),作者提出了多尺度門(mén)限融合網(wǎng)絡(luò),可以有效增加網(wǎng)絡(luò)感知野并減少光圈效應(yīng)。在大量合成圖片和真實(shí)圖片上的實(shí)驗(yàn)證明作者提出的方法可以有效恢復(fù)霧霾圖像的細(xì)節(jié)信息。

9. 基于雙向注意融合機(jī)制和上下文門(mén)控的密集視頻描述

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

本文由 AI Lab 主導(dǎo)完成。密集視頻描述是一個(gè)時(shí)下剛興起的課題,旨在同時(shí)定位并用自然語(yǔ)言描述一個(gè)長(zhǎng)視頻中發(fā)生的所有事件或行為。在這個(gè)任務(wù)中,本文明確并解決了兩個(gè)挑戰(zhàn),即:(1)如何利用好過(guò)去和未來(lái)的信息以便更精確地定位出事件,(2)如何給解碼器輸入有效的視覺(jué)信息,以便更準(zhǔn)確地生成針對(duì)該事件的自然語(yǔ)言描述。第一,過(guò)去的工作集中在從正向(視頻從開(kāi)頭往結(jié)尾的方向)生成事件候選區(qū)間,而忽視了同樣關(guān)鍵的未來(lái)信息。作者引入了一種雙向提取事件候選區(qū)間的方法,同時(shí)利用了過(guò)去和未來(lái)的信息,從而更有效地進(jìn)行事件定位。第二,過(guò)去的方法無(wú)法區(qū)分結(jié)束時(shí)間相近的事件,即給出的描述是相同的。為了解決這個(gè)問(wèn)題,作者通過(guò)注意力機(jī)制將事件定位模塊中的隱狀態(tài)與視頻原始內(nèi)容(例如,視頻 C3D 特征)結(jié)合起來(lái)表征當(dāng)前的事件。進(jìn)一步地,作者提出一種新穎的上下文門(mén)控機(jī)制來(lái)平衡當(dāng)前事件內(nèi)容和它的上下文對(duì)生成文字描述的貢獻(xiàn)。作者通過(guò)大量的實(shí)驗(yàn)證明了所提出的注意力融合的事件表征方式相比于單獨(dú)地使用隱狀態(tài)或視頻內(nèi)容的表征方式要表現(xiàn)得更好。通過(guò)將事件定位模塊和事件描述模塊統(tǒng)一到一個(gè)框架中,本文的方法在 ActivityNet Captions 數(shù)據(jù)庫(kù)上超過(guò)了之前最好的方法,相對(duì)性能提升 100%(Meteor 分?jǐn)?shù)從 4.82 到 9.65)。

10. 基于多階段生成對(duì)抗網(wǎng)的延時(shí)攝影視頻的生成

Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks

本文由 AI Lab 主導(dǎo)完成。在戶(hù)外拍攝一張照片之后,我們可以預(yù)測(cè)照片里面接下來(lái)發(fā)生的事情嗎?比如,云彩會(huì)怎么移動(dòng)?作者通過(guò)展示一個(gè)兩階段的生成對(duì)抗網(wǎng)來(lái)生成逼真的延時(shí)攝影視頻對(duì)這個(gè)問(wèn)題進(jìn)行了回答。給定第一幀圖像,本文的模型可以預(yù)測(cè)未來(lái)幀。在其兩階段模型里面,第一個(gè)階段生成具有逼真內(nèi)容的延時(shí)攝影視頻。第二個(gè)階段對(duì)第一個(gè)階段的結(jié)果進(jìn)行優(yōu)化,主要體現(xiàn)在增加動(dòng)態(tài)的運(yùn)動(dòng)信息,使之與真實(shí)的延時(shí)攝影視頻更加接近。為了使最終生成的視頻具有生動(dòng)的運(yùn)動(dòng)信息,作者引入格拉姆矩陣來(lái)更加精確地描述運(yùn)動(dòng)信息。作者建立了一個(gè)大規(guī)模的延時(shí)攝影視頻數(shù)據(jù)集,并且在這個(gè)數(shù)據(jù)集上面測(cè)試了其方法。通過(guò)使用該模型,可以生成分辨率為 128x128,多達(dá) 32 幀的逼真的延時(shí)攝影視頻。定性和定量實(shí)驗(yàn)都證明該方法相比已有最好模型的優(yōu)越性。

11. VITAL:對(duì)抗式學(xué)習(xí)之視覺(jué)跟蹤

VITAL: VIsual Tracking via Adversarial Learning

本文與澳大利亞阿德萊德大學(xué)、香港城市大學(xué)、加州大學(xué)默賽德分校等合作完成?,F(xiàn)有的檢測(cè)式跟蹤的框架由兩個(gè)階段組成,即在目標(biāo)物體周?chē)罅坎蓸雍蛯?duì)每個(gè)樣本進(jìn)行正負(fù)分類(lèi)。現(xiàn)有的基于深度學(xué)習(xí)結(jié)構(gòu)的檢測(cè)式跟蹤的效果受限于兩個(gè)問(wèn)題。第一,每一幀中正樣本高度重疊,他們無(wú)法捕獲物體豐富的變化表征。第二,正負(fù)樣本之間存在嚴(yán)重的不均衡分布的問(wèn)題。本文提出 VITAL 這個(gè)算法來(lái)解決這兩個(gè)問(wèn)題。為了豐富正樣本,作者采用生成式網(wǎng)絡(luò)來(lái)隨機(jī)生成遮罩。這些遮罩作用在輸入特征上來(lái)捕獲目標(biāo)物體的一系列變化。在對(duì)抗學(xué)習(xí)的作用下,作者的網(wǎng)絡(luò)能夠識(shí)別出在整個(gè)時(shí)序中哪一種遮罩保留了目標(biāo)物體的魯邦性特征。與此同時(shí),在解決正負(fù)樣本不均衡的問(wèn)題中,本文提出了一個(gè)高階敏感損失來(lái)減小簡(jiǎn)單負(fù)樣本對(duì)于分類(lèi)器訓(xùn)練的影響。在標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)中大量的實(shí)驗(yàn)證明,本文提出的跟蹤器優(yōu)于目前已有的方法。

12. 再訪空洞卷積: 一種簡(jiǎn)單的弱監(jiān)督和半監(jiān)督語(yǔ)義分割方法

Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation

本文與美國(guó)伊利諾伊大學(xué)香檳分校、新加坡國(guó)立大學(xué)合作完成。盡管弱監(jiān)督語(yǔ)義分割已經(jīng)取得了突出的進(jìn)展,但相比于全監(jiān)督的語(yǔ)義分割,弱監(jiān)督語(yǔ)義分割效果依然不理想。作者觀察到這其中的效果差距主要來(lái)自于僅僅依靠圖像級(jí)別的標(biāo)注,無(wú)法得到密集完整的像素級(jí)別的物體位置信息用來(lái)訓(xùn)練分割模型。本文重新探索空洞卷積并且闡明了它如何使分類(lèi)網(wǎng)絡(luò)生成密集的物體定位信息。通過(guò)依靠不同的倍率的空洞卷積來(lái)顯著增大卷積核的感受野,分類(lèi)網(wǎng)絡(luò)能定位物體的非判別性區(qū)域,最終產(chǎn)生可靠的物體區(qū)域,有助于弱監(jiān)督和半監(jiān)督的語(yǔ)義分割。盡管該方法過(guò)程簡(jiǎn)單,但是能取得目前最高的語(yǔ)義分割性能。具體地說(shuō),該方法在弱監(jiān)督語(yǔ)義分割和半監(jiān)督語(yǔ)義分割的情況下,在 Pascal VOC 2012 測(cè)試集上能達(dá)到目前最高的 60.8% 和 67.6% mIOU。

13. 使用語(yǔ)義保持對(duì)抗嵌入網(wǎng)絡(luò)的 zero-shot 視覺(jué)識(shí)別

Zero-Shot Visual Recognition using Semantics-Preserving Adversarial Embedding Networks

本文與南洋理工大學(xué)、哥倫比亞大學(xué)、浙江大學(xué)合作完成。本文提出了一種稱(chēng)為語(yǔ)義保持?jǐn)硨?duì)嵌入網(wǎng)絡(luò)(SP-AEN)的新型框架,用于 zero-shot 視覺(jué)識(shí)別(ZSL),其中測(cè)試圖像及其類(lèi)別在訓(xùn)練期間都是不可見(jiàn)的。SP-AEN 旨在解決固有的問(wèn)題 - 語(yǔ)義丟失 - 在基于嵌入的 ZSL 的流行家族中,如果某些語(yǔ)義在訓(xùn)練期間不好被區(qū)分,則在訓(xùn)練期間會(huì)被丟棄,但是對(duì)測(cè)試樣本是有意義的。具體而言,SP-AEN 通過(guò)引入獨(dú)立的視覺(jué) - 語(yǔ)義空間嵌入來(lái)防止語(yǔ)義損失。該嵌入將語(yǔ)義空間分解為兩個(gè)可爭(zhēng)議相互矛盾的目標(biāo)的兩個(gè)子空間:分類(lèi)和重建。通過(guò)對(duì)這兩個(gè)子空間的對(duì)抗學(xué)習(xí),SP-AEN 可以將重構(gòu)子空間的語(yǔ)義轉(zhuǎn)移到可區(qū)分子空間,從而實(shí)現(xiàn)對(duì)未見(jiàn)類(lèi)的 zero-shot 識(shí)別。與以前的方法相比,SP-AEN 不僅可以改善分類(lèi)效果,還可以生成照片般真實(shí)的圖像,顯示語(yǔ)義保存的有效性。在 CUB,AWA,SUN 和 aPY 上,SP-AEN 的 harmonic 平均值分別為 12.2%,9.3%,4.0%和 3.6%,明顯優(yōu)于最先進(jìn)的 ZSL 方法。

14. 用于跨模態(tài)檢索的自監(jiān)督對(duì)抗哈希網(wǎng)絡(luò)

Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval

本文與西安電子科技大學(xué)、悉尼大學(xué)合作完成。由于深度學(xué)習(xí)的成功,最近跨模式檢索獲得了顯著改進(jìn)。但是,仍然存在一個(gè)關(guān)鍵的瓶頸,即如何縮小多模態(tài)之間的距離,進(jìn)一步提高檢索的準(zhǔn)確性。本文提出了一種自我監(jiān)督對(duì)抗哈希(SSAH)方法,這是早期試圖將對(duì)抗性學(xué)習(xí)納入以自我監(jiān)督方式的跨模態(tài)哈希研究中。這項(xiàng)工作的主要貢獻(xiàn)是作者采用了幾個(gè)對(duì)抗網(wǎng)絡(luò)來(lái)最大化不同模態(tài)之間的語(yǔ)義相關(guān)性和表示一致性。另外,作者利用自我監(jiān)督的語(yǔ)義網(wǎng)絡(luò)以多標(biāo)簽注釋的形式發(fā)現(xiàn)高級(jí)語(yǔ)義信息,指導(dǎo)特征學(xué)習(xí)過(guò)程以保持共同語(yǔ)義空間和海明空間中的模態(tài)之間的關(guān)系。對(duì)三個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行的大量實(shí)驗(yàn)表明,所提出的 SSAH 優(yōu)于最先進(jìn)的方法。

15. 左右非對(duì)稱(chēng)層跳躍網(wǎng)絡(luò)

Left/Right Asymmetric Layer Skippable Networks

本文與復(fù)旦大學(xué)合作完成。最近的神經(jīng)科學(xué)研究表明,左右大腦在處理低空間頻率和高空間頻率的信息時(shí)是非對(duì)稱(chēng)的。受到這項(xiàng)研究的啟發(fā),作者提出了一種新的左右非對(duì)稱(chēng)層跳躍網(wǎng)絡(luò),用于由粗到精的物體分類(lèi)。該網(wǎng)絡(luò)包含兩個(gè)分支來(lái)同時(shí)處理粗粒度與細(xì)粒度分類(lèi)。同時(shí),作者首次提出了層跳躍機(jī)制,它學(xué)習(xí)了一個(gè)門(mén)控網(wǎng)絡(luò)來(lái)決定是否在測(cè)試階段來(lái)略過(guò)某些層。層跳躍機(jī)制賦予了該網(wǎng)絡(luò)更好的靈活性以及更大的容量。作者在多種常用數(shù)據(jù)庫(kù)上進(jìn)行了測(cè)試,結(jié)果表明該網(wǎng)絡(luò)在處理由粗到精的物體分類(lèi)問(wèn)題上優(yōu)于其他方法。

16. 利用空間變化循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)動(dòng)態(tài)場(chǎng)景去模糊

Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks

本文與南京理工大學(xué)、加州大學(xué)默塞德分校等合作完成。由于相機(jī)抖動(dòng),景深和物體運(yùn)動(dòng),動(dòng)態(tài)場(chǎng)景去模糊是空間變化的。已有的利用先驗(yàn)圖像信息或者龐大的深度神經(jīng)網(wǎng)絡(luò)的方法無(wú)法有效地處理這個(gè)問(wèn)題,同時(shí)他們計(jì)算開(kāi)銷(xiāo)很大。與已有的方法不同,作者提出一個(gè)空間變化的神經(jīng)網(wǎng)絡(luò)來(lái)解決動(dòng)態(tài)場(chǎng)景去模糊。作者提出的算法包含了三個(gè)卷積神經(jīng)網(wǎng)絡(luò)和一個(gè)循環(huán)卷積神經(jīng)網(wǎng)絡(luò)。其中卷積神經(jīng)網(wǎng)絡(luò)用來(lái)提取特征,學(xué)習(xí)循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的系數(shù)和圖像重建。在卷積神經(jīng)網(wǎng)絡(luò)抽取的特征指引下,循環(huán)卷積神經(jīng)網(wǎng)絡(luò)恢復(fù)出清晰的圖像。作者的分析表明,該算法具有較大的接受范圍,同時(shí)模型尺寸較小。與此同時(shí),本文分析了空間變化循環(huán)卷積網(wǎng)路和反卷積的關(guān)系。分析表明空間變化循環(huán)卷積網(wǎng)絡(luò)能夠?qū)Ψ淳矸e建模。作者以端到端訓(xùn)練的方式,提出一個(gè)較小的深度學(xué)習(xí)模型,其速度優(yōu)于已有的方法。在標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)上定量和定性的評(píng)估表明該方法在精度,速度和模型大小方面優(yōu)于已有的方法。

17. 利用深度往復(fù)式高動(dòng)態(tài)范圍轉(zhuǎn)換進(jìn)行圖像校正

Image Correction via Deep Reciprocating HDR Transformation

本文與大連理工大學(xué)、香港城市大學(xué)合作完成。圖像校正的目的在于對(duì)一幅輸入圖像進(jìn)行調(diào)整,使其視覺(jué)柔和的同時(shí)在過(guò)曝光和欠曝光的區(qū)域恢復(fù)出圖像細(xì)節(jié)。然而,現(xiàn)有的圖像校正的方法主要依據(jù)于圖像像素操作,使得從過(guò)曝光或者欠曝光區(qū)域恢復(fù)出圖像細(xì)節(jié)十分困難。為此,作者回顧了圖像生成的過(guò)程,并注意到細(xì)節(jié)均保留在高動(dòng)態(tài)區(qū)域中,人眼可感知。然而,在非線性成像生成低動(dòng)態(tài)范圍的過(guò)程中有部分細(xì)節(jié)丟失。基于此發(fā)現(xiàn),作者將圖像修復(fù)問(wèn)題歸為深度往復(fù)式高動(dòng)態(tài)范圍轉(zhuǎn)換的過(guò)程,同時(shí)提出一個(gè)創(chuàng)新的方法——首先從高動(dòng)態(tài)范圍域中恢復(fù)出丟失的細(xì)節(jié),然后將此細(xì)節(jié)轉(zhuǎn)換到低動(dòng)態(tài)范圍的圖像中作為輸出結(jié)果。以這種方式,作者提出一個(gè)端到端的深度往復(fù)式高動(dòng)態(tài)范圍轉(zhuǎn)換模型。該模型由兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)組成,第一個(gè)功能為高動(dòng)態(tài)范圍細(xì)節(jié)重建,另外一個(gè)為低動(dòng)態(tài)范圍細(xì)節(jié)校正。在標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)下的實(shí)驗(yàn)表明,相比于已有的圖像校正方法,作者提出的方法更加有效。

18. 端到端的卷積語(yǔ)義嵌入

End-to-end Convolutional Semantic Embeddings

本文與美國(guó)羅切斯特大學(xué)合作完成。最近已經(jīng)廣泛研究了圖像和句子的語(yǔ)義嵌入。深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)豐富而魯棒的視覺(jué)和文本表示方面的能力為開(kāi)發(fā)有效的語(yǔ)義嵌入模型提供了機(jī)會(huì)。目前,最先進(jìn)的語(yǔ)義學(xué)習(xí)方法首先采用深度神經(jīng)網(wǎng)絡(luò)將圖像和句子編碼到一個(gè)共同的語(yǔ)義空間中。然后,學(xué)習(xí)目標(biāo)是確保匹配圖像和句子對(duì)之間的相似度比隨機(jī)抽樣對(duì)更大。通常,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)分別用于學(xué)習(xí)圖像和句子表示。一方面,已知 CNN 在不同級(jí)別產(chǎn)生強(qiáng)健的視覺(jué)特征,并且 RNN 以捕獲順序數(shù)據(jù)中的依賴(lài)性而聞名。因此,這個(gè)簡(jiǎn)單的框架可以充分有效地學(xué)習(xí)視覺(jué)和文本語(yǔ)義。另一方面,與 CNN 不同,RNN 不能產(chǎn)生中間級(jí)別(例如,文本中的短語(yǔ)級(jí)別)表示。因此,只有全局表示可用于語(yǔ)義學(xué)習(xí)。由于圖像和句子中的層次結(jié)構(gòu),這可能會(huì)限制模型的性能。在這項(xiàng)工作中,作者應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)來(lái)處理圖像和句子。因此,通過(guò)在卷積層上引入新的學(xué)習(xí)目標(biāo),作者可以采用中級(jí)表示來(lái)輔助全局語(yǔ)義學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,本文提出的具有新學(xué)習(xí)目標(biāo)的文本 CNN 模型導(dǎo)致比現(xiàn)有技術(shù)方法更好的性能。

19. 一種有效防止負(fù)遷移或?yàn)?zāi)難性遺忘的深度人臉檢測(cè)的自適應(yīng)算法

Deep Face Detector Adaptation without Negative Transfer or Catastrophic Forgetting

本文與美國(guó)弗羅里達(dá)中央大學(xué)、Adobe Research 合作完成。沒(méi)有任何一個(gè)人臉檢測(cè)器能夠適用于所有場(chǎng)景,所以如何使檢測(cè)器自適應(yīng)不同場(chǎng)景從而提高在目標(biāo)場(chǎng)景的準(zhǔn)確率,就變得很有必要。作者提出一種新穎的針對(duì)深度人臉檢測(cè)器的自適應(yīng)算法。給定目標(biāo)域的代表性的圖像,無(wú)論它們是否被標(biāo)記,該算法都能夠有效的將檢測(cè)器針對(duì)目標(biāo)域進(jìn)行優(yōu)化。這個(gè)過(guò)程不需要存儲(chǔ)任何源域的數(shù)據(jù)——原來(lái)用以訓(xùn)練檢測(cè)器的數(shù)據(jù)。作者設(shè)計(jì)了一種殘差目標(biāo)函數(shù)來(lái)顯式的避免在遷移學(xué)習(xí)中臭名昭著的負(fù)轉(zhuǎn)移問(wèn)題。與此同時(shí),它不會(huì)對(duì)來(lái)自源域的知識(shí)造成災(zāi)難性的干擾或遺忘,使得自適應(yīng)以后的人臉檢測(cè)器不僅在目標(biāo)域的準(zhǔn)確率更高,并且在源域中與原始檢測(cè)器保持大致相同的性能。從某種角度看,該方法和很流行的自然語(yǔ)言模型插值技術(shù)有一定相似,它有可能開(kāi)創(chuàng)一個(gè)新的方向:如何從不同域的數(shù)據(jù)逐步訓(xùn)練好的人臉檢測(cè)器。作者報(bào)告了廣泛的實(shí)驗(yàn)結(jié)果,以驗(yàn)證在兩種深度人臉檢測(cè)器上的效果。

20. 基于幾何指導(dǎo)下的卷積神經(jīng)網(wǎng)絡(luò)的視頻表征自監(jiān)督學(xué)習(xí)

Geometry-Guided CNN for Self-supervised Video Representation learning

本文與清華大學(xué)、北京郵電大學(xué)、加州大學(xué)圣地亞哥分校、斯坦福大學(xué)合作完成。人工標(biāo)注視頻以訓(xùn)練高質(zhì)量的視頻識(shí)別模型通常費(fèi)力且昂貴,因此,在學(xué)習(xí)視頻表征的方向上,已經(jīng)有一些興趣和工作來(lái)探索不需要人工監(jiān)督的、有噪聲的、和間接的訓(xùn)練信號(hào)。然而,這些信號(hào)往往很粗糙——為整段視頻提供監(jiān)督,或者很微弱——比如強(qiáng)制機(jī)器解決對(duì)人來(lái)說(shuō)都很難的識(shí)別問(wèn)題。在本文中,作者改為探索不需人工標(biāo)注的幾何信息,這是輔助視頻表征的自監(jiān)督學(xué)習(xí)的一種全新的信號(hào)。作者將像素級(jí)幾何信息從合成圖像里提取為流場(chǎng)或者從 3D 電影里提取為視差圖。雖然幾何和高級(jí)的語(yǔ)義看似不相關(guān),但令人驚訝的是,作者發(fā)現(xiàn)由這些幾何線索訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)可以被有效地應(yīng)用于語(yǔ)義視頻理解的任務(wù)。此外,作者還發(fā)現(xiàn)漸進(jìn)式的訓(xùn)練策略——而不是盲目地將不同的幾何線索源匯集在一起——可以為視頻識(shí)別提供更好的神經(jīng)網(wǎng)絡(luò)。在視頻動(dòng)態(tài)場(chǎng)景識(shí)別和動(dòng)作識(shí)別的結(jié)果表明,作者的幾何指導(dǎo)下的卷積神經(jīng)網(wǎng)絡(luò)明顯優(yōu)于其他類(lèi)型的自監(jiān)督信號(hào)訓(xùn)練的競(jìng)爭(zhēng)方法。

21. 學(xué)習(xí)在黑暗中看世界

Learning to See in the Dark

本文與美國(guó)伊利諾伊大學(xué)香檳分校、Intel Labs 合作完成。在低光照甚至黑暗條件下拍出高質(zhì)量的照片一直是非常有挑戰(zhàn)性的科研問(wèn)題,這主要是由于低光子數(shù)和低信噪比給相機(jī)成像帶來(lái)了很大的困難。曝光時(shí)間過(guò)短會(huì)給圖像帶來(lái)噪點(diǎn),而長(zhǎng)時(shí)間曝光又容易導(dǎo)致圖像模糊,費(fèi)時(shí)費(fèi)力,在現(xiàn)實(shí)中可行性低。傳統(tǒng)算法提出了各種去噪、去模糊和增強(qiáng)技術(shù),但是它們的有效性在極端條件下是非常有限的,例如夜晚的視頻成像。為了支持基于深度學(xué)習(xí)的低光圖像處理流水線的開(kāi)發(fā),作者收集了一個(gè)大規(guī)模的夜間成像數(shù)據(jù)集,它由短曝光夜間圖像以及相應(yīng)的長(zhǎng)曝光參考圖像組成。使用這個(gè)數(shù)據(jù)集,作者開(kāi)發(fā)了一個(gè)基于全卷積網(wǎng)絡(luò)端到端訓(xùn)練的低光圖像處理流水線。該網(wǎng)絡(luò)直接讀入原始傳感器數(shù)據(jù),然后前向輸出一張高清圖像。這個(gè)技術(shù)克服了傳統(tǒng)圖像處理流水線需要多模塊且夜間成像效果差的不足。本文展示了新數(shù)據(jù)集頗具前景的結(jié)果,并分析了影響性能的因素,以及未來(lái)研究的機(jī)會(huì)。

更多關(guān)于 CVPR 2018 的報(bào)道,歡迎關(guān)注雷鋒網(wǎng) AI 科技評(píng)論。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

騰訊 AI Lab 21 篇 CVPR 2018 錄用論文詳解

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)