丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

【重磅整理】ECCV 2020 亮點(diǎn)摘要

本文作者: AI研習(xí)社-譯站 2020-12-28 18:24
導(dǎo)語:ECCV 2020 堪稱“史上最難ECCV” ,有效投稿5025,一共有1361篇論文入選,錄取率僅為27%。

譯者:AI研習(xí)社(Champagne Jin季一帆

雙語原文鏈接:ECCV 2020: Some Highlights


2020年歐洲計(jì)算機(jī)視覺會(huì)議(ECCV)于8月23日至28日在線舉行。本次會(huì)議共接收1360篇論文,包括104場(chǎng)orals,160場(chǎng)spotlights以及1096篇posters,共進(jìn)行有45場(chǎng)workshops和16場(chǎng)tutorials。就像其他ML和CV會(huì)議一樣,大量論文無法完全了解。因此就本次會(huì)議,進(jìn)行了類似CVPR2020 post 的總結(jié),以便讀者可以從中了解會(huì)議總體趨勢(shì)。因此,本文會(huì)對(duì)這次會(huì)議進(jìn)行概括,并列出一些我覺得有趣、重要的論文。

首先,會(huì)議相關(guān)的鏈接包括:

免責(zé)聲明:本文僅代表個(gè)人觀點(diǎn),并不代表ECCV 2020論文及主題。歡迎任何反饋!

整體統(tǒng)計(jì)概況

本節(jié)中提供的統(tǒng)計(jì)數(shù)據(jù)摘自官方的Opening&Awards演示文稿。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

【重磅整理】ECCV 2020 亮點(diǎn)摘要

【重磅整理】ECCV 2020 亮點(diǎn)摘要

可以看到,與2018年會(huì)議相比,論文提交量增加了超過一倍,與CVPR 2020的論文數(shù)量相當(dāng)。隨之相應(yīng),審稿人數(shù)和涉及領(lǐng)域也相應(yīng)增加。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

不出所料,大多數(shù)接受論文集中于深度學(xué)習(xí)、識(shí)別、檢測(cè)和理解相關(guān)主題。同時(shí)可以發(fā)現(xiàn),研究人員對(duì)諸如無監(jiān)督學(xué)習(xí)的標(biāo)簽有效方法和低視野等領(lǐng)域的興趣顯著增加,同樣的結(jié)果在CVPR2020中也有所體現(xiàn)。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

對(duì)研究機(jī)構(gòu)進(jìn)行統(tǒng)計(jì),其結(jié)果與今年的ICML相似:排名第一的Google有180位作者,其次是香港中文大學(xué)的140位作者,第三是北京大學(xué)的110位作者。

后續(xù)章節(jié)我們將基于研究主題簡(jiǎn)要介紹一些論文。

識(shí)別,檢測(cè),分割以及姿態(tài)估計(jì)

End-to-End Object Detection with transformers (論文地址)

目標(biāo)檢測(cè)的任務(wù)即在給定圖像中對(duì)可見物體進(jìn)行定位并分類。目前廣泛使用的目標(biāo)檢測(cè)框架都含有一系列預(yù)先定義的方框(也就是稱作 anchors 或是 region proposals 的幾何先驗(yàn)框),各個(gè)框中的圖像內(nèi)容將由網(wǎng)絡(luò)進(jìn)行分類,在這之后,還會(huì)進(jìn)一步回歸來對(duì)邊界框做調(diào)整,最后,交由后處理去除重復(fù)的檢測(cè)結(jié)果。然而,由于引入了后處理,整個(gè)網(wǎng)絡(luò)并不能像其他計(jì)算機(jī)視覺任務(wù)一樣進(jìn)行端到端的訓(xùn)練。而在這篇文章中,作者們提出了一個(gè)新的目標(biāo)檢測(cè)框架,叫做 DETR (DEtection TRansformer) ,這是一個(gè)可完全端到端訓(xùn)練的網(wǎng)絡(luò)模型,且無需任何幾何先驗(yàn)知識(shí)。下圖是 DETR 與 Faster R-CNN 計(jì)算流程的對(duì)比(該圖是從作者們的展示文稿中獲取的),強(qiáng)調(diào)了 DETR 整體的自然性。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

DETR 是基于編碼-解碼的 Transformer 結(jié)構(gòu)構(gòu)造的。整個(gè)模型包含三大組件:卷積神經(jīng)網(wǎng)絡(luò)特征提取器,編碼器,以及解碼器。一張給定圖像會(huì)先經(jīng)過特征提取器以獲取圖像特征。接著,使用不同頻率的sin函數(shù)生成的位置編碼信息會(huì)加到圖像特征上以維護(hù)圖像的二維結(jié)構(gòu)信息。得到的新特征會(huì)經(jīng)過 Transformer 的編碼器來整合特征信息并將不同的目標(biāo)分開來。到了解碼階段,目標(biāo)查詢向量會(huì)與編碼向量一同經(jīng)過解碼器并產(chǎn)生最終的輸出特征向量。這些查詢向量是一組固定的可學(xué)習(xí)的嵌入向量(embedding),剛開始隨機(jī)初始化,在訓(xùn)練過程中進(jìn)行優(yōu)化,評(píng)測(cè)階段則保持不變,而查詢向量的數(shù)量也決定了該檢測(cè)器能夠檢測(cè)的目標(biāo)數(shù)量上界。最終,輸出的特征向量會(huì)經(jīng)過一個(gè)共享的全連接層來預(yù)測(cè)每個(gè)查詢對(duì)應(yīng)的類別與邊界框。為了計(jì)算損失并訓(xùn)練該模型,作者使用了 匈牙利算法 將輸出與標(biāo)注一一匹配。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

MutualNet: Adaptive Convnet via Mutual Learning from Network Width and Resolution (論文地址)

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)只有在計(jì)算資源足夠的情況下才能夠使用,如果計(jì)算資源無法滿足,模型就無法使用。然而,這就使得實(shí)際應(yīng)用中模型的使用頗為受限。比方說,如果模型要在手機(jī)上進(jìn)行前向推理,計(jì)算資源會(huì)隨手機(jī)負(fù)載以及電量而變化。一個(gè)簡(jiǎn)單的解決方案就是在設(shè)備端保存多個(gè)不同大小尺寸的模型,并在不同計(jì)算資源情況下使用對(duì)應(yīng)的模型。但是如此一來就會(huì)占據(jù)大量?jī)?nèi)存空間,并且也無法做到適用于不同的計(jì)算資源。近期類似于 S-Net 與 US-Net 的網(wǎng)絡(luò)在訓(xùn)練期間采樣不同大小的子網(wǎng)絡(luò),使得網(wǎng)絡(luò)在部署階段可以調(diào)整為不同的網(wǎng)絡(luò)寬度(也就是通道數(shù)量)。但是在非常有限的計(jì)算資源下,這類網(wǎng)絡(luò)的性能顯著下降。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

這篇論文則借助于不同尺寸的網(wǎng)絡(luò)與輸入圖像,以尋求準(zhǔn)確度與計(jì)算效率的平衡。如上圖所示,在一次訓(xùn)練迭代過程中,會(huì)采樣四個(gè)子網(wǎng)絡(luò),其中一個(gè)是完整的網(wǎng)絡(luò),還有三個(gè)具有不同寬度的子網(wǎng)絡(luò)。完整的網(wǎng)絡(luò)使用原始大小的圖像數(shù)據(jù)與標(biāo)簽進(jìn)行交叉熵?fù)p失訓(xùn)練,其余三個(gè)則隨機(jī)輸入不同尺度的圖像(原始圖像或是尺度下采樣后的圖像),并使用他們的輸出與完整網(wǎng)絡(luò)的輸出之間的KL散度進(jìn)行監(jiān)督訓(xùn)練(也就是蒸餾損失)。這樣一來,每個(gè)子網(wǎng)絡(luò)就能夠?qū)W會(huì)適應(yīng)不同網(wǎng)絡(luò)尺寸與輸入大小的多尺度表達(dá)。在部署過程中,對(duì)于一個(gè)給定的資源約束場(chǎng)景,即可選擇最優(yōu)的網(wǎng)絡(luò)尺寸與輸入大小組合用于推理。

Gradient Centralization: A New Optimization Technique for Deep Neural Networks (論文地址)

在神經(jīng)網(wǎng)絡(luò)優(yōu)化過程中使用類似于均值與方差這樣的二階統(tǒng)計(jì)數(shù)據(jù)來對(duì)網(wǎng)絡(luò)激活值或是權(quán)重做形式標(biāo)準(zhǔn)化已然成為神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中極為重要的一環(huán),例如常用的 BatchNorm 和 weight norm。相較于使用額外的歸一化模塊作用于激活值或是權(quán)重,梯度中心化(Gradient Centralization,簡(jiǎn)稱GC)直接作用于梯度,使得梯度向量的均值為0,該操作可以平滑并加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,甚至提升模型的泛化性能。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

給定計(jì)算得到的梯度,GC首先如上圖所示計(jì)算梯度向量的均值,接著減去對(duì)應(yīng)的均值。數(shù)學(xué)形式上,對(duì)于一個(gè)權(quán)重向量 Wi,其對(duì)應(yīng)的梯度為?Wi(i=1,2,…,N),則GC操作可定義為:

【重磅整理】ECCV 2020 亮點(diǎn)摘要


Smooth-AP: Smoothing the Path Towards Large-Scale Image Retrieval (論文地址)

圖像檢索旨在一個(gè)圖像集合中檢索與查詢圖像相同類別的圖像數(shù)據(jù)。與分類任務(wù)不同,圖像檢索任務(wù)中,測(cè)試圖像的類別在訓(xùn)練過程中都已經(jīng)見到過了,測(cè)試圖像的類別可能會(huì)很少見,但是我們?nèi)孕柙趫D像集合中找到與之相似的圖像,這也就是一個(gè)開集問題。圖像檢索的一般流程包括使用CNN特征提取器對(duì)檢索圖像、以及整個(gè)圖像集合提取其各自的嵌入向量,接著計(jì)算兩兩之間的余弦相似度,最后根據(jù)相似度進(jìn)行排序。特征提取器的訓(xùn)練目標(biāo)就是要達(dá)到良好的排序效果(即屬于同一類別的圖像相似度應(yīng)盡可能高)。而網(wǎng)絡(luò)的性能則是使用 Average Precision (AP) 來度量的,該指標(biāo)計(jì)算每個(gè)正確檢索結(jié)果的名次與其在整個(gè)圖像集合中的名次之比并對(duì)其求和。計(jì)算一張給定圖像的名次需要應(yīng)用一個(gè)閾值化操作,該操作用到了海維賽德階躍函數(shù),使得其不可微分,所以我們無法直接使用最終排名來端到端地優(yōu)化模型。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

為了解決這個(gè)問題,論文作者們提出了使用一個(gè)溫度參數(shù)控制的sigmoid函數(shù)來代替海維賽德階躍函數(shù),使得排序可微,并可作為損失函數(shù)來端到端地優(yōu)化網(wǎng)絡(luò)模型。相較于三元組損失函數(shù),smooth-AP 損失函數(shù)優(yōu)化的是一個(gè)排序損失,而三元組損失則是在間接地進(jìn)行優(yōu)化。

Hybrid Models for Open Set Recognition (論文地址)

現(xiàn)有的圖像分類方法往往基于閉集假設(shè),也就是說,訓(xùn)練集中涵蓋了測(cè)試階段可能出現(xiàn)的所有類別。但是這種假設(shè)很明顯不現(xiàn)實(shí),哪怕是像ImageNet這樣擁有1000類物品的大規(guī)模數(shù)據(jù)集,也不可能包含現(xiàn)實(shí)世界中所有可能的類別。如此一來,自然地出現(xiàn)了開集分類,其試圖通過假設(shè)測(cè)試階段包含見過的以及沒有見過的類別來解決這個(gè)問題。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

在這篇論文中,作者們使用流模型來解決這個(gè)開集分類問題。流方法通過最大似然估計(jì),以一種無監(jiān)督訓(xùn)練的方式擬合訓(xùn)練樣本的概率分布。因此,流模型可以用于估計(jì)每個(gè)樣本的概率密度。當(dāng)輸入樣本的概率密度很大的時(shí)候,那么其很有可能是一個(gè)已知樣本,而離群點(diǎn)的概率密度則較小。之前的研究方法都是基于流模型搭建一個(gè)分類器,而該論文的作者們讓分類器和流模型學(xué)習(xí)一個(gè)聯(lián)合嵌入向量,因?yàn)閮H僅由流模型學(xué)到的嵌入向量很可能不具有充足的判別特征,使得分類效果很差。如上圖所示,在訓(xùn)練期間,圖像會(huì)由一個(gè)編碼器網(wǎng)絡(luò)映射為一個(gè)隱特征,接著這個(gè)編碼特征會(huì)同時(shí)被送入分類器與流模型中,分類器端使用交叉熵?fù)p失進(jìn)行監(jiān)督,流模型端則負(fù)責(zé)概率密度估計(jì)。整個(gè)網(wǎng)絡(luò)架構(gòu)是可端到端訓(xùn)練的。在測(cè)試階段,每張圖像的 logP(x) 都會(huì)由前傳得到,并與訓(xùn)練集樣本的最低 logP(x) 進(jìn)行比較。如果其值大于該閾值,則送入分類器判斷其具體類別,否則就視為未見過的樣本。

(譯者注:有關(guān) Flow-based Models ,可以參看李宏毅的講解視頻,非常有趣。)

Conditional Convolutions for Instance Segmentation (論文地址)

實(shí)例分割仍舊是計(jì)算機(jī)視覺領(lǐng)域頗具挑戰(zhàn)性的任務(wù)之一,它需要對(duì)給定圖像中每個(gè)可見目標(biāo)打上一個(gè)逐像素的掩膜(mask)以及一個(gè)類別標(biāo)簽。主流方法就是大名鼎鼎的 Mask R-CNN ,它包含兩個(gè)步驟,第一步是用目標(biāo)檢測(cè)器 Faster R-CNN 來生成每個(gè)實(shí)例的邊界框,接著,對(duì)于每個(gè)檢測(cè)到的實(shí)例,使用 ROI Align 將感興趣區(qū)域從輸出特征圖中裁剪出來并縮放為同一分辨率大小,接著,將其送入一個(gè)掩膜頭網(wǎng)絡(luò)(mask head),該網(wǎng)絡(luò)是一個(gè)小型全卷積網(wǎng)絡(luò),用以預(yù)測(cè)分割掩膜。然而,本論文作者指出了該架構(gòu)的以下缺陷:(1) ROI Align 很可能會(huì)引入不相關(guān)的特征信息,如背景或是其他實(shí)例;(2) 縮放操作限制了實(shí)例分割的分辨率;(3) 掩膜頭網(wǎng)絡(luò)需要堆疊多個(gè) 3x3 卷積來產(chǎn)生足夠大的感受野以生成掩膜,這極大得增加了掩膜頭的計(jì)算量。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

在本篇論文中,作者們提出了使用語義分割網(wǎng)絡(luò)中的 FCN 來進(jìn)行實(shí)例分割。為了進(jìn)行有效的實(shí)例分割,F(xiàn)CN 需要兩種信息,一是表觀信息用于目標(biāo)分類,二是位置信息用于區(qū)分同一類別的不同目標(biāo)。該論文提出的網(wǎng)絡(luò)結(jié)構(gòu)名為 CondInst (用于實(shí)例分割的條件卷積),是基于 CondConv 以及 HyperNetworks 構(gòu)建而成的。對(duì)于每個(gè)實(shí)例,一個(gè)子網(wǎng)絡(luò)會(huì)根絕每個(gè)實(shí)例所在的中心區(qū)域生成掩膜 FCN 頭網(wǎng)絡(luò)的權(quán)重,用于預(yù)估給定實(shí)例的掩膜。具體來收,如上圖所示,該網(wǎng)絡(luò)中,在特征圖的多個(gè)不同尺度下包含多個(gè)掩膜頭。每個(gè)頭網(wǎng)絡(luò)在預(yù)定義的位置處預(yù)測(cè)給定實(shí)例的類別,并生成掩膜 FCN 頭網(wǎng)絡(luò)的權(quán)重。接著,就由各個(gè)頭網(wǎng)絡(luò)使用對(duì)應(yīng)的參數(shù)進(jìn)行掩膜預(yù)估。

Multitask Learning Strengthens Adversarial Robustness (論文地址)

深度神經(jīng)網(wǎng)絡(luò)的一大主要缺陷就在于它們對(duì)于對(duì)抗攻擊來說異常脆弱,在輸入圖像中引入極為微小且不可見的擾動(dòng)就會(huì)導(dǎo)致完全錯(cuò)誤的輸出,甚至輸入的表觀肉眼看來幾乎完全一致。近些年,研究人員已從多個(gè)層面深入探討神經(jīng)網(wǎng)絡(luò)的對(duì)抗魯棒性,從輸入數(shù)據(jù)(例如使用無標(biāo)簽數(shù)據(jù)以及對(duì)抗訓(xùn)練)到模型本身(使用正則化,例如 Parseval Networks),但是網(wǎng)絡(luò)模型的輸出還未被用于提升模型魯棒性。在這篇論文中,作者們研究了擁有多個(gè)輸出的多任務(wù)學(xué)習(xí)模型在對(duì)抗魯棒性上的效果。鑒于越來越多的機(jī)器學(xué)習(xí)應(yīng)用需要模型能夠同時(shí)一次性完成多個(gè)任務(wù),這樣的設(shè)置在實(shí)際任務(wù)中是有用的。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

使用有界p范式球攻擊方式,即對(duì)于一個(gè)給定輸入樣本,在給定半徑的p范式球內(nèi)找到對(duì)抗擾動(dòng)。接著,將計(jì)算得到的總損失變化視作網(wǎng)絡(luò)的脆弱度。作者們展示了雙任務(wù)訓(xùn)練下網(wǎng)絡(luò)魯棒性的提升(兩個(gè)任務(wù)可從以下任務(wù)中隨機(jī)選擇:分割、深度估計(jì)、法向量估計(jì)、reshading、輸入重建、2D或3D關(guān)鍵點(diǎn)預(yù)測(cè)等等)。在單任務(wù)攻擊(即根據(jù)其中一個(gè)輸出計(jì)算的擾動(dòng))以及多任務(wù)攻擊(即根據(jù)所有輸出計(jì)算的對(duì)應(yīng)擾動(dòng)中的最大擾動(dòng))下可以看到網(wǎng)絡(luò)的魯棒性提升。作者同時(shí)在理論上證明了這樣的多任務(wù)魯棒性僅在多個(gè)任務(wù)具有相關(guān)性的情況下可以達(dá)到。

Dynamic Group Convolution for Accelerating Convolutional Neural Networks (論文地址)

分組卷積首次出現(xiàn)還要追溯到AlexNet,當(dāng)時(shí)分組的目的是為了加速訓(xùn)練,之后,這一技術(shù)被應(yīng)用于輕量級(jí)CNN網(wǎng)絡(luò)設(shè)計(jì)中,如 MobileNet和 ShuffleNet 。分組卷積將卷積層的輸入和輸出沿著通道維等量切分為多個(gè)部分(或者說是組),接著對(duì)每個(gè)組單獨(dú)做卷積操作。因此,若是切分為 G 組,那么運(yùn)算量也就減少了 G 倍。然而,該篇論文的作者們指出現(xiàn)有的分組卷積有兩個(gè)主要缺陷:(1) 現(xiàn)有分組卷積稀疏化了神經(jīng)網(wǎng)絡(luò)的連接,致使卷積操作的特征提取于表達(dá)能力明顯弱化;(2) 現(xiàn)有分組卷積對(duì)輸入通道做固定的分組操作,忽視了各個(gè)輸入之間的相關(guān)性。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

為了適應(yīng)性地選擇最相關(guān)的輸入通道構(gòu)成組并保持原始網(wǎng)絡(luò)的完整結(jié)構(gòu),作者們提出了動(dòng)態(tài)組卷積(DGC)。DGC包含兩個(gè)頭網(wǎng)絡(luò),每個(gè)頭網(wǎng)絡(luò)根據(jù)輸入為每個(gè)通道生成一個(gè)顯著性分?jǐn)?shù)。分?jǐn)?shù)較低的通道會(huì)被移除。接著,對(duì)余下的特征層進(jìn)行普通卷積并得到輸出。最后,各個(gè)頭網(wǎng)絡(luò)的輸出會(huì)在通道為級(jí)聯(lián)起來并隨機(jī)調(diào)換通道位置。

Disentangled Non-local Neural Networks (論文地址)

Non-local 模塊使用注意力機(jī)制,對(duì)長(zhǎng)距離像素之間的依存關(guān)系進(jìn)行建模,并已經(jīng)廣泛應(yīng)用于諸多計(jì)算機(jī)視覺任務(wù),例如目標(biāo)檢測(cè)、語義分割以及視頻動(dòng)作識(shí)別。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

在本篇論文中,作者們?cè)噲D進(jìn)一步解析 non-local 模塊,發(fā)現(xiàn)其局限性,并提出了一個(gè)升級(jí)版本。首先,作者們將像素 i (也就是所謂的 key 像素)與像素 j (也就是所謂的 query 像素)之間的相似度計(jì)算為兩項(xiàng)之和,其中一項(xiàng)是成對(duì)項(xiàng),形式上就是一個(gè)白化后的點(diǎn)積結(jié)果,描述了 query 像素與 key 像素之間的關(guān)系,另一項(xiàng)則是一個(gè)一元項(xiàng),表征了給定的 key 像素對(duì)哪個(gè) query 像素影響最大。接著,為了搞清楚每一項(xiàng)的作用,他們分別只用其中一項(xiàng)進(jìn)行訓(xùn)練,并發(fā)現(xiàn)成對(duì)項(xiàng)負(fù)責(zé)類別信息,一元項(xiàng)負(fù)責(zé)邊界信息。然而,通過對(duì) non-local 模塊的梯度進(jìn)行分析,作者們發(fā)現(xiàn)當(dāng)上述兩項(xiàng)結(jié)合起來應(yīng)用于注意力操作時(shí),他們的梯度相乘了。這也就導(dǎo)致,如果其中一項(xiàng)的梯度為0,那么另一個(gè)項(xiàng)不為0的梯度對(duì)網(wǎng)絡(luò)的訓(xùn)練也起不到作用了。為了解決這個(gè)問題,作者們提出了一個(gè) non-local 模塊的分解版,使得這兩項(xiàng)能夠分開來優(yōu)化。

Hard negative examples are hard, but useful (論文地址)

深度度量學(xué)習(xí)旨在優(yōu)化一個(gè)嵌入函數(shù),使得經(jīng)過該函數(shù)映射后語義相似的圖像會(huì)處在高維空間中相對(duì)較近的位置,而語義不相似的圖像則使其映射后的距離較遠(yuǎn)。一種較為常用的學(xué)習(xí)該映射的方法是根據(jù)圖像的三元組定義一個(gè)損失函數(shù),這個(gè)三元組包含一張錨圖像,一張與錨圖像同一類別的正樣本圖像,以及一張與錨圖像不同類別的負(fù)樣本圖像。接著,在優(yōu)化過程中,模型會(huì)在錨圖像與負(fù)樣本圖像的距離小于錨圖像與正樣本圖像的距離時(shí)給予懲罰。然而,在優(yōu)化期間,大多數(shù)候選三元組都已然達(dá)到了標(biāo)準(zhǔn),即錨圖像與正樣本的距離小于其與負(fù)樣本的距離,這也就使得這些三元組對(duì)訓(xùn)練幾乎起不到太大作用,很冗余。另一方面,使用最困難的負(fù)樣本進(jìn)行優(yōu)化又會(huì)導(dǎo)致在訓(xùn)練初期陷入局部最優(yōu)。這是由于在這種情況下,根據(jù)余弦相似度(即歸一化特征向量的點(diǎn)積結(jié)果)計(jì)算得到的錨-負(fù)樣本的相似度比錨-正樣本的相似度大很多。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

作者們展示了三元組損失的標(biāo)準(zhǔn)實(shí)現(xiàn)中使用困難樣本挖掘的問題所在。具體來說,(1) 在梯度計(jì)算中,如果歸一化不被考慮的話,大部分梯度會(huì)丟失掉;(2) 如果兩張不同類別的圖像在嵌入空間中的距離非常接近,那么損失的梯度很可能將其拉得更近而非將其分得更開。為了解決這個(gè)問題,作者們不再像原始三元組損失那樣盡可能地將錨-正樣本對(duì)拉得更近以便將其更加緊密地聚類,相反,作者們會(huì)避開更新錨-正樣本對(duì)的損失梯度,也就使得某一類的實(shí)例構(gòu)成的聚類不會(huì)過于緊致。這個(gè)方法僅僅集中于直接將困難負(fù)樣本拉離錨圖像。

Volumetric Transformer Networks (論文地址)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)成功的一個(gè)關(guān)鍵因素就在于其學(xué)習(xí)語義目標(biāo)各個(gè)部件判別性特征表達(dá)的能力。然而,CNN仍舊缺乏處理不同空間變換的能力,例如尺度、視點(diǎn)以及類內(nèi)變化。近期的一些方法,例如 spatial transformer networks (STNs) 試圖通過先對(duì)空間分布不同的特征圖變形,使其變?yōu)闃?biāo)準(zhǔn)形式來抑制圖像的空間變換,接著,再對(duì)這些標(biāo)準(zhǔn)化后的特征做分類。但是這樣的方法對(duì)所有的特征通道做相同的變形操作,卻沒有考慮到各個(gè)特征通道會(huì)表征不同的語義組件,將其變換為標(biāo)準(zhǔn)形式也就需要不同的空間變換操作。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

為了解決這個(gè)問題,該篇論文引入了 Volumetric transformer network (VTN),如上圖所示,一個(gè)可學(xué)習(xí)的模塊會(huì)對(duì)每個(gè)通道的每個(gè)像素位置預(yù)測(cè)一個(gè)形變變換,用于將中間的 CNN 特征變換為一個(gè)空間位置無關(guān)的標(biāo)準(zhǔn)形式。VTN是一個(gè)編碼器-解碼器結(jié)構(gòu)的網(wǎng)絡(luò),其中的網(wǎng)絡(luò)模塊用于在不同的特征圖通道之間傳遞信息,以估計(jì)不同語義組件之間的依賴關(guān)系。

Faster AutoAugment: Learning Augmentation Strategies Using Backpropagation (論文地址)

數(shù)據(jù)增廣(DA)已然變成了深度學(xué)習(xí)方法中極為重要且不可或缺的一部分,而近期的一些研究工作表明搜索算法得到的數(shù)據(jù)增廣策略(例如 AutoAugment,Fast AutoAugment 以及 RandAugment)優(yōu)于標(biāo)準(zhǔn)的增強(qiáng)增廣方法。這類算法預(yù)先定義好所有可能的數(shù)據(jù)變換集合,比如幾何變換(如旋轉(zhuǎn))或是色彩增強(qiáng)變換(如負(fù)感化),旨在找到最優(yōu)的數(shù)據(jù)增廣參數(shù),比如增廣的幅度、數(shù)據(jù)增廣的概率以及不同數(shù)據(jù)增廣手段的組合數(shù)量,如下方左圖所示。最優(yōu)策略是由一個(gè)雙優(yōu)化循環(huán)學(xué)習(xí)得到的,以便使得一個(gè)使用給定策略訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)的驗(yàn)證誤差最小。然而,這樣的優(yōu)化方法頗具弊端,可能的數(shù)據(jù)增廣策略搜索空間過于龐大,需要復(fù)雜的搜索方法,而且單次數(shù)據(jù)增廣策略的優(yōu)化就需要網(wǎng)絡(luò)做完整訓(xùn)練。為了解決這個(gè)問題,這篇論文的作者提出了使用基于梯度優(yōu)化的原始圖像與增廣圖像密度匹配優(yōu)化策略。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

通過將數(shù)據(jù)增廣視作一種填充原始數(shù)據(jù)缺失點(diǎn)的方法,該算法的目標(biāo)是利用對(duì)抗學(xué)習(xí)來最小化增廣數(shù)據(jù)的和原始數(shù)據(jù)之間的分布距離。為了能夠?qū)W習(xí)最優(yōu)的增廣策略,數(shù)據(jù)增廣流程需要對(duì)增廣參數(shù)可微。對(duì)于使用給定增廣方法的概率,作者們使用一個(gè)由伯努利分布采樣得到的隨機(jī)變量來表示,并使用 Gumbel trick 進(jìn)行優(yōu)化,增廣的強(qiáng)度通過直接估計(jì)來近似,增廣方法的組合則使用one-hot向量的組合來學(xué)習(xí)。


其他論文

半監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),遷移學(xué)習(xí),表征學(xué)習(xí)以及小樣本學(xué)習(xí)

Big Transfer (Bit): General Visual Representation (論文地址)

在本篇論文中, 作者們回顧了遷移學(xué)習(xí)的簡(jiǎn)單范式:首先在一個(gè)大規(guī)模標(biāo)記數(shù)據(jù)集(例如 JFT-300M 以及 ImageNet-21k)上進(jìn)行預(yù)訓(xùn)練,接著在目標(biāo)任務(wù)上精調(diào)預(yù)訓(xùn)練權(quán)重,從而減少目標(biāo)任務(wù)的數(shù)據(jù)需求量以及優(yōu)化時(shí)間。作者們提出的遷移學(xué)習(xí)框架稱為 BiT (Big Transfer),并且包含大量構(gòu)建有效模型的必需組件,使其能夠借助于大規(guī)模數(shù)據(jù)集學(xué)習(xí)到通用的、可遷移的特征表達(dá)。

在預(yù)訓(xùn)練(上游)階段,BiT 包含以下幾點(diǎn):

  • 對(duì)于非常龐大的數(shù)據(jù)集,由于 Batch Normalization (BN) 含有訓(xùn)練集的統(tǒng)計(jì)數(shù)據(jù),使得測(cè)試階段存在訓(xùn)練/測(cè)試不一致的問題,訓(xùn)練損失雖然被正確回傳并優(yōu)化,然而驗(yàn)證損失則很不穩(wěn)定。同時(shí),BN 對(duì)批量大小很敏感。為了解決這個(gè)問題,BiT 轉(zhuǎn)而使用 Group Norm 以及  Weight Norm

  • 像 ResNet50 這樣的小模型并不會(huì)從大規(guī)模數(shù)據(jù)集上獲益,因此模型需要與數(shù)據(jù)集的大小匹配。

對(duì)于(下游)目標(biāo)任務(wù),BiT 提出以下幾點(diǎn):

  • 使用 SGD 優(yōu)化器,無需層凍結(jié)、dropout、L2正則化或任何梯度適應(yīng)  。別忘了把最后的預(yù)測(cè)層的權(quán)重初始化為0。

  • 無需將所有輸入縮放為同一大小,如 224 。在訓(xùn)練期間,輸入圖像會(huì)隨機(jī)縮放并剪切為一個(gè)正方形,并隨機(jī)水平翻轉(zhuǎn)。在測(cè)試階段,圖像則會(huì)放縮為同一固定大小。

  • 盡管對(duì)于數(shù)據(jù)量充足的大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練來說,mixup 并沒有多大用處,但是 BiT 發(fā)現(xiàn) mixup 正則化對(duì)下游任務(wù)里中等大小的數(shù)據(jù)集訓(xùn)練非常有用。

Learning Visual Representations with Caption Annotations (論文地址)

在大規(guī)模標(biāo)注數(shù)據(jù)集上訓(xùn)練深度模型不僅能夠讓手頭的任務(wù)獲得優(yōu)良表現(xiàn),也能使得模型學(xué)到對(duì)于下游任務(wù)非常有用的特征表達(dá)。然而,我們是否可以在不使用如此昂貴且細(xì)粒度的標(biāo)注數(shù)據(jù)的情況下獲得類似的特征表達(dá)能力呢?本篇論文研究了使用帶噪聲標(biāo)注(在本篇論文中是圖像的文字說明)進(jìn)行弱監(jiān)督預(yù)訓(xùn)練。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

目標(biāo)是用有限對(duì)圖像與說明文字來學(xué)習(xí)視覺表達(dá),那么如何制定訓(xùn)練目標(biāo),來使得圖像和它們的說明文字之間產(chǎn)生有效的聯(lián)系呢?參考 BERT 模型隨機(jī)掩蓋 15% 的輸入字符,讓模型根據(jù) transformer 模型的編碼器輸出重建整個(gè)句子,該方法也隨機(jī)對(duì)圖像的文字說明進(jìn)行掩碼操作。其提出的方法稱作 image-conditioned masked language modeling (ICMLM),其中圖像信息用于重建被掩碼的字符以及對(duì)應(yīng)的說明文字。為了達(dá)到這個(gè)目的,作者們提出了兩個(gè)多模結(jié)構(gòu),(1) ICMLM tfm,使用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)對(duì)原始圖像進(jìn)行編碼得到圖像特征,接著,經(jīng)過BERT處理的被掩碼的圖像說明、原始圖像說明以及圖像特征被級(jí)聯(lián)起來并通過一個(gè) transformer 編碼器,最終輸出一個(gè)多模嵌入特征用于預(yù)估被掩碼的字符。(2) ICMLM att+fc,先計(jì)算圖像說明與圖像之間的相似度,接著經(jīng)過一個(gè)成對(duì)注意力模塊來整合圖像與文字說明之間的信息。得到的特征會(huì)經(jīng)過池化后再過一個(gè)全連接層來預(yù)測(cè)被掩碼的字符。

Memory-augmented Dense Predictive Coding for Video Representation Learning (論文地址)

近期在自監(jiān)督圖像表征學(xué)習(xí)領(lǐng)域的進(jìn)步在下游任務(wù)中展現(xiàn)出了令人印象深刻的效果。盡管視頻的多模表征學(xué)習(xí)多有發(fā)展,然而不使用其他任何類似于文本與語音的模態(tài)信息,僅僅使用視頻流進(jìn)行自監(jiān)督學(xué)習(xí)還未有所發(fā)展。盡管視頻的時(shí)域信息為自監(jiān)督地訓(xùn)練一個(gè)根據(jù)過去幀預(yù)測(cè)未來幀的模型提供了充足的監(jiān)督信號(hào),這個(gè)任務(wù)仍舊頗具難度,因?yàn)檎嬲奈磥硎遣淮_定的,給定一個(gè)時(shí)間步長(zhǎng),未來的狀態(tài)是有多種可能的(舉個(gè)例子,當(dāng)現(xiàn)在的動(dòng)作是“打高爾夫”,那么下一幀所在的位置可能是手,也有可能是高爾夫俱樂部)。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

本文將對(duì)比學(xué)習(xí)與存儲(chǔ)模塊結(jié)合使用,以解決未來幀的預(yù)測(cè)問題。為了減少不確定性,該模型會(huì)在特征級(jí)別上預(yù)測(cè)未來,并使用對(duì)比損失進(jìn)行訓(xùn)練以避免過度約束。為了處理多種假設(shè),一個(gè)存儲(chǔ)模塊用于同時(shí)推斷多個(gè)未來狀態(tài)。給定一組連續(xù)幀,2d-3d CNN編碼器(即f)產(chǎn)生上下文特征,而GRU(即g)整合所有過去的信息,將其用于從共享存儲(chǔ)模塊中選擇插槽。 接著,將所選存儲(chǔ)插槽的凸組合構(gòu)成預(yù)測(cè)的未來狀態(tài)。然后,使用對(duì)比損失將預(yù)測(cè)的未來狀態(tài)與未來狀態(tài)的真實(shí)特征向量進(jìn)行比較。 對(duì)于下游任務(wù),將g產(chǎn)生的特征池化,然后送給分類器處理。

SCAN: Learning to Classify Images without Labels (論文地址)

要將未標(biāo)記的輸入圖像分組為語義上有意義的聚類,我們要做到僅使用視覺相似性來解決該問題。 先前的工作要么是(1)使用自監(jiān)督的方法學(xué)習(xí)豐富的特征,然后對(duì)特征應(yīng)用 K-means 來聚類,但這很容易導(dǎo)致性能退化,或者就是(2)端到端的聚類方法,這些方法要么利用 CNN 進(jìn)行深度聚類,要么基于互信息最大化。但是,生成的聚類結(jié)果在很大程度上取決于初始化,并且很可能會(huì)被低級(jí)特征主導(dǎo)。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

為了解決先前工作中發(fā)現(xiàn)的問題,本文提出了包含兩大步驟的 SCAN(采用最近鄰方法的語義聚類)。第一步,通過前置任務(wù)學(xué)習(xí)特征表示,然后生成初始聚類,SCAN 基于特征相似度而不是應(yīng)用 K-means 來挖掘每個(gè)圖像的最近鄰。  第二步,將語義上有意義的最近鄰用作先驗(yàn),以訓(xùn)練模型將每個(gè)圖像及其對(duì)應(yīng)的鄰居分為一類。模型通過損失函數(shù)來優(yōu)化,該函數(shù)會(huì)在 softmax 之后最大化輸出向量的點(diǎn)積,從而迫使網(wǎng)絡(luò)產(chǎn)生一致且有判別度的(one-hot 向量)預(yù)測(cè)。

GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering (論文地址)

聚類是根據(jù)樣本相似度將數(shù)據(jù)進(jìn)行集群劃分。傳統(tǒng)的方法使用手工特征和特定領(lǐng)域的距離函數(shù)來度量相似度,但這種手工特征的表現(xiàn)非常有限。隨后的工作將深度表示和聚類算法結(jié)合起來,但是當(dāng)輸入數(shù)據(jù)很復(fù)雜時(shí),深度聚類的性能仍然會(huì)受到影響。一個(gè)有效的聚類,在特征層面必須同時(shí)包含高層判別性特征并獲取對(duì)象語義信息。在聚類步驟上,必須避免使用將樣本分配到單個(gè)或少數(shù)幾個(gè)集群的算法,并且聚類需要高效地應(yīng)用于大尺寸圖像。
本文提出了 GATCluster ,它不需要進(jìn)一步的后處理就可以直接輸出語義聚類標(biāo)簽,其中學(xué)習(xí)到的特征是一個(gè) one-hot 編碼向量,以避免弱解。在平移不變性、可分離性最大化、熵分析和注意力映射約束下,GATCluster采用四種自學(xué)習(xí)任務(wù)進(jìn)行無監(jiān)督訓(xùn)練。

Associative Alignment for Few-shot Image Classification (論文地址)

小樣本圖像分類的目標(biāo)是在訓(xùn)練樣本很少的情況下,生成一個(gè)能夠?qū)W習(xí)識(shí)別新的圖像類的模型。一種流行的方法是元學(xué)習(xí),它從包含基本類別的大量標(biāo)記數(shù)據(jù)中提取公共知識(shí),并用于訓(xùn)練模型。在之后訓(xùn)練該模型時(shí)僅用幾個(gè)樣本就可以從新的概念中對(duì)圖像進(jìn)行分類。元目標(biāo)是找到一組好的初始權(quán)重集合,這些權(quán)重在訓(xùn)練學(xué)習(xí)新的概念時(shí)迅速收斂。有趣的是,最近的研究表明,不使用元學(xué)習(xí)的標(biāo)準(zhǔn)遷移學(xué)習(xí)——特征提取器首先在基本類別上進(jìn)行預(yù)訓(xùn)練,然后在新的幾個(gè)類別上對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào),其性能與更復(fù)雜的元學(xué)習(xí)策略不相上下。然而,在微調(diào)過程中,為了避免過擬合,特征提取器對(duì)部分層的權(quán)重凍結(jié)會(huì)阻礙性能。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

本文提出了一個(gè)含有兩個(gè)步驟的方法來解決這個(gè)問題。第一步,利用特征提取器為新樣本生成特征。然后在嵌入空間中使用相似性度量將每個(gè)樣本的特征映射到其中一個(gè)基類。第二步是關(guān)聯(lián)對(duì)齊,其中特征提取器被微調(diào),使得新圖像的嵌入向量更接近其對(duì)應(yīng)的基礎(chǔ)圖像的嵌入向量。這既可以通過中心對(duì)齊來完成的,其中每個(gè)基類的中心和新類別之間的距離減小,也可以使用對(duì)抗性對(duì)齊,其中鑒別器迫使特征提取器在嵌入空間中對(duì)齊基礎(chǔ)圖像和新樣本。

其他論文

三維計(jì)算機(jī)視覺以及機(jī)器人學(xué)

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (論文地址)

從2D圖像合成3D視圖是一個(gè)具有挑戰(zhàn)性的問題,尤其是在稀疏地采樣了輸入2D圖像的情況下。該任務(wù)先拍攝3D場(chǎng)景的2D圖像集合(具有可選的相機(jī)姿勢(shì)及其內(nèi)參),接著用這些數(shù)據(jù)訓(xùn)練一個(gè)模型,然后使用訓(xùn)練后的模型,我們就可以渲染3D場(chǎng)景中未拍攝過的新2D視圖。一種成功的方法是基于體素的表示法,該表示方法使用離散的網(wǎng)格表示3D場(chǎng)景。使用3D CNN可以預(yù)測(cè)3D體素中對(duì)應(yīng)的RGB-alpha網(wǎng)格值。但是,由于這種基于體素的方法復(fù)雜度與空間分辨率成三次比,難以優(yōu)化并且無法平滑地對(duì)場(chǎng)景表面進(jìn)行參數(shù)化,因此它們的存儲(chǔ)效率不高。計(jì)算機(jī)視覺社區(qū)的最新趨勢(shì)是使用全連接神經(jīng)網(wǎng)絡(luò)將給定的3D場(chǎng)景表示為連續(xù)函數(shù)。因此,神經(jīng)網(wǎng)絡(luò)本身就是3D場(chǎng)景的壓縮表示,使用2D圖像集對(duì)其進(jìn)行訓(xùn)練,然后用于渲染新的視圖。但是,現(xiàn)有方法仍無法與基于體素的方法相匹敵。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

NeRF(neural radiance fields)使用9層和256個(gè)通道的全連接網(wǎng)絡(luò)將場(chǎng)景表示為連續(xù)的5D函數(shù),其輸入是單個(gè)連續(xù)5D坐標(biāo),即3D空間位置(x,y,z)和視角方向(θ,?),其輸出為RGB顏色和不透明度(輸出密度)。為了合成給定的視圖,渲染過程包括沿相機(jī)光心所在直線查詢5D坐標(biāo),并使用經(jīng)典的體素渲染技術(shù)將輸出的顏色和密度投影到圖像中。由于體素渲染是可以可微分的,因此優(yōu)化表示所需的唯一輸入就是已知影機(jī)姿勢(shì)參數(shù)的一組圖像。這樣,NeRF能夠有效地優(yōu)化,以渲染具有復(fù)雜幾何形狀和外觀的場(chǎng)景的逼真視圖,并且在渲染圖像和真實(shí)圖像之間具有簡(jiǎn)單的重建損失,論文證明其結(jié)果優(yōu)于先前的神經(jīng)渲染和視圖合成研究工作。

Towards Streaming Perception (論文地址)

諸如自動(dòng)駕駛汽車之類的實(shí)際應(yīng)用需要類似于人類的快速反應(yīng),通常為200毫秒。 在這種情況下,需要使用低延遲算法來確保安全運(yùn)行。 但是,即使經(jīng)常研究計(jì)算機(jī)視覺算法的延遲,也僅主要在離線環(huán)境中進(jìn)行了研究。 在線視覺感知會(huì)帶來完全不同的延遲需求。 因?yàn)榈搅怂惴ㄍ瓿商幚硖囟▓D像幀的時(shí)間(例如200毫秒后),周圍的環(huán)境就已經(jīng)發(fā)生了變化,如下圖所示。 這迫使感知需要預(yù)測(cè)未來,這是人類視覺的基本屬性(例如,當(dāng)棒球運(yùn)動(dòng)員擊中快球時(shí))。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

為了開發(fā)更好的基準(zhǔn)以反映現(xiàn)實(shí)情況,并使現(xiàn)有方法之間的比較更加容易。本文介紹了流感知的目標(biāo),即實(shí)時(shí)在線感知,并提出了一種新的元基準(zhǔn),該基準(zhǔn)系統(tǒng)性地任何圖像理解任務(wù)轉(zhuǎn)換為流圖像理解任務(wù)。該基準(zhǔn)基于以下要點(diǎn)提出:流感知需要在任何時(shí)刻都了解世界的狀態(tài)。因此,當(dāng)新幀到達(dá)時(shí),流算法必須報(bào)告世界的狀態(tài),即使它們尚未處理前一幀,也迫使它們考慮在進(jìn)行計(jì)算時(shí)忽略的流數(shù)據(jù)量。具體來說,當(dāng)比較模型的輸出和真實(shí)標(biāo)簽時(shí),使用時(shí)間而不是輸入索引來進(jìn)行對(duì)齊,因此,在處理相應(yīng)的輸入之前,模型需要在時(shí)間步t上給出正確的預(yù)測(cè),即驗(yàn)證模型是否正確地將取Δt作為輸入并處理,它只能使用t-Δt之前的數(shù)據(jù)來預(yù)測(cè)在時(shí)間t時(shí)刻對(duì)應(yīng)于輸入的輸出。

Teaching Cameras to Feel: Estimating Tactile Physical Properties of Surfaces From Images (論文地址)

人在很小的時(shí)候就能夠形成一個(gè)心理模型,基于與不同物品互動(dòng)時(shí)的體驗(yàn),將對(duì)物體的感知與其對(duì)應(yīng)的觸覺進(jìn)行映射。當(dāng)與新對(duì)象交互時(shí),具有這種心理模型的自主智能體會(huì)是一個(gè)非常有價(jià)值的工具,特別是當(dāng)一個(gè)簡(jiǎn)單的對(duì)象類別沒有足夠的信息來準(zhǔn)確估計(jì)其觸覺物理特性時(shí)。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

為了更直接地模擬這樣一個(gè)心理模型,本文提出的模型會(huì)直接估計(jì)物體的物理屬性,使得物體的屬性數(shù)據(jù)可被直接利用。首先,作者構(gòu)建了一個(gè)表面圖像序列和觸覺特性測(cè)量數(shù)據(jù)集(數(shù)據(jù)集大小400+)。之所以對(duì)單個(gè)目標(biāo)構(gòu)建圖像序列,是由于在估計(jì)表面特性時(shí),人們常常無意識(shí)地移動(dòng)頭部來獲取表面的多個(gè)視圖,因此捕捉到的圖像序列包含每個(gè)材料表面多個(gè)視角得到的圖像。然后,他們提出了一個(gè)跨模態(tài)的框架來學(xué)習(xí)視覺線索到觸覺特性的復(fù)雜映射。該模型的訓(xùn)練目標(biāo)是在給定視覺信息的情況下,生成精確的觸覺特性估計(jì)值。視覺和觸覺信息通過各自單獨(dú)的編碼器網(wǎng)絡(luò)嵌入到共享的隱空間中。然后,生成器網(wǎng)絡(luò)從嵌入視覺矢量中估計(jì)觸覺特性值。鑒別器網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)觸覺-視覺對(duì)是真實(shí)的還是合成的。在推理過程中,使用編碼器-生成器對(duì)來推斷輸入圖像的觸覺特性。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

Convolutional Occupancy Networks (論文地址)

三維重建是計(jì)算機(jī)視覺的一個(gè)重要問題,有著廣泛的應(yīng)用。對(duì)于理想的三維幾何圖形表示,我們需要能夠,a)編碼復(fù)雜的幾何和任意的拓?fù)?,b)放縮到大型場(chǎng)景,c)封裝局部和全局信息,以及d)在內(nèi)存和計(jì)算方面易于處理。然而,現(xiàn)有的三維重建表示法并不能滿足所有這些要求。盡管最近的隱式神經(jīng)表示在三維重建中表現(xiàn)出了令人印象深刻的性能,但由于使用簡(jiǎn)單的全連接網(wǎng)絡(luò)結(jié)構(gòu),不允許在觀測(cè)值中整合局部信息或引入諸如平移等變項(xiàng)的歸納偏置,因此存在一定的局限性。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

Convolutional Occupancy Networks 使用卷積編碼器和隱式占用解碼器來合并歸納偏差并在三維空間中實(shí)現(xiàn)結(jié)構(gòu)化推理。從而可以對(duì)單個(gè)對(duì)象進(jìn)行更細(xì)粒度的隱式三維重建,能夠放縮到大型室內(nèi)場(chǎng)景,并能很好地從合成數(shù)據(jù)推廣到真實(shí)數(shù)據(jù)。


其他論文

圖像與視頻合成

Transforming and Projecting Images into Class-conditional Generative Networks (論文地址)

GAN 能夠生成多種多樣不同類別的圖像。例如,BigGAN,一個(gè)類條件生成對(duì)抗網(wǎng)絡(luò),給定一個(gè)噪聲向量 z 和一個(gè)類別嵌入向量 c ,該模型能夠生成對(duì)應(yīng)類別的一張新圖像。然后我們就可以通過編輯噪聲向量生成的隱變量以及類別嵌入向量操縱生成的圖像。但這個(gè)過程可以反過來嗎?也就是說,給定一張輸入圖像,我們能否找到與該圖像最匹配的潛在變量 z 和類別嵌入向量 c 呢?這個(gè)問題仍然頗具挑戰(zhàn)性,因?yàn)樵S多輸入圖像不能由 GAN 生成。另外,目標(biāo)函數(shù)具有許多局部極小值,搜索算法容易陷入此類區(qū)域。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

為了解決這些問題,本文提出了 pix2latent 算法,主要包含兩大創(chuàng)新點(diǎn):估計(jì)輸入圖像的尺度變換,以及使用非局部搜索算法來尋找更好的解。如上圖所示,在給定輸入圖像的情況下,pix2potent 首先找到最佳仿射變換,使得變換后的輸入更可能由 GAN 生成,然后使用提出的 BasicCMA 優(yōu)化方法將圖像投影到隱空間中。接著對(duì)獲得的隱變量進(jìn)行編輯,并將其投影回圖像空間,得到編輯后的圖像,最后再用初始仿射變換的逆運(yùn)算對(duì)其進(jìn)行逆變換得到最終的生成圖像。

Contrastive Learning for Unpaired Image-to-Image Translation (論文地址)

給定兩組不同屬性和模式的圖像對(duì)訓(xùn)練集,例如馬和斑馬的圖像對(duì),非配對(duì)圖像到圖像的轉(zhuǎn)換的目的是學(xué)習(xí)兩種圖像模式之間的變換函數(shù),例如將馬轉(zhuǎn)換為斑馬,反之亦然,這一過程中保留了諸如姿態(tài)或大小等敏感信息而無需確保兩種圖像模式之間的一一匹配。現(xiàn)有的方法如 CycleGAN 迫使模型能夠?qū)⑥D(zhuǎn)換后的圖像變換回原始圖像。但是這樣的方法假設(shè)模型能夠?qū)W到一個(gè)雙射變換,這通常含有過多限制,因?yàn)橐粋€(gè)給定的變換后的圖像可能有多種樣式的源圖像。理想的損失應(yīng)該在不同樣式下保持不變,但要能夠做到區(qū)分敏感信息。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

Contrastive Unpaired Translation (CUT) 就是要學(xué)習(xí)這種嵌入空間。除了標(biāo)準(zhǔn)的 GAN 損失,其中生成器要訓(xùn)練生成足夠真實(shí)的轉(zhuǎn)換圖像,而鑒別器試圖區(qū)分轉(zhuǎn)換圖像和真實(shí)圖像。還要增加一個(gè)額外的損失,用來迫使網(wǎng)絡(luò)對(duì)輸入圖像與轉(zhuǎn)換圖像的對(duì)應(yīng)圖像塊生成相似的嵌入向量。該損失在優(yōu)化時(shí)采用對(duì)比損失,即拉近兩個(gè)對(duì)應(yīng)圖像塊嵌入向量的距離,同時(shí)拉遠(yuǎn)給定圖像塊和隨機(jī)抽樣圖像塊嵌入之間的距離(只使用同一輸入圖像的內(nèi)部區(qū)塊,其他圖像的區(qū)塊會(huì)降低性能)。

Rewriting a Deep Generative Model (論文地址)

GAN 能夠?qū)?shù)據(jù)分布中豐富的語義和物理規(guī)則進(jìn)行建模,但是到目前為止,我們?nèi)耘f搞不明白這些規(guī)則是如何在網(wǎng)絡(luò)中編碼的,也無從知曉如何改變某個(gè)規(guī)則。本篇論文則引入了一個(gè)新的問題:操縱由深度生成網(wǎng)絡(luò)模型編碼的特定規(guī)則。也就是說,給定一個(gè)生成模型,其目的是調(diào)整其權(quán)重,使調(diào)整后的模型遵循新的規(guī)則,生成遵循新規(guī)則集的圖像,如下圖所示。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

通過將網(wǎng)絡(luò)中的每一層視為一個(gè)關(guān)聯(lián)性存儲(chǔ)器(該存儲(chǔ)器將潛在生成規(guī)則存儲(chǔ)為隱藏特征上的一組鍵值關(guān)系),我們就可以通過定義一個(gè)受到約束的優(yōu)化來修改模型,這個(gè)受約束優(yōu)化在關(guān)聯(lián)性存儲(chǔ)器中添加或編輯一個(gè)特定規(guī)則,同時(shí)盡可能保留模型中現(xiàn)有的語義關(guān)系。論文直接通過度量和操縱模型的內(nèi)部結(jié)構(gòu)來實(shí)現(xiàn)這一點(diǎn),而不需要任何新的訓(xùn)練數(shù)據(jù)。

Learning Stereo from Single Images (論文地址)

給定兩張對(duì)應(yīng)的圖像,視差匹配的目標(biāo)是估計(jì)每個(gè)像素對(duì)應(yīng)的位置從第一張圖像的視角到第二個(gè)視角之間的每像素水平位移(即視差)。雖然全監(jiān)督方法可以得到很好的結(jié)果,但是一對(duì)視察圖像之間的精確真實(shí)視差往往很難獲得。一種可能的替代方法是使用合成數(shù)據(jù)進(jìn)行訓(xùn)練,然后使用有限數(shù)量的實(shí)際標(biāo)記數(shù)據(jù)進(jìn)行微調(diào)。但是如果沒有充足的真實(shí)數(shù)據(jù)來進(jìn)行微調(diào),這樣的模型在實(shí)際應(yīng)用中還是無法得到很好的視差估計(jì)效果。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

該文提出了一種新穎的、全自動(dòng)的視差估計(jì)訓(xùn)練流程,通過使用圖像深度估計(jì)網(wǎng)絡(luò),該方法可以由已知深度信息的非結(jié)構(gòu)化單幅圖像生成視差估計(jì)訓(xùn)練數(shù)據(jù),這樣就無需人工合成數(shù)據(jù)或真實(shí)視差圖像對(duì)即可進(jìn)行訓(xùn)練。首先,利用深度視差,通過前向形變操作將給定的左輸入圖像轉(zhuǎn)換為合成的右圖像。然后,利用視差圖像對(duì),對(duì)視差估計(jì)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的訓(xùn)練,從而得到一個(gè)泛化的模型。

What makes fake images detectable? Understanding properties that generalize (論文地址)

雖然 GAN 生成圖像的質(zhì)量已經(jīng)達(dá)到了令人頗感驚異的水平,但是經(jīng)過訓(xùn)練的用于檢測(cè)假圖像的深層網(wǎng)絡(luò)仍然可以識(shí)別這些生成圖像中的細(xì)微偽影,并且鑒別真假圖像的網(wǎng)絡(luò)還在不同數(shù)據(jù)集和不同方法訓(xùn)練得到的許多 GAN 模型中找到了相同的偽影。本文旨在可視化和理解哪些部分在各類模型之間是共有的,并且容易在不同的場(chǎng)景中都呈現(xiàn)出來并被檢測(cè)出。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

由于全局面部結(jié)構(gòu)在不同的生成器和數(shù)據(jù)集之間可能會(huì)有所不同,因此相較而言,生成圖像的局部面片更加確定且更可能產(chǎn)生冗余的偽影。為此,使用一個(gè)基于區(qū)塊的全卷積分類器來關(guān)注局部區(qū)塊而不是全局結(jié)構(gòu)。然后,可以使用分類器來可視化和分類在各種測(cè)試數(shù)據(jù)集中最能指示真實(shí)或虛假圖像的區(qū)塊。另外,可以對(duì)生成的圖像進(jìn)行操作以夸大假圖像的特征屬性。

其他論文

視覺與語言(V&L)

Connecting Vision and Language with Localized Narratives (論文地址)

將視覺和語言聯(lián)系起來的一種常用方法是使用圖像標(biāo)題,其中每個(gè)圖像都與人類所寫的文本標(biāo)題配對(duì),但這種圖像與文字的聯(lián)系僅限于完整的圖像尺度,其中的文本描述了整個(gè)圖像。為了改進(jìn)這種弱關(guān)聯(lián),有人就將圖片標(biāo)題的特定部分和圖像中的目標(biāo)框聯(lián)系起來。但是,這種關(guān)聯(lián)仍然非常稀疏,大多數(shù)對(duì)象和單詞都沒有對(duì)應(yīng)的目標(biāo)框,而且標(biāo)注過程可能會(huì)非常昂貴耗時(shí)。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

本文提出了一種新的有效的多模態(tài)圖像標(biāo)注形式,稱之為定位敘事。定位敘述是通過要求標(biāo)注者用他們的聲音描述一個(gè)圖像,同時(shí)將鼠標(biāo)懸停在他們描述的圖像區(qū)域上而生成的。例如,如上圖所示,標(biāo)注者在說“woman”時(shí),會(huì)用鼠標(biāo)表示其所在的空間范圍,從而為這個(gè)名詞提供了視覺基礎(chǔ)。接著,他們把鼠標(biāo)從女人身上移到氣球上,沿著氣球的繩子,說“holding”,這就為這種動(dòng)詞關(guān)系提供了直接的視覺基礎(chǔ)。他們還描述了“clear blue sky”和“l(fā)ight blue jeans”等屬性。由于語音與鼠標(biāo)指針同步,因此可以確定描述中每個(gè)單詞對(duì)應(yīng)的圖像位置。這為每個(gè)單詞提供了以鼠標(biāo)跟蹤片段形式的密集視覺特征。這一豐富的標(biāo)注方法具有多種形式(圖像、文本、語音和位置),可用于文本到圖像生成、視覺問答和語音驅(qū)動(dòng)的環(huán)境導(dǎo)航等不同的任務(wù)?;蛘邽榱藢?duì)任務(wù)進(jìn)行更精細(xì)的控制,比如對(duì)圖像的特定部分進(jìn)行說明,視力不好的人可以通過將手指懸停在圖像上來獲得特定部分的描述。

UNITER: UNiversal Image-TExt Representation Learning (論文地址)

視覺與語言(V&L)任務(wù),如視覺問答(VQA)都依賴于多模態(tài)聯(lián)合嵌入來彌合圖像和文本中視覺線索與文本線索之間的語義鴻溝。但是這種表示通常是為特定的任務(wù)定制的,并且需要特定的網(wǎng)絡(luò)體系架構(gòu)。為了學(xué)習(xí)可用于所有 V&L 下游任務(wù)的通用聯(lián)合嵌入,本文介紹了一種大規(guī)模聯(lián)合多模態(tài)嵌入預(yù)訓(xùn)練模型 UNITER ,如下圖所示?;?transformer 模型,UNITER 接受了4個(gè)任務(wù)的預(yù)訓(xùn)練:基于圖像的蒙版語言建模(MLM),即使用圖像和文本特征來恢復(fù)隨機(jī)蒙版的單詞;以文本為條件的蒙版區(qū)域建模(MRM),即重構(gòu)給定圖像的某些區(qū)域;圖像文本匹配(ITM),即預(yù)測(cè)圖像和文本實(shí)例是否配對(duì);以及單詞區(qū)域?qū)R(WRA),即學(xué)習(xí)最佳變換找到單詞和圖像之間的最佳對(duì)齊。要在下游任務(wù)上使用 UNITER ,首先要將其重新構(gòu)造為分類任務(wù),然后可以在網(wǎng)絡(luò)輸出的[CLS]特征后添加分類器并使用交叉熵?fù)p失進(jìn)行訓(xùn)練。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

Learning to Learn Words from Visual Scenes (論文地址)

視覺和語言任務(wù)(V&L)的標(biāo)準(zhǔn)方法是學(xué)習(xí)一個(gè)共同的嵌入空間,但這種方法效率低下,往往需要上百萬個(gè)例子來學(xué)習(xí),對(duì)語言的自然構(gòu)成結(jié)構(gòu)泛化較差,所學(xué)嵌入在推理時(shí)無法適應(yīng)新單詞。因此,本文提出讓網(wǎng)絡(luò)學(xué)習(xí)得到單詞嵌入的過程,而非學(xué)習(xí)單詞嵌入。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

該模型基于 transformer 結(jié)構(gòu),在每一次迭代中,模型接收一個(gè)圖像語言對(duì),然后元學(xué)習(xí)一個(gè)策略來從中獲取詞表示。這就使得我們能夠在推理時(shí)獲得新單詞的表示,并且能夠更魯棒地推廣到新的描述任務(wù)中。具體來說,每一個(gè)任務(wù)都被定義為一個(gè)語言習(xí)得任務(wù),其中包含訓(xùn)練樣本和測(cè)試樣本,可通過測(cè)試樣本來對(duì)由訓(xùn)練樣本中習(xí)得的語言進(jìn)行評(píng)估。例如,在上圖中,模型需要從訓(xùn)練樣本中獲取單詞“chair”,這個(gè)單詞以前從未見過。元訓(xùn)練在前向傳遞中完成,并使得模型指向訓(xùn)練示例中正確的單詞“chair”,整個(gè)模型的訓(xùn)練使用匹配損失來完成。經(jīng)過多種場(chǎng)景與任務(wù)的訓(xùn)練,該模型在推理過程中能夠很快地適應(yīng)新的任務(wù)。

其他論文

結(jié)語

遺憾的是,論文的數(shù)量使得整個(gè)摘要工作既困難又費(fèi)時(shí)。所以對(duì)于其余的論文,我將簡(jiǎn)單地列出一些我所遇到的論文標(biāo)題,如果讀者對(duì)這些主題感興趣可自行深入研究。


AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作,通過提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺(tái),致力成為中國(guó)最大的科技創(chuàng)新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長(zhǎng)。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

【重磅整理】ECCV 2020 亮點(diǎn)摘要

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說