0
本文作者: MrBear | 2019-07-26 09:54 | 專題:CVPR 2019 |
雷鋒網(wǎng) AI 科技評論按:隨著研究者們對樣本利用效率的要求日益提高,小樣本學(xué)習(xí)逐漸成為了 AI 領(lǐng)域以及相關(guān)頂會最熱門的話題之一。色列特拉維夫大學(xué)的在讀博士研究生 Eli Schwarts 參加完 CVPR 2019 后,針對今年 CVPR 2019 的熱點(diǎn)之一——小樣本學(xué)習(xí)整理出了一份論文清單,供大家從 CVPR 的維度一覽小樣本學(xué)習(xí)在目前的研究進(jìn)展。雷鋒網(wǎng)
最近,小樣本物體識別成為了一個熱門的研究課題(CVPR 2018 收錄了 4 篇關(guān)于小樣本學(xué)習(xí)的論文,而到了 CVPR 2019,這一數(shù)量激增到了近 20 篇)。通常情況下,在訓(xùn)練時你有許多可以使用的各類樣本;然后,在測試時,你會面對新的類別(通常為 5 類),其中每個類別僅有極少量的樣本(通常每類只有 1 個或 5 個樣本,稱為「支持集」),以及來自相同類別的查詢圖像。
接下來,本文將把小樣本方法劃分為 5 個不同的類別(盡管這些類別并沒有明確的界定,許多方法同時屬于不止一個類別)。
「Older」指的是基于度量學(xué)習(xí)的方法,其目標(biāo)是學(xué)習(xí)一個從圖像到嵌入空間的映射,在該空間中,同一類圖像彼此間的距離較近,而不同類的圖像距離則較遠(yuǎn)。我們希望這種性質(zhì)適用于那些沒有見過的類。
在這之后,就到元學(xué)習(xí)方法了。這類模型建立在當(dāng)前所面對的任務(wù)的基礎(chǔ)上,因此使用不同的分類器作為支持集的函數(shù)。其思路是尋找模型的超參數(shù)和參數(shù),這樣一來在不對使用的小樣本過擬合的條件下可以很容易地適應(yīng)新的任務(wù)。
與此同時,數(shù)據(jù)增強(qiáng)方法也十分流行。其思想是學(xué)習(xí)數(shù)據(jù)增強(qiáng)的方式,從而可以通過少量可用的樣本生成更多的樣本。
最后,基于語義的方法正在逐漸興起。這類方法受到了零樣本學(xué)習(xí)(zero-shot learning)的啟發(fā),其中分類任務(wù)的完成僅僅基于類別的名稱、文本描述或?qū)傩浴.?dāng)視覺信息稀缺時,這些額外的語義信息也可能很有用。
度量學(xué)習(xí)方法
論文:Revisiting Local Descriptor based Image-to-Class Measure for Few-shot Learning,Li et. Al
論文:Few-Shot Learning with Localization in Realistic Settings,Wertheimer et. Al
論文:Dense Classification and Implanting for Few-Shot Learning,Lifchitz et. Al
論文:Variational Prototyping-Encoder: One-Shot Learning with Prototypical Images,Kim et. Al
論文地址:https://arxiv.org/abs/1904.08482?source=post_page
元學(xué)習(xí)方法
論文:Edge-Labeling Graph Neural Network for Few-shot Learning,Kim et. al
論文:Task Agnostic Meta-Learning for Few-Shot Learning,Jamal et. al
論文:Meta-Transfer Learning for Few-Shot Learning,Sun et. al
論文地址:http://arxiv.org/abs/1812.02391?source=post_page
論文:Generating Classification Weights with GNN Denoising Autoencoders for Few-Shot Learning,Gidaris et. al
論文:Finding Task-Relevant Features for Few-Shot Learning by Category Traversal,Li et. al
數(shù)據(jù)增強(qiáng)方法
論文:LaSO: Label-Set Operations networks for multi-label few-shot learning,Alfassy et. al
論文:Few-shot Learning via Saliency-guided Hallucination of Samples,Zhang et. al
論文:Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification,Chu et. Al
論文:Image Deformation Meta-Networks for One-Shot Learning,Chen et. al
基于語義的方法
論文:Baby steps towards few-shot learning with multiple semantics,Schwartz et. al
論文:Generalized Zero- and Few-Shot Learning via Aligned Variational Autoencoders,Schonfeld et. al
論文:TAFE-Net: Task-Aware Feature Embeddings for Low Shot Learning,Wang et. al
論文:Large-Scale Few-Shot Learning: Knowledge Transfer With Class Hierarchy,Li et. al
物體識別之外(其它任務(wù)中的小樣本學(xué)習(xí))
論文:RepMet: Representative-based metric learning for classification and few-shot object detection,Karlinsky et. al
論文:CANet: Class-Agnostic Segmentation Networks with Iterative Refinement and Attentive Few-Shot Learning,Zhang et. al
Revisiting Local Descriptor based Image-to-Class Measure for Few-shot Learning, Li et. al
在本文中,作者稍微走起了點(diǎn)懷舊風(fēng),采用了詞袋(bag-of-words)模型時代使用的局部描述子,但是特征則是使用一個卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取到的,而整個學(xué)習(xí)框架都是端到端的。它的實(shí)驗(yàn)結(jié)果略微低于對比基準(zhǔn)。
Few-Shot Learning with Localization in Realistic Settings, Wertheimer et. Al
本文聲稱,標(biāo)準(zhǔn)的小樣本學(xué)習(xí)對比基準(zhǔn)測試是不符合現(xiàn)實(shí)情況的,因?yàn)樗鼈兪褂玫牟煌悇e的數(shù)據(jù)是被人為設(shè)定成平衡的,而且測試時使用的是 5 類樣本,因此本文作者建議使用一個新的數(shù)據(jù)集/對比基準(zhǔn)。同時,讓模型同時學(xué)習(xí)進(jìn)行定位和分類;這樣做顯而易見的缺點(diǎn)是需要用到帶有邊界框標(biāo)注的數(shù)據(jù)集。分類器是建立在原型網(wǎng)絡(luò)之上的,但使用的特征向量是由聚合的前景和背景表征連接而成的。
Dense Classification and Implanting for Few-Shot Learning, Lifchitz et. al
在本文中,分類任務(wù)是密集地執(zhí)行的,即所有的空間位置都需要被正確地分類,而不是在最后進(jìn)行全局平均池化處理。此外,在測試期間,本文作者并不是在最后一層才進(jìn)行調(diào)優(yōu),而是通過添加神經(jīng)元擴(kuò)大每一層并對它們進(jìn)行調(diào)優(yōu)(只有額外添加的權(quán)重會被訓(xùn)練,舊的權(quán)重會被凍結(jié))。
Variational Prototyping-Encoder: One-Shot Learning with Prototypical Images, Kim et. al.
這是一個單樣本分類技術(shù)的更具體的應(yīng)用,針對的是標(biāo)志或路標(biāo)分類問題。在本例中,作者將標(biāo)準(zhǔn)圖形化的圖像(與現(xiàn)實(shí)中的真實(shí)標(biāo)志/路標(biāo)相對應(yīng))作為原型。他們通過學(xué)習(xí)一個將真實(shí)標(biāo)志/路標(biāo)圖像映射到原型圖像上的元任務(wù)學(xué)習(xí)來學(xué)習(xí)一種良好的表征。
Edge-Labeling Graph Neural Network for Few-shot Learning, Kim et. al
圖神經(jīng)網(wǎng)絡(luò)已經(jīng)被用于小樣本學(xué)習(xí)領(lǐng)域。其基本思想是,每個圖像都可以作為圖中的一個節(jié)點(diǎn)來表示,而且信息(節(jié)點(diǎn)表征)可以根據(jù)它們之間的相似度在它們之間傳播。通常而言,分類任務(wù)是根據(jù)節(jié)點(diǎn)表征之間的距離隱式地完成的。在這里,作者建議在每條邊上加上顯式的特征來描述節(jié)點(diǎn)之間的相似度。
Task Agnostic Meta-Learning for Few-Shot Learning, Jamal et. Al
在這項(xiàng)工作中,為了避免元學(xué)習(xí)模型對訓(xùn)練任務(wù)過擬合,作者在輸出預(yù)測時加入了一個正則化項(xiàng)。正則化要么會使預(yù)測具有更高的熵(即預(yù)測的概率不會看起來像一個獨(dú)熱矢量),要么使模型在不同任務(wù)之間的差異更小(即在不同任務(wù)上表現(xiàn)相同)。顯然,對于小樣本學(xué)習(xí)來說,有一個強(qiáng)大的正則化機(jī)制是十分重要的,但我并不能直觀地理解為什么我們需要的是文中體到的特定的正則項(xiàng)。本文作者在 MAML 的基礎(chǔ)上測試了該方法,得到了更優(yōu)的性能。不妨看看將其應(yīng)用于其它方法上是否也會對性能提升有所幫助!
Meta-Transfer Learning for Few-Shot Learning, Sun et. Al
該方法有兩個主要的組成部分:(1)對一個預(yù)訓(xùn)練的模型調(diào)優(yōu),其中權(quán)值是凍結(jié)的,在每一層中只學(xué)習(xí)放縮和偏置(Scaling and Shifting);(2)困難任務(wù)挖掘。如果我沒弄錯的話,MAML 對批量歸一化層進(jìn)行了調(diào)優(yōu),這難道不是具有和「學(xué)習(xí)放縮和偏置」相同的效果嗎?似乎將困難批量挖掘(根據(jù)之前的任務(wù)中具有較低的準(zhǔn)確率的類組成的任務(wù))應(yīng)用到 MAML 上也是有所幫助的。
Generating Classification Weights with GNN Denoising Autoencoders for Few-Shot Learning, Gidaris et. Al
在本文中,作者再次建立模型預(yù)測分類器對于未見過的類的權(quán)重。此外,所有分類器的權(quán)重都會被傳遞給一個通過一個圖神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的去噪自編碼器(基類和任務(wù)中的新類別),從而做到:(1)讓分類器能夠適應(yīng)當(dāng)前任務(wù)的類別(2)將基類分類器的知識傳播給新類分類器。使用去躁自編碼器有助于修正預(yù)測得到的分類器,因?yàn)檫@些分類器僅僅只基于少量的示例預(yù)測得到,有明顯的噪聲。
Finding Task-Relevant Features for Few-Shot Learning by Category Traversal, Li et. al
給定一個特征提取器,該模型大體上可以預(yù)測一個特征向量上的注意力映射。「Concentrator」會分別查看每個類(或圖像),而「Projector」則會融合來自任務(wù)中所有類的信息來生成注意力映射?!窩oncentrator」和「Projector」都是通過一個小型的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來實(shí)現(xiàn)的。我非常喜歡這種簡單的模塊,當(dāng)在幾個一致的基于度量的方法上使用該模塊時,它們總是可以提升性能。
LaSO: Label-Set Operations networks for multi-label few-shot learning, Alfassy et. al
本文的研究課題是多標(biāo)簽小樣本分類問題。在本文中,作者訓(xùn)練模型在嵌入空間中對多標(biāo)簽樣本的標(biāo)簽集執(zhí)行集合運(yùn)算(求并集、差集、交集)。例如,通過對狗和貓的圖像求并集,可以得到同時包含狗和貓的圖像的表征。之后,作者使用這些操作來增強(qiáng)數(shù)據(jù)并提高分類性能。
Few-shot Learning via Saliency-guided Hallucination of Samples, Zhang et. Al
本文采用(在沒有交集的類上)預(yù)訓(xùn)練的顯著性模型分割前景和背景。作者訓(xùn)練了兩個特征提取器,一個用于提取前景特征、另一個用于提取背景特征,還有第三個模型用來將前兩種特征進(jìn)行組合。顯然,其缺點(diǎn)是你需要一個預(yù)訓(xùn)練好的顯著性模型。我認(rèn)為這是一個很棒的增強(qiáng)數(shù)據(jù)的方式,但是我不確定增強(qiáng)背景數(shù)據(jù)對于正確的分類有多重要(不像目標(biāo)檢測任務(wù)),如果你已經(jīng)能夠分割出前景,那么僅僅使用前景進(jìn)行分類不是更好嗎?
Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification, Chu et. Al
在本文中,作者計(jì)算了每一個圖塊(patch)的表征(而不是僅僅學(xué)習(xí)整幅圖像的表征),然后通過使用了最優(yōu)圖塊軌跡的 RNN(即決定下一步應(yīng)該使用哪一個圖塊)來聚合這種表征,該軌跡是通過一個強(qiáng)化學(xué)習(xí)模型預(yù)測得到的。與簡單的注意力模型相比,我認(rèn)為該模型由于其具有數(shù)據(jù)增強(qiáng)方法(對于同一張圖像使用不同的軌跡),要更好一些。然而,基準(zhǔn)對比測試的結(jié)果只能說馬馬虎虎。我想知道僅僅使用一個隨機(jī)的軌跡進(jìn)行增強(qiáng)是否也會起到相同的作用。
Image Deformation Meta-Networks for One-Shot Learning, Chen et. Al
這是一種非常酷的數(shù)據(jù)增強(qiáng)方法。該方法類似于「mixup」(https://arxiv.org/pdf/1710.09412v1.pdf),但是這里的圖像被根據(jù)一個網(wǎng)格進(jìn)行了劃分,并且為每個單元使用了不同的預(yù)測出的「mixup」系數(shù)。模型訓(xùn)練是端到端的,同時進(jìn)行分類器的學(xué)習(xí)和對「mixup」的優(yōu)化(指更好的分類效果)。本文作者將提出的模型與「mixup」進(jìn)行了對比,但是我們想知道:如果系數(shù)是預(yù)測得出的而非隨機(jī)的,「mixup」對整幅圖像的效果如何,即不同的「混合」方式對于每個單元的影響如何。
Baby steps towards few-shot learning with multiple semantics, Schwartz et. Al
本文作者在 CVPR 的「語言與視覺 Workshop」 上展示了自己的工作。作者基于 AM3 模型[Xing et. al, 2019]構(gòu)建了自己的模型,并將其泛化,從而利用多種語義。同時,作者還使用了關(guān)于類別的短文本描述(這些描述是 ImageNet 的一部分,但是至今仍未被用于小樣本學(xué)習(xí))來提升性能。從可視化原型開始,他們便采用一系列語義嵌入迭代地更新這些可視化原型。通過這樣做,該論文提出的方法實(shí)現(xiàn)了目前在 miniImageNet 上最佳的性能。
Generalized Zero- and Few-Shot Learning via Aligned Variational Autoencoders, Schonfeld et. Al
本文作者訓(xùn)練了兩個變分自編碼器(VAE),一個用于視覺特征,另一個則用于語義特征。其目的是能夠根據(jù)潛在的視覺特征重建語義特征,反之亦然。作者表明,使得兩個潛在空間具有相同的分布也很有幫助。
TAFE-Net: Task-Aware Feature Embeddings for Low Shot Learning, Wang et. Al
在這項(xiàng)工作中,標(biāo)簽嵌入(GloVe)被用來預(yù)測數(shù)據(jù)特征提取模型的權(quán)重。他們提出了一種很好的方法來分解權(quán)重,從而只需要預(yù)測一個較低維的權(quán)重向量。此外,通過「嵌入損失」迫使語義嵌入和視覺嵌入對齊。這篇論文的有趣之處在于,它結(jié)合了兩種方法:元學(xué)習(xí)(基于任務(wù)來預(yù)測模型),以及利用語義信息(標(biāo)簽)。然而,對于小樣本學(xué)習(xí)任務(wù)而言,似乎本文提出的模型稍微弱于現(xiàn)有的最佳方法。
Large-Scale Few-Shot Learning: Knowledge Transfer With Class Hierarchy, Li et. Al
作者聲稱現(xiàn)有的方法在大規(guī)模小樣本學(xué)習(xí)任務(wù)往往會失敗,例如在 ImageNet 而不是在像 miniImageNet 種的 64 個基類這樣的小型數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并且其結(jié)果也并沒有優(yōu)于簡單的對比基線。在本文中,作者也使用了語義標(biāo)簽。他們使用標(biāo)簽嵌入來無監(jiān)督地構(gòu)建了一個類別的層次結(jié)構(gòu),這是一種非常有趣的方法,學(xué)習(xí)以這種層次化的方式進(jìn)行分類可能有助于模型捕獲那些在未見過的類上表現(xiàn)更好的特征。然而需要警醒的是,將未見過的類標(biāo)簽用于構(gòu)建類別的層次結(jié)構(gòu)是不是有作弊之虞?
RepMet: Representative-based metric learning for classification and few-shot object detection, Karlinsky et. al
該博文的作者也參與了這篇論文的工作。在本文中,作者率先研究了小樣本目標(biāo)檢測。他們的解決方案是將一種基于度量的方法(如原型網(wǎng)絡(luò))擴(kuò)展到目標(biāo)檢測任務(wù)上。他們使用了一種現(xiàn)成的檢測器架構(gòu)(FPN-DCN),并使用一種基于度量的分類器替換了線性分類器頭,在該方法中,對檢測出的每個區(qū)域的分類是基于特征向量到學(xué)到的類別的表征的距離而得出的。論文作者建議為小樣本檢測問題使用一種新的對比基準(zhǔn),并且展示了該論文提出的方法相對于對比方法的提升。
CANet: Class-Agnostic Segmentation Networks with Iterative Refinement and Attentive Few-Shot Learning, Zhang et. Al
本文將度量學(xué)習(xí)擴(kuò)展到了稠密場景下的小樣本分割任務(wù)中。將查詢圖像中的所有局部特征與支持集中物體的所有局部特征進(jìn)行對比的計(jì)算開銷是非常大的。因此,本文作者選擇將查詢圖像中的局部特征與支持集圖像的全局表征進(jìn)行對比。
Via https://towardsdatascience.com/few-shot-learning-in-cvpr19-6c6892fc8c5 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。