0
雷鋒網 AI 科技評論按:通常而言,深度學習是典型的數(shù)據(jù)驅動型技術,面對數(shù)據(jù)有限的情況,傳統(tǒng)的深度學習技術的性能往往不盡如人意。在本屆 ICLR 上,許多研究者們利用元學習、遷移學習等技術對小樣本學習問題進行了探究,發(fā)表了多篇高質量論文,可謂百家爭鳴!深度學習工程師 Isaac Godfried 在 Medium 上發(fā)表了一篇文章,基于今年 ICLR 上關于小型數(shù)據(jù)集深度學習研究的論文,探討了目前小樣本學習的最新進展。雷鋒網 AI 科技評論編譯如下。
今年的國際表征學習大會(ICLR)于 2019 年 5 月 6 日如期開幕。按照我此前的計劃,我會深入研究本屆會議發(fā)表的一些有趣的 ICLR 論文。其中大多數(shù)的論文都與我個人感興趣的研究領域相關(無監(jiān)督學習、元學習、注意力機制、自然語言處理),但是我只會選出一些高質量的、并且在其各自的領域有所影響的精品論文進行分析,并更新系列博文。該系列博文的第一篇將介紹在小型數(shù)據(jù)集上的深度學習研究;第二篇將討論在自然語言處理和其它類型的序列化數(shù)據(jù)上取得突破性進展的論文;而第三篇則將分析各類其它的、我認為十分有趣的論文。
訓練數(shù)據(jù)有限的問題對各行各業(yè)都有著廣泛的影響,包括醫(yī)療衛(wèi)生、農業(yè)、汽車、零售、娛樂,等等。在另外一些情況下,我們擁有大量的數(shù)據(jù),但是它們卻未被標注。由于收集和標注數(shù)據(jù)的時間/成本很大,這個問題往往會成為將深度學習技術整合到目標任務中的障礙。
《學習無監(jiān)督學習規(guī)則》
Learning unsupervised learning rules
論文下載地址:https://openreview.net/forum?id=HkNDsiC9KQ
該論文同時建立在元學習和無監(jiān)督學習(這里指 Metz 等人的工作)的概念之上。具體而言,該論文提出利用元學習以一種無監(jiān)督學習的方式學習下游任務的有效表征。該論文重點關注「半監(jiān)督學習」分類問題,但是它之所以有趣是因為:至少在理論上,這種學習規(guī)則「可以被優(yōu)化,從而為任意后續(xù)任務生成表征」。這一點十分有用,因為在針對表征的無監(jiān)督學習的工作中,作者都定義了一個明確的訓練算法或損失函數(shù)。而這里的模型會「學習創(chuàng)建由元目標確定的有用的表征的算法」。這個自定義的規(guī)則往往需要經過大量的實驗以及領域知識才能得出,因此并不能很輕易地適用于新的領域。對自編碼器的使用就是其中的一個例子,它試著通過先進行編碼、再解碼出一個與原始數(shù)據(jù)相同的輸出來學習表征。自編碼器往往需要一個明確指定的損失函數(shù)。
為了理解該方法究竟是如何工作的,我們不妨回想一下:在元學習中,我們通常有一個內層循環(huán)和外層循環(huán)。在內層循環(huán)中,模型會作用于一個具體的任務,例如:在圖像分類問題中,這樣的任務可能是識別出貓和狗。通常而言,內層循環(huán)會在一定數(shù)量 n(一般來說,n 在 1 到 10 之間)個示例上運行。然后,外層循環(huán)會使用某些內層循環(huán)得到的參數(shù)(權重本身、累計損失或其它參數(shù))來執(zhí)行一次「元更新」。這種「元更新」的具體情況隨著模型的變化而變化,但是它們通常會遵循如下所示的方法:
元學習過程一覽
考慮到這一點,他們的模型架構本質上是通過元學習學到某種在創(chuàng)建表征之后更新內層模型的方法。在創(chuàng)建了某種表征之后,該規(guī)則有效地在更新內層模型的過程中替代了隨機梯度下降方法。此外,不同于權重本身通過 MAML 方法或注意力模型的權重通過 SNAIL 更新的情況,這種無監(jiān)督的更新規(guī)則是在循環(huán)的最后進行更新的。這意味著這種無監(jiān)督學習規(guī)則不僅僅可以被應用于類似的任務,還可以被用于全新的任務、新的基礎模型,甚至是新模態(tài)的數(shù)據(jù)(例如從圖像數(shù)據(jù)到文本數(shù)據(jù))。
首先,作者通過展現(xiàn)以前方法存在的問題來評價他們的模型的實驗結果。例如,一個變分自編碼器(VAE)會存在目標函數(shù)(即損失)不匹配的問題,隨著時間的推移,這會導致模型的性能不佳。盡管可以使用原型網絡遷移特征,但如果不同任務的特征維度不同,這種方法就會崩潰。相反,Metz 等人的方法學到了一種在「小樣本」分類任務中具備更好的泛化性能的更新規(guī)則。他們還展示了訓練時的元更新,即使該網絡僅僅在圖片分類任務上進行訓練,它仍然可以泛化到提升文本分類的性能(但同時他們也發(fā)現(xiàn):如果元函數(shù)在圖片分類任務上訓練了太久,會產生明顯的性能下降,這是由于該元函數(shù)在圖片任務上發(fā)生了過擬合)。
總而言之,這是一篇非常棒的論文,也是在無監(jiān)督技術上取得的巨大進步。即使它沒有取得任何目前最先進的實驗結果,但是它完全可以被應用于許多數(shù)據(jù)稀疏的領域。本論文官方版本的代碼可以通過該鏈接獲?。?a target="_blank" rel=nofollow>https://github.com/tensorflow/models/tree/master/research/learning_unsupervised_learning
有趣的是,在今年的 ICLR 上發(fā)表了兩篇同時提出將元學習和無監(jiān)督學習結合起來的論文(盡管兩篇文章實現(xiàn)的方法完全不同)。在本文中,作者使用無監(jiān)督學習為元學習劃分數(shù)據(jù)及,而并非使用元學習來學會無監(jiān)督學習的規(guī)則。
本文是我最喜愛的論文之一,因為它開啟了無需進行顯式任務描述的元學習的大門。元學習存在的某些問題在于:元學習往往需要定義得非常好的任務集合。這就將元學習的適用范疇限制在研究者擁有非常大的已標注元數(shù)據(jù)集(往往被劃分為不同的子數(shù)據(jù)集)的前提下。本文的方法提出自動地將數(shù)據(jù)集劃分為不同的子集。本文作者發(fā)現(xiàn),即便使用簡單的無監(jiān)督聚類算法(例如 K-means 算法),元學習器仍然能夠從這些任務中進行學習,并且在后續(xù)人為標記過的任務上比直接利用這些嵌入進行學習的方法(例如在無監(jiān)督學習后,緊接著進行監(jiān)督分類的情況)的性能更好。他們使用的兩種元學習技術為「ProtoNets」和「MAML」。本文介紹了一種有趣的半監(jiān)督學習范式,在這里,我們首先進行無監(jiān)督的預訓練,然后進行監(jiān)督學習。在本例中,「帶監(jiān)督的」部分會進行「小樣本學習」(few-shot learning)。
作者在 4 個數(shù)據(jù)集上(MNIST,Omniglot,miniImageNet,以及 CelebA)將他們的方法和無監(jiān)督學習方法進行了對比。最終,他們發(fā)現(xiàn),他們的方法比所有其它的「無監(jiān)督+監(jiān)督學習」方法(包括聚類匹配,多層知機(MLP),線性分類,以及K最近鄰)的性能都要好得多。總而言之,本文朝著「讓元學習更容易被應用于各種不同類型的問題」的方向邁出了一大步,而不是讓元學習僅僅適用于那些被良好定義的任務切片。
《帶有潛在嵌入優(yōu)化(LEO) 的元學習》
Meta-Learning with Latent Embedding Optimization (LEO)
論文下載地址:https://openreview.net/forum?id=BJgklhAcK7
本文旨在將基于梯度的元學習和一個潛在的表征網絡結合起來。LEO 的操作分為兩步:首先,它會學習一個模型參數(shù)的低維嵌入;接著它會在模型的低維嵌入空間上執(zhí)行元學習。具體而言,首先將會為模型給出一個任務 T 以及會被傳給編碼器的輸入。編碼器會生成一個潛在編碼,該編碼隨后會被解碼成一組參數(shù)。該編碼器還帶有一個關系網絡,它有助于將編碼變得具有上下文依賴。接著,這些參數(shù)會在內層循環(huán)中被優(yōu)化,而編碼器、解碼器和關系網絡則會在外層循環(huán)中被優(yōu)化。作者指出,他們的工作的主要貢獻是說明了低維嵌入空間中的元學習會比在類似于 MAML 中使用的那樣的高維空間中的元學習的性能好得多。LEO 在「tieredImageNet」和「miniImageNet」數(shù)據(jù)集上都取得了很好的實驗結果(包括在 5 way 1-shot 對比基準測試上實現(xiàn)的準確率為 61%,令人印象深刻,同時還在 5 way 5-shot 任務上取得了77% 的準確率)。和許多其它的論文一樣,本文僅僅在圖像數(shù)據(jù)集上進行了測試,因此尚不清楚該模型在其它類型數(shù)據(jù)上的泛化能力。
《跨程序的遷移學習》
Transferring Learning Across Processes
論文下載地址:https://openreview.net/forum?id=HygBZnRctX
由于本文作者已經在 Medium 上發(fā)表了一篇詳細介紹其模型工作原理的博文(文章查看地址:https://medium.com/@flnr/transferring-knowledge-across-learning-processes-f6f63e9e6f46),我在這里就不過多贅述技術層面的細節(jié)了。相較于其它大量關于元學習的論文,該論文有下面幾點值得強調的亮點:首先,本文的模型同時在小樣本學習(few-shot learning)和數(shù)據(jù)規(guī)模更大的場景下進行了測試評估。這一點是很重要的,因為元學習算法往往并沒有考慮在有更多的數(shù)據(jù)示例(但數(shù)據(jù)規(guī)模仍然太小,以致于無法從頭開始訓練模型)的情況下元優(yōu)化的工作情況。本文還研究了一些尚未被探索的領域。具體而言,本文研究了往往未被探索的「遠程遷移」領域,即在明顯不同的任務之間實現(xiàn)具有積極效果的知識遷移。
《學習深度多維聚類變分自編碼器中的潛在上層結構》
Learning Latent Superstructures in Variational Autoencoders for Deep Multidimensional Clustering
論文下載地址:https://openreview.net/forum?id=SJgNwi09Km
本文討論了使用一種新型的用于更好地對高維數(shù)據(jù)進行聚類的變分自編碼器(VAE)。在無監(jiān)督學習中,將數(shù)據(jù)項聚類到不同的中是一個重要的預處理步驟。本文作者指出,許多種類的數(shù)據(jù)可以基于其屬性的許多不同部分被進行聚類。作者指出「LTVAE 會生成多個數(shù)據(jù)劃分,每個劃分都會由一個上層的潛變量導出。」
「LT-VAE 不僅僅會學習每個聚類的位置來更好地表征數(shù)據(jù),它還會學習這些簇的編號和底層樹形架構的層次結構。這是通過一個三步的學習算法實現(xiàn)的:第一步,訓練一個傳統(tǒng)的『編碼器-解碼器』神經網絡,從而提升它們對數(shù)據(jù)的擬合效果。第二步,一種類似于最大期望算法(EM)的優(yōu)化過程,從而更好地擬合學到的后驗概率的潛在先驗的參數(shù)。第三步,調整潛在先驗的結構從而提升其 BIC 得分[3],這樣做在對潛在后驗的良好擬合以及潛在先驗的參數(shù)數(shù)量(即復雜度)之間取得了平衡?!?/p>
本文提出的方法的主要優(yōu)點在于,它提高了聚類的可解釋性(即使從對數(shù)似然方面來說,它整體的效果并沒有那么好)。此外,針對特定的因素進行聚類使其在許多真實世界的應用中變得十分具有吸引力。盡管本文與許多其它的文章有所不同,并且沒有顯式地研究小樣本學習問題,我認為將這種聚類方法與小樣本方法相結合可能會很有用。例如,它可能可以在「基于元學習環(huán)境的無監(jiān)督學習」問題中被用于任務劃分。
《基于元學習的深度在線學習》
Deep online learning via meta-learning
論文下載地址:https://sites.google.com/berkeley.edu/onlineviameta
本文聚焦于使用元學習和一個「Chinese Restaurant Proces」,在強化學習模型在線運行時(即在生產過程中)快速地更新它們。該工作受啟發(fā)于這一事實:人類常常面臨之前從未(真正地)經歷過的新狀況;然而我們可以利用過去的經驗,并將其與我們從新的經歷中獲得的反饋相結合,從而迅速適應新的狀況。
本文提出的方法首次使用了 MAML 來初步訓練模型。在 MAML 給出有效的先驗后會使用在線學習算法。該在線學習算法使用了「中餐館程序」來生成新的帶有合適的初始化設置的新模型或選擇一個已經存在的模型。接著,作者會基于在線學習的結果,使用隨機梯度下降(SGD)算法更新模型參數(shù)。作者將本文提出的方法命名為「用于在線學習的元學習」(或簡稱 MoLE)。
作者在一些強化學習環(huán)境中測試評估了他們提出的方法。第一個環(huán)境是穿越不同難度的斜坡的仿真獵豹。第二個環(huán)境是一個腿部有殘缺的六足履帶機器人。實驗結果表明,MoLE 比基于模型的強化學習、使用元學習的k-shot 自適應技術、以及使用元學習的連續(xù)梯度步技術的性能要好(盡管有趣的是,它僅僅略微優(yōu)于使用元學習的梯度步)。
《學習通過最大化遷移和最小化干擾進行不會遺忘的學習》
Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference
論文下載地址:https://arxiv.org/pdf/1810.11910.pdf
當神經網絡對一系列任務進行學習時,它往往會遭遇被稱作「災難性遺忘」的問題。由于災難性遺忘,神經網絡無法再在之前訓練的任務上取得好的性能。災難性遺忘可以被認為是存在明顯的消極負向遷移的遷移學習的特例。遷移學習(正如大多數(shù)人們所指的)以及元學習通常尋求最大化在最終的任務上的正向積極遷移,但是一般來說并不會關注它對于源任務的影響。本文試圖在仍然能夠實現(xiàn)積極遷移但不以災難性遺忘(干擾)為代價的情況下取得更大的平衡。
為了解決這個問題,Riemer 等人提出了一種被稱為元經驗回放(MER)的方法。MER 采用了標準的經驗回放,交叉存取過去的訓練示例與當前的訓練示例,從而防止發(fā)生災難性遺忘。作者假設過去的訓練示例學習率較低;其次,MER 采用流行的 REPTILE 元學習算法在新數(shù)據(jù)上進行訓練。不過,MER 也將內存緩存器中的過去的訓練示例與新的示例交錯在一起,輸入給由 REPTILE 驅動的內層訓練循環(huán),從而防止災難性遺忘的發(fā)生。
我非常喜歡這篇論文,因為它同時探究了積極遷移和消極遷移的想法。本文的方法在 Omniglot 和強化學習環(huán)境中取得的實驗結果似乎相當不錯。然而,作者只在小型「玩具」數(shù)據(jù)集上進行了測試,尤其是在監(jiān)督分類問題中。他們本應該也在 CIFAR-10 對比基準、CALTech-Birds 或 CORRE50 上進行測試。從這一點上說,由于還存在許多更加真實的 CL 數(shù)據(jù)集,他們沒有理由僅僅在稍微修改過的 MNIST 或 Omniglot 數(shù)據(jù)集上進行測試。此外,我發(fā)現(xiàn)由于作者「重復命名」了一些之前命名過的概念,文中的一些術語令人困惑。而且,在理想情況下,當我們連續(xù)進行學習時,我們不必再在任何之前的數(shù)據(jù)上重新進行訓練(重新訓練會帶來額外的計算開銷)。然而,所有的這一切都是朝著正確的方向邁進了,我希望有更多的論文同時關注正向和負向遷移。更多關于該論文的信息,請參閱 IBM 的博文:「Unifying Continual Learning and Meta-Learning with Meta-Experience Replay」(https://www.ibm.com/blogs/research/2019/05/meta-experience-replay/);論文代碼地址:https://github.com/mattriemer/MER
《文本轉語音的高效自適應采樣》
Sample Efficient Adaptive Text-to-Speech
論文下載地址:https://openreview.net/forum?id=rkzjUoAcFX
這是一個將元學習運用到「序列到序列」建模任務中的有趣應用。在本例中,作者使用元學習來實現(xiàn)對說話者聲音的小樣本自適應。該應用十分重要,因為大多數(shù)情況下,你可能并不能獲取某個特定說話者持續(xù) 100 秒或 1000 秒的聲音。具體而言,作者拓展了 WaveNet 架構,從而引入了元學習技術。有趣的是,根據(jù)作者的說法,在他們初步的試驗中,MAML 并沒有生成有意義的先驗。因此,他們不得不開發(fā)他們自己的架構。
該架構的工作流程分為三步:(1)在一個包含多名說話者的「文本-語音」對的大型語料庫上訓練模型;(2)根據(jù)某個特定說話者的少量「文本-語音」對調整模型;(3)最終在純文本上進行推理,并將其轉化為合適的語音。作者研究了兩種小樣本學習場景:帶有一個嵌入編碼器(SEA-ENC)的參數(shù)化 few-soht 自適應,以及帶有調優(yōu)過程的非參數(shù)化 few-shot 自適應(SEA-ALL)。在 SEA-ENC 的情況下,作者訓練一個輔助嵌入網絡,該網絡會在給定新數(shù)據(jù)的情況下預測出一個說話者的嵌入向量。相比之下,對于 SEA-ALL 來說,作者同時訓練網路和嵌入。在測試評估階段,SEA-ALL 似乎性能更好,盡管作者聲稱模型在 SEA-ALL 的情況下會發(fā)生過擬合。因此,他們推薦使用早停法(early stopping)防止過擬合。(他們的模型僅僅在 10 秒內的 Librispeech 任務上比早先的論文所提出的模型表現(xiàn)更好)。
本文是一個很好的范例,它將小樣本學習應用于典型的圖像分類領域之外的棘手問題,并對其進行必要的調整使其能夠真正有效。希望我們能夠在未來看到有更多的研究者嘗試將小樣本學習應用于通用模型。作者提供了一個網站,你可以在上面測試他們的 TTS(Text to speaking)模型的demo。然而,遺憾的是,他們似乎沒有公開他們的代碼。
《K for the Price of 1:參數(shù)高效的多任務和遷移學習》
K for the Price of 1: Parameter-efficient Multi-task and Transfer Learning
論文下載地址:https://openreview.net/pdf?id=BJxvEh0cFQ
Mudrarkarta 等人提出了一個由少量可學習的參數(shù)組成的模型補丁包,這些參數(shù)專門針對各個任務。這種方法替代了對網絡的最后一層進行調優(yōu)的通常做法。作者發(fā)現(xiàn)這種方法不僅可以減少參數(shù)的數(shù)量(從超過 100 萬減少到 3.5 萬),還可以在遷移學習和多任務學習的環(huán)境下提升調優(yōu)的準確率。唯一的缺點是,該補丁包似乎針對的只是相當具體的架構。
《用于距離度量學習的無監(jiān)督域自適應方法》
Unsupervised Domain Adaptation for Distance Metric Learning
論文下載地址:https://openreview.net/forum?id=BklhAj09K7
盡管本論文第一部分的標題為「無監(jiān)督域自適應」,它實際上研究的是遷移學習問題?;叵胍幌?,通常目標域會通過域自適應獲得一組相同的標簽。然而,在本例中,作者假設了一個無標簽的目標域——正如一些審稿人提到的,本論文因此也變得有些令人困惑;不過,本文仍然有一些值得關注的地方:為了分離源域和目標域的調整空間,作者提出了一種特征遷移網絡 FTN。并且,該作者在跨種族人臉識別任務上取得了目前最先進的性能。
《學習用于語法引導的程序合成的元解算器》
Learning a Meta-Solver for Syntax-Guided Program Synthesis
論文下載地址:https://openreview.net/forum?id=Syl8Sn0cK7¬eId=BJlUkwHxeV
本文討論如何將元學習應用到程序合成任務中。在本文中,作者構建了一個語法引導程序,它遵循一個邏輯公式和語法,然后生成一個程序。本文是一個將元學習用于典型的小樣本圖像數(shù)據(jù)集之外的應用中的很好的范例。
《深度線性網絡中泛化動態(tài)和遷移學習的分析理論》
An analytic theory of generalization dynamics and transfer learning in deep linear networks
論文下載地址:https://arxiv.org/abs/1809.10374
本文研究了學習和遷移學習的理論。作者聲稱「我們的理論解釋了知識遷移敏感但可計算依賴于『信噪比』和任務對的輸入特征對齊」。總而言之,對于那些喜歡深入研究理論的人來說,這篇文章非常有趣。
我希望本文很好地概述了本屆 ICLR 上有關小樣本學習的大多數(shù)論文(盡管我可能會漏掉一些)。如你所見,本屆 ICLR 上出現(xiàn)了各種各樣有趣的新技術,它們開啟了將深度學習用于數(shù)據(jù)有限的情況的大門。
via https://towardsdatascience.com/iclr-2019-overcoming-limited-data-382cd19db6d2 雷鋒網
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。