伯克利AI研究所：新型元學(xué)習(xí)法MAML的前世今生。

本文作者：汪思穎

編輯：楊曉凡

2017-07-21 17:50

導(dǎo)語(yǔ)：伯克利AI研究所帶來(lái)了他們的最新研究——未知模型元學(xué)習(xí)法（MAML）。這種方法非常簡(jiǎn)單，并且優(yōu)于已知的很多方法。

雷鋒網(wǎng) AI科技評(píng)論按：伯克利AI研究所帶來(lái)了他們的最新研究——未知模型元學(xué)習(xí)法（MAML）。它不會(huì)對(duì)模型的形式做任何假設(shè)，也沒(méi)有為元學(xué)習(xí)引入額外的參數(shù)，極易應(yīng)用于許多領(lǐng)域，包括分類、回歸和強(qiáng)化學(xué)習(xí)。這種方法非常簡(jiǎn)單，并且優(yōu)于已知的很多方法。

雷鋒網(wǎng) AI科技評(píng)論將其編譯如下：

智能的一個(gè)關(guān)鍵層面是多才多藝——即擁有做許多不同事情的能力。目前的人工智能系統(tǒng)擅長(zhǎng)掌握單一技能，如精通圍棋的Go、深度回答能力超強(qiáng)的Watson，甚至還有自動(dòng)控制直升機(jī)系統(tǒng)。但是，當(dāng)你讓人工智能系統(tǒng)去做不同種類看似簡(jiǎn)單的問(wèn)題時(shí)，它就會(huì)舉步維艱。在《Jeopardy》中的智力問(wèn)答冠軍Watson不能交談，一個(gè)能熟練操控直升機(jī)飛行的系統(tǒng)不能應(yīng)用于其他新的、簡(jiǎn)單的情形，比如為了撲滅火災(zāi)，進(jìn)行定位、飛行和懸停操作。相比之下，人類可以做很多事，智能地適應(yīng)各種新的、未曾看過(guò)的情形。怎樣才能使人工智能變得像人一樣多才多藝呢?

已經(jīng)有了幾種技術(shù)來(lái)解決上述問(wèn)題，在這篇文章中，伯克利AI研究所評(píng)價(jià)了這些技術(shù)，同時(shí)討論了他們針對(duì)上述問(wèn)題的最新技術(shù)——未知模型元學(xué)習(xí)法（點(diǎn)擊打開關(guān)于這個(gè)方法的論文以及代碼）。

當(dāng)前的AI系統(tǒng)能從零開始學(xué)習(xí)，花費(fèi)大量的時(shí)間和經(jīng)驗(yàn)掌握一項(xiàng)復(fù)雜的技能。但是，如果希望系統(tǒng)能夠掌握許多技能并適應(yīng)多種狀況，從零開始逐個(gè)技能逐步訓(xùn)練的代價(jià)太大了?，F(xiàn)在需要系統(tǒng)重用以前的經(jīng)驗(yàn)，更快地學(xué)習(xí)新任務(wù)，而不是從頭學(xué)習(xí)。這種方法叫學(xué)會(huì)學(xué)習(xí)或元學(xué)習(xí)，是通往全能型系統(tǒng)的關(guān)鍵踏腳石，這種通用系統(tǒng)在生命期內(nèi)能從大量任務(wù)中持續(xù)不斷地學(xué)習(xí)。

什么是學(xué)會(huì)學(xué)習(xí)，它現(xiàn)在都有哪些應(yīng)用？

最早的元學(xué)習(xí)方法可以追溯到上世紀(jì)80年代末和90年代初，Jürgen Schmidhuber的論文、Yoshua和Samy Bengio的工作中都有提到。近年來(lái)，元學(xué)習(xí)成為熱門話題，關(guān)于它的論文席卷而來(lái)。它最常用在這些地方：超參數(shù)和神經(jīng)網(wǎng)絡(luò)優(yōu)化，發(fā)掘好的網(wǎng)絡(luò)架構(gòu)，小樣本圖像識(shí)別和快速的強(qiáng)化學(xué)習(xí)。

伯克利AI研究所：新型元學(xué)習(xí)法MAML的前世今生。

上圖是幾種常見(jiàn)的元學(xué)習(xí)方法

小樣本學(xué)習(xí)

2015年，Brendan Lake等人發(fā)表了一篇論文，挑戰(zhàn)了現(xiàn)代機(jī)器學(xué)習(xí)方法。他們指出機(jī)器可以通過(guò)一個(gè)概念中的單個(gè)或幾個(gè)例子學(xué)會(huì)新的概念。例如，Lake認(rèn)為人類可以只看到一張圖片(如下圖所示)就學(xué)會(huì)識(shí)別“新型雙輪車”，而在這之前的機(jī)器則不能像人一樣泛化概念。(對(duì)于從未見(jiàn)過(guò)的字母表中的字符，人類也可以在見(jiàn)過(guò)一個(gè)示例之后將它畫出來(lái))。

伯克利AI研究所：新型元學(xué)習(xí)法MAML的前世今生。

和論文一起，Lake還公布了Omniglot數(shù)據(jù)集，這個(gè)數(shù)據(jù)集是MNIST的“轉(zhuǎn)置”，共計(jì)1623類字符，每類包含20個(gè)樣本。很快，緊隨2016年ICML的論文，出現(xiàn)了兩種深度學(xué)習(xí)模型，它們使用的是記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)和順序生成模型，這表明，深度模型通過(guò)少量例子學(xué)會(huì)學(xué)習(xí)是可能的，雖然還沒(méi)有達(dá)到人類的水平。

目前元學(xué)習(xí)方法的工作原理

先是讓系統(tǒng)接觸大量的任務(wù)進(jìn)行訓(xùn)練,然后再測(cè)試這個(gè)系統(tǒng)學(xué)習(xí)新任務(wù)的能力。比如會(huì)有這樣的任務(wù)：要識(shí)別一張新圖像是五個(gè)分類中的哪一個(gè)，每個(gè)分類只有一張示例圖像；或?qū)W會(huì)在一次遍歷之后高效的走出迷宮。這與許多標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)技術(shù)不同，它們的方法是在單個(gè)任務(wù)上進(jìn)行訓(xùn)練，在任務(wù)中單獨(dú)留出的樣例中進(jìn)行測(cè)試。

伯克利AI研究所：新型元學(xué)習(xí)法MAML的前世今生。

元學(xué)習(xí)過(guò)程中，在元訓(xùn)練集中訓(xùn)練模型學(xué)習(xí)任務(wù)。有兩種優(yōu)化在起作用——一種是學(xué)習(xí)器，它負(fù)責(zé)學(xué)習(xí)新任務(wù)；另一種是元學(xué)習(xí)器，它負(fù)責(zé)訓(xùn)練學(xué)習(xí)器。元學(xué)習(xí)的方法通常分為三類:循環(huán)模型、度量學(xué)習(xí)和學(xué)習(xí)優(yōu)化器法。

循環(huán)模型

有一些做法可以訓(xùn)練出一個(gè)循環(huán)模型，例如LSTM網(wǎng)絡(luò)，先是連續(xù)地接收數(shù)據(jù)集，然后處理來(lái)自目標(biāo)任務(wù)的輸入。對(duì)于圖像識(shí)別來(lái)說(shuō)，可能需要持續(xù)把數(shù)據(jù)集中成對(duì)的圖像—標(biāo)簽對(duì)傳遞給網(wǎng)絡(luò)，然后再傳遞要識(shí)別的新樣例。

伯克利AI研究所：新型元學(xué)習(xí)法MAML的前世今生。

元學(xué)習(xí)器使用梯度下降法，而學(xué)習(xí)器只是簡(jiǎn)單地在循環(huán)網(wǎng)絡(luò)中執(zhí)行。這是最常見(jiàn)的方法之一，已經(jīng)被用于小樣本識(shí)別和回歸、元強(qiáng)化學(xué)習(xí)。由于其靈活性，這種方法比其他方法(從元的角度)更低效，因?yàn)閷W(xué)習(xí)器網(wǎng)絡(luò)需要從零開始找到學(xué)習(xí)策略。

度量學(xué)習(xí)

這種方法需要學(xué)習(xí)一個(gè)度量空間，在這個(gè)空間里學(xué)習(xí)特別高效。該方法主要用于小樣本識(shí)別。直觀地說(shuō)，如果目標(biāo)是從少量的樣本圖像中學(xué)習(xí)，那么有一種簡(jiǎn)單的方法是用已有的樣本圖像與試圖識(shí)別的圖像作比較。

但是，正如你可能想象的那樣，在像素空間中比較圖像不會(huì)起到很好的效果。你可以在一個(gè)訓(xùn)練好的度量空間里訓(xùn)練孿生網(wǎng)絡(luò)或執(zhí)行比較。與以前的方法一樣，元學(xué)習(xí)使用梯度下降法（或你偏好的神經(jīng)網(wǎng)絡(luò)優(yōu)化器），鑒于學(xué)習(xí)器扮演的角色是元訓(xùn)練度量空間中的對(duì)比體系，例如近鄰算法。這些方法可以很好地用于小樣本識(shí)別，即使在回歸或強(qiáng)化學(xué)習(xí)等其他元學(xué)習(xí)領(lǐng)域尚未證實(shí)有同樣的效果。

學(xué)習(xí)優(yōu)化器法

最后一個(gè)方法是學(xué)習(xí)優(yōu)化器法。在這種方法中，一個(gè)網(wǎng)絡(luò)（元學(xué)習(xí)器）學(xué)習(xí)更新另一個(gè)網(wǎng)絡(luò)（學(xué)習(xí)器），以便學(xué)習(xí)器高效地學(xué)習(xí)任務(wù)。為了更好地優(yōu)化神經(jīng)網(wǎng)絡(luò)，人們對(duì)這種方法進(jìn)行了廣泛的研究。元學(xué)習(xí)器通常是循環(huán)網(wǎng)絡(luò)，以便記住之前是如何校正學(xué)習(xí)器模型的。元學(xué)習(xí)器可以用強(qiáng)化學(xué)習(xí)或監(jiān)督學(xué)習(xí)的方式來(lái)訓(xùn)練。Ravi和Larochelle最近演示了這種方法用于小樣本圖像識(shí)別的優(yōu)點(diǎn)，提出了這樣的觀點(diǎn)：學(xué)習(xí)器模型也是一種需要學(xué)習(xí)的優(yōu)化過(guò)程。

像元學(xué)習(xí)一樣學(xué)會(huì)初始化

可以證明，目前為止，遷移學(xué)習(xí)最大的成果是用ImageNet預(yù)訓(xùn)練來(lái)初始化視覺(jué)網(wǎng)絡(luò)權(quán)重。特別是，當(dāng)處理新的視覺(jué)任務(wù)時(shí)，眾所周知的范式是首先為任務(wù)收集帶標(biāo)簽的數(shù)據(jù)集，得到預(yù)訓(xùn)練過(guò)的ImageNet分類器，然后利用梯度下降法，基于采集到的數(shù)據(jù)來(lái)微調(diào)網(wǎng)絡(luò)。使用這種方法，神經(jīng)網(wǎng)絡(luò)可以更有效地從更少的數(shù)據(jù)集中學(xué)習(xí)新的基于圖像的任務(wù)。

然而，預(yù)訓(xùn)練的效果也就這樣。因?yàn)榫W(wǎng)絡(luò)的最底層仍然需要高度適應(yīng)新的任務(wù)，像小樣本學(xué)習(xí)那樣太小的數(shù)據(jù)集仍會(huì)造成嚴(yán)重的過(guò)擬合。此外，遺憾的是現(xiàn)在在語(yǔ)音、語(yǔ)言和控制等非視覺(jué)領(lǐng)域沒(méi)有類似的預(yù)訓(xùn)練體系。從微調(diào)的方法既然取得了這么好得效果，有什么可以借鑒的嗎?

未知模型元學(xué)習(xí)法（Model-Agnostic Meta-Learning ，MAML）

需要找到能夠根據(jù)少量樣本高效地進(jìn)行微調(diào)的表征，那么有沒(méi)有可能直接對(duì)初始表征做優(yōu)化呢？這是伯克利AI研究所最近提出的未知模型元學(xué)習(xí)法（MAML）背后的想法。和其他元學(xué)習(xí)法一樣，MAML能在大量不同的任務(wù)上訓(xùn)練，通過(guò)少量的梯度步驟，能快速得到適應(yīng)新任務(wù)的表征。

元學(xué)習(xí)器試圖找到一個(gè)初始值，不僅可以適應(yīng)各種問(wèn)題，而且可以快速（只需少量步驟）高效（只使用幾個(gè)例子）地適應(yīng)。下面是一個(gè)可視化圖–假設(shè)我們正試圖尋找一組具有高度適應(yīng)性的參數(shù)θ，在元學(xué)習(xí)過(guò)程中（粗線），MAML優(yōu)化一組參數(shù)，以便當(dāng)執(zhí)行關(guān)于某個(gè)任務(wù)i（灰線）的梯度步驟時(shí)，參數(shù)接近i任務(wù)的最優(yōu)參數(shù)θi*。

伯克利AI研究所：新型元學(xué)習(xí)法MAML的前世今生。

這種方法非常簡(jiǎn)單，并且有許多優(yōu)點(diǎn)。它不會(huì)對(duì)模型的形式做任何假設(shè)。它相當(dāng)有效——沒(méi)有為元學(xué)習(xí)引入額外的參數(shù)，并且使用已知的優(yōu)化過(guò)程(梯度下降法)，而不是必須從零開始想出策略。最后，它極易應(yīng)用于許多領(lǐng)域，包括分類、回歸和強(qiáng)化學(xué)習(xí)。

盡管這種方法很簡(jiǎn)單，令人驚訝的是，它在流行的小樣本圖像識(shí)別基準(zhǔn)、Omniglot和MiniImageNet2上優(yōu)于現(xiàn)在的許多方法，包括更復(fù)雜的或適用于特定領(lǐng)域的方法。

除了識(shí)別之外，他們還試圖學(xué)習(xí)如何讓模擬機(jī)器人的行為適應(yīng)不同的目標(biāo)，這類似于文章最開始提到多才多藝性。為此，他們將MAML與強(qiáng)化學(xué)習(xí)中的策略梯度方法結(jié)合。通過(guò)MAML可以學(xué)到一種策略，它可以讓模擬機(jī)器人在單一的梯度更新中適應(yīng)移動(dòng)方向和速度。請(qǐng)看如下視頻：伯克利AI研究所：新型元學(xué)習(xí)法MAML的前世今生。