在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

本文作者：李尊

2016-07-14 22:05

導(dǎo)語(yǔ)：2016國(guó)際人工智能聯(lián)合會(huì)議（IJCAI2016）于7月9日至7月15日舉行，今年會(huì)議聚焦于人類(lèi)意識(shí)的人工智能，本文是IJCAI2016杰出學(xué)生論文。

導(dǎo)讀：2016國(guó)際人工智能聯(lián)合會(huì)議（IJCAI2016）于7月9日至7月15日舉行，今年會(huì)議聚焦于人類(lèi)意識(shí)的人工智能，本文是IJCAI2016杰出學(xué)生論文（Distinguished Student Paper）。除了論文詳解之外，我們另外邀請(qǐng)到哈爾濱工業(yè)大學(xué)李衍杰副教授進(jìn)行點(diǎn)評(píng)。

在長(zhǎng)期學(xué)習(xí)中使用任務(wù)特征做 Zero-Shot 知識(shí)遷移

聯(lián)合編譯：Blake、章敏、陳?ài)?/p>

摘要

任務(wù)間的知識(shí)遷移可以提升學(xué)習(xí)模型的表現(xiàn)，但是需要對(duì)任務(wù)間關(guān)系進(jìn)行準(zhǔn)確評(píng)估，從而識(shí)別遷移的相關(guān)知識(shí)。這些任務(wù)間的關(guān)系一般是基于每個(gè)任務(wù)的訓(xùn)練數(shù)據(jù)而進(jìn)行評(píng)估的，對(duì)于從少量數(shù)據(jù)中快速學(xué)習(xí)每個(gè)連續(xù)任務(wù)為目標(biāo)的終身學(xué)習(xí)來(lái)說(shuō)，這個(gè)設(shè)定是效率低下的。為了減輕負(fù)擔(dān)，我們基于耦合詞典學(xué)習(xí)開(kāi)發(fā)了一個(gè)終身強(qiáng)化學(xué)習(xí)方法，該耦合詞典學(xué)習(xí)將高階任務(wù)描述符合并到了任務(wù)間關(guān)系建模中。我們的結(jié)果表明，使用任務(wù)描述符能改善學(xué)習(xí)到的任務(wù)策略性能，既提供了我們方法有效的理論證明，又證明展示了在一系列動(dòng)態(tài)控制問(wèn)題上的進(jìn)步。在只給描述符一個(gè)新任務(wù)的情況下，這一終身學(xué)習(xí)器也能夠通過(guò) zero-shot 學(xué)習(xí)使用耦合詞典準(zhǔn)確預(yù)測(cè)任務(wù)策略，不再需要在解決任務(wù)之前暫停收集訓(xùn)練數(shù)據(jù)了。

1.引言

通過(guò)重新使用其他相關(guān)任務(wù)的知識(shí)，轉(zhuǎn)移和多任務(wù)學(xué)習(xí)（MTL）方法減少了獨(dú)立任務(wù)模型訓(xùn)練所需要的經(jīng)驗(yàn)量。

基于每個(gè)任務(wù)的訓(xùn)練數(shù)據(jù)，這些技術(shù)一般通過(guò)對(duì)任務(wù)間關(guān)系建模來(lái)選擇相關(guān)遷移知識(shí)。然而，在知識(shí)成功遷移之前，這個(gè)過(guò)程要求針對(duì)每個(gè)識(shí)別關(guān)系的任務(wù)有足夠的訓(xùn)練數(shù)據(jù)。只要有一個(gè)高階任務(wù)描述，人類(lèi)能夠針對(duì)一個(gè)新任務(wù)快速創(chuàng)立引導(dǎo)程序，在真正的任務(wù)執(zhí)行之前調(diào)用以往的經(jīng)驗(yàn)。例如在看到一款新的宜家椅子盒子圖片時(shí)，我們能馬上聯(lián)想到之前的組裝椅子的經(jīng)驗(yàn)，然后開(kāi)始思考該如何組裝這款椅子。同樣的，在給定質(zhì)量和長(zhǎng)度的情況下，一個(gè)有經(jīng)驗(yàn)的反轉(zhuǎn)極平衡agent可以能夠?qū)刂破鬟M(jìn)行預(yù)測(cè)，且發(fā)生與物理系統(tǒng)交互之前。

受這個(gè)觀點(diǎn)啟發(fā)，我們探索利用高階的任務(wù)描述來(lái)提升多重機(jī)器學(xué)習(xí)任務(wù)中間的遷移效率。我們主要關(guān)注終身學(xué)習(xí)的場(chǎng)景，在這些場(chǎng)景中多重任務(wù)不斷進(jìn)行且目標(biāo)是通過(guò)前序知識(shí)快速學(xué)會(huì)新的任務(wù)。雖然我們?cè)诒疚闹兄攸c(diǎn)關(guān)注的是強(qiáng)化學(xué)習(xí)（RL）任務(wù)，但是我們的方法也能容易擴(kuò)展到回歸和分類(lèi)問(wèn)題上。

我們的算法——終身學(xué)習(xí)任務(wù)描述符（TaDeLL），將任務(wù)描述符編碼成特征矢量來(lái)識(shí)別每個(gè)任務(wù)，將這些矢量作為輔助信息來(lái)進(jìn)一步對(duì)獨(dú)立任務(wù)進(jìn)行數(shù)據(jù)訓(xùn)練。這種使用任務(wù)特征來(lái)進(jìn)行知識(shí)遷移在之前也有學(xué)者使用過(guò)。為了與他們的工作進(jìn)行對(duì)比，我們的方法都是針對(duì)連續(xù)任務(wù)在線運(yùn)行的，并且我們的方法計(jì)算效率更高。

我們使用耦合字典學(xué)習(xí)來(lái)對(duì)任務(wù)間的聯(lián)系進(jìn)行建模，不僅有任務(wù)描述符，還有終身學(xué)習(xí)中的獨(dú)立任務(wù)政策。耦合字典學(xué)習(xí)執(zhí)行這樣的政策描述符相似的任務(wù)應(yīng)該有相似的政策，但是仍然允許字字典元素的自由準(zhǔn)確地反映不同任務(wù)的政策。我們將字典耦合到互相關(guān)的稀疏編碼概念連接，提供了為什么任務(wù)描述符能提高性能的原因，并實(shí)證檢驗(yàn)了這一改進(jìn)理論依據(jù)。

為了進(jìn)一步提升任務(wù)政策，我們提出任務(wù)標(biāo)識(shí)符允許學(xué)習(xí)者在只給出它們的描述的情況下準(zhǔn)確預(yù)測(cè)不明任務(wù)的政策，這個(gè)沒(méi)有數(shù)據(jù)的學(xué)習(xí)過(guò)程稱(chēng)為zero-shot學(xué)習(xí)。在終身學(xué)習(xí)設(shè)定上這種能力十分重要，它允許系統(tǒng)通過(guò)遷移準(zhǔn)確預(yù)測(cè)新任務(wù)政策，不需要在每個(gè)任務(wù)上暫停來(lái)收集數(shù)據(jù)。

2.相關(guān)工作

Batch MTL方法經(jīng)常在任務(wù)間對(duì)關(guān)系進(jìn)行建模，來(lái)檢測(cè)知識(shí)的遷移。這些技術(shù)包括對(duì)任務(wù)距離度量進(jìn)行建模，使用相關(guān)性來(lái)檢測(cè)遷移是否恰當(dāng)，或者基于最近的領(lǐng)域來(lái)進(jìn)行建模。最近，MTL已經(jīng)擴(kuò)張到終身學(xué)習(xí)設(shè)定中，在這個(gè)范圍中衰減、分類(lèi)與強(qiáng)化學(xué)習(xí)任務(wù)不斷進(jìn)行。然而，所有的這些方法都需要針對(duì)每個(gè)任務(wù)的訓(xùn)練數(shù)據(jù)，為了讀取他們的聯(lián)系然后檢測(cè)遷移的知識(shí)。

與僅僅單獨(dú)倚靠任務(wù)訓(xùn)練數(shù)據(jù)不同，好幾個(gè)研究工作都已經(jīng)探索了在MTL中利用高階任務(wù)描述符來(lái)對(duì)任務(wù)間關(guān)系進(jìn)行建模并遷移學(xué)習(xí)設(shè)定。結(jié)合神經(jīng)網(wǎng)絡(luò)任務(wù)標(biāo)識(shí)符已經(jīng)被用來(lái)定義具體任務(wù)的前序或者控制獨(dú)立任務(wù)叢中間的門(mén)控網(wǎng)絡(luò)。本文主要關(guān)注批量設(shè)定下多重任務(wù)的分類(lèi)和衰減，其中系統(tǒng)能夠訪問(wèn)所有任務(wù)的數(shù)據(jù)和特征，將我們對(duì)于終身學(xué)習(xí)任務(wù)描述符的研究與連續(xù)RL任務(wù)進(jìn)行對(duì)比。

與我們的工作相似，Sinapov等人使用任務(wù)描述符來(lái)預(yù)估每組遷移學(xué)習(xí)任務(wù)中的可遷移性。給定描述符一個(gè)新任務(wù)，他們識(shí)別出最有可能遷移的原始任務(wù)，然后在RL中使用原始任務(wù)。雖他們的方式有效，但是因?yàn)樗麄冃枰ㄟ^(guò)重復(fù)模擬來(lái)計(jì)算每組任務(wù)的遷移性，所以計(jì)算起來(lái)太過(guò)昂貴。他們的評(píng)估也只限制在遷移學(xué)習(xí)設(shè)定中，沒(méi)有考慮到連續(xù)任務(wù)遷移的影響，也沒(méi)有想我們?cè)诮K身學(xué)習(xí)設(shè)定中一樣更新遷移模型。

我們的工作也與Romera-Paredes和Tor提出的簡(jiǎn)單Zero-Shot學(xué)習(xí)（簡(jiǎn)單ZSL）有關(guān)，它學(xué)會(huì)一個(gè)多類(lèi)線性模型、分解線性模型參數(shù)、假設(shè)描述符是重構(gòu)模型的潛在基礎(chǔ)參數(shù)。

我們的方法假設(shè)了一個(gè)更加靈活的聯(lián)系：模型參數(shù)和任務(wù)描述符都能通過(guò)分來(lái)的潛在基礎(chǔ)參數(shù)進(jìn)行重構(gòu)。與我們的終身學(xué)習(xí)方法相比，簡(jiǎn)單的ZSL是在離線多類(lèi)設(shè)定下操作的。

3.背景

3.1 強(qiáng)化學(xué)習(xí)

一個(gè)強(qiáng)化學(xué)習(xí)（RL）的agent必須在環(huán)境中選取序列行動(dòng)來(lái)最大化預(yù)期回報(bào)。一個(gè)RL任務(wù)基本是按照Markov決策過(guò)程（MDP）來(lái)規(guī)劃的，即<X，A，P，R，r>。X是一系列狀態(tài)集，A是agent可能執(zhí)行的動(dòng)作集，P：XxAxX?[0,1]是描述系統(tǒng)動(dòng)態(tài)的狀態(tài)轉(zhuǎn)移可能性。R：XxAxX?R是回報(bào)函數(shù)，r? [0, 1)是隨著時(shí)間分配的回報(bào)。在事件步h上，agent在狀態(tài)xh?X通過(guò)政策π：XxA?[0,1]選擇行動(dòng)a?A，通過(guò)矢量控制參數(shù)定義函數(shù)。強(qiáng)化學(xué)習(xí)的目的是發(fā)現(xiàn)最佳的政策π*和θ*來(lái)最大化預(yù)估回報(bào)。然而，學(xué)習(xí)一個(gè)獨(dú)立任務(wù)仍然需要大量的軌跡，這也激勵(lì)遷移來(lái)減少環(huán)境交流的數(shù)量。

政策梯度（PG）方法是我們的基礎(chǔ)學(xué)習(xí)方法，作為一系列RL算法被用來(lái)解決像機(jī)器控制等連續(xù)狀態(tài)和行動(dòng)步高維問(wèn)題。PG方法的目標(biāo)是優(yōu)化預(yù)期平均回報(bào)：

在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

3.2 終身機(jī)器學(xué)習(xí)

在終身學(xué)習(xí)設(shè)定中，學(xué)習(xí)者面臨多重、連續(xù)任務(wù)，且必須基于前序經(jīng)驗(yàn)來(lái)快速學(xué)習(xí)每個(gè)任務(wù)。學(xué)習(xí)者可能會(huì)在任何時(shí)候遇到之前的任務(wù)，因此必須基于先前的任務(wù)優(yōu)化表現(xiàn)。Agent并不知道任務(wù)Tmax的總數(shù)、任務(wù)分布或者任務(wù)順序。

在時(shí)間t上，終身學(xué)習(xí)者會(huì)遇到任務(wù)Z(t)。在本文中，每個(gè)任務(wù)Zt由MDP<X^(t)，A^(t)，P^(t)，R^(t)，r^(t)>來(lái)定義，但是終身學(xué)習(xí)設(shè)定以及我們的方法能夠同等處理分類(lèi)或者衰減任務(wù)。Agent將會(huì)連續(xù)學(xué)習(xí)每個(gè)任務(wù)，在轉(zhuǎn)至到下一個(gè)任務(wù)前獲取訓(xùn)練數(shù)據(jù)。Agent的目標(biāo)是學(xué)會(huì)相應(yīng)參數(shù)下的最佳政策。理想狀態(tài)下，從之前任務(wù)學(xué)習(xí)到的知識(shí)應(yīng)該能加速并提高每個(gè)新任務(wù)Z(t)的表現(xiàn)。同樣，終身學(xué)習(xí)者應(yīng)該能有效擴(kuò)展到大量的任務(wù)上去，同時(shí)從最小的數(shù)據(jù)中快速學(xué)習(xí)每個(gè)任務(wù)。

有效終身學(xué)習(xí)算法（ELLA）和PG-ELLA是分別針對(duì)在終身學(xué)習(xí)設(shè)定中分類(lèi)/衰減任務(wù)和RL任務(wù)設(shè)計(jì)的。

對(duì)于每個(gè)任務(wù)模型，兩種方法都假設(shè)了可以用共享知識(shí)庫(kù)L進(jìn)行因式分解的參數(shù)，從而促進(jìn)任務(wù)之間的傳遞。具體來(lái)說(shuō)，任務(wù)Z (t)的模型參數(shù)由θ（t）=LS（t）給出，其中L Rdxk是整個(gè)模型空間的共享基準(zhǔn)，且S（t） Rk是整個(gè)基準(zhǔn)的稀疏系數(shù)。這種因式分解對(duì)于終身學(xué)習(xí)和多任務(wù)學(xué)習(xí)都是非常有效的。在這種設(shè)想下，PG的MTL目標(biāo)是：

在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

為了達(dá)到終身學(xué)習(xí)設(shè)置中的目標(biāo)，Bou Ammar等人近似多任務(wù)目標(biāo)，首先替代PG目標(biāo)的下邊界，然后，使用second-order Taylor擴(kuò)展到近似目標(biāo)，評(píng)估每一個(gè)任務(wù)Z（t）中α（t）Rd的單任務(wù)策略參數(shù)，并且只在當(dāng)前時(shí)間點(diǎn)更新系數(shù)s（t）。該進(jìn)程減少了MTL對(duì)于稀疏編碼共享基準(zhǔn)L上單任務(wù)策略問(wèn)題的注意力，并確保通過(guò)下面組成PG-ELLA的在線更新規(guī)則，能夠有效的解決S和L。

在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

盡管這對(duì)終身學(xué)習(xí)是非常的有效，但在學(xué)者解決它之前，該方法需要大量的訓(xùn)練數(shù)據(jù)去評(píng)估每一個(gè)新方法的策略。我們通過(guò)將任務(wù)描述納入終身學(xué)習(xí)來(lái)消除這種限制，以確保 zero-shot 轉(zhuǎn)移到新的任務(wù)。

4.任務(wù)描述符

盡管大多數(shù)的MTL和終身學(xué)習(xí)方法使用了任務(wù)訓(xùn)練數(shù)據(jù)模型的內(nèi)在任務(wù)關(guān)系，但高級(jí)描述能以完全不同的方式描述任務(wù)。例如，在多任務(wù)醫(yī)學(xué)領(lǐng)域，病人通常通過(guò)人口數(shù)據(jù)和疾病表現(xiàn)分配到任務(wù)中。在控制問(wèn)題方面，動(dòng)態(tài)系統(tǒng)參數(shù)（例如，彈簧-質(zhì)量阻尼器系統(tǒng)中的彈簧，質(zhì)量和阻尼常數(shù)）進(jìn)行任務(wù)描述。描述也可以來(lái)自外部的來(lái)源，例如Wikipedia。這種任務(wù)描述已被廣泛的應(yīng)用于zero-shot學(xué)習(xí)。

通常，我們假設(shè)每一個(gè)任務(wù)Z（t）都有一個(gè)相關(guān)的描述符m（t）（在第一次介紹任務(wù)時(shí)給到了學(xué)者）。學(xué)者并不清楚未來(lái)的任務(wù)，或任務(wù)描述符的分配。描述符由特征向量?（m（t）Rdm表示，其中?（·）進(jìn)行特征提取和（可能的）特征上的非線性基準(zhǔn)變換。盡管在普遍的任務(wù)中都有不同的描述符，但我們沒(méi)有對(duì)?（m（t）的唯一性做任何假設(shè)。此外，每一個(gè)任務(wù)都有相關(guān)的訓(xùn)練數(shù)據(jù)X（t）去學(xué)習(xí)模型；以防RL任務(wù)，數(shù)據(jù)由軌跡（通過(guò)代理在環(huán)境中的經(jīng)驗(yàn)動(dòng)態(tài)獲得）組成。

5.任務(wù)描述符的終身學(xué)習(xí)

我們通過(guò)耦合字典將任務(wù)描述符組合到終身學(xué)習(xí)中，確保描述符和學(xué)習(xí)策略去增強(qiáng)彼此。盡管集中于RL任務(wù)，但我們的方法可以很容易地適應(yīng)分類(lèi)或回歸，如附錄中所述。

5.1耦合字典優(yōu)化

如上文所述，大多數(shù)的多任務(wù)和終身學(xué)習(xí)方法都有成功的案列——用因式分解每個(gè)任務(wù)的策略參數(shù)θ（t）來(lái)作為共享基準(zhǔn)：θ（t）=Ls（t）的稀疏線性組合。在效率上，每一列共享基準(zhǔn)L作為一個(gè)可重復(fù)使用的策略組件，代表一個(gè)銜接知識(shí)塊。在終身學(xué)習(xí)中，當(dāng)系統(tǒng)學(xué)習(xí)到更多任務(wù)時(shí)，基準(zhǔn)L隨著時(shí)間的推移而被精煉。系數(shù)向量S=[s（1）。。。。S（T）]在共享基準(zhǔn)上編碼任務(wù)策略，并基于他們的策略如何分享知識(shí)，提供一個(gè)嵌入任務(wù)。

我們對(duì)于描述符任務(wù)做了相似的假設(shè)——描述符特征?（m（r））能夠通過(guò)使用描述符空間一個(gè)潛在的基準(zhǔn)D Rdm×k進(jìn)行線性分解。系數(shù)是描述符基準(zhǔn)的捕獲關(guān)系（基于他們描述符中的共性相似的嵌入任務(wù)）。從co-view視角看，兩種策略和描述符都提供了任務(wù)的信息，因此他們能夠互相交流學(xué)習(xí)。對(duì)于兩種觀點(diǎn)每一個(gè)基本的任務(wù)都是共同的，所以我們的任務(wù)是尋找嵌入策略和相應(yīng)的任務(wù)描述符。我們可以通過(guò)耦合兩個(gè)基準(zhǔn)L和D來(lái)實(shí)現(xiàn)，共享相同的系數(shù)向量S重建策略和描述符。因此對(duì)于任務(wù)Z（t）

在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

為了在終身學(xué)習(xí)過(guò)程中優(yōu)化耦合基準(zhǔn)L和D，我們采用了來(lái)自稀疏編碼文獻(xiàn)中的耦合字典優(yōu)化技術(shù)，它用于優(yōu)化多特征空間（共享一個(gè)聯(lián)合稀疏代表）的字典。耦合字典學(xué)習(xí)的概念，引出了高性能的圖像超分辨率算法，允許高分辨率圖像從低分辨率的樣品中重建，并用于多模態(tài)檢索，和跨域檢索。

在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

等式6中給出了因式分解，我們可以重新制定對(duì)于耦合詞典的多任務(wù)目標(biāo)（公式1）如：

在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

隨著算法1中給出一系列前期-任務(wù)的更新結(jié)果，該目標(biāo)現(xiàn)在可以有效地在網(wǎng)上解決。伴著基于特征值分解的遞歸構(gòu)造，L和D使用等式3-5獨(dú)自更新。我們完整實(shí)現(xiàn)的方法，在第三方網(wǎng)站上面是可用的。

在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

5.2 Zero-shot轉(zhuǎn)移學(xué)習(xí)

在終身設(shè)置中，面對(duì)新任務(wù)時(shí)，代理的目標(biāo)是盡快的學(xué)習(xí)針對(duì)任務(wù)有效的策略。在這個(gè)階段，前期的多任務(wù)和終身學(xué)者，在他們能產(chǎn)生一個(gè)恰當(dāng)?shù)牟呗灾鞍l(fā)生了延遲，因?yàn)樗麄冃枰獜男氯蝿?wù)中獲得數(shù)據(jù)，以便識(shí)別相關(guān)的知識(shí)和訓(xùn)練新的策略。

結(jié)合任務(wù)描述符，僅給出描述符，以確保我們的方法快速預(yù)測(cè)針對(duì)新任務(wù)的策略。進(jìn)行zero-shot轉(zhuǎn)移的操作是通過(guò)使用耦合字典學(xué)習(xí)來(lái)確保的，它允許我們?cè)谝粋€(gè)特征空間（例如任務(wù)描述符）觀察數(shù)據(jù)實(shí)例，并利用字典和稀疏編碼，在其它的特征空間中（例如策略參數(shù)）恢復(fù)其潛在的信號(hào)。

對(duì)于新任務(wù)Z（tnew）給出唯一的描述符m（tnew），我們可以在學(xué)習(xí)字典D中潛在的描述符空間路徑 LASSO上評(píng)估任務(wù)的嵌入：

在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

由于S（tnew）給出的評(píng)估同樣也作為潛在策略空間L的系數(shù)，我們可以快速預(yù)測(cè)新任務(wù)的策略如：

在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

算法2中給出了該zero-shot轉(zhuǎn)移學(xué)習(xí)的過(guò)程。

5.3理論分析

本節(jié)討論了為什么通過(guò)耦合字典組合任務(wù)描述符可以提升學(xué)習(xí)策略的性能，并確保zero-shot轉(zhuǎn)移到新任務(wù)。在附錄2中，我們提供了TaDeLL的集合。全樣本的復(fù)雜性分析超出了論文的范圍，事實(shí)上，對(duì)于zero-shot學(xué)習(xí)，它仍然是一個(gè)開(kāi)放的問(wèn)題。

為了分析策略的改善程度，從策略參數(shù)分解成θ（t）=Ls（t）時(shí)，我們就通過(guò)展示用耦合字典組合描述符可以提高L和S兩者的性能而繼續(xù)實(shí)驗(yàn)。在本分析中，我們使用了互相關(guān)（mutual coherence）的概念，它在稀疏恢復(fù)文學(xué)中早已被廣泛研究?；ハ嚓P(guān)測(cè)量字典元素的相關(guān)性如：

在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

如果M（Q）=0，那么Q是可逆的正交矩陣，且稀疏恢復(fù)可以直接通過(guò)反演解決；如果M（Q）=1意味著Q不是滿(mǎn)秩，是一個(gè)低劣的字典。直觀的說(shuō)，低互相關(guān)意味著字典的縱列非常的不同，因此這樣一個(gè)“優(yōu)良”的字典可以代表很多不同的策略，有可能得到更多的知識(shí)轉(zhuǎn)移。這種直覺(jué)在下面被展示出：

因此，相互一致性較低的L會(huì)引出更穩(wěn)定的方法用于解決不準(zhǔn)確的單項(xiàng)任務(wù)評(píng)估策略。接下來(lái)我們會(huì)運(yùn)用方法降低L的相互一致性。

TaDeLL改變了從訓(xùn)練L到訓(xùn)練L和D的聯(lián)合（包括在K中）的問(wèn)題。在稀疏修復(fù)理論中，s*(t)是任務(wù)Z(t)中公式1的解決策略，所以s*(t)在所有的任務(wù)中都保持不變。定理5.1暗示，如果M(K) ＜M(L)，那么聯(lián)合模式學(xué)習(xí)能幫助解決更準(zhǔn)確地修復(fù)問(wèn)題。為進(jìn)一步證明，從貝葉斯定理（Bayesian）的角度來(lái)看，公式7也一樣是MAP評(píng)估的衍生，加強(qiáng)了拉普拉斯算子(Laplacian)在s(t)’s和分布和假設(shè)L是一個(gè)高斯矩陣并且其原素都是獨(dú)立分布的。使用此類(lèi)公式作為M(L)和M(K)的評(píng)價(jià)標(biāo)準(zhǔn)，因?yàn)樾录拥娜蝿?wù)描述增加了d，大部分可能是M(K) ＜M(L)，這也暗示TdDeLL學(xué)會(huì)了較高級(jí)的自編代碼。而且，如果M(D) ≤M(L)，定義表明我們可以通過(guò)零射門(mén)遷移單獨(dú)使用D去修復(fù)任務(wù)政策。

為表示任務(wù)特征能提高稀疏修復(fù)，我們通過(guò)以下關(guān)于LASSO的定理5.2進(jìn)行證明。讓s*是θ=Qs系統(tǒng)的一個(gè)特殊解決方法。

這一定理表明LASSO的錯(cuò)誤重建是與1/d是成正比的。當(dāng)我們通過(guò)β（t）包含描述器時(shí)，RHS的共同特性會(huì)從d變成（d+dm）,但與此同時(shí)K和k保持不變，由此產(chǎn)生了緊密的配合。因此任務(wù)描述能提高已學(xué)習(xí)過(guò)的代碼編碼的質(zhì)量和稀疏修復(fù)的準(zhǔn)確度。通過(guò)使用策略或是描述器保證是s(t)相等的緊密配合，定理5.2建議應(yīng)該dm≥d，以保證零樣本學(xué)習(xí)同樣也能生產(chǎn)出對(duì)于s(t)相同的評(píng)價(jià)。

6.實(shí)驗(yàn)

我們基于3個(gè)基準(zhǔn)系統(tǒng)對(duì)我們的方法和學(xué)習(xí)控制策略進(jìn)行評(píng)估。

6.1 基準(zhǔn)動(dòng)力系統(tǒng)

彈簧質(zhì)量減震器（SM）。這一系統(tǒng)通過(guò)3個(gè)參數(shù)來(lái)進(jìn)行描述：彈簧常數(shù)，質(zhì)量，和減幅常數(shù)。系統(tǒng)的狀態(tài)是由物體的位置和速率決定的。控制器會(huì)通過(guò)對(duì)物體施加一個(gè)力量，試圖把它放到一個(gè)指定的位置。

車(chē)桿（BM）。這一系統(tǒng)專(zhuān)注于在水平面上以固定的速率移動(dòng)時(shí)，要保持自行車(chē)的平穩(wěn)。系統(tǒng)的特點(diǎn)在于自行車(chē)的質(zhì)量，x和z坐標(biāo)的質(zhì)量中心，有關(guān)自行車(chē)的形狀參數(shù)（軸距，步道，和頭上的角）。其狀態(tài)是自行車(chē)的傾斜程度以及其他衍生狀態(tài)。

6.2 方法

在每一個(gè)域名我們會(huì)產(chǎn)生40個(gè)任務(wù)，每一個(gè)的動(dòng)力都不一樣，系統(tǒng)參數(shù)也不一樣。每一個(gè)任務(wù)的回饋是當(dāng)前狀態(tài)和目標(biāo)之間的差距。對(duì)于終身學(xué)習(xí)，任務(wù)會(huì)不斷遇見(jiàn)重復(fù)，學(xué)習(xí)也會(huì)不斷進(jìn)行直到每一個(gè)任務(wù)至少遇見(jiàn)過(guò)一次。在不同的方法之間我們使用相同順序的隨機(jī)任務(wù)，以保證比較的公正。學(xué)習(xí)者會(huì)取樣100個(gè)步驟軌跡，而且每一個(gè)任務(wù)展示之中其學(xué)習(xí)過(guò)程限制在30次迭代之內(nèi)。MTL之中，所有的任務(wù)都是同時(shí)進(jìn)行呈現(xiàn)的。我們使用自然策略梯度估計(jì)NAC（Natural Actor Critic）作為基礎(chǔ)，學(xué)習(xí)標(biāo)準(zhǔn)系統(tǒng)和情節(jié)加強(qiáng)。為在每一個(gè)域名之內(nèi)優(yōu)化所有方法在20個(gè)任務(wù)上的聯(lián)合表現(xiàn)并平衡描述器和策略之間，我們分別選擇了k和規(guī)定化參數(shù)參數(shù)?；?0個(gè)任務(wù)的最終策略，我們會(huì)對(duì)學(xué)習(xí)曲線進(jìn)行評(píng)價(jià)，會(huì)把7個(gè)測(cè)試的結(jié)果進(jìn)行平均。每一個(gè)任務(wù)的系統(tǒng)參數(shù)會(huì)看做是任務(wù)描述器的特征；我們同時(shí)也會(huì)試著把一些非線性轉(zhuǎn)變，但發(fā)現(xiàn)使用線性特征也運(yùn)作良好。

6.3 基于標(biāo)準(zhǔn)系統(tǒng)的結(jié)果

圖1比較了我們用于終身學(xué)習(xí)的TaDeLL方法并帶有任務(wù)描述器。1.PG-ELLA并未使用任務(wù)特征。2.GO-MTL，其中MTL對(duì)公式1有進(jìn)行優(yōu)化。3.單一任務(wù)學(xué)習(xí)使用PG。為進(jìn)行比較，我們通過(guò)改變優(yōu)化，使用MTL對(duì)公式7進(jìn)行優(yōu)化，并把結(jié)果描述為T(mén)aDeMTL。在圖中陰影暗示著標(biāo)準(zhǔn)錯(cuò)誤。

我們發(fā)現(xiàn)在每一個(gè)系統(tǒng)中任務(wù)描述器都能改進(jìn)終身學(xué)習(xí)，即使是在SM和BK域名內(nèi)通過(guò)GO-MTL僅從經(jīng)驗(yàn)中無(wú)法獲得訓(xùn)練策略情況下，也能提高學(xué)習(xí)。

在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

圖1：基于標(biāo)準(zhǔn)動(dòng)力系統(tǒng)多任務(wù)（實(shí)心線）圖2：運(yùn)行時(shí)間比較

終身（虛線），和單一任務(wù)學(xué)習(xí)（點(diǎn)線）的表現(xiàn)。

在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

圖3：新任務(wù)的零樣本遷移。圖（a）顯示的是在每一個(gè)域名的最初“強(qiáng)力啟動(dòng)”的提高；圖（b）-（d）描述了零樣本策略作為用于PG啟動(dòng)熱身地初始化的結(jié)果。

在所有的域名內(nèi)TaDeMTL和TaDeLL 之間的區(qū)別幾乎可以忽略，除CD之外（其任務(wù)十分復(fù)雜），這也暗示我們?cè)诰€優(yōu)化的有效性。

圖3展示了任務(wù)描述器對(duì)用于新任務(wù)的零樣本遷移十分有效。在每一個(gè)域名內(nèi)為檢測(cè)零樣本的表現(xiàn)，另外生成了40個(gè)任務(wù)，并對(duì)這些任務(wù)的結(jié)果進(jìn)行平均。圖3a顯示了我們的方法改進(jìn)了在新任務(wù)中的最初表現(xiàn)（例如，“強(qiáng)力啟動(dòng)”），而這也超越了Sinapov等人的方法表現(xiàn)以及單一任務(wù)的PG，但這一方法允許在任務(wù)中進(jìn)行訓(xùn)練。我們把Sinapov等人的方法在CP上的差表現(xiàn)歸因于CP策略本質(zhì)上相差很大；在域名內(nèi)，源策略與目標(biāo)策略相差很大，Sinapov等人的算法不能較好地將其源策略進(jìn)行遷移。此外此方法的計(jì)算費(fèi)用與我們的方法（與任務(wù)數(shù)一致）相比也十分的昂貴（是任務(wù)數(shù)的兩倍），如圖2；運(yùn)行時(shí)間的試驗(yàn)細(xì)節(jié)可見(jiàn)附錄。圖3b-3d顯示了零樣本策略用于PG學(xué)習(xí)的最初啟動(dòng)熱身十分的有效，緊接著這也會(huì)改進(jìn)其策略。

6.4 四旋翼的應(yīng)用

我們也會(huì)把這一方法運(yùn)用于更具挑戰(zhàn)性的四旋翼控制域名，關(guān)注重點(diǎn)在于把零樣本遷移運(yùn)用于新的任務(wù)。為確?，F(xiàn)實(shí)的動(dòng)力，我們使用Bouadallah和Siegwart模式，此類(lèi)模式都是經(jīng)過(guò)物理系統(tǒng)證實(shí)的。四旋翼是由3個(gè)慣性常數(shù)和機(jī)翼長(zhǎng)度決定的，且其狀態(tài)包括橫搖、俯仰和偏航以及其他衍生狀態(tài)。

在少量數(shù)據(jù)甚至無(wú)數(shù)據(jù)基礎(chǔ)下也能進(jìn)行終身學(xué)習(xí) |IJCAI2016杰出學(xué)生論文

圖4：在四旋翼控制上的啟動(dòng)熱身

圖4顯示的我們運(yùn)用的結(jié)果，展示了TaDeLL能通過(guò)零樣本學(xué)習(xí)預(yù)測(cè)新四旋翼控制器，且其準(zhǔn)確度與PG相似，但PG必須在系統(tǒng)中進(jìn)行訓(xùn)練。作為基準(zhǔn)，TaDeLL對(duì)于PG的熱身啟動(dòng)十分有效。

7.結(jié)論

在把任務(wù)描述器融入終身學(xué)習(xí)中建議使用聯(lián)合代碼字典的方法，因?yàn)槭褂妹枋銎髂芴岣咭褜W(xué)的策略表現(xiàn)，同時(shí)也能讓我們?cè)谟^察訓(xùn)練數(shù)據(jù)之前就能預(yù)測(cè)用于新任務(wù)的策略。在動(dòng)力控制問(wèn)題上，試驗(yàn)顯示我們的方法比其他方法表現(xiàn)更為出色，并且要求的運(yùn)行時(shí)間也比類(lèi)似模式的要少。

點(diǎn)評(píng)：

人類(lèi)組裝一款新的椅子時(shí)，通常借助以往的組裝經(jīng)驗(yàn)完成新椅子的組裝，因而，在學(xué)習(xí)新任務(wù)的控制策略時(shí)，往往希望借鑒其他任務(wù)的學(xué)習(xí)經(jīng)驗(yàn)，即任務(wù)間的信息傳遞，來(lái)改進(jìn)學(xué)習(xí)效果。任務(wù)之間的信息傳遞有助于改善學(xué)習(xí)的性能，但通常需要對(duì)任務(wù)間的聯(lián)系進(jìn)行精確估計(jì)，才能識(shí)別要傳遞的相關(guān)信息，而這些精確估計(jì)一般要基于每個(gè)任務(wù)的訓(xùn)練數(shù)據(jù)，而長(zhǎng)期學(xué)習(xí)（lifelong learning）的目標(biāo)是利用盡可能少的數(shù)據(jù)來(lái)快速地學(xué)習(xí)連續(xù)的不同任務(wù)的策略，這種情況下，這種依靠精確估計(jì)任務(wù)間的聯(lián)系的方法就不可取了，因?yàn)槊總€(gè)任務(wù)沒(méi)有那么多訓(xùn)練數(shù)據(jù)，為此，該文利用任務(wù)描述符（task descriptor）來(lái)建模任務(wù)間的聯(lián)系，并利用耦合字典優(yōu)化的方法改進(jìn)相繼任務(wù)策略的學(xué)習(xí)效果；此外，該方法在沒(méi)有任何新任務(wù)訓(xùn)練數(shù)據(jù)的情況下也可以預(yù)測(cè)新任務(wù)的策略。

via IJCAI 2016

PS : 本文由雷鋒網(wǎng)獨(dú)家編譯，未經(jīng)許可拒絕轉(zhuǎn)載！

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

3人收藏

相關(guān)文章

李尊

編輯

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門(mén)文章