編譯 | 陳彩嫻
編輯 | 陳大鑫
在過去的十年里,機器學(xué)習確實取得了巨大的突破,計算機視覺與語言處理方面也因此出現(xiàn)了許多改變世界的重要應(yīng)用。但是,這股“春風”卻沒有吹到智能機器人領(lǐng)域。針對機器人學(xué)習所面臨的瓶頸,麻省理工學(xué)院機器人專家Leslie Pack Kaebling在《Science》上發(fā)表一篇名為《The foundation of efficient robot learning》的文章。她認為,造成這一現(xiàn)象的一個關(guān)鍵因素在于:機器人學(xué)習的數(shù)據(jù)只能通過在現(xiàn)實世界的操作中獲得,成本非常高昂。為此,Leslie教授提出,實現(xiàn)下一代機器人學(xué)習的技術(shù)革新,需要應(yīng)用新的算法、從自然體系中獲取靈感,并靈活使用多項機器學(xué)習技術(shù)。盡管監(jiān)督學(xué)習取得了許多重要的成果,但在機器人學(xué)習領(lǐng)域,強化學(xué)習(RL)更具有優(yōu)勢,因為機器人要在人類世界中執(zhí)行一系列不同的任務(wù)。在監(jiān)督學(xué)習中,學(xué)習算法被賦予輸入與期望輸出的配對示例,并學(xué)會將輸入與期望輸出關(guān)聯(lián)起來。而在強化學(xué)習中,智能體能夠根據(jù)事先設(shè)置的獎勵信號來判斷自己的表現(xiàn)是出色的,或是差勁的,進而選擇恰當?shù)男袆臃绞剑@與機器人所應(yīng)用的復(fù)雜環(huán)境有利相關(guān)。簡而言之,監(jiān)督學(xué)習與強化學(xué)習的本質(zhì)區(qū)別在于:在強化學(xué)習里,智能體的行為對數(shù)據(jù)產(chǎn)生重大影響,并能控制自己的學(xué)習探索,這對整體成功至關(guān)重要。在一開始,RL是通過獎勵和懲罰機制來學(xué)習動物行為的模型。之后,如果應(yīng)用RL處理現(xiàn)實世界里的問題,那么RL必須拓展,以處理巨大空間的輸入和動作,并且,即使成功執(zhí)行關(guān)鍵動作后獎勵“姍姍來遲”,RL也能維持正常運行狀態(tài)。這時候,便出現(xiàn)了深度強化學(xué)習(DRL)方法。DRL使用了神經(jīng)網(wǎng)絡(luò)來解決上述的現(xiàn)實問題,并展現(xiàn)了驚人的性能,比如機器人下國際象棋和圍棋游戲,以及用機器手臂3秒鐘解出魔方。此外,RL也帶來了許多實用性強的應(yīng)用,比如提高安裝計算機的能效。
有了這些成功的機器人案例后,人們自然而然便會想象:在物理世界中,RL是否會完全取代以往運用在機器人身上的傳統(tǒng)工程方法和其他行為復(fù)雜的系統(tǒng)呢?我們可以想象一個專門幫助老人料理家務(wù)的機器人:在“上崗”之前,機器人必須先具備大量知識與能力,同時還需要在工作中學(xué)習新的知識、不斷積累工作經(jīng)驗。后者的學(xué)習必須是樣本高效的(需要相對較少的訓(xùn)練示例)、可泛化的(適用于特定學(xué)習以外的其他情況)、組合性的(能與以往的知識相結(jié)合)和增量式的(能夠隨著時間的推移增加新知識和新能力)。但是,現(xiàn)有的DRL方法都不具備以上特性。雖然它們可以學(xué)習許多令人震驚的新技能,但總的來說,它們無法將所積累的大量經(jīng)驗很好地泛化至其他方面,且在訓(xùn)練與執(zhí)行的過程中表現(xiàn)單一,比如既沒有增長新的知識,也沒有組合以往的經(jīng)驗。如何能使一個智能系統(tǒng)同時具有樣本高效性、泛化性、組合性和增量性呢?經(jīng)證明,現(xiàn)代神經(jīng)網(wǎng)絡(luò)能有效處理插值問題。如果有大量參數(shù),神經(jīng)網(wǎng)絡(luò)能夠牢記訓(xùn)練數(shù)據(jù),并在相似的示例上做出可靠預(yù)測。我們可以通過內(nèi)置知識或結(jié)構(gòu)的形式,向?qū)W習算法賦予“歸納偏置”(inductive bias),進而獲取泛化能力。比方說,在擁有歸納偏置的自動駕駛系統(tǒng)中,系統(tǒng)的剎車方案只需要參考在規(guī)定距離范圍內(nèi)的其他車輛的位置。該系統(tǒng)的知識能從相對較少的示例中獲取,因為良好擬合觀察數(shù)據(jù)的可選解決方案有限。總體而言,歸納偏置能夠提高樣本高效性和泛化能力。組合性和增量性則可以通過搭建有特定結(jié)構(gòu)的歸納偏置模型來獲得,在這個模型里,通過學(xué)習獲得的“知識”被分解成具有獨立語義的的因子(factor),這些因子可以組合起來解決大量的新問題。基于先驗知識或結(jié)構(gòu)的觀點不一定是“真知灼見”。強化學(xué)習領(lǐng)域的先驅(qū)者Richard Sutton堅信,人類不應(yīng)該將任何先驗知識構(gòu)容納到學(xué)習系統(tǒng)中,因為縱觀歷史,這種做法往往是錯的。Richard Sutton的文章引起了強烈的反響,并指明了學(xué)習系統(tǒng)設(shè)計中的一個關(guān)鍵問題:在學(xué)習系統(tǒng)中建立什么樣的歸納偏置,才能使系統(tǒng)具有從大量數(shù)據(jù)中學(xué)習可泛化知識、又不會因為數(shù)據(jù)不正確或過約束而失靈呢?目前有兩種設(shè)置恰當偏置的方法。這兩種方法具有連貫性,但具有不同的時間范圍和權(quán)衡取舍(trade-offs),可以同時應(yīng)用于尋找學(xué)習智能體所需的強大而靈活的先驗結(jié)構(gòu)。方法1:在“元”層面運用機器學(xué)習技術(shù)這種方法指的是,在系統(tǒng)設(shè)計階段,離線使用機器學(xué)習技術(shù)來發(fā)現(xiàn)能提高智能體在線學(xué)習效率的結(jié)構(gòu)、算法和先驗知識。元學(xué)習的基本概念至少從上世紀80年代在機器學(xué)習和統(tǒng)計學(xué)中出現(xiàn),基本思路是:在系統(tǒng)設(shè)計階段,元學(xué)習過程便能訪問系統(tǒng)在線學(xué)習時可能面臨的許多潛在任務(wù)或環(huán)境的樣本。元學(xué)習器的目的不在于掌握適應(yīng)單個環(huán)境的多種策略或適用于全部環(huán)境的單項策略,而是掌握一種在線學(xué)習時面臨新任務(wù)或新環(huán)境時也盡可能高效學(xué)習的算法。這個目標可以通過在訓(xùn)練任務(wù)間引入共性,并使用這些共性形成有力的先驗或歸納偏置,使在線學(xué)習的智能體只學(xué)習那些將新任務(wù)與訓(xùn)練任務(wù)區(qū)分開來的方面。元學(xué)習可以非常出色地形式化為一種分層的貝葉斯(概率)推理。在這種推理形式中,訓(xùn)練任務(wù)可以看作是在提供在線學(xué)習的任務(wù)會如何表現(xiàn)的證據(jù),并基于這些證據(jù)利用好在線學(xué)習所獲得的數(shù)據(jù)。但是,貝葉斯形式在計算上可能很難實現(xiàn),因為它是對系統(tǒng)設(shè)計階段中所遇到的大量任務(wù)進行推理,其中也可能包含在線學(xué)習的實際任務(wù)。方法2:將元學(xué)習明確地描述為兩個嵌套的優(yōu)化問題內(nèi)部優(yōu)化在線進行指的是:智能體試圖從系統(tǒng)設(shè)計階段生成的一系列假設(shè)中找到在線學(xué)習數(shù)據(jù)中“得分”最佳的假設(shè)。內(nèi)部優(yōu)化的特色在于假設(shè)空間、評分標準和將用于搜索最佳假設(shè)的計算機算法。在傳統(tǒng)的機器學(xué)習中,這些成分由人類工程師提供。但在元學(xué)習中,至少一部分是由系統(tǒng)設(shè)計階段進行的外部“元”優(yōu)化過程所提供的。元優(yōu)化試圖找到內(nèi)部學(xué)習過程本身的參數(shù)。這些參數(shù)能使學(xué)習在與元學(xué)習的環(huán)境相似的新環(huán)境中進行(源于相同的分布)。最近有研究介紹了一種新的元學(xué)習形式,叫做“與模型無關(guān)的元學(xué)習”(model-agnostic meta-learning,MAML)。MAML是一個嵌套的優(yōu)化框架,其中外部優(yōu)化選擇的是一些內(nèi)部神經(jīng)網(wǎng)絡(luò)權(quán)重的初始值,能通過在線學(xué)習的標準梯度下降優(yōu)化方法進一步調(diào)整。RL2算法在系統(tǒng)設(shè)計階段中使用DRL來學(xué)習在線學(xué)習運行的一般小型程序,但這些小型程序不一定具有機器學(xué)習程序的形式。另一個變體試圖在系統(tǒng)設(shè)計階段發(fā)現(xiàn)可以組合起來以解決在線學(xué)習出現(xiàn)的問題的模塊構(gòu)造塊(modular building blocks,如小型神經(jīng)網(wǎng)絡(luò))。自然界中的進化過程可以被認為是元學(xué)習的一種極端形式。在自然進化中,自然界會為了動物去尋找一個含有潛在學(xué)習算法的、極其不受限制的空間。(當然,從本質(zhì)上講,智能體的生理狀況也會發(fā)生改變。)在機器人生命周期內(nèi),對內(nèi)部優(yōu)化問題的處理越靈活,越需要更多用于提高魯棒性的資源,包括系統(tǒng)設(shè)計階段的示例環(huán)境、在線學(xué)習的性能不佳的機器人,以及在兩個階段運行的計算容量。 這時候,我們又回到最初的問題:標準的強化學(xué)習方法不會被采用,因為盡管它是一種通用的學(xué)習方法,但它需要大量的在線學(xué)習經(jīng)驗。然而,元強化學(xué)習(meta-RL)需要豐富的系統(tǒng)設(shè)計經(jīng)驗,這可能會使開發(fā)過程變得遲鈍、緩慢而花費高昂。因此,也許元學(xué)習也不是一個好的解決方法。那還有什么解決方法呢?有很多方向可以探索,包括人類教學(xué)、與其他機器人協(xié)作學(xué)習,以及更改機器人的硬件和軟件。在所有這些情況下,關(guān)鍵的一步還是設(shè)計出有效的方法來開發(fā)機器人軟件。通過運用從計算機科學(xué)和工程學(xué)中所獲得的見識以及認知神經(jīng)科學(xué)的啟發(fā),我們可以找到能夠內(nèi)置到學(xué)習智能體中的算法和結(jié)構(gòu),并提供在系統(tǒng)設(shè)計階段和在線學(xué)習算法和結(jié)構(gòu)的杠桿。卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展是上述方法的典型例子。卷積神經(jīng)網(wǎng)絡(luò)的理念是設(shè)計出一種用于圖像處理的神經(jīng)網(wǎng)絡(luò),以使其執(zhí)行“卷積”,即在整個圖像上使用相同的計算模式對圖像塊進行局部處理。這個設(shè)計同時對先驗知識進行了編碼。在此處,先驗知識指的是無論物體處于圖像中的什么位置,物體都具有基本相同的外觀(平移不變性),以及接近的像素組共享圖像內(nèi)容的信息(空間局部性)。與沒有卷積結(jié)構(gòu)的情況相比,以這種方式訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)意味著需要的參數(shù)數(shù)量更少,因此訓(xùn)練次數(shù)也相應(yīng)減少。圖像卷積的點子由工程師和自然啟發(fā),是早期信號處理和計算機視覺的基礎(chǔ)概念。一直以來,人們都認為,哺乳動物視覺皮層中的細胞似乎也在執(zhí)行類似的計算。由此可見,發(fā)現(xiàn)更多能為機器人學(xué)習提供實質(zhì)性的杠桿作用、又不會阻止機器人進行一般智能行為的基本結(jié)構(gòu)或算法約束,比如卷積,是非常重要的一步。雷鋒網(wǎng)現(xiàn)在也有一些不錯的解決方法,比如說:一,用有行動效應(yīng)的“心理模型”來進行某種形式的正向搜索,類似于規(guī)劃或推理;二,學(xué)習并表示從單個對象中提取、但可以廣泛應(yīng)用的知識,比如,對所有的A和B而言,如果A在B之上,移動B時,A可能也會移動;三,對三維空間進行推理,包括在三維空間內(nèi)規(guī)劃和執(zhí)行動作、將三維空間作為存儲的組織原理。雷鋒網(wǎng)此外,我們也許還需要更多可能有效的原理,也需要解決許多其他問題,包括如何開發(fā)能同時在系統(tǒng)設(shè)計階段和在線進行訓(xùn)練的基礎(chǔ)設(shè)施,還有幫助人類明確獎勵和維系安全的方法。綜合考慮工程原理、生物學(xué)靈感、系統(tǒng)設(shè)計階段學(xué)習以及最終的在線學(xué)習,人類最終才有可能打造出類人的智能機器人。雷鋒網(wǎng)原文鏈接:https://science.sciencemag.org/content/369/6506/915
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。