1
雷鋒網AI科技評論按:昨晚,Nature子刊 Machine Intelligence發(fā)布了八月份最新接收論文,共 4 篇。其中兩篇來自國內,一篇是清華生命學院龔海鵬和澳大利亞格里菲斯大學周耀旗等人用神經網絡進行蛋白質結構預測方面的工作;另一篇則是中科院自動化所余山團隊對深度神經網絡在連續(xù)學習方面的改進工作。
雷鋒網這里介紹后者。值得一提的是,這兩篇文章也是國內學者在NMI期刊上首次的發(fā)表。
這篇文章提出了兩個極為有意思且深刻的概念:
正交權重修改(orthogonalweights modification,OWM)算法;
情境依賴處理(context-dependent processing,CDP)模塊。
其思想極為精妙,或對 DNN 有重大改進。我們一起來看!
在講解這篇論文的核心內容之前,需要我們先思考一個問題,即:何為"智能"?想必每個人都會有自己的一個定義。
圖靈獎得主Allen Newell和諾貝爾獎得主Herbert A. Simon曾經聯(lián)合撰文將智能定義為"適應環(huán)境變化,實現(xiàn)自身目的"。DeepMind的聯(lián)合創(chuàng)始人之一Shane Legg總結了數(shù)十種智能的定義,提出智能的通用衡量指標應該是在不同的環(huán)境中實現(xiàn)特定目的的能力。從這些定義可見,個體對復雜、動態(tài)環(huán)境的高適應性是智能的重要標志;根據對環(huán)境變化的適應能力來評估智能水平也是不同領域學者較為統(tǒng)一的共識。
人類大腦顯然是高環(huán)境適應性的典范。人不僅可以在新的環(huán)境中不斷吸收新的知識,而且可以根據不同的環(huán)境靈活調整自己的行為。在此方面,目前廣泛使用的深度神經網絡(deep neural networks,DNN)與大腦相比則存在著很大的差距。
目前DNN的優(yōu)點是可以建立輸入輸出之間非常復雜的映射關系,用于識別、分類和預測。但是一旦學習階段結束,它所能做的操作就固化了,既難以方便的學習新的映射,也不能對實際環(huán)境中存在情境信息(比如自身狀態(tài),環(huán)境變化、任務變化等)做出靈活的響應,難以滿足復雜多變的需求,即缺少情境依賴學習(contextual-dependent learning)的能力。此外傳統(tǒng)的DNN也受到“災難性遺忘"問題的困擾,難以在學習新知識的同時保留舊知識,即缺少連續(xù)學習(continual learning)的能力。這兩方面能力的缺失是制約當前DNN發(fā)展出高水平智能的重要瓶頸。
余山等人這個工作的初衷正是對于上述DNN的能力局限提出的改進方案。OWM算法從本質上來說是一個非常古老的算法 (甚至可以追溯到高斯的時代),即RLS算法,它具有緩解“災難遺忘”的能力。余山等人在論文中研究了RLS算法的機制并對此加以改進從而得到OWM算法。而CDP模塊則是受人腦中前額葉的作用及其連接模式的啟發(fā)。前額葉接受眾多的感覺輸入,然后根據情境信息選擇與當前任務最為相關的信息用于控制行為。CDP模塊也正是這樣設計的。
OWM算法的核心思想很簡單,正如其名“正交權重修改”,在學習新任務時,只在舊任務輸入空間正交的方向上修改神經網絡權重。如此,權重增量幾乎不與以往任務的輸入發(fā)生作用,從而保證了網絡在新任務訓練過程中搜索到的解,仍處在以往任務的解空間中。數(shù)學上,OWM通過正交投影算子P與誤差反傳算法得到的權重增量作用來實現(xiàn)其目的,即最終的權重增量
,這里k為系數(shù)。
圖1:OWM算法原理示意圖。(a): 在權重更新時,OWM算法只保留傳統(tǒng)BP算法計算的權重增量中與歷史任務輸入空間正交的部分。(b): 在新任務中,OWM算法將神經網絡對解的搜索范圍約束在舊任務的解空間中。
OWM算法實現(xiàn)了對網絡中已有知識的有效保護,并可以與現(xiàn)有梯度反傳算法完全兼容,在連續(xù)學習測試任務中表現(xiàn)出了良好的性能。
圖2:在連續(xù)學習MNIST手寫體數(shù)字0-9的任務中,隨著任務數(shù)目的增加,OWM算法的優(yōu)勢也愈加明顯。同時,任務的學習順序會對個別任務產生影響。如先學數(shù)字4和7,會顯著提升數(shù)字9的識別正確率。
在連續(xù)學習的標準任務disjoint MNIST與shuffled MNIST任務中,OWM算法的表現(xiàn)超過了同類的其他算法。并且,隨著學習的任務數(shù)目增加,OWM算法的性能優(yōu)勢會進一步加大。
圖3:OWM算法在ImageNet和中文手寫體漢字識別的連續(xù)學習任務上體現(xiàn)出優(yōu)良的性能
利用OWM算法,神經網絡可以連續(xù)學習識別ImageNet的1000類圖片和3755個中文手寫體漢字(每個任務僅訓練一類圖片或一個漢字)。
圖4:OWM實現(xiàn)漢字識別的小樣本連續(xù)學習
值得一提的是,算法具有優(yōu)良的小樣本學習能力,以手寫體漢字識別為例,基于預訓練的特征提取器,系統(tǒng)可以從僅僅數(shù)個正樣本中就能連續(xù)的學習新的漢字。
CDP模塊則是受前額葉皮層啟發(fā)提出的。前額葉是大腦中負責認知控制的核心皮層。其同時接收感官輸入和情境信號,并選擇與當前任務最相關的感官信號指導輸出響應。受此啟發(fā),作者引入了類似的處理架構—CDP模塊。
圖5:類前額葉的CDP模塊的結構設計。左上角是其工作原理示意圖。
它包括兩個子模塊:1、編碼子模塊,其負責將情境信息編碼為適當?shù)目刂菩盘枺?、“旋轉”子模塊,其利用編碼模塊的控制信號處理任務輸入(由于其功能上相當于將特征向量在高維空間上進行了旋轉,故稱為“旋轉”子模塊)。
若將CDP模塊與OWM算法聯(lián)合使用,神經網絡只需要一個分類器,就可以連續(xù)學習40種不同的臉部特征的識別任務。
圖6:同一個分類器對于同樣的輸入,連續(xù)學習40種不同人臉屬性的分類任務(藍色數(shù)據點),正確率與用40個分類器的系統(tǒng)(橙色線)幾乎一致。
并且,當不同的提示信號出現(xiàn)時,其對相應的特征做出判斷,效果與引入40個分類器的情況相當。
通過OWM算法有效克服災難性遺忘,通過CDP模塊實現(xiàn)單個網絡基于情境信號的多任務學習,二者結合便有望讓智能體通過連續(xù)不斷的學習去適應復雜多變的環(huán)境,從而逐步逼近更高水平的智能。
人們或許還記得,Nature的這個子刊Machine Intelligence在去年4月份曾遭到了幾乎整個AI社區(qū)人們的反對,包括Jeff Dean、Ian Goodfellow、Yann LeCun、Yoshua Bengio等一眾AI大牛的簽名聯(lián)合抵制,因為他們認為機器學習社區(qū)歷來有開放訪問的傳統(tǒng),而 NMI采取付費閱讀的形式是開歷史的倒車。
NMI雜志對此采取了多種方式做出了回應,包括在論文的頁面上直接顯示 arXiv 網址,提供免費的全文瀏覽鏈接,并鼓勵作者通過包括社交媒體在內的多種渠道提供給公眾。
2019年1 月份,NMI正式上線。從已經發(fā)表的論文看, NMI接收的論文有關于機器學習理論與方法的研究,有人工智能應用于其它領域的研究,也有人工智能的發(fā)展對于社會、倫理等方面影響的研究。NMI每月一期,發(fā)表研究文章數(shù)量只有2-4篇。這樣的發(fā)文量使得其文章比較容易被同行注意到,因此相比于傳統(tǒng)的各種頂會和期刊,它是一個可見度較高的平臺。另外作為一個新雜志,NMI比較注重交叉學科的研究,雜志除主編以外的三位編輯都具有神經科學背景,這與傳統(tǒng)的頂會、期刊也完全不同。
據余山介紹,他們之所以選擇投遞NMI,也正是出于此種考慮,因為他們的工作本質上是受到腦啟發(fā)的研究,所以NMI是一個合適的平臺。論文從投稿到接收大約花了半年時間。
不過這并不是OWM算法和CDP模塊的首次曝光。事實上,這個工作從2017年底便已開始,并于2018年國際大學生類腦計算大賽中獲得30萬獎金的創(chuàng)新特等獎。
自動化所獲獎代表
(左起:余山、曾冠雄、陳陽)
之后他們又經過一系列的改進和完善,包括對算法性能的理論分析,以及對于CDP模塊的進一步優(yōu)化設計等,最終才發(fā)表在NMI。
余山介紹說,這個工作的共同的第一作者是曾冠雄和陳陽。前者今年六月份剛剛碩士畢業(yè);而后者參與該項工作時還是博士后,現(xiàn)已經成為自動化所的助理研究員。在該項工作中,曾冠雄負責了所有的程序實現(xiàn),并提出了CDP模塊的計算方法和理論解析。陳陽則對OWM算法的機理做了深入的理論分析,也為其他幾個關鍵問題的解決做出了貢獻。另一作者是博士生崔波,也參與了其中一些分析和計算工作。而余山作為指導老師,自謙道“我主要的作用是提出類腦的思路,然后在遇到瓶頸和困難的時候給大家打氣。”
欲更加詳細了解OWM和CDP的精妙,可參見
1)NMI原文: https://www.nature.com/articles/s42256-019-0080-x
2)或這里也有份免費全文預覽: https://rdcu.be/bOaa3
雷鋒網注:本文參考“余山課題組在類人連續(xù)學習及情境依賴學習方面取得重要進展”
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。