專家深談：深度學習成功的啟示，以及，為什么它不能解決全部AI問題？

本文作者：深度學習大講堂

2016-07-12 19:24

導語：大數(shù)據(jù)支撐的深度學習的復興固然是AI領(lǐng)域的里程碑式進步，但并不意味著深度學習具有解決全部AI問題的潛力。

雷鋒網(wǎng)注：本文作者山世光，博士，中科院計算所研究員、博導，中科院智能信息處理重點實驗室常務(wù)副主任。主要從事計算機視覺、模式識別、機器學習等相關(guān)研究工作，特別是與人臉識別相關(guān)的研究工作。本文原標題為《深度學習在計算機視覺領(lǐng)域成功的啟示與開放問題討論》。

大數(shù)據(jù)支撐的深度學習的復興固然是AI領(lǐng)域的里程碑式進步，但并不意味著深度學習具有解決全部AI問題的潛力。

【摘要】近年來，深度學習技術(shù)在圖像分類、物體檢測與識別乃至“看圖作文（Image Captioning）”等諸多計算機視覺任務(wù)上均取得了巨大成功。本文首先探討了深度學習的成功帶給我們的一些啟示，然后對相關(guān)開放問題進行討論。所述僅為個人粗淺看法，不當之處請讀者斧正。

| 深度學習成功的啟示

深度學習的成功不僅僅帶來了人工智能相關(guān)技術(shù)的快速進步，解決了許多過去被認為難以解決的難題，更重要的它是給我們帶來了思想觀念的變革，個人以為主要體現(xiàn)在以下幾個方面。

1、優(yōu)化方法的變革是開啟深度學習復興之門的鑰匙

回顧自2006年（所謂深度學習元年）以來深度學習的十年大發(fā)展，我們必須首先注意到優(yōu)化方法不斷進步的重要作用。需要注意的是，深度學習并非全新的技術(shù)方法，而是上世紀80年代出現(xiàn)的多層神經(jīng)網(wǎng)絡(luò)的復興。CV領(lǐng)域現(xiàn)在炙手可熱的深度模型（如深度卷積神經(jīng)網(wǎng)絡(luò)DCNN）在上個世紀八十年代就已經(jīng)基本成型，當時未能普及的原因很多，其中之一是長期缺少有效地優(yōu)化多層網(wǎng)絡(luò)的高效方法，特別是對多層神經(jīng)網(wǎng)絡(luò)進行初始化的有效方法。

從這個意義上講，Hinton等人2006年的主要貢獻是開創(chuàng)了無監(jiān)督的、分層預訓練多層神經(jīng)網(wǎng)絡(luò)的先河，從而使眾多研究者重拾了對多層神經(jīng)網(wǎng)絡(luò)的信心。

但實際上最近三年來DCNN的繁榮與無監(jiān)督、分層預訓練并無多大關(guān)系，而更多的與優(yōu)化方法或者有利于優(yōu)化的技巧有關(guān)，如Mini-Batch SGD、ReLU激活函數(shù)、Batch Normalization、ResNet中的shortcut等，特別是其中處理梯度消失問題的手段，對DCNN網(wǎng)絡(luò)不斷加深、性能不斷提升功不可沒。

2、從經(jīng)驗驅(qū)動的人造特征范式到數(shù)據(jù)驅(qū)動的表示學習范式

在深度學習興起之前，專家知識和經(jīng)驗驅(qū)動的AI范式主宰了語音處理、計算機視覺和模式識別等眾多領(lǐng)域很多年，特別是在信息表示和特征設(shè)計方面，過去大量依賴人工，嚴重影響了智能處理技術(shù)的有效性和通用性。深度學習徹底顛覆了這種“人造特征”的范式，開啟了數(shù)據(jù)驅(qū)動的“表示學習”范式。具體體現(xiàn)在兩點：

1）所謂的經(jīng)驗和知識也在數(shù)據(jù)中，在數(shù)據(jù)量足夠大時無需顯式的經(jīng)驗或知識的嵌入，直接從數(shù)據(jù)中可以學到；

2）可以直接從原始信號開始學習表示，而無需人為轉(zhuǎn)換到某個所謂“更好”的空間再進行學習。數(shù)據(jù)驅(qū)動的表示學習范式使得研發(fā)人員無需根據(jù)經(jīng)驗和知識針對不同問題設(shè)計不用的處理流程，從而大大提高了AI算法的通用性，也大大降低了解決新問題的難度。

3、從“分步、分治”到“端到端的學習”

分治或分步法，即將復雜問題分解為若干簡單子問題或子步驟，曾經(jīng)是解決復雜問題的常用思路。在AI領(lǐng)域，也是被廣泛采用的方法論。

比如，為了解決圖像模式識別問題，過去經(jīng)常將其分解為預處理、特征提取與選擇、分類器設(shè)計等若干步驟。再如，為了解決非線性問題，可以采用分段線性方式來逼近全局的非線性。這樣做的動機是很清晰的，即：子問題或子步驟變得簡單、可控，更易解決。但從深度學習的視角來看，其劣勢也是同樣明顯的：子問題最優(yōu)未必意味著全局的最優(yōu)，每個子步驟是最優(yōu)的也不意味著全過程來看是最優(yōu)的。

相反，深度學習更強調(diào)端到端的學習（end-to-end learning），即：不去人為的分步驟或者劃分子問題，而是完全交給神經(jīng)網(wǎng)絡(luò)直接學習從原始輸入到期望輸出的映射。相比分治策略，端到端的學習具有協(xié)同增效（synergy）的優(yōu)勢，有更大的可能獲得全局上更優(yōu)的解。當然，如果我們一定要把分層看成是“子步驟或子問題”也是可以的，但這些分層各自完成什么功能并不是我們預先設(shè)定好的，而是通過基于數(shù)據(jù)的全局優(yōu)化來自動學習的。

4、深度學習具備超強的非線性建模能力

眾多復雜問題本質(zhì)上是高度非線性的，而深度學習實現(xiàn)了從輸入到輸出的非線性變換，這是深度學習在眾多復雜問題上取得突破的重要原因之一。

在深度學習之前，眾多線性模型或近似線性模型曾大行其道。特別是從上個世紀90年代開始，以判別式降維為目的的線性子空間方法得到大家的重視，如主成分分析，F(xiàn)isher線性判別分析，獨立成分分析等。

后來，為了處理非線性問題，Kernel技巧、流形學習等非線性處理方法相繼得到重視。其中Kernel方法試圖實現(xiàn)對原始輸入的非線性變換，但卻無法定義顯式的非線性變換，只能借助有限種類的kernel函數(shù)，定義目標空間中的點積，間接實現(xiàn)非線性。

而2000年之后曾一度廣受重視的流形學習方法則試圖通過對樣本點之間測地距離或局部鄰域關(guān)系的保持來學習非線性映射，遺憾的是這類方法難以真正實現(xiàn)對非訓練樣本的顯式非線性變換。而深度學習則通過作用于大量神經(jīng)元的非線性激活函數(shù)（如Sigmoid或ReLU），獲得了可以適配足夠復雜的非線性變換的能力。

5、大模型未必總是不好的奧卡姆剃刀原理在諸多領(lǐng)域特別是機器學習領(lǐng)域廣為人知，它告誡人們：“如無必要，勿增實體”。換句話說，求解問題的模型能簡單最好不要復雜。

這一原理在機器學習領(lǐng)域是提高模型推廣能力的重要法則，也使得復雜的大模型往往不被看好。而深度學習恰恰在這一點上是令人費解的，以AlexNet為例，其需要學習的參數(shù)（權(quán)重）多達6000萬個，如此之巨的參數(shù)似乎表明這是一個非常復雜（如果不是過分復雜的話）的模型。

當然，模型中需要學習的參數(shù)的多少并不直接等于模型的復雜度，但毋庸置疑的是，深度學習乍看起來是“復雜度”非常高的。那么，奧卡姆剃刀原理失效了嗎？抑或看似復雜的深度學習模型的復雜度并不高？目前似乎尚無明確的理論支撐。最近的一些工作表明，很多已經(jīng)訓練好的、復雜的深度學習模型可以通過剪枝、壓縮等手段進行約簡，其性能并不降低甚至可以提高。

這里的關(guān)鍵也許在于“大數(shù)據(jù)”帶來的“紅利”。一種可能是：科研人員過去長期面對著“小數(shù)據(jù)”問題，因而過于偏愛簡單模型了。而在數(shù)據(jù)量陡增的今天，適度復雜的模型變得更加適應科研人員面對的復雜問題，當訓練數(shù)據(jù)量大到與測試數(shù)據(jù)同分布，甚至測試數(shù)據(jù)基本“跑不出”訓練數(shù)據(jù)所在范圍的時候，在訓練數(shù)據(jù)上的“過擬合”就變得不那么可怕了。

6、腦神經(jīng)科學啟發(fā)的思路值得更多的重視

深度學習作為多層神經(jīng)網(wǎng)絡(luò)是受腦神經(jīng)科學的啟發(fā)而發(fā)展起來的。

特別是卷積神經(jīng)網(wǎng)絡(luò)，其根源于Fukushima在1980年代提出的認知機模型，而該模型的提出動機就是模擬哺乳動物視覺神經(jīng)系統(tǒng)的感受野逐漸變大、逐層提取由簡及繁的特征，從而實現(xiàn)語義逐級抽象的視覺神經(jīng)通路。在諾貝爾獎獲得者Hubel和Wiesel的共同努力下，該通路從上個世紀60年代開始逐漸清晰，為CNN的誕生提供了良好的參照。但值得注意的是，生物視覺神經(jīng)通路極其復雜，神經(jīng)科學家對初級視覺皮層區(qū)中簡單神經(jīng)細胞的邊緣提取功能是清晰的，對通路后面部分越來越復雜的神經(jīng)細胞的功能也有一些探索，但對更高層級上的超復雜細胞的功能及其作用機制尚不清晰。

這意味著CNN等深度模型是否真的能夠模擬生物視覺通路還不得而知。但可以確定的是，生物神經(jīng)系統(tǒng)的連接極為復雜，不僅僅有自下而上的前饋和同層遞歸，更有大量的自上而下的反饋，以及來自其他神經(jīng)子系統(tǒng)的外部連接，這些都是目前的深度模型尚未建模的。

但無論如何，腦神經(jīng)科學的進步可以為深度模型的發(fā)展提供更多的可能性，是非常值得關(guān)注的。例如，最近越來越多的神經(jīng)科學研究表明，曾一度被認為功能極為特異化的神經(jīng)細胞其實具有良好的可塑性。例如，視覺皮層的大量神經(jīng)細胞在失去視覺處理需求后不久，即被“重塑”轉(zhuǎn)而處理觸覺或其他模態(tài)的數(shù)據(jù)。神經(jīng)系統(tǒng)的這種可塑性意味著不同的智能處理任務(wù)具有良好的通用性，為通用人工智能的發(fā)展提供了參照。

| 開放問題

大數(shù)據(jù)支撐的深度學習的復興固然是AI領(lǐng)域的里程碑式進步，但并不意味著深度學習具有解決全部AI問題的潛力。下面對深度學習領(lǐng)域的開放性問題做討論。

1、舉一反三：大數(shù)據(jù)是否學習之必需？

大數(shù)據(jù)是深度學習成功的基石，大數(shù)據(jù)之于深度學習，恰如燃料之于火箭。越來越多的應用領(lǐng)域正持續(xù)積累著日趨豐富的應用數(shù)據(jù)，這為深度學習的進一步發(fā)展和應用至關(guān)重要。然而，過分倚重有標注的大數(shù)據(jù)也恰恰是深度學習的局限性之一。

數(shù)據(jù)收集是有成本的，而且標注成本已經(jīng)開始水漲船高，而且還有一些領(lǐng)域存在著難以收集數(shù)據(jù)的問題。例如在醫(yī)療診斷領(lǐng)域，一些較為罕見的疾病的相關(guān)數(shù)據(jù)收集是困難的。

更重要的，當我們把人的智能作為參照系的時候，自然就會問：人的智能是否是大數(shù)據(jù)學習的結(jié)果呢？其答案并不顯然。從人類個體的角度來說，答案很可能是否定的：我們甚至可以只見過一個蘋果（甚至只是一張?zhí)O果圖片）就學會了識別蘋果，而無需觀察成百上千個不同的蘋果。但是，這樣批判深度學習看似有理有據(jù)，卻未必是公平的：人類作為一個種群，進化過程中已經(jīng)見過了何止成百上千個蘋果？

但無論如何，“小數(shù)據(jù)”如何驅(qū)動深度學習或其他機器學習方法是一個值得探索的新方向。在這個意義上，基于無監(jiān)督數(shù)據(jù)的學習、相似領(lǐng)域的遷移學習、通用模型的領(lǐng)域適應、知識與經(jīng)驗的嵌入等方法是非常值得關(guān)注的。

2、無師自通：如何獲取無監(jiān)督學習能力？

獲取有標注數(shù)據(jù)的時間和金錢成本很高，但大量無監(jiān)督數(shù)據(jù)的獲取成本卻是微乎其微的。而目前深度學習對無監(jiān)督數(shù)據(jù)的學習能力嚴重不足，以致大量無監(jiān)督數(shù)據(jù)就像富含黃金的沙海，我們卻沒有高效淘金的利器。有趣的是，回顧深度學習的歷史，我們應該記得2006年Hinton教授等人倡導的卻恰恰是利用無監(jiān)督學習來對深層神經(jīng)網(wǎng)絡(luò)進行預訓練。但此后，特別是DCNN興起之后，無監(jiān)督的預訓練似乎已經(jīng)被很多研究者所拋棄（特別是在CV領(lǐng)域）。

直接從大量無監(jiān)督數(shù)據(jù)中學習模型確實是非常困難的，即便是人這部“機器”，也有“狼孩”的例子警告我們“無師自通”似乎是不現(xiàn)實的。但“少量有導師數(shù)據(jù)+大量無導師數(shù)據(jù)”的模式也許是更值得大力研究的。

3、從參數(shù)學習到結(jié)構(gòu)學習？

深度學習以“數(shù)據(jù)驅(qū)動”范式顛覆了“人造特征”范式，這是一個重大的進步。但與此同時，它自己又陷入了一個“人造結(jié)構(gòu)”窠臼中。

無論Hinton教授組最初設(shè)計的AlexNet，還是后來的VGG，GoogLeNet，ResNet等等，都是富有經(jīng)驗的專家人工設(shè)計出來的。給定一個新問題，到底什么樣的網(wǎng)絡(luò)結(jié)構(gòu)是最佳的（如多少卷積層）卻不得而知，這在一定程度上阻礙了深度學習在更多智能任務(wù)上的普及和應用。因此，同時學習網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)是一個值得大力關(guān)注的研究方向。

從計算的角度來看，全面的學習網(wǎng)絡(luò)結(jié)構(gòu)是極其復雜的。盡管近期已經(jīng)有一些這方面的嘗試，如剪枝算法、網(wǎng)絡(luò)約簡等，可以在一定程度上調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)。同時也出現(xiàn)了少量對網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)（如DCNN的kernel bank數(shù)量）進行學習的探索性工作，但尚處于起步階段。

4、如何在預測階段進行反饋與網(wǎng)絡(luò)調(diào)制？

我們知道，人類視覺系統(tǒng)在實現(xiàn)“看見”的過程中，視覺通路上神經(jīng)細胞接受的輸入并非僅僅來自低層或同層的神經(jīng)元，還大量接受高層神經(jīng)元的反饋信號，并受到來自其他神經(jīng)子系統(tǒng)（如聽覺）的信號的調(diào)制。

與之相比，我們目前常用的深度神經(jīng)網(wǎng)絡(luò)（特別是DCNN）在訓練完成后的特征提取或預測階段，低層神經(jīng)元大多無法接受高層神經(jīng)元的反饋信號，也沒有機制接收其他信號（比如先驗或其他模態(tài)信息）的調(diào)制。這意味著先驗知識、上下文、猜測和想象（腦補）等“智能”能力難以在現(xiàn)有深度網(wǎng)絡(luò)上得到應用和體現(xiàn)。如何突破這一困局，賦予深度網(wǎng)絡(luò)感知階段的自適應調(diào)制能力，是值得大力研究的。

5、如何賦予機器演繹推理能力？

基于大數(shù)據(jù)的深度學習可以認為是一種歸納法，而從一般原理出發(fā)進行演繹是人類的另一重要能力，特別是在認知和決策過程中，我們大量依賴演繹推理。

而演繹推理在很多時候似乎與數(shù)據(jù)無關(guān)。例如，即使不給任何樣例，我們也可以依賴符號（語言）描述，來學會識別之前從未見過的某種物體。

這樣的zero-shot學習問題看似超出了深度學習的觸角范疇，但也許未必不可企及。例如，近年來越來越多的基于深度學習的產(chǎn)生式模型正在努力實現(xiàn)從符號（概念）到圖像的生成。

【作者介紹】山世光，博士，中科院計算所研究員、博導，中科院智能信息處理重點實驗室常務(wù)副主任。主要從事計算機視覺、模式識別、機器學習等相關(guān)研究工作，特別是與人臉識別相關(guān)的研究工作。已在計算機學會推薦的A類國際刊物和會議上發(fā)表論文50余篇，論文被Google Scholar引用9000余次。曾應邀擔任過ICCV，ACCV，ICPR，F(xiàn)G等多個國際學術(shù)會議的領(lǐng)域主席（Area Chair），現(xiàn)任IEEE Trans. on Image Processing，Neurocomputing和Pattern Recognition Letters等國際刊物的編委（AE）。研究成果獲2005年度國家科技進步二等獎和2015年度國家自然科學獎二等獎，2012年度基金委“優(yōu)青”獲得者，2015年度CCF青年科學獎獲得者。

雷鋒網(wǎng)注：本文由深度學習大講堂（公號）授權(quán)雷鋒網(wǎng)發(fā)布，轉(zhuǎn)載請聯(lián)系授權(quán)，并務(wù)必保留作者和出處，不得刪減內(nèi)容。

專家深談：深度學習成功的啟示，以及，為什么它不能解決全部AI問題？