0
本文作者: 深度學(xué)習(xí)大講堂 | 2016-07-12 19:24 |
雷鋒網(wǎng)注:本文作者山世光,博士,中科院計(jì)算所研究員、博導(dǎo),中科院智能信息處理重點(diǎn)實(shí)驗(yàn)室常務(wù)副主任。主要從事計(jì)算機(jī)視覺(jué)、模式識(shí)別、機(jī)器學(xué)習(xí)等相關(guān)研究工作,特別是與人臉識(shí)別相關(guān)的研究工作。本文原標(biāo)題為《深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域成功的啟示與開(kāi)放問(wèn)題討論》。
大數(shù)據(jù)支撐的深度學(xué)習(xí)的復(fù)興固然是AI領(lǐng)域的里程碑式進(jìn)步,但并不意味著深度學(xué)習(xí)具有解決全部AI問(wèn)題的潛力。
【摘要】近年來(lái),深度學(xué)習(xí)技術(shù)在圖像分類、物體檢測(cè)與識(shí)別乃至“看圖作文(Image Captioning)”等諸多計(jì)算機(jī)視覺(jué)任務(wù)上均取得了巨大成功。本文首先探討了深度學(xué)習(xí)的成功帶給我們的一些啟示,然后對(duì)相關(guān)開(kāi)放問(wèn)題進(jìn)行討論。所述僅為個(gè)人粗淺看法,不當(dāng)之處請(qǐng)讀者斧正。
深度學(xué)習(xí)的成功不僅僅帶來(lái)了人工智能相關(guān)技術(shù)的快速進(jìn)步,解決了許多過(guò)去被認(rèn)為難以解決的難題,更重要的它是給我們帶來(lái)了思想觀念的變革,個(gè)人以為主要體現(xiàn)在以下幾個(gè)方面。
1、優(yōu)化方法的變革是開(kāi)啟深度學(xué)習(xí)復(fù)興之門的鑰匙
回顧自2006年(所謂深度學(xué)習(xí)元年)以來(lái)深度學(xué)習(xí)的十年大發(fā)展,我們必須首先注意到優(yōu)化方法不斷進(jìn)步的重要作用。需要注意的是,深度學(xué)習(xí)并非全新的技術(shù)方法,而是上世紀(jì)80年代出現(xiàn)的多層神經(jīng)網(wǎng)絡(luò)的復(fù)興。CV領(lǐng)域現(xiàn)在炙手可熱的深度模型(如深度卷積神經(jīng)網(wǎng)絡(luò)DCNN)在上個(gè)世紀(jì)八十年代就已經(jīng)基本成型,當(dāng)時(shí)未能普及的原因很多,其中之一是長(zhǎng)期缺少有效地優(yōu)化多層網(wǎng)絡(luò)的高效方法,特別是對(duì)多層神經(jīng)網(wǎng)絡(luò)進(jìn)行初始化的有效方法。
從這個(gè)意義上講,Hinton等人2006年的主要貢獻(xiàn)是開(kāi)創(chuàng)了無(wú)監(jiān)督的、分層預(yù)訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的先河,從而使眾多研究者重拾了對(duì)多層神經(jīng)網(wǎng)絡(luò)的信心。
但實(shí)際上最近三年來(lái)DCNN的繁榮與無(wú)監(jiān)督、分層預(yù)訓(xùn)練并無(wú)多大關(guān)系,而更多的與優(yōu)化方法或者有利于優(yōu)化的技巧有關(guān),如Mini-Batch SGD、ReLU激活函數(shù)、Batch Normalization、ResNet中的shortcut等,特別是其中處理梯度消失問(wèn)題的手段,對(duì)DCNN網(wǎng)絡(luò)不斷加深、性能不斷提升功不可沒(méi)。
2、從經(jīng)驗(yàn)驅(qū)動(dòng)的人造特征范式到數(shù)據(jù)驅(qū)動(dòng)的表示學(xué)習(xí)范式
在深度學(xué)習(xí)興起之前,專家知識(shí)和經(jīng)驗(yàn)驅(qū)動(dòng)的AI范式主宰了語(yǔ)音處理、計(jì)算機(jī)視覺(jué)和模式識(shí)別等眾多領(lǐng)域很多年,特別是在信息表示和特征設(shè)計(jì)方面,過(guò)去大量依賴人工,嚴(yán)重影響了智能處理技術(shù)的有效性和通用性。深度學(xué)習(xí)徹底顛覆了這種“人造特征”的范式,開(kāi)啟了數(shù)據(jù)驅(qū)動(dòng)的“表示學(xué)習(xí)”范式。具體體現(xiàn)在兩點(diǎn):
1)所謂的經(jīng)驗(yàn)和知識(shí)也在數(shù)據(jù)中,在數(shù)據(jù)量足夠大時(shí)無(wú)需顯式的經(jīng)驗(yàn)或知識(shí)的嵌入,直接從數(shù)據(jù)中可以學(xué)到;
2)可以直接從原始信號(hào)開(kāi)始學(xué)習(xí)表示,而無(wú)需人為轉(zhuǎn)換到某個(gè)所謂“更好”的空間再進(jìn)行學(xué)習(xí)。數(shù)據(jù)驅(qū)動(dòng)的表示學(xué)習(xí)范式使得研發(fā)人員無(wú)需根據(jù)經(jīng)驗(yàn)和知識(shí)針對(duì)不同問(wèn)題設(shè)計(jì)不用的處理流程,從而大大提高了AI算法的通用性,也大大降低了解決新問(wèn)題的難度。
3、從“分步、分治”到“端到端的學(xué)習(xí)”
分治或分步法,即將復(fù)雜問(wèn)題分解為若干簡(jiǎn)單子問(wèn)題或子步驟,曾經(jīng)是解決復(fù)雜問(wèn)題的常用思路。在AI領(lǐng)域,也是被廣泛采用的方法論。
比如,為了解決圖像模式識(shí)別問(wèn)題,過(guò)去經(jīng)常將其分解為預(yù)處理、特征提取與選擇、分類器設(shè)計(jì)等若干步驟。再如,為了解決非線性問(wèn)題,可以采用分段線性方式來(lái)逼近全局的非線性。這樣做的動(dòng)機(jī)是很清晰的,即:子問(wèn)題或子步驟變得簡(jiǎn)單、可控,更易解決。但從深度學(xué)習(xí)的視角來(lái)看,其劣勢(shì)也是同樣明顯的:子問(wèn)題最優(yōu)未必意味著全局的最優(yōu),每個(gè)子步驟是最優(yōu)的也不意味著全過(guò)程來(lái)看是最優(yōu)的。
相反,深度學(xué)習(xí)更強(qiáng)調(diào)端到端的學(xué)習(xí)(end-to-end learning),即:不去人為的分步驟或者劃分子問(wèn)題,而是完全交給神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)從原始輸入到期望輸出的映射。相比分治策略,端到端的學(xué)習(xí)具有協(xié)同增效(synergy)的優(yōu)勢(shì),有更大的可能獲得全局上更優(yōu)的解。當(dāng)然,如果我們一定要把分層看成是“子步驟或子問(wèn)題”也是可以的,但這些分層各自完成什么功能并不是我們預(yù)先設(shè)定好的,而是通過(guò)基于數(shù)據(jù)的全局優(yōu)化來(lái)自動(dòng)學(xué)習(xí)的。
4、深度學(xué)習(xí)具備超強(qiáng)的非線性建模能力
眾多復(fù)雜問(wèn)題本質(zhì)上是高度非線性的,而深度學(xué)習(xí)實(shí)現(xiàn)了從輸入到輸出的非線性變換,這是深度學(xué)習(xí)在眾多復(fù)雜問(wèn)題上取得突破的重要原因之一。
在深度學(xué)習(xí)之前,眾多線性模型或近似線性模型曾大行其道。特別是從上個(gè)世紀(jì)90年代開(kāi)始,以判別式降維為目的的線性子空間方法得到大家的重視,如主成分分析,F(xiàn)isher線性判別分析,獨(dú)立成分分析等。
后來(lái),為了處理非線性問(wèn)題,Kernel技巧、流形學(xué)習(xí)等非線性處理方法相繼得到重視。其中Kernel方法試圖實(shí)現(xiàn)對(duì)原始輸入的非線性變換,但卻無(wú)法定義顯式的非線性變換,只能借助有限種類的kernel函數(shù),定義目標(biāo)空間中的點(diǎn)積,間接實(shí)現(xiàn)非線性。
而2000年之后曾一度廣受重視的流形學(xué)習(xí)方法則試圖通過(guò)對(duì)樣本點(diǎn)之間測(cè)地距離或局部鄰域關(guān)系的保持來(lái)學(xué)習(xí)非線性映射,遺憾的是這類方法難以真正實(shí)現(xiàn)對(duì)非訓(xùn)練樣本的顯式非線性變換。而深度學(xué)習(xí)則通過(guò)作用于大量神經(jīng)元的非線性激活函數(shù)(如Sigmoid或ReLU),獲得了可以適配足夠復(fù)雜的非線性變換的能力。
5、大模型未必總是不好的奧卡姆剃刀原理在諸多領(lǐng)域特別是機(jī)器學(xué)習(xí)領(lǐng)域廣為人知,它告誡人們:“如無(wú)必要,勿增實(shí)體”。換句話說(shuō),求解問(wèn)題的模型能簡(jiǎn)單最好不要復(fù)雜。
這一原理在機(jī)器學(xué)習(xí)領(lǐng)域是提高模型推廣能力的重要法則,也使得復(fù)雜的大模型往往不被看好。而深度學(xué)習(xí)恰恰在這一點(diǎn)上是令人費(fèi)解的,以AlexNet為例,其需要學(xué)習(xí)的參數(shù)(權(quán)重)多達(dá)6000萬(wàn)個(gè),如此之巨的參數(shù)似乎表明這是一個(gè)非常復(fù)雜(如果不是過(guò)分復(fù)雜的話)的模型。
當(dāng)然,模型中需要學(xué)習(xí)的參數(shù)的多少并不直接等于模型的復(fù)雜度,但毋庸置疑的是,深度學(xué)習(xí)乍看起來(lái)是“復(fù)雜度”非常高的。那么,奧卡姆剃刀原理失效了嗎?抑或看似復(fù)雜的深度學(xué)習(xí)模型的復(fù)雜度并不高?目前似乎尚無(wú)明確的理論支撐。最近的一些工作表明,很多已經(jīng)訓(xùn)練好的、復(fù)雜的深度學(xué)習(xí)模型可以通過(guò)剪枝、壓縮等手段進(jìn)行約簡(jiǎn),其性能并不降低甚至可以提高。
這里的關(guān)鍵也許在于“大數(shù)據(jù)”帶來(lái)的“紅利”。一種可能是:科研人員過(guò)去長(zhǎng)期面對(duì)著“小數(shù)據(jù)”問(wèn)題,因而過(guò)于偏愛(ài)簡(jiǎn)單模型了。而在數(shù)據(jù)量陡增的今天,適度復(fù)雜的模型變得更加適應(yīng)科研人員面對(duì)的復(fù)雜問(wèn)題,當(dāng)訓(xùn)練數(shù)據(jù)量大到與測(cè)試數(shù)據(jù)同分布,甚至測(cè)試數(shù)據(jù)基本“跑不出”訓(xùn)練數(shù)據(jù)所在范圍的時(shí)候,在訓(xùn)練數(shù)據(jù)上的“過(guò)擬合”就變得不那么可怕了。
6、腦神經(jīng)科學(xué)啟發(fā)的思路值得更多的重視
深度學(xué)習(xí)作為多層神經(jīng)網(wǎng)絡(luò)是受腦神經(jīng)科學(xué)的啟發(fā)而發(fā)展起來(lái)的。
特別是卷積神經(jīng)網(wǎng)絡(luò),其根源于Fukushima在1980年代提出的認(rèn)知機(jī)模型,而該模型的提出動(dòng)機(jī)就是模擬哺乳動(dòng)物視覺(jué)神經(jīng)系統(tǒng)的感受野逐漸變大、逐層提取由簡(jiǎn)及繁的特征,從而實(shí)現(xiàn)語(yǔ)義逐級(jí)抽象的視覺(jué)神經(jīng)通路。在諾貝爾獎(jiǎng)獲得者Hubel和Wiesel的共同努力下,該通路從上個(gè)世紀(jì)60年代開(kāi)始逐漸清晰,為CNN的誕生提供了良好的參照。但值得注意的是,生物視覺(jué)神經(jīng)通路極其復(fù)雜,神經(jīng)科學(xué)家對(duì)初級(jí)視覺(jué)皮層區(qū)中簡(jiǎn)單神經(jīng)細(xì)胞的邊緣提取功能是清晰的,對(duì)通路后面部分越來(lái)越復(fù)雜的神經(jīng)細(xì)胞的功能也有一些探索,但對(duì)更高層級(jí)上的超復(fù)雜細(xì)胞的功能及其作用機(jī)制尚不清晰。
這意味著CNN等深度模型是否真的能夠模擬生物視覺(jué)通路還不得而知。但可以確定的是,生物神經(jīng)系統(tǒng)的連接極為復(fù)雜,不僅僅有自下而上的前饋和同層遞歸,更有大量的自上而下的反饋,以及來(lái)自其他神經(jīng)子系統(tǒng)的外部連接,這些都是目前的深度模型尚未建模的。
但無(wú)論如何,腦神經(jīng)科學(xué)的進(jìn)步可以為深度模型的發(fā)展提供更多的可能性,是非常值得關(guān)注的。例如,最近越來(lái)越多的神經(jīng)科學(xué)研究表明,曾一度被認(rèn)為功能極為特異化的神經(jīng)細(xì)胞其實(shí)具有良好的可塑性。例如,視覺(jué)皮層的大量神經(jīng)細(xì)胞在失去視覺(jué)處理需求后不久,即被“重塑”轉(zhuǎn)而處理觸覺(jué)或其他模態(tài)的數(shù)據(jù)。神經(jīng)系統(tǒng)的這種可塑性意味著不同的智能處理任務(wù)具有良好的通用性,為通用人工智能的發(fā)展提供了參照。
大數(shù)據(jù)支撐的深度學(xué)習(xí)的復(fù)興固然是AI領(lǐng)域的里程碑式進(jìn)步,但并不意味著深度學(xué)習(xí)具有解決全部AI問(wèn)題的潛力。下面對(duì)深度學(xué)習(xí)領(lǐng)域的開(kāi)放性問(wèn)題做討論。
1、舉一反三:大數(shù)據(jù)是否學(xué)習(xí)之必需?
大數(shù)據(jù)是深度學(xué)習(xí)成功的基石,大數(shù)據(jù)之于深度學(xué)習(xí),恰如燃料之于火箭。越來(lái)越多的應(yīng)用領(lǐng)域正持續(xù)積累著日趨豐富的應(yīng)用數(shù)據(jù),這為深度學(xué)習(xí)的進(jìn)一步發(fā)展和應(yīng)用至關(guān)重要。然而,過(guò)分倚重有標(biāo)注的大數(shù)據(jù)也恰恰是深度學(xué)習(xí)的局限性之一。
數(shù)據(jù)收集是有成本的,而且標(biāo)注成本已經(jīng)開(kāi)始水漲船高,而且還有一些領(lǐng)域存在著難以收集數(shù)據(jù)的問(wèn)題。例如在醫(yī)療診斷領(lǐng)域,一些較為罕見(jiàn)的疾病的相關(guān)數(shù)據(jù)收集是困難的。
更重要的,當(dāng)我們把人的智能作為參照系的時(shí)候,自然就會(huì)問(wèn):人的智能是否是大數(shù)據(jù)學(xué)習(xí)的結(jié)果呢?其答案并不顯然。從人類個(gè)體的角度來(lái)說(shuō),答案很可能是否定的:我們甚至可以只見(jiàn)過(guò)一個(gè)蘋果(甚至只是一張?zhí)O果圖片)就學(xué)會(huì)了識(shí)別蘋果,而無(wú)需觀察成百上千個(gè)不同的蘋果。但是,這樣批判深度學(xué)習(xí)看似有理有據(jù),卻未必是公平的:人類作為一個(gè)種群,進(jìn)化過(guò)程中已經(jīng)見(jiàn)過(guò)了何止成百上千個(gè)蘋果?
但無(wú)論如何,“小數(shù)據(jù)”如何驅(qū)動(dòng)深度學(xué)習(xí)或其他機(jī)器學(xué)習(xí)方法是一個(gè)值得探索的新方向。在這個(gè)意義上,基于無(wú)監(jiān)督數(shù)據(jù)的學(xué)習(xí)、相似領(lǐng)域的遷移學(xué)習(xí)、通用模型的領(lǐng)域適應(yīng)、知識(shí)與經(jīng)驗(yàn)的嵌入等方法是非常值得關(guān)注的。
2、 無(wú)師自通:如何獲取無(wú)監(jiān)督學(xué)習(xí)能力?
獲取有標(biāo)注數(shù)據(jù)的時(shí)間和金錢成本很高,但大量無(wú)監(jiān)督數(shù)據(jù)的獲取成本卻是微乎其微的。而目前深度學(xué)習(xí)對(duì)無(wú)監(jiān)督數(shù)據(jù)的學(xué)習(xí)能力嚴(yán)重不足,以致大量無(wú)監(jiān)督數(shù)據(jù)就像富含黃金的沙海,我們卻沒(méi)有高效淘金的利器。有趣的是,回顧深度學(xué)習(xí)的歷史,我們應(yīng)該記得2006年Hinton教授等人倡導(dǎo)的卻恰恰是利用無(wú)監(jiān)督學(xué)習(xí)來(lái)對(duì)深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。但此后,特別是DCNN興起之后,無(wú)監(jiān)督的預(yù)訓(xùn)練似乎已經(jīng)被很多研究者所拋棄(特別是在CV領(lǐng)域)。
直接從大量無(wú)監(jiān)督數(shù)據(jù)中學(xué)習(xí)模型確實(shí)是非常困難的,即便是人這部“機(jī)器”,也有“狼孩”的例子警告我們“無(wú)師自通”似乎是不現(xiàn)實(shí)的。但“少量有導(dǎo)師數(shù)據(jù)+大量無(wú)導(dǎo)師數(shù)據(jù)”的模式也許是更值得大力研究的。
3、從參數(shù)學(xué)習(xí)到結(jié)構(gòu)學(xué)習(xí)?
深度學(xué)習(xí)以“數(shù)據(jù)驅(qū)動(dòng)”范式顛覆了“人造特征”范式,這是一個(gè)重大的進(jìn)步。但與此同時(shí),它自己又陷入了一個(gè)“人造結(jié)構(gòu)”窠臼中。
無(wú)論Hinton教授組最初設(shè)計(jì)的AlexNet,還是后來(lái)的VGG,GoogLeNet,ResNet等等,都是富有經(jīng)驗(yàn)的專家人工設(shè)計(jì)出來(lái)的。給定一個(gè)新問(wèn)題,到底什么樣的網(wǎng)絡(luò)結(jié)構(gòu)是最佳的(如多少卷積層)卻不得而知,這在一定程度上阻礙了深度學(xué)習(xí)在更多智能任務(wù)上的普及和應(yīng)用。因此,同時(shí)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)是一個(gè)值得大力關(guān)注的研究方向。
從計(jì)算的角度來(lái)看,全面的學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)是極其復(fù)雜的。盡管近期已經(jīng)有一些這方面的嘗試,如剪枝算法、網(wǎng)絡(luò)約簡(jiǎn)等,可以在一定程度上調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)。同時(shí)也出現(xiàn)了少量對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)(如DCNN的kernel bank數(shù)量)進(jìn)行學(xué)習(xí)的探索性工作,但尚處于起步階段。
4、如何在預(yù)測(cè)階段進(jìn)行反饋與網(wǎng)絡(luò)調(diào)制?
我們知道,人類視覺(jué)系統(tǒng)在實(shí)現(xiàn)“看見(jiàn)”的過(guò)程中,視覺(jué)通路上神經(jīng)細(xì)胞接受的輸入并非僅僅來(lái)自低層或同層的神經(jīng)元,還大量接受高層神經(jīng)元的反饋信號(hào),并受到來(lái)自其他神經(jīng)子系統(tǒng)(如聽(tīng)覺(jué))的信號(hào)的調(diào)制。
與之相比,我們目前常用的深度神經(jīng)網(wǎng)絡(luò)(特別是DCNN)在訓(xùn)練完成后的特征提取或預(yù)測(cè)階段,低層神經(jīng)元大多無(wú)法接受高層神經(jīng)元的反饋信號(hào),也沒(méi)有機(jī)制接收其他信號(hào)(比如先驗(yàn)或其他模態(tài)信息)的調(diào)制。這意味著先驗(yàn)知識(shí)、上下文、猜測(cè)和想象(腦補(bǔ))等“智能”能力難以在現(xiàn)有深度網(wǎng)絡(luò)上得到應(yīng)用和體現(xiàn)。如何突破這一困局,賦予深度網(wǎng)絡(luò)感知階段的自適應(yīng)調(diào)制能力,是值得大力研究的。
5、如何賦予機(jī)器演繹推理能力?
基于大數(shù)據(jù)的深度學(xué)習(xí)可以認(rèn)為是一種歸納法,而從一般原理出發(fā)進(jìn)行演繹是人類的另一重要能力,特別是在認(rèn)知和決策過(guò)程中,我們大量依賴演繹推理。
而演繹推理在很多時(shí)候似乎與數(shù)據(jù)無(wú)關(guān)。例如,即使不給任何樣例,我們也可以依賴符號(hào)(語(yǔ)言)描述,來(lái)學(xué)會(huì)識(shí)別之前從未見(jiàn)過(guò)的某種物體。
這樣的zero-shot學(xué)習(xí)問(wèn)題看似超出了深度學(xué)習(xí)的觸角范疇,但也許未必不可企及。例如,近年來(lái)越來(lái)越多的基于深度學(xué)習(xí)的產(chǎn)生式模型正在努力實(shí)現(xiàn)從符號(hào)(概念)到圖像的生成。
【作者介紹】山世光,博士,中科院計(jì)算所研究員、博導(dǎo),中科院智能信息處理重點(diǎn)實(shí)驗(yàn)室常務(wù)副主任。主要從事計(jì)算機(jī)視覺(jué)、模式識(shí)別、機(jī)器學(xué)習(xí)等相關(guān)研究工作,特別是與人臉識(shí)別相關(guān)的研究工作。已在計(jì)算機(jī)學(xué)會(huì)推薦的A類國(guó)際刊物和會(huì)議上發(fā)表論文50余篇,論文被Google Scholar引用9000余次。曾應(yīng)邀擔(dān)任過(guò)ICCV,ACCV,ICPR,F(xiàn)G等多個(gè)國(guó)際學(xué)術(shù)會(huì)議的領(lǐng)域主席(Area Chair),現(xiàn)任IEEE Trans. on Image Processing,Neurocomputing和Pattern Recognition Letters等國(guó)際刊物的編委(AE)。研究成果獲2005年度國(guó)家科技進(jìn)步二等獎(jiǎng)和2015年度國(guó)家自然科學(xué)獎(jiǎng)二等獎(jiǎng),2012年度基金委“優(yōu)青”獲得者,2015年度CCF青年科學(xué)獎(jiǎng)獲得者。
雷鋒網(wǎng)注:本文由深度學(xué)習(xí)大講堂(公號(hào))授權(quán)雷鋒網(wǎng)發(fā)布,轉(zhuǎn)載請(qǐng)聯(lián)系授權(quán),并務(wù)必保留作者和出處,不得刪減內(nèi)容。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。