0
本文作者: 蔣寶尚 | 2020-05-09 13:46 |
5月8日上午,曠視首席科學(xué)家、西交大人工智能學(xué)院院長孫劍博士在線做了一場“視覺計(jì)算的前沿進(jìn)展”的報(bào)告,報(bào)告是由「信息技術(shù)新工科產(chǎn)學(xué)研聯(lián)盟」主辦的人工智能教育線上公開課。
孫劍博士在報(bào)告中將當(dāng)前使用卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺分兩個(gè)方面進(jìn)行了探究:
1、卷積神經(jīng)網(wǎng)絡(luò),核心可以歸納為:網(wǎng)絡(luò)的深度、網(wǎng)絡(luò)的卷積操作、網(wǎng)絡(luò)的寬度和網(wǎng)絡(luò)的大小。
2、計(jì)算機(jī)視覺,核心問題可以歸納為:分類、檢測、分割以及序列。
孫劍表示,針對(duì)這些問題,研究員們已經(jīng)做出了非常多的努力,也有了非常多的進(jìn)步,但是長尾分布、自監(jiān)督學(xué)習(xí)、遮擋等計(jì)算機(jī)視覺中的關(guān)鍵問題還沒有解決。下面我們對(duì)孫劍博士報(bào)告的部分內(nèi)容作以介紹。
計(jì)算機(jī)視覺包含很多任務(wù),其中一條主線是如何理解一張圖片,也就是圖像的表示問題。從1978年的 2.5D Sketch一直到中間的點(diǎn)特征、局部特征再到今天的深度卷積神經(jīng)網(wǎng)絡(luò),圖像表示問題已經(jīng)有了幾十年的研究。
當(dāng)前最主流的方法是深度卷積神經(jīng)網(wǎng)絡(luò),即輸入一張圖片,經(jīng)過中間函數(shù)的作用,輸出一個(gè)類別。但卷積神經(jīng)網(wǎng)絡(luò)到底學(xué)到了什么呢?孫劍提到,學(xué)到的東西可以分為低級(jí)表示和高級(jí)表示兩個(gè)維度,低級(jí)表示例如線段、邊緣、紋理等,高級(jí)特征例如如狗、耳朵等。
卷積神經(jīng)網(wǎng)絡(luò)開始的思想很早之前就已經(jīng)存在,早在80年代,日本科學(xué)家提出神經(jīng)認(rèn)知機(jī)的概念,可以算作是卷積網(wǎng)絡(luò)最初的實(shí)現(xiàn)原型。90年代Yann LeCun 把這種方法發(fā)揚(yáng)光大,從而學(xué)界開始卷積神經(jīng)網(wǎng)絡(luò)的研究。
卷積神經(jīng)網(wǎng)絡(luò)的核心問題可以歸納為上面幾個(gè):大小、卷積、深度、寬度。其中卷積最核心,作為一種算子,其具有空間不變性、權(quán)重共享等特點(diǎn),一般3*3的卷積最為常見。一個(gè)3*3的卷積如果再加上通道數(shù)的卷積計(jì)算,就能提取特征信息。后來出現(xiàn)的1*1的卷積也非常有效,其能夠有效的降低計(jì)算復(fù)雜度,融合它的通道信息。
隨后,卷積使用產(chǎn)生了分組思想,即把整體的通道分成不同的組從而完成計(jì)算,在降低復(fù)雜度的同時(shí),也更加高效。
在往下發(fā)展,Depthwise概念出現(xiàn),這個(gè)概念假設(shè)卷積中的特征為3D立方體,第一步先對(duì)每一層進(jìn)行獨(dú)立卷積,第二步是把上一步的卷積結(jié)果用一個(gè)點(diǎn)卷積進(jìn)行綜合。
在報(bào)告中,孫劍提到,在2018年的時(shí)候,其研究團(tuán)隊(duì)提出的ShuffleNetV1就結(jié)合了分組和點(diǎn)卷積的思想,這個(gè)網(wǎng)絡(luò)第二步采用Shuffle操作,從而保證種通道信息可以交換,隨后的ShuffleNet v2改善了V1的第一步,強(qiáng)調(diào)通道切分和局部卷積,也讓模型更加高效。
最新的卷積設(shè)計(jì)思想是動(dòng)態(tài)卷積計(jì)算,區(qū)別于每一層卷積根據(jù)前面的輸入不變的思想,能夠根據(jù)輸入不同動(dòng)態(tài)生成卷積參數(shù)。例如曠視的動(dòng)態(tài) Channel-wise Mixture 就采用了此思想,增強(qiáng)了模型的擬合能力。
卷積神經(jīng)網(wǎng)絡(luò)第二個(gè)核心是“深度”,其有兩個(gè)障礙:1.深度神經(jīng)網(wǎng)絡(luò)如果過深則無法訓(xùn)練;2.實(shí)驗(yàn)結(jié)果難以復(fù)現(xiàn)。這兩個(gè)障礙也是神經(jīng)網(wǎng)絡(luò)在歷史上幾起幾落的重要因素,在2012年以前,神經(jīng)網(wǎng)絡(luò)的深度是有欠缺的。
2012年Hinton和他的學(xué)生AlexKrizhevsky 做出了有8層的 AlexNet。兩年之后,19層的VGG網(wǎng)絡(luò)和22層的GoogleNet出現(xiàn),從此科學(xué)家開始攻堅(jiān)“深度”。2015年孫劍領(lǐng)導(dǎo)微軟團(tuán)隊(duì)第一次做出了超過100層的RestNet。
網(wǎng)絡(luò)越深,能力越強(qiáng),如上圖所示,2015年,152層的RestNet在ImageNet圖像分類任務(wù)中,誤差精度超越人類。為什么是152層?
孫劍提到當(dāng)時(shí)內(nèi)存約束導(dǎo)致最多可以訓(xùn)練一個(gè)152層的網(wǎng)絡(luò),另外,根據(jù)Jeffy Feldman的“100步極限”理論,100多層似乎是最優(yōu)數(shù)目。(100步極限理論:大腦高級(jí)決策時(shí)間在0.5秒、大腦皮層神經(jīng)元的電脈沖間隔5ms、大腦計(jì)算不會(huì)超過100個(gè)連續(xù)步驟)ResNet的設(shè)計(jì)思想在于殘差學(xué)習(xí)的方式,即根據(jù)輸入將層表示為學(xué)習(xí)殘差函數(shù)。
實(shí)驗(yàn)表明,殘差網(wǎng)絡(luò)更容易優(yōu)化,并且能夠通過增加相當(dāng)?shù)纳疃葋硖岣邷?zhǔn)確率。ResNet解決了增加深度帶來的副作用(退化問題),這樣能夠通過單純地增加網(wǎng)絡(luò)深度,來提高網(wǎng)絡(luò)性能。在2018年ResNet也被用在了AlphaGo Zero訓(xùn)練,目的在于把棋盤看成圖像,預(yù)測落子步驟。
神經(jīng)網(wǎng)絡(luò)的寬度和表示能力強(qiáng)相關(guān),統(tǒng)一逼近定理就是這個(gè)理論研究方向(統(tǒng)一逼近定理:一個(gè)足夠大的兩層神經(jīng)網(wǎng)絡(luò)可以逼近任意有界連續(xù)函數(shù))。但是這個(gè)定理只告訴了能夠逼近,但是沒有說明怎樣逼近。
最近的一些研究把傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)進(jìn)行了對(duì)比,傳統(tǒng)機(jī)器學(xué)習(xí)當(dāng)參數(shù)大到一定程度就會(huì)從欠擬合走向過擬合。但是用深度學(xué)習(xí)方法,如果過參數(shù)化,往往會(huì)有較低的訓(xùn)練錯(cuò)誤和測試錯(cuò)誤,也就是說模型實(shí)現(xiàn)了較高的泛化能力。
但是,如果網(wǎng)絡(luò)太寬會(huì)影響實(shí)用效果,一些研究就想著怎么進(jìn)行通道裁剪。例如元裁剪方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)來裁剪網(wǎng)絡(luò)、最小二乘實(shí)現(xiàn)權(quán)重重建、LASSO回歸實(shí)現(xiàn)通道裁剪等等。最后,網(wǎng)絡(luò)的大小,也就是特征圖的大小也是有研究方向。研究發(fā)現(xiàn)如果動(dòng)態(tài)改變特征數(shù)大小,會(huì)產(chǎn)生非常有趣或者更好的一些效果,例如可以模擬數(shù)據(jù)增強(qiáng)效果或者說能夠搜索到更好的網(wǎng)絡(luò)構(gòu)架。
上面四個(gè)因素,深度、卷積、寬度、大小分別是單維度研究。目前神經(jīng)網(wǎng)絡(luò)構(gòu)架搜索研究方向,正在試著將這幾個(gè)維度同時(shí)聯(lián)合優(yōu)化。
其核心是完成兩個(gè)迭代的過程:構(gòu)架搜索和權(quán)重訓(xùn)練。在報(bào)告中,孫劍介紹到,他的團(tuán)隊(duì)目前正在做一個(gè)叫做超網(wǎng)絡(luò)的方法:第一步訓(xùn)練超網(wǎng)絡(luò),第二步搜索子網(wǎng)絡(luò)直接繼承網(wǎng)絡(luò)的權(quán)重,如此便能快速找到更好的子網(wǎng)絡(luò)。
計(jì)算機(jī)視覺始于60年代,Larry Robert最早涉及,他的博士論文就是計(jì)算機(jī)視覺領(lǐng)域的第一篇,當(dāng)時(shí)研究的核心內(nèi)容是如何用計(jì)算機(jī)分清一張圖物體和背景。
近幾年的發(fā)展也非常迅速,從計(jì)算機(jī)視覺學(xué)術(shù)年會(huì)CPVR來看,其論文提交數(shù)目不斷遞增,2019年已經(jīng)超過了5000篇論文。這也表示了計(jì)算機(jī)視覺方向的火熱。
計(jì)算機(jī)視覺核心問題大概有四個(gè),分別是:分類、檢測、分割、序列。其中分類問題最著名的當(dāng)屬ImageNet,自2010年以來,每年度ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ILSVRC),研究團(tuán)隊(duì)在給定的數(shù)據(jù)集上評(píng)估其算法,并在幾項(xiàng)視覺識(shí)別任務(wù)中爭奪更高的準(zhǔn)確性?;谟?jì)算機(jī)視覺-分類,也誕生了許多應(yīng)用,例如人臉識(shí)別、機(jī)器人、醫(yī)療影像等等。
圖注:基本的檢測框架:1.輸入圖像;2.通過骨干網(wǎng)絡(luò)得到候選框;3.候選框得出局部區(qū)域;4.通過檢測頭;5、得到結(jié)果。
如果說分類問題涉及一張圖片里面大概包含什么,那么檢測問題不光知道包含什么,還要知道這個(gè)物體在哪里。傳統(tǒng)方法也能做檢測,但是2013年,在伯克利做博士后的Ross Girshick基于深度學(xué)習(xí)發(fā)明了R-CNN網(wǎng)絡(luò)效果吊打傳統(tǒng)模型,至此之后,檢測問題向深度學(xué)習(xí)找方向。
R-CNN的核心思想是:用傳統(tǒng)方法從圖像中抽取候選區(qū)域,然后將候選區(qū)域裁成一個(gè)一個(gè)的方框,隨后將方框饋送到網(wǎng)絡(luò)中進(jìn)行分類。
但是這種裁剪方法可能需要在圖像中裁剪1000~2000個(gè)方框,會(huì)對(duì)計(jì)算量有非常多的要求。 于是2014年,SPP-Net出現(xiàn),直接從特征圖裁剪,區(qū)別于R-CNN在圖像中裁剪,極大節(jié)約了計(jì)算量。2015年 Faster R-CNN出現(xiàn),打破了傳統(tǒng)的候選框計(jì)算方式,直接設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)抽取候選框。
這也意味著第一次物體檢測問題能夠全部用深度學(xué)習(xí)方法實(shí)現(xiàn)。隨后,2017年ICCV的最佳論文提出Mask R-CNN 進(jìn)一步擴(kuò)展深度學(xué)習(xí)方法,不但能夠輸出框,還能夠輸出物體的形狀。后來的RetinaNet和YOLO V3方法更加高效,一步就能夠得到結(jié)果;Dense Box和FCOS能將整個(gè)方式更加簡化。
然后,孫劍介紹了介紹了一個(gè)名為MegDet的物體檢測器,表示它第一次從框架上支持超大mini-Batch訓(xùn)練,多機(jī)訓(xùn)練可以加速16倍,并且精度更高。
還介紹了 objects365 V2 數(shù)據(jù)庫,其包含365種常見物體,2百萬張圖像,2.8千萬個(gè)人工標(biāo)注框。
除此之外,孫劍提到物體檢測中的遮擋問題是計(jì)算機(jī)視覺中非常前沿的研究,如果一張照片中有兩個(gè)人,一個(gè)人被另一個(gè)人部分遮擋,雖然人類的眼睛非常容易分辨出,但是因?yàn)榘评?,所以?duì)于計(jì)算機(jī)來說是個(gè)非常困難的問題。區(qū)別于單預(yù)測方法,去年他們的“一個(gè)候選框多個(gè)預(yù)測結(jié)果”的方法已經(jīng)在嘗試解決遮擋問題了。
在計(jì)算機(jī)視覺中雖然已經(jīng)取得了非常多的進(jìn)步,但是還有一些關(guān)鍵問題沒有解決,例如長尾分布就是機(jī)器學(xué)習(xí)中的核心難題,也即對(duì)于不經(jīng)常發(fā)生或者不易常見的數(shù)據(jù)很難有充足的訓(xùn)練樣板,以至于機(jī)器學(xué)習(xí)方法就很難訓(xùn)練好模型。
如何不通過大量有監(jiān)督的訓(xùn)練標(biāo)注方法就能達(dá)到很好的學(xué)習(xí)效果(自監(jiān)督)?如何把一個(gè)視頻序列中的同一個(gè)物體很好的關(guān)聯(lián)起來?顯然,今天深度學(xué)習(xí)的方法并不能很好的測試和解決這些問題。
(雷鋒網(wǎng))、(雷鋒網(wǎng))、(雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。