0
5月8日上午,曠視首席科學家、西交大人工智能學院院長孫劍博士在線做了一場“視覺計算的前沿進展”的報告,報告是由「信息技術新工科產(chǎn)學研聯(lián)盟」主辦的人工智能教育線上公開課。
孫劍博士在報告中將當前使用卷積神經(jīng)網(wǎng)絡的計算機視覺分兩個方面進行了探究:
1、卷積神經(jīng)網(wǎng)絡,核心可以歸納為:網(wǎng)絡的深度、網(wǎng)絡的卷積操作、網(wǎng)絡的寬度和網(wǎng)絡的大小。
2、計算機視覺,核心問題可以歸納為:分類、檢測、分割以及序列。
孫劍表示,針對這些問題,研究員們已經(jīng)做出了非常多的努力,也有了非常多的進步,但是長尾分布、自監(jiān)督學習、遮擋等計算機視覺中的關鍵問題還沒有解決。下面我們對孫劍博士報告的部分內容作以介紹。
計算機視覺包含很多任務,其中一條主線是如何理解一張圖片,也就是圖像的表示問題。從1978年的 2.5D Sketch一直到中間的點特征、局部特征再到今天的深度卷積神經(jīng)網(wǎng)絡,圖像表示問題已經(jīng)有了幾十年的研究。
當前最主流的方法是深度卷積神經(jīng)網(wǎng)絡,即輸入一張圖片,經(jīng)過中間函數(shù)的作用,輸出一個類別。但卷積神經(jīng)網(wǎng)絡到底學到了什么呢?孫劍提到,學到的東西可以分為低級表示和高級表示兩個維度,低級表示例如線段、邊緣、紋理等,高級特征例如如狗、耳朵等。
卷積神經(jīng)網(wǎng)絡開始的思想很早之前就已經(jīng)存在,早在80年代,日本科學家提出神經(jīng)認知機的概念,可以算作是卷積網(wǎng)絡最初的實現(xiàn)原型。90年代Yann LeCun 把這種方法發(fā)揚光大,從而學界開始卷積神經(jīng)網(wǎng)絡的研究。
卷積神經(jīng)網(wǎng)絡的核心問題可以歸納為上面幾個:大小、卷積、深度、寬度。其中卷積最核心,作為一種算子,其具有空間不變性、權重共享等特點,一般3*3的卷積最為常見。一個3*3的卷積如果再加上通道數(shù)的卷積計算,就能提取特征信息。后來出現(xiàn)的1*1的卷積也非常有效,其能夠有效的降低計算復雜度,融合它的通道信息。
隨后,卷積使用產(chǎn)生了分組思想,即把整體的通道分成不同的組從而完成計算,在降低復雜度的同時,也更加高效。
在往下發(fā)展,Depthwise概念出現(xiàn),這個概念假設卷積中的特征為3D立方體,第一步先對每一層進行獨立卷積,第二步是把上一步的卷積結果用一個點卷積進行綜合。
在報告中,孫劍提到,在2018年的時候,其研究團隊提出的ShuffleNetV1就結合了分組和點卷積的思想,這個網(wǎng)絡第二步采用Shuffle操作,從而保證種通道信息可以交換,隨后的ShuffleNet v2改善了V1的第一步,強調通道切分和局部卷積,也讓模型更加高效。
最新的卷積設計思想是動態(tài)卷積計算,區(qū)別于每一層卷積根據(jù)前面的輸入不變的思想,能夠根據(jù)輸入不同動態(tài)生成卷積參數(shù)。例如曠視的動態(tài) Channel-wise Mixture 就采用了此思想,增強了模型的擬合能力。
卷積神經(jīng)網(wǎng)絡第二個核心是“深度”,其有兩個障礙:1.深度神經(jīng)網(wǎng)絡如果過深則無法訓練;2.實驗結果難以復現(xiàn)。這兩個障礙也是神經(jīng)網(wǎng)絡在歷史上幾起幾落的重要因素,在2012年以前,神經(jīng)網(wǎng)絡的深度是有欠缺的。
2012年Hinton和他的學生AlexKrizhevsky 做出了有8層的 AlexNet。兩年之后,19層的VGG網(wǎng)絡和22層的GoogleNet出現(xiàn),從此科學家開始攻堅“深度”。2015年孫劍領導微軟團隊第一次做出了超過100層的RestNet。
網(wǎng)絡越深,能力越強,如上圖所示,2015年,152層的RestNet在ImageNet圖像分類任務中,誤差精度超越人類。為什么是152層?
孫劍提到當時內存約束導致最多可以訓練一個152層的網(wǎng)絡,另外,根據(jù)Jeffy Feldman的“100步極限”理論,100多層似乎是最優(yōu)數(shù)目。(100步極限理論:大腦高級決策時間在0.5秒、大腦皮層神經(jīng)元的電脈沖間隔5ms、大腦計算不會超過100個連續(xù)步驟)ResNet的設計思想在于殘差學習的方式,即根據(jù)輸入將層表示為學習殘差函數(shù)。
實驗表明,殘差網(wǎng)絡更容易優(yōu)化,并且能夠通過增加相當?shù)纳疃葋硖岣邷蚀_率。ResNet解決了增加深度帶來的副作用(退化問題),這樣能夠通過單純地增加網(wǎng)絡深度,來提高網(wǎng)絡性能。在2018年ResNet也被用在了AlphaGo Zero訓練,目的在于把棋盤看成圖像,預測落子步驟。
神經(jīng)網(wǎng)絡的寬度和表示能力強相關,統(tǒng)一逼近定理就是這個理論研究方向(統(tǒng)一逼近定理:一個足夠大的兩層神經(jīng)網(wǎng)絡可以逼近任意有界連續(xù)函數(shù))。但是這個定理只告訴了能夠逼近,但是沒有說明怎樣逼近。
最近的一些研究把傳統(tǒng)機器學習和深度學習進行了對比,傳統(tǒng)機器學習當參數(shù)大到一定程度就會從欠擬合走向過擬合。但是用深度學習方法,如果過參數(shù)化,往往會有較低的訓練錯誤和測試錯誤,也就是說模型實現(xiàn)了較高的泛化能力。
但是,如果網(wǎng)絡太寬會影響實用效果,一些研究就想著怎么進行通道裁剪。例如元裁剪方法訓練神經(jīng)網(wǎng)絡來裁剪網(wǎng)絡、最小二乘實現(xiàn)權重重建、LASSO回歸實現(xiàn)通道裁剪等等。最后,網(wǎng)絡的大小,也就是特征圖的大小也是有研究方向。研究發(fā)現(xiàn)如果動態(tài)改變特征數(shù)大小,會產(chǎn)生非常有趣或者更好的一些效果,例如可以模擬數(shù)據(jù)增強效果或者說能夠搜索到更好的網(wǎng)絡構架。
上面四個因素,深度、卷積、寬度、大小分別是單維度研究。目前神經(jīng)網(wǎng)絡構架搜索研究方向,正在試著將這幾個維度同時聯(lián)合優(yōu)化。
其核心是完成兩個迭代的過程:構架搜索和權重訓練。在報告中,孫劍介紹到,他的團隊目前正在做一個叫做超網(wǎng)絡的方法:第一步訓練超網(wǎng)絡,第二步搜索子網(wǎng)絡直接繼承網(wǎng)絡的權重,如此便能快速找到更好的子網(wǎng)絡。
計算機視覺始于60年代,Larry Robert最早涉及,他的博士論文就是計算機視覺領域的第一篇,當時研究的核心內容是如何用計算機分清一張圖物體和背景。
近幾年的發(fā)展也非常迅速,從計算機視覺學術年會CPVR來看,其論文提交數(shù)目不斷遞增,2019年已經(jīng)超過了5000篇論文。這也表示了計算機視覺方向的火熱。
計算機視覺核心問題大概有四個,分別是:分類、檢測、分割、序列。其中分類問題最著名的當屬ImageNet,自2010年以來,每年度ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC),研究團隊在給定的數(shù)據(jù)集上評估其算法,并在幾項視覺識別任務中爭奪更高的準確性?;谟嬎銠C視覺-分類,也誕生了許多應用,例如人臉識別、機器人、醫(yī)療影像等等。
圖注:基本的檢測框架:1.輸入圖像;2.通過骨干網(wǎng)絡得到候選框;3.候選框得出局部區(qū)域;4.通過檢測頭;5、得到結果。
如果說分類問題涉及一張圖片里面大概包含什么,那么檢測問題不光知道包含什么,還要知道這個物體在哪里。傳統(tǒng)方法也能做檢測,但是2013年,在伯克利做博士后的Ross Girshick基于深度學習發(fā)明了R-CNN網(wǎng)絡效果吊打傳統(tǒng)模型,至此之后,檢測問題向深度學習找方向。
R-CNN的核心思想是:用傳統(tǒng)方法從圖像中抽取候選區(qū)域,然后將候選區(qū)域裁成一個一個的方框,隨后將方框饋送到網(wǎng)絡中進行分類。
但是這種裁剪方法可能需要在圖像中裁剪1000~2000個方框,會對計算量有非常多的要求。 于是2014年,SPP-Net出現(xiàn),直接從特征圖裁剪,區(qū)別于R-CNN在圖像中裁剪,極大節(jié)約了計算量。2015年 Faster R-CNN出現(xiàn),打破了傳統(tǒng)的候選框計算方式,直接設計神經(jīng)網(wǎng)絡抽取候選框。
這也意味著第一次物體檢測問題能夠全部用深度學習方法實現(xiàn)。隨后,2017年ICCV的最佳論文提出Mask R-CNN 進一步擴展深度學習方法,不但能夠輸出框,還能夠輸出物體的形狀。后來的RetinaNet和YOLO V3方法更加高效,一步就能夠得到結果;Dense Box和FCOS能將整個方式更加簡化。
然后,孫劍介紹了介紹了一個名為MegDet的物體檢測器,表示它第一次從框架上支持超大mini-Batch訓練,多機訓練可以加速16倍,并且精度更高。
還介紹了 objects365 V2 數(shù)據(jù)庫,其包含365種常見物體,2百萬張圖像,2.8千萬個人工標注框。
除此之外,孫劍提到物體檢測中的遮擋問題是計算機視覺中非常前沿的研究,如果一張照片中有兩個人,一個人被另一個人部分遮擋,雖然人類的眼睛非常容易分辨出,但是因為包含推理,所以對于計算機來說是個非常困難的問題。區(qū)別于單預測方法,去年他們的“一個候選框多個預測結果”的方法已經(jīng)在嘗試解決遮擋問題了。
在計算機視覺中雖然已經(jīng)取得了非常多的進步,但是還有一些關鍵問題沒有解決,例如長尾分布就是機器學習中的核心難題,也即對于不經(jīng)常發(fā)生或者不易常見的數(shù)據(jù)很難有充足的訓練樣板,以至于機器學習方法就很難訓練好模型。
如何不通過大量有監(jiān)督的訓練標注方法就能達到很好的學習效果(自監(jiān)督)?如何把一個視頻序列中的同一個物體很好的關聯(lián)起來?顯然,今天深度學習的方法并不能很好的測試和解決這些問題。
(雷鋒網(wǎng))、(雷鋒網(wǎng))、(雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。