丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給叢末
發(fā)送

0

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

本文作者: 叢末 2019-08-06 18:19
導(dǎo)語:包括圖像、視頻、3-D點(diǎn)云以及深度圖等。

本文首發(fā)于知乎,作者為奇點(diǎn)汽車美研中心總裁兼自動(dòng)駕駛首席科學(xué)家黃浴,AI 科技評(píng)論經(jīng)授權(quán)轉(zhuǎn)載。

還是做一些背景介紹。已經(jīng)是很熱的深度學(xué)習(xí),大家都看到不少精彩的故事,我就不一一重復(fù)。

簡(jiǎn)單的回顧的話,2006年Geoffrey Hinton的論文點(diǎn)燃了“這把火”,現(xiàn)在已經(jīng)有不少人開始潑“冷水”了,主要是AI泡沫太大,而且深度學(xué)習(xí)不是包治百病的藥方。

計(jì)算機(jī)視覺不是深度學(xué)習(xí)最早看到突破的領(lǐng)域,真正讓大家大吃一驚的顛覆傳統(tǒng)方法的應(yīng)用領(lǐng)域是語音識(shí)別,做出來的公司是微軟,而不是當(dāng)時(shí)如日中天的谷歌。計(jì)算機(jī)視覺應(yīng)用深度學(xué)習(xí)堪稱突破的成功點(diǎn)是2012年ImageNet比賽,采用的模型是CNN,而不是Hinton搞的RBM和DBN之類,就是Hinton學(xué)生做出來以他命名的AlexNet。

(注:順便提一下,2010年的ImageNet冠軍是余凱/林元慶領(lǐng)導(dǎo)的NEC和UIUC Tom Huang組的合作團(tuán)隊(duì),當(dāng)時(shí)采用的方法是基于sparse coding+SVM。)

當(dāng)然,真正一直在研究CNN的專家是Yann LeCun,小扎后來拉他去FB做AI research的頭。第一個(gè)CNN模型就是他搞出來的,即LeNet,原來就是做圖像數(shù)字識(shí)別。不得不說,CNN非常適合2-D信號(hào)的處理任務(wù),RNN呢,是時(shí)域上的拓展。

現(xiàn)在CNN在計(jì)算機(jī)視覺應(yīng)用的非常成功,傳統(tǒng)機(jī)器學(xué)習(xí)方法基本被棄之不用。其中最大的一個(gè)原因就是,圖像數(shù)據(jù)的特征設(shè)計(jì),即特征描述,一直是計(jì)算機(jī)視覺頭痛的問題,在深度學(xué)習(xí)突破之前10多年,最成功的圖像特征設(shè)計(jì) (hand crafted feature)是SIFT,還有著名的Bag of visual words,一種VQ方法。后來大家把CNN模型和SIFT比較,發(fā)現(xiàn)結(jié)構(gòu)還蠻像的:),之后不是也有文章說RNN和CRF很像嗎。

CNN從AlexNet之后,新模型如雨后春筍,每半年就有新發(fā)現(xiàn)。這里隨便列出來就是,ZFNet (也叫MatNet),VGGNet, NIN, GoogleNet (Inception), Highway Network, ResNet, DenseNet,SE-Net(Squeeze and Excitation Net),。。?;旧隙际窃贗mageNet先出名的:)。

簡(jiǎn)單回顧一下:

  • AlexNet應(yīng)該算第一個(gè)深度CNN;

  • ZFNet采用DeconvNet和visualization技術(shù)可以監(jiān)控學(xué)習(xí)過程;

  • VGGNet采用小濾波器3X3去取代大濾波器5X5和7X7而降低計(jì)算復(fù)雜度;

  • GoogleNet推廣NIN的思路定義Inception基本模塊(采用多尺度變換和不同大小濾波器組合,即1X1,3X3,5X5)構(gòu)建模型;

  • Highway Networks借鑒了RNN里面LSTM的gaiting單元;

  • ResNet是革命性的工作,借鑒了Highway Networks的skip connection想法,可以訓(xùn)練大深度的模型提升性能,計(jì)算復(fù)雜度變??;

  • Inception-V3/4用1X7和1X5取代大濾波器5X5和7X7,1X1濾波器做之前的特征瓶頸,這樣卷積操作變成像跨通道(cross channel)的相關(guān)操作;

  • DenseNet主要通過跨層鏈接解決vanishing gradient問題;

  • SE-Net是針對(duì)特征選擇的設(shè)計(jì),gating機(jī)制還是被采用;

  • 前段時(shí)間流行的Attention機(jī)制也是借鑒于LSTM,實(shí)現(xiàn)object-aware的context模型。

在具體應(yīng)用領(lǐng)域也出現(xiàn)了不少成功的模型,比如

  • detection問題的R-CNN,fast RCNN,faster RCNN,SSD,YOLO,RetinaNet,CornerNet等,

  • 解決segmentation問題的FCN,DeepLab,Parsenet,Segnet,Mask R-CNN,RefineNet,PSPNet,U-Net等,

  • 處理激光雷達(dá)點(diǎn)云數(shù)據(jù)的VoxelNet,PointNet,BirdNet,LMNet,RT3D,PIXOR,YOLO3D等,

  • 實(shí)現(xiàn)激光雷達(dá)和圖像融合的PointFusion,RoarNet,PointRCNN,AVOD等,

  • 做圖像處理的DeHazeNet,SRCNN (super-resolution),DeepContour,DeepEdge等,

  • 2.5 D視覺的MatchNet,DeepFlow,F(xiàn)lowNet等,

  • 3-D重建的PoseNet,VINet,Perspective Transformer Net,SfMNet,CNN-SLAM,SurfaceNet,3D-R2N2,MVSNet等,

  • 以及解決模型壓縮精簡(jiǎn)的MobileNet,ShuffleNet,EffNet,SqueezeNet,

  • 等等

下面我們針對(duì)具體應(yīng)用再仔細(xì)聊。

圖像/視頻處理

先說圖像/視頻處理(計(jì)算機(jī)視覺的底層,不低級(jí))。

圖像處理,還有視頻處理,曾經(jīng)是很多工業(yè)產(chǎn)品的基礎(chǔ),現(xiàn)在電視,手機(jī)還有相機(jī)/攝像頭等等都離不開,是技術(shù)慢慢成熟了(傳統(tǒng)方法),經(jīng)驗(yàn)變得比較重要,而且芯片集成度越來越高,基本上再去研究的人就少了。經(jīng)典的ISP,A3,都是現(xiàn)成的,當(dāng)然做不好的也很難和別人競(jìng)爭(zhēng),成本都降不下來。

這是一個(gè)典型成像處理的流程圖:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

經(jīng)典的ISP流程圖如下:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

圖像處理,根本上講是基于一定假設(shè)條件下的信號(hào)重建。這個(gè)重建不是我們說的3-D重建,是指恢復(fù)信號(hào)的原始信息,比如去噪聲,內(nèi)插。這本身是一個(gè)逆問題,所以沒有約束或者假設(shè)條件是無解的,比如去噪最常見的假設(shè)就是高斯噪聲,內(nèi)插實(shí)際是恢復(fù)高頻信號(hào),可以假設(shè)邊緣連續(xù)性和灰度相關(guān)性,著名的TV(total variation)等等。

以前最成功的方法基本是信號(hào)處理,機(jī)器學(xué)習(xí)也有過,信號(hào)處理的約束條件變成了貝葉斯規(guī)則的先驗(yàn)知識(shí),比如sparse coding/dictionary learning,MRF/CRF之類,現(xiàn)在從傳統(tǒng)機(jī)器學(xué)習(xí)方法過渡到深度學(xué)習(xí)也正常吧。

1 去噪/去霧/去模糊/去鬼影;

先給出一個(gè)encoder-decoder network的AR-CNN模型(AR=Artifact Reduction):

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

這是一個(gè)圖像處理通用型的模型框架:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用


2 增強(qiáng)/超分辨率(SR);

Bilateral filter是很有名的圖像濾波器,這里先給出一個(gè)受此啟發(fā)的CNN模型做圖像增強(qiáng)的例子:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

前面說過內(nèi)插的目的是恢復(fù)失去的高頻信息,這里一個(gè)做SR的模型就是在學(xué)習(xí)圖像的高頻分量:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

3 修補(bǔ)/恢復(fù)/著色;

用于修補(bǔ)的基于GAN思想的Encoder-Decoder Network模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

用于灰度圖像著色(8比特的灰度空間擴(kuò)展到24比特的RGB空間)的模型框架:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用


計(jì)算機(jī)視覺的預(yù)處理(2-D)

還有計(jì)算機(jī)視覺的預(yù)處理(2-D)。

計(jì)算機(jī)視覺需要圖像預(yù)處理,比如特征提取,包括特征點(diǎn),邊緣和輪廓之類。以前做跟蹤和三維重建,首先就得提取特征。特征點(diǎn)以前成功的就是SIFT/SURF/FAST之類,現(xiàn)在完全可以通過CNN形成的特征圖來定義。

邊緣和輪廓的提取是一個(gè)非常tricky的工作,細(xì)節(jié)也許就會(huì)被過強(qiáng)的圖像線條掩蓋,紋理(texture)本身就是一種很弱的邊緣分布模式,分級(jí)(hierarchical)表示是常用的方法,俗稱尺度空間(scale space)。以前做移動(dòng)端的視覺平臺(tái),有時(shí)候不得不把一些圖像處理功能關(guān)掉,原因是造成了特征畸變?,F(xiàn)在CNN這種天然的特征描述機(jī)制,給圖像預(yù)處理提供了不錯(cuò)的工具,它能將圖像處理和視覺預(yù)處理合二為一。

1 特征提??;

LIFT(Learned Invariant Feature Transform)模型,就是在模仿SIFT:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

2 邊緣/輪廓提??;

一個(gè)輪廓檢測(cè)的encoder-decoder network模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

3 特征匹配;

這里給出一個(gè)做匹配的模型MatchNet:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用


2.5-D 計(jì)算機(jī)視覺部分(不是全3-D)

再說2.5-D計(jì)算機(jī)視覺部分(不是全3-D)。

涉及到視差或者2-D運(yùn)動(dòng)的部分一般稱為2.5-D空間。這個(gè)部分和前面的2-D問題是一樣的,作為重建任務(wù)它也是逆問題,需要約束條件求解優(yōu)化解,比如TV,GraphCut。一段時(shí)間(特別是Marr時(shí)代)計(jì)算機(jī)視覺的工作,就是解決約束條件下的優(yōu)化問題。

后來,隨機(jī)概率和貝葉斯估計(jì)大行其事,約束條件變成了先驗(yàn)知識(shí)(prior),計(jì)算機(jī)視覺圈里寫文章要是沒有 P (Probability) 和 B (Bayes),都不好意思發(fā)。像SVM, Boosting,Graphical Model,Random Forest,BP(Belief Propagation),CRF(Conditional Random Field),Mixture of Gaussians,MCMC,Sparse Coding都曾經(jīng)是計(jì)算機(jī)視覺的寵兒,現(xiàn)在輪到CNN出彩:)。

可以說深度學(xué)習(xí)是相當(dāng)“暴力”的,以前分析的什么約束呀,先驗(yàn)知識(shí)呀在這里統(tǒng)統(tǒng)扔一邊,只要有圖像數(shù)據(jù)就可以和傳統(tǒng)機(jī)器學(xué)習(xí)方法拼一把。

1 運(yùn)動(dòng)/光流估計(jì);

傳統(tǒng)的方法包括局部法和全局法,這里CNN取代的就是全局法。

這里是一個(gè)光流估計(jì)的模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

2 視差/深度圖估計(jì);

深度圖估計(jì)和運(yùn)動(dòng)估計(jì)是類似問題,唯一不同的是單目可以估計(jì)深度圖,而運(yùn)動(dòng)不行。

這里是一個(gè)雙目估計(jì)深度圖的模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用


而這個(gè)是單目估計(jì)深度圖的模型:巧妙的是這里利用雙目數(shù)據(jù)做深度圖估計(jì)的非監(jiān)督學(xué)習(xí)

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

另外一個(gè)單目深度估計(jì)的模型:也是利用雙目的幾何約束做非監(jiān)督的學(xué)習(xí)

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

3 視頻去隔行/內(nèi)插幀;

Deinterlacing和Framerate upconversion視頻處理的經(jīng)典問題,當(dāng)年Sony和Samsung這些電視生產(chǎn)商這方面下了很大功夫,著名的NXP(從Philips公司spin-off)當(dāng)年有個(gè)牛逼的算法在這個(gè)模塊掙了不少錢。

基本傳統(tǒng)方法都是采用運(yùn)動(dòng)估計(jì)和補(bǔ)償?shù)姆椒?,俗稱MEMC,所以我把它歸類為2.5-D。前面運(yùn)動(dòng)估計(jì)已經(jīng)用深度學(xué)習(xí)求解了,現(xiàn)在這兩個(gè)問題自然也是。

首先看一個(gè)做MEMC的模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

這是做Deinterlacing的一個(gè)模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

這是Nvidia的Framerate Upconversion方面模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

因?yàn)樗捎胦ptic flow方法做插幀,另外附上它的flow estimation模型:就是一個(gè)沙漏(hourglass)模式

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

4 新視角圖像生成;

剛才介紹單目估計(jì)深度圖的時(shí)候,其實(shí)已經(jīng)看到采用inverse warping方法做新視角生成的例子,在IBR領(lǐng)域這里有一個(gè)分支叫Depth Image-based Rendering (DIBR)。

和上個(gè)問題類似,采用深度圖學(xué)習(xí)做合成圖像,也屬于2.5-D空間。在電視領(lǐng)域,曾經(jīng)在3-D電視界采用這種方法自動(dòng)從單鏡頭視頻生成立體鏡頭節(jié)目。以前也用過機(jī)器學(xué)習(xí),YouTube當(dāng)年采用image search方法做深度圖預(yù)測(cè)提供2D-3D的內(nèi)容服務(wù),但性能不好?,F(xiàn)在感覺,大家好像不太熱衷這個(gè)了。

這是一個(gè)產(chǎn)生新視角的模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

而這個(gè)是從單鏡頭視頻生成立體視頻的模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

有做編碼/解碼的,也是采用運(yùn)動(dòng)或者相似變換為基礎(chǔ),但性能不如傳統(tǒng)方法,這里忽略。

下面談?wù)?-D,基于多視角(MVS)/運(yùn)動(dòng)(SFM)的重建,后者也叫SLAM。

3-D、基于多視角(MVS)/運(yùn)動(dòng)(SFM)的重建

這部分就是經(jīng)典的計(jì)算機(jī)視覺問題:3-D重建。

基本上可以分成兩種路徑:一是多視角重建,二是運(yùn)動(dòng)重建。前一個(gè)有一個(gè)經(jīng)典的方法MVS(multiple view stereo),就是多幀匹配,是雙目匹配的推廣,這樣采用CNN來解決也合理。當(dāng)年CMU在Superbowl展示的三維重建和視角轉(zhuǎn)化,轟動(dòng)一時(shí),就是基于此路徑,但最終沒有被產(chǎn)品化(技術(shù)已經(jīng)轉(zhuǎn)讓了)。

后一個(gè)在機(jī)器人領(lǐng)域成為SLAM,有濾波法和關(guān)鍵幀法兩種,后者精度高,在稀疏特征點(diǎn)的基礎(chǔ)上可以采用BA(Bundle Adjustment),著名的方法如PTAM,ORB-SLAM1/2,LSD-SLAM,KinectFusion(RGB-D),LOAM和Velodyne SLAM(LiDAR)等。如今SLAM已經(jīng)成為AR產(chǎn)業(yè)的瓶頸,看看MagicLeap和HoloLens,大家不能總是在平面檢測(cè)基礎(chǔ)上安一個(gè)虛擬物體吧,真正的虛實(shí)結(jié)合是在一個(gè)普通的真實(shí)環(huán)境里才行。

想想像特征點(diǎn)匹配,幀間運(yùn)動(dòng)估計(jì),Loop Closure檢測(cè)這些模塊都可以采用CNN模型解決,那么SLAM/SFM/VO就進(jìn)入CNN的探索區(qū)域。

1 標(biāo)定;

Calibration是計(jì)算機(jī)視覺的經(jīng)典問題,攝像頭作為傳感器的視覺系統(tǒng)首要任務(wù)就是要確定自己觀測(cè)數(shù)據(jù)和3-D世界坐標(biāo)系的關(guān)系,即標(biāo)定。攝像頭標(biāo)定要確定兩部分參數(shù),一是內(nèi)參數(shù),二是外參數(shù)。對(duì)于有多個(gè)傳感器的視覺系統(tǒng),比如深度測(cè)距儀,以前有Kinect RGB-D,現(xiàn)在有Velodyne激光雷達(dá),它們相互之間的坐標(biāo)系關(guān)系是標(biāo)定的任務(wù)。

外參數(shù)標(biāo)定的完成幫助是校準(zhǔn)數(shù)據(jù),比如激光雷達(dá)的點(diǎn)云,RGB-D的深度圖,還有攝像頭的圖像像素集,它們一定存在一個(gè)最佳匹配標(biāo)準(zhǔn),這就可以通過數(shù)據(jù)訓(xùn)練NN模型來完成。而標(biāo)定參數(shù)就是NN模型回歸輸出的結(jié)果。

這里是一個(gè)激光雷達(dá)和攝像頭標(biāo)定的系統(tǒng)框圖:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

它的模型CalibNet結(jié)構(gòu)視圖:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用


2 Visual Odometry(VO);

VO屬于SLAM的一部分,只是估計(jì)自身運(yùn)動(dòng)和姿態(tài)變化吧。VO是特斯拉的前Autopilot2.0負(fù)責(zé)人David Nister創(chuàng)立的,他之前以兩幀圖像計(jì)算Essential Matrix的“5點(diǎn)算法”而出名,現(xiàn)在是Nvidia的自動(dòng)駕駛負(fù)責(zé)人,公司VP。

這里是一個(gè)和慣導(dǎo)數(shù)據(jù)結(jié)合的VIO(Visual-Inertial Odometry)NN模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

這是著名的AR創(chuàng)業(yè)公司MagicLeap提出的VO模型:兩部分組成,即特征提取和匹配(Homography)。

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

順便加一個(gè),激光雷達(dá)數(shù)據(jù)做Odometry的CNN模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

3 SLAM (Mono, Stereo, RGB-D, LiDAR)/SFM;

運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)是基于背景不動(dòng)的前提,計(jì)算機(jī)視覺的同行喜歡SFM這個(gè)術(shù)語,而機(jī)器人的peers稱之為SLAM。SLAM比較看重工程化的解決方案,SFM理論上貢獻(xiàn)大。

先看一個(gè)單攝像頭的SFM系統(tǒng)框圖:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

它的NN模型SFM-Net,包括Motion和Structure兩部分:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

再附上一個(gè)SLAM的模型CNN-SLAM:主要是加上一個(gè)單目深度圖估計(jì)的CNN模塊。

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

這是一個(gè)用CNN的基于Lidar的localization方法:不僅需要點(diǎn)云數(shù)據(jù),還輸入反射值灰度圖。

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

圖像像素運(yùn)動(dòng)是optic flow,而3-D場(chǎng)景的運(yùn)動(dòng)稱之為scene flow,如果有激光雷達(dá)的點(diǎn)云數(shù)據(jù),后者的估計(jì)可以通過ICP實(shí)現(xiàn),這里給出一個(gè)CNN模型的實(shí)現(xiàn)方法FlowNet3D,是PointNet的擴(kuò)展:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

4 MVS;

MVS的傳統(tǒng)方法可以分成兩種:region growing和depth-fusion,前者有著名的PMVS,后者有KinectFusion,CNN模型求解MVS的方法就是基于此。

先看看一個(gè)做MVS任務(wù)的基于RNN中LSTM的3D-R2N2模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

它的系統(tǒng)框圖如下:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

UIUC/Facebook合作的DeepMVS模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

這是他們的系統(tǒng)框圖:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

現(xiàn)在看到的是Berkeley分校Malik組提出的LSM(Learnt Stereo Machine )模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

下面是最近香港權(quán)龍教授組提出的MVSNet模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

計(jì)算機(jī)視覺的高層:環(huán)境理解

核心部分是計(jì)算機(jī)視覺的高層:環(huán)境理解。

這部分是深度學(xué)習(xí)在計(jì)算機(jī)視覺最先觸及,并展示強(qiáng)大實(shí)力的部分。出色的工作太多,是大家關(guān)注和追捧的,而且有不少分析和總結(jié)文章,所以這里不會(huì)重復(fù)過多,只簡(jiǎn)單回顧一下。

1 語義分割/實(shí)例分割(Semantic/Instance Segmentation);

語義分割最早成功應(yīng)用CNN的模型應(yīng)該是FCN(Fully Convolution Network),由Berkeley分校的研究人員提出。它是一種pixel2pixel的學(xué)習(xí)方法,之后各種演變模型,現(xiàn)在都可以把它們歸類于Encoder-Decoder Network。

這里是去年CVPR的一片論文在總結(jié)自動(dòng)駕駛的實(shí)時(shí)語義分割算法時(shí)給出的框圖:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

其中Encoder部分特別采用了MobileNet和ShuffleNet。

實(shí)例分割是特殊的語義分割,結(jié)合了目標(biāo)檢測(cè),可以說是帶有明確輪廓的目標(biāo)檢測(cè),其代表作就是Mask R-CNN,應(yīng)該是何凱明去FB之后的第一個(gè)杰作。

這是一個(gè)借鑒目標(biāo)檢測(cè)算法SSD的實(shí)例分割模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

而下面這個(gè)是從目標(biāo)檢測(cè)算法Faster-RCNN演變的實(shí)例分割模型MaskLab,論文發(fā)表在去年CVPR‘18:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

這是它修正Mask的方法示意圖:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

這是一個(gè)基于3-D點(diǎn)云的語義分割NN模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

2 檢測(cè)/識(shí)別(特別例子:人臉);

目標(biāo)檢測(cè)的開拓性工作應(yīng)該是Berkeley分校Malik組出來的,即兩步法的R-CNN(Region-based CNN),借用了傳統(tǒng)方法中的Region Proposal。之后不斷改進(jìn)的有fast RCNN和faster RCNN,每次都有新點(diǎn)子,真是“群星閃耀”的感覺。

一步法的工作,有名的就是SSD(Single Shot Detection)和YOLO(You Only Look Once),期間何凱明針對(duì)one-stage和two-stage方法的各自優(yōu)缺點(diǎn)引進(jìn)一個(gè)Focal Loss,構(gòu)建的新方法叫RetinaNet,而后來YOLO3基本也解決了精度低的弱點(diǎn)。

這里我畫了一個(gè)算法發(fā)展草圖(其實(shí)還有一些方法沒有包括在里面,比如densebox,deepbox,R-FCN,F(xiàn)PN等等)。

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

ImageNet本身就是一個(gè)1000多種物體識(shí)別比賽,一般公布的是top 5的結(jié)果(可見最早精度有多低(:)。CNN在ImageNet的發(fā)展史,就是它在圖像識(shí)別的一段近5年的歷史了:)。

激光雷達(dá)點(diǎn)云數(shù)據(jù)的處理,無論識(shí)別還是分割,有PointNet以及改進(jìn)的CNN模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

基于點(diǎn)云做目標(biāo)識(shí)別的例子有Apple公司研究人員發(fā)表的VoxelNet模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

將點(diǎn)云和RGB圖像結(jié)合的目標(biāo)檢測(cè)CNN模型例子如下:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

這里順便提一下人臉識(shí)別,因?yàn)槭菍?duì)人臉的個(gè)體屬性判別,所以這個(gè)課題應(yīng)該算fine grained recognition。就好像對(duì)狗或者馬這種動(dòng)物繼續(xù)判別它的品種,都是細(xì)分的。

請(qǐng)注意,人臉識(shí)別分人臉驗(yàn)證(face verification)和人臉確認(rèn)(face identification);前者是指兩個(gè)人是不是同一個(gè)人,1-to-1 mapping,而后者是確定一個(gè)人是一群人中的某個(gè),1-to-many ampping。以前經(jīng)常有報(bào)道機(jī)器的人臉識(shí)別比人強(qiáng)了,都是指前者,假如后者的話,那誰能像機(jī)器一樣識(shí)別上萬人的人臉數(shù)據(jù)庫(kù)呢?何況中國(guó)公安部的數(shù)據(jù)高達(dá)億的數(shù)量級(jí)。

一個(gè)完整的人臉識(shí)別系統(tǒng),需要完成人臉檢測(cè)和人臉校準(zhǔn)(face alignment),而后者是需要人臉關(guān)鍵點(diǎn)(facial landmarks)的檢測(cè),也是可以基于CNN模型來做。這里以FB的DeepFace模型為例吧,給出一個(gè)人臉識(shí)別的系統(tǒng)框圖:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

這是不久前剛剛提出的人臉檢測(cè)模型: Selective Refinement Network

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

而這里給出一個(gè)基于facial landmarks做校準(zhǔn)的模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

順便提一下曠世科技的Pyramid CNN模型和商湯科技的DeepID2模型(一共發(fā)布過4個(gè)DeepID版本)依次如圖:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用


3 跟蹤(特別例子:人體姿態(tài)/骨架);

目標(biāo)跟蹤是一個(gè)遞推估計(jì)問題,根據(jù)以前的圖像幀目標(biāo)的信息推算當(dāng)前目標(biāo)的位置甚至大小/姿態(tài)。有一陣子,跟蹤和檢測(cè)變得渾為一體,即所謂tracking by detection,跟蹤也可以看出一個(gè)目標(biāo)分割(前后景而言)/識(shí)別問題。

跟蹤是短時(shí)(short term)鄰域的檢測(cè),而一般的檢測(cè)是長(zhǎng)時(shí)(long term)大范圍的檢測(cè)。跟蹤的困難在于目標(biāo)的遮擋(分部分還是全部),背景復(fù)雜(相似目標(biāo)存在),快速(fast)以及突變(agile)運(yùn)動(dòng)等等。比如,跟蹤人臉,當(dāng)轉(zhuǎn)90度成側(cè)臉時(shí)就會(huì)有以上這些問題。

跟蹤方法有一個(gè)需要區(qū)分的點(diǎn),多目標(biāo)(MOT)還是單目標(biāo)(SOT)跟蹤器。單目標(biāo)不會(huì)考慮目標(biāo)之間的干擾和耦合,而多目標(biāo)跟蹤會(huì)考慮目標(biāo)的出現(xiàn),消失以及相互交互和制約,保證跟蹤各個(gè)目標(biāo)的唯一性是算法設(shè)計(jì)的前提。

跟蹤目標(biāo)是多樣的,一般是考慮剛體還是柔體,是考慮單剛體還是鉸接式(articulated),比如人體或者手指運(yùn)動(dòng),需要確定skeleton模型。跟蹤可以是基于圖像的,或者激光雷達(dá)點(diǎn)云的,前者還要考慮目標(biāo)在圖像中大小的變化,姿態(tài)的變化,難度更大。

基于以上特點(diǎn),跟蹤可以用CNN或者RNN模型求解,跟蹤目標(biāo)的描述本身就是NN模型的優(yōu)勢(shì),檢測(cè)也罷,分割或者識(shí)別也罷,都不是問題。運(yùn)動(dòng)特性的描述也可以借鑒RNN模型,不過目前看到的結(jié)果這部分不比傳統(tǒng)方法好多少。

先看一個(gè)單目標(biāo)跟蹤的CNN模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

這個(gè)展示的模型是一個(gè)基于R-CNN檢測(cè)模型擴(kuò)展的單目標(biāo)跟蹤方法:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

多目標(biāo)跟蹤模型有這么一個(gè)例子:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

下面是一個(gè)基于RNN的多目標(biāo)跟蹤模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

補(bǔ)充一個(gè)基于RGB圖像和3-D點(diǎn)云的目標(biāo)跟蹤NN模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

順便談一下人體姿態(tài)和骨架跟蹤問題。以前傳統(tǒng)方法在人體姿態(tài)估計(jì)花了很大力氣但效果不好,提出了part-based目標(biāo)模型,比如constellation model, pictorial structure, implicit shape model, deformable model等等。

最近CMU提出一個(gè)方法,基于Part Affinity Fields(PAF)來估計(jì)人體姿態(tài)和骨架,速度非??臁AF是一個(gè)非參數(shù)描述模型,用來將圖像像素和人體各肢體相關(guān)起來,看它的架構(gòu)如圖,采用的是two branch CNN結(jié)構(gòu),聯(lián)合學(xué)習(xí)各肢體的相關(guān)性和位置。

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

下面這個(gè)是其中雙部圖形匹配(Bipartie matching)算法的示意圖。

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

這種多目標(biāo)快速姿態(tài)跟蹤的實(shí)現(xiàn)對(duì)人體行為的理解是非常重要的工具。

最后講一下計(jì)算機(jī)視覺的推廣領(lǐng)域。

計(jì)算機(jī)視覺的推廣領(lǐng)域

這里我選了4個(gè)計(jì)算機(jī)視覺的應(yīng)用談?wù)勆疃葘W(xué)習(xí)對(duì)這些領(lǐng)域的推動(dòng),在CNN或者RNN“火”之前,這些應(yīng)用已經(jīng)存在,但在識(shí)別分類任務(wù)上性能有限罷了。自動(dòng)駕駛的應(yīng)用在另外文章已經(jīng)提過了,在此忽略。

1 內(nèi)容檢索;

CBIR(Content-based Image Retrieval)有兩波人搞,一波是計(jì)算機(jī)科學(xué)的,把這個(gè)問題當(dāng)數(shù)據(jù)庫(kù)看待;另一波人是電子過程的,認(rèn)為是圖像匹配問題。剛開始大家也是對(duì)這個(gè)問題的semantic gap比較頭疼,用了一些feature,比如顏色,紋理,輪廓,甚至layout,效果真不咋樣。

后來有了SIFT,用了Information Retrieval的概念Bag of Words,加上inverted Indexing,TF-IDF(term frequency–inverse document frequency),hashing之類的技術(shù)變得好多了,每年ACM MM會(huì)議上一堆的paper。深度學(xué)習(xí)進(jìn)來,主要就是扮演特征描述的角色。

這是一個(gè)CBIR采用CNN的框架:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

這個(gè)展示的是image matching用于CBIR的CNN模型:

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

2 增強(qiáng)現(xiàn)實(shí);

AR一開始就不好做,不說VR那部分的問題,主要是實(shí)時(shí)性要求高,無論識(shí)別還是運(yùn)動(dòng)/姿態(tài)估計(jì),精度都不好?,F(xiàn)在計(jì)算機(jī)硬件發(fā)展了,計(jì)算速度提高了,加上深度學(xué)習(xí)讓識(shí)別變得落地容易了,最近越來越熱,無論是姿態(tài)估計(jì)還是特征匹配(定位),都變得容易些了。希望這次能真正對(duì)社會(huì)帶來沖擊,把那些AR的夢(mèng)想都實(shí)現(xiàn)。

這個(gè)框架是Google Glass的AR應(yīng)用平臺(tái),其中幾個(gè)模塊都可以基于CNN實(shí)現(xiàn):

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

下面給出的是camera motion 的encoder-decoder network框架:三個(gè)模型串聯(lián),其中一個(gè)有迭代。

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

下面的模型展示了特征提取和描述的作用,AR中直接可以用做re-localization。

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

3 內(nèi)容加注/描述;

Captioning是計(jì)算機(jī)視覺和NLP的結(jié)合。你可以把它當(dāng)成一個(gè)“檢索”任務(wù),也可以說是一個(gè)“翻譯”工作。深度學(xué)習(xí),就是來幫助建立一個(gè)語言模型并取樣產(chǎn)生描述。

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

4 內(nèi)容問答(Q&A)。

Q&A 也是計(jì)算機(jī)視覺和NLP的結(jié)合,其實(shí)質(zhì)是在圖像描述和語言描述之間建立一個(gè)橋梁。有人說,Q&A是一個(gè)Turing Test的好問題,這里深度學(xué)習(xí)就是在幫助理解圖像的描述,問題的組成,以及它們模式之間的交互。

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

有些CNN的應(yīng)用還是需要進(jìn)一步改進(jìn)模型,性能并沒有達(dá)到滿意。不過,大家高興地看到深度學(xué)習(xí)已經(jīng)進(jìn)來了,以后隨著研究的深入性能會(huì)越來越好。

結(jié)束。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

一文全覽深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說