0
本文作者: 汪思穎 | 2017-08-11 19:12 |
雷鋒網(wǎng) AI 科技評(píng)論按:雖然CVPR 2017已經(jīng)落下帷幕,但對(duì)精彩論文的解讀還在繼續(xù)。下文是Momenta高級(jí)研究員陳亮對(duì)此次大會(huì)收錄的 PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation 一文進(jìn)行的解讀。
隨著激光雷達(dá),RGBD相機(jī)等3D傳感器在機(jī)器人,無(wú)人駕駛領(lǐng)域的廣泛應(yīng)用。針對(duì)三維點(diǎn)云數(shù)據(jù)的研究也逐漸從低層次幾何特征提取( PFH, FPFH,VFH等)向高層次語(yǔ)義理解過(guò)渡(點(diǎn)云識(shí)別,語(yǔ)義分割)。與圖像感知領(lǐng)域深度學(xué)習(xí)幾乎一統(tǒng)天下不同,針對(duì)無(wú)序點(diǎn)云數(shù)據(jù)的深度學(xué)習(xí)方法研究則進(jìn)展緩慢。分析其背后的原因,不外乎三個(gè)方面:
1.點(diǎn)云具有無(wú)序性。受采集設(shè)備以及坐標(biāo)系影響,同一個(gè)物體使用不同的設(shè)備或者位置掃描,三維點(diǎn)的排列順序千差萬(wàn)別,這樣的數(shù)據(jù)很難直接通過(guò)End2End的模型處理。
2.點(diǎn)云具有稀疏性。在機(jī)器人和自動(dòng)駕駛的場(chǎng)景中,激光雷達(dá)的采樣點(diǎn)覆蓋相對(duì)于場(chǎng)景的尺度來(lái)講,具有很強(qiáng)的稀疏性。在KITTI數(shù)據(jù)集中,如果把原始的激光雷達(dá)點(diǎn)云投影到對(duì)應(yīng)的彩色圖像上,大概只有3%的像素才有對(duì)應(yīng)的雷達(dá)點(diǎn)。這種極強(qiáng)的稀疏性讓基于點(diǎn)云的高層語(yǔ)義感知變得尤其困難。
3.點(diǎn)云信息量有限。點(diǎn)云的數(shù)據(jù)結(jié)構(gòu)就是一些三維空間的點(diǎn)坐標(biāo)構(gòu)成的點(diǎn)集,本質(zhì)是對(duì)三維世界幾何形狀的低分辨率重采樣,因此只能提供片面的幾何信息。
面對(duì)以上困難,來(lái)自斯坦福大學(xué)的學(xué)者提出了PointNet,給出了自己的的解決方案。PointNet是第一種直接處理無(wú)序點(diǎn)云數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)。一般情況下,深度神經(jīng)網(wǎng)絡(luò)要求輸入信息具有規(guī)范化的格式,比如二維的圖像,時(shí)序性的語(yǔ)音等。而原始的三維點(diǎn)云數(shù)據(jù)往往是空間中的一些無(wú)序點(diǎn)集,假設(shè)某一個(gè)點(diǎn)云中包含N個(gè)三維點(diǎn),每一個(gè)點(diǎn)用(x,y,z)三維坐標(biāo)表示,即使不考慮遮擋,視角等變化,單就這些點(diǎn)的先后順序排列組合,就有 N! 種可能。因此,我們需要設(shè)計(jì)一個(gè)函數(shù),使得函數(shù)值與輸入數(shù)據(jù)的順序無(wú)關(guān)。實(shí)際上,在代數(shù)組合學(xué)中,這類函數(shù)被稱為對(duì)稱函數(shù)。PointNet 中,作者使用了Max Pooling 層做為主要的對(duì)稱函數(shù),這種處理雖然簡(jiǎn)單,但是實(shí)驗(yàn)證明效果較好。
上圖是PointNet的網(wǎng)絡(luò)架構(gòu),輸入是包含n個(gè)點(diǎn)的三維點(diǎn)云(nx3) , 原始數(shù)據(jù)通過(guò)一個(gè)3D 空間變換矩陣預(yù)測(cè)網(wǎng)絡(luò) T-Net(3),估計(jì)出3x3的變換矩陣T(3) 并作用在原始數(shù)據(jù)上,實(shí)現(xiàn)數(shù)據(jù)的對(duì)齊。對(duì)齊后的數(shù)據(jù)會(huì)以點(diǎn)為單位,通過(guò)一個(gè)共享參數(shù)的雙層感知機(jī)模型進(jìn)行特征提取 。每個(gè)點(diǎn)提取出64維的特征,再通過(guò)特征空間變換矩陣預(yù)測(cè)網(wǎng)絡(luò) T-Net(64) 預(yù)測(cè)64x64的變換矩陣,作用到特征上,實(shí)現(xiàn)對(duì)特征的對(duì)齊。然后繼續(xù)利用三層感知機(jī)(64,128,1024)進(jìn)行以特征點(diǎn)為單位的特征提取,直到把特征的維度變?yōu)?024,繼而在特征空間的維度上進(jìn)行Max Pooling,提取出點(diǎn)云的全局特征向量。
在點(diǎn)云分類任務(wù)中,可直接利用特征向量訓(xùn)練SVM或者多層感知機(jī)來(lái)進(jìn)行分類,而在以點(diǎn)為單位的點(diǎn)云分割或者分塊任務(wù)中,需要結(jié)合每一點(diǎn)的局部特征和全局特征進(jìn)行特征融合和處理,實(shí)現(xiàn)逐點(diǎn)的分類。PointNet中把經(jīng)過(guò)特征對(duì)齊之后的64維特征看成是點(diǎn)的局部特征,把最后的1024維特征看成是點(diǎn)的全局特征,因此通過(guò)一個(gè)簡(jiǎn)單的拼接,把局部和全局的特征捆綁在一起,利用多層感知機(jī)進(jìn)行融合,最后訓(xùn)練分類器實(shí)現(xiàn)逐點(diǎn)的分類。
PointNet是第一個(gè)可以直接處理原始三維點(diǎn)云的深度神經(jīng)網(wǎng)絡(luò),這種新穎的網(wǎng)絡(luò)設(shè)計(jì)可以直接對(duì)原始點(diǎn)云進(jìn)行處理,進(jìn)而完成高層次的點(diǎn)云分類和語(yǔ)義分割的任務(wù),而且完全依賴于數(shù)據(jù)。從實(shí)驗(yàn)驗(yàn)證的結(jié)果來(lái)看,其效果和當(dāng)前最好的結(jié)果具有可比性,在一些方面甚至超過(guò)了state-of-the-art,值得進(jìn)一步挖掘和研究。
論文作者問(wèn)答:
Q:輸入的原始三維點(diǎn)云數(shù)據(jù)需要做歸一化嗎?
A:和其他網(wǎng)絡(luò)的輸入一樣,輸入點(diǎn)云數(shù)據(jù)需要做零均值的歸一化,這樣才能保證比較好的實(shí)驗(yàn)性能。
Q:深層神經(jīng)網(wǎng)絡(luò)處理三維離散點(diǎn)云的難點(diǎn)在哪里?PointNet是如何解決這些難點(diǎn)的?
A:深度神經(jīng)網(wǎng)絡(luò)處理三維離散點(diǎn)云數(shù)據(jù)的難點(diǎn)主要在于點(diǎn)云的無(wú)序性和輸入維度變化。在本篇文章中,我使用了深度神經(jīng)網(wǎng)絡(luò)中的常用對(duì)稱函數(shù) :Max Pooling 來(lái)解決無(wú)序性問(wèn)題,使用共享網(wǎng)絡(luò)參數(shù)的方式來(lái)處理輸入維度的變化,取得了比較好的效果。
Q:是否可以使用RNN/LSTM來(lái)處理三維點(diǎn)云數(shù)據(jù)?
A:RNN/LSTM可以處理序列數(shù)據(jù),可以是時(shí)間序列也可以是空間序列。因此從輸入輸出的角度來(lái)講,他們可以用來(lái)處理三維點(diǎn)云數(shù)據(jù)。但是點(diǎn)云數(shù)據(jù)是無(wú)序的,這種點(diǎn)和點(diǎn)之間的先后輸入順序并沒有規(guī)律,因此直接使用RNN/LSTM效果不會(huì)太好。
Q:T-Net在網(wǎng)絡(luò)結(jié)構(gòu)中起的本質(zhì)作用是什么?需要預(yù)訓(xùn)練嗎?
A:T-Net 是一個(gè)預(yù)測(cè)特征空間變換矩陣的子網(wǎng)絡(luò),它從輸入數(shù)據(jù)中學(xué)習(xí)出與特征空間維度一致的變換矩陣,然后用這個(gè)變換矩陣與原始數(shù)據(jù)向乘,實(shí)現(xiàn)對(duì)輸入特征空間的變換操作,使得后續(xù)的每一個(gè)點(diǎn)都與輸入數(shù)據(jù)中的每一個(gè)點(diǎn)都有關(guān)系。通過(guò)這樣的數(shù)據(jù)融合,實(shí)現(xiàn)對(duì)原始點(diǎn)云數(shù)據(jù)包含特征的逐級(jí)抽象。
Q:PointNet 與 MVCNN 的實(shí)驗(yàn)結(jié)果比較中,有些指標(biāo)稍差,背后的原因是什么?
A:PointNet提取的是每一個(gè)獨(dú)立的點(diǎn)的特征描述以及全局點(diǎn)云特征的描述,并沒有考慮到點(diǎn)的局部特征和結(jié)構(gòu)約束,因此與MVCNN相比,在局部特征描述方面能力稍弱。面對(duì)這樣的問(wèn)題,我們基于PointNet已經(jīng)做了一些改進(jìn)和提升,新的網(wǎng)絡(luò)命名為 PointNet++,已經(jīng)上傳到Arxiv,歡迎大家閱讀并討論交流。
論文地址:https://arxiv.org/abs/1612.00593
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。