CVPR2017精彩論文解讀：直接處理三維點(diǎn)云的深度學(xué)習(xí)模型

本文作者：汪思穎

2017-08-11 19:12

導(dǎo)語(yǔ)：斯坦福學(xué)者首次提出直接處理三維點(diǎn)云的深度學(xué)習(xí)模型

雷鋒網(wǎng) AI 科技評(píng)論按：雖然CVPR 2017已經(jīng)落下帷幕，但對(duì)精彩論文的解讀還在繼續(xù)。下文是Momenta高級(jí)研究員陳亮對(duì)此次大會(huì)收錄的 PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation 一文進(jìn)行的解讀。

隨著激光雷達(dá)，RGBD相機(jī)等3D傳感器在機(jī)器人，無人駕駛領(lǐng)域的廣泛應(yīng)用。針對(duì)三維點(diǎn)云數(shù)據(jù)的研究也逐漸從低層次幾何特征提?。?PFH, FPFH,VFH等）向高層次語(yǔ)義理解過渡（點(diǎn)云識(shí)別，語(yǔ)義分割）。與圖像感知領(lǐng)域深度學(xué)習(xí)幾乎一統(tǒng)天下不同，針對(duì)無序點(diǎn)云數(shù)據(jù)的深度學(xué)習(xí)方法研究則進(jìn)展緩慢。分析其背后的原因，不外乎三個(gè)方面：

1.點(diǎn)云具有無序性。受采集設(shè)備以及坐標(biāo)系影響，同一個(gè)物體使用不同的設(shè)備或者位置掃描，三維點(diǎn)的排列順序千差萬別，這樣的數(shù)據(jù)很難直接通過End2End的模型處理。

2.點(diǎn)云具有稀疏性。在機(jī)器人和自動(dòng)駕駛的場(chǎng)景中，激光雷達(dá)的采樣點(diǎn)覆蓋相對(duì)于場(chǎng)景的尺度來講，具有很強(qiáng)的稀疏性。在KITTI數(shù)據(jù)集中，如果把原始的激光雷達(dá)點(diǎn)云投影到對(duì)應(yīng)的彩色圖像上，大概只有3%的像素才有對(duì)應(yīng)的雷達(dá)點(diǎn)。這種極強(qiáng)的稀疏性讓基于點(diǎn)云的高層語(yǔ)義感知變得尤其困難。

3.點(diǎn)云信息量有限。點(diǎn)云的數(shù)據(jù)結(jié)構(gòu)就是一些三維空間的點(diǎn)坐標(biāo)構(gòu)成的點(diǎn)集，本質(zhì)是對(duì)三維世界幾何形狀的低分辨率重采樣，因此只能提供片面的幾何信息。

面對(duì)以上困難，來自斯坦福大學(xué)的學(xué)者提出了PointNet，給出了自己的的解決方案。PointNet是第一種直接處理無序點(diǎn)云數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)。一般情況下，深度神經(jīng)網(wǎng)絡(luò)要求輸入信息具有規(guī)范化的格式，比如二維的圖像，時(shí)序性的語(yǔ)音等。而原始的三維點(diǎn)云數(shù)據(jù)往往是空間中的一些無序點(diǎn)集，假設(shè)某一個(gè)點(diǎn)云中包含N個(gè)三維點(diǎn)，每一個(gè)點(diǎn)用(x,y,z)三維坐標(biāo)表示，即使不考慮遮擋，視角等變化，單就這些點(diǎn)的先后順序排列組合，就有 N! 種可能。因此，我們需要設(shè)計(jì)一個(gè)函數(shù)，使得函數(shù)值與輸入數(shù)據(jù)的順序無關(guān)。實(shí)際上，在代數(shù)組合學(xué)中，這類函數(shù)被稱為對(duì)稱函數(shù)。PointNet 中，作者使用了Max Pooling 層做為主要的對(duì)稱函數(shù)，這種處理雖然簡(jiǎn)單，但是實(shí)驗(yàn)證明效果較好。 CVPR2017精彩論文解讀：直接處理三維點(diǎn)云的深度學(xué)習(xí)模型

上圖是PointNet的網(wǎng)絡(luò)架構(gòu)，輸入是包含n個(gè)點(diǎn)的三維點(diǎn)云（nx3) , 原始數(shù)據(jù)通過一個(gè)3D 空間變換矩陣預(yù)測(cè)網(wǎng)絡(luò) T-Net(3)，估計(jì)出3x3的變換矩陣T(3) 并作用在原始數(shù)據(jù)上，實(shí)現(xiàn)數(shù)據(jù)的對(duì)齊。對(duì)齊后的數(shù)據(jù)會(huì)以點(diǎn)為單位，通過一個(gè)共享參數(shù)的雙層感知機(jī)模型進(jìn)行特征提取。每個(gè)點(diǎn)提取出64維的特征，再通過特征空間變換矩陣預(yù)測(cè)網(wǎng)絡(luò) T-Net(64) 預(yù)測(cè)64x64的變換矩陣，作用到特征上，實(shí)現(xiàn)對(duì)特征的對(duì)齊。然后繼續(xù)利用三層感知機(jī)（64,128,1024）進(jìn)行以特征點(diǎn)為單位的特征提取，直到把特征的維度變?yōu)?024，繼而在特征空間的維度上進(jìn)行Max Pooling，提取出點(diǎn)云的全局特征向量。

在點(diǎn)云分類任務(wù)中，可直接利用特征向量訓(xùn)練SVM或者多層感知機(jī)來進(jìn)行分類，而在以點(diǎn)為單位的點(diǎn)云分割或者分塊任務(wù)中，需要結(jié)合每一點(diǎn)的局部特征和全局特征進(jìn)行特征融合和處理，實(shí)現(xiàn)逐點(diǎn)的分類。PointNet中把經(jīng)過特征對(duì)齊之后的64維特征看成是點(diǎn)的局部特征，把最后的1024維特征看成是點(diǎn)的全局特征，因此通過一個(gè)簡(jiǎn)單的拼接，把局部和全局的特征捆綁在一起，利用多層感知機(jī)進(jìn)行融合，最后訓(xùn)練分類器實(shí)現(xiàn)逐點(diǎn)的分類。

CVPR2017精彩論文解讀：直接處理三維點(diǎn)云的深度學(xué)習(xí)模型

PointNet是第一個(gè)可以直接處理原始三維點(diǎn)云的深度神經(jīng)網(wǎng)絡(luò)，這種新穎的網(wǎng)絡(luò)設(shè)計(jì)可以直接對(duì)原始點(diǎn)云進(jìn)行處理，進(jìn)而完成高層次的點(diǎn)云分類和語(yǔ)義分割的任務(wù)，而且完全依賴于數(shù)據(jù)。從實(shí)驗(yàn)驗(yàn)證的結(jié)果來看，其效果和當(dāng)前最好的結(jié)果具有可比性，在一些方面甚至超過了state-of-the-art，值得進(jìn)一步挖掘和研究。

論文作者問答：

Q:輸入的原始三維點(diǎn)云數(shù)據(jù)需要做歸一化嗎？

A：和其他網(wǎng)絡(luò)的輸入一樣，輸入點(diǎn)云數(shù)據(jù)需要做零均值的歸一化，這樣才能保證比較好的實(shí)驗(yàn)性能。

Q:深層神經(jīng)網(wǎng)絡(luò)處理三維離散點(diǎn)云的難點(diǎn)在哪里？PointNet是如何解決這些難點(diǎn)的？

A：深度神經(jīng)網(wǎng)絡(luò)處理三維離散點(diǎn)云數(shù)據(jù)的難點(diǎn)主要在于點(diǎn)云的無序性和輸入維度變化。在本篇文章中，我使用了深度神經(jīng)網(wǎng)絡(luò)中的常用對(duì)稱函數(shù) :Max Pooling 來解決無序性問題，使用共享網(wǎng)絡(luò)參數(shù)的方式來處理輸入維度的變化，取得了比較好的效果。

Q:是否可以使用RNN/LSTM來處理三維點(diǎn)云數(shù)據(jù)？

A：RNN/LSTM可以處理序列數(shù)據(jù)，可以是時(shí)間序列也可以是空間序列。因此從輸入輸出的角度來講，他們可以用來處理三維點(diǎn)云數(shù)據(jù)。但是點(diǎn)云數(shù)據(jù)是無序的，這種點(diǎn)和點(diǎn)之間的先后輸入順序并沒有規(guī)律，因此直接使用RNN/LSTM效果不會(huì)太好。

Q:T-Net在網(wǎng)絡(luò)結(jié)構(gòu)中起的本質(zhì)作用是什么？需要預(yù)訓(xùn)練嗎？

A：T-Net 是一個(gè)預(yù)測(cè)特征空間變換矩陣的子網(wǎng)絡(luò)，它從輸入數(shù)據(jù)中學(xué)習(xí)出與特征空間維度一致的變換矩陣，然后用這個(gè)變換矩陣與原始數(shù)據(jù)向乘，實(shí)現(xiàn)對(duì)輸入特征空間的變換操作，使得后續(xù)的每一個(gè)點(diǎn)都與輸入數(shù)據(jù)中的每一個(gè)點(diǎn)都有關(guān)系。通過這樣的數(shù)據(jù)融合，實(shí)現(xiàn)對(duì)原始點(diǎn)云數(shù)據(jù)包含特征的逐級(jí)抽象。

Q:PointNet 與 MVCNN 的實(shí)驗(yàn)結(jié)果比較中，有些指標(biāo)稍差，背后的原因是什么？

A：PointNet提取的是每一個(gè)獨(dú)立的點(diǎn)的特征描述以及全局點(diǎn)云特征的描述，并沒有考慮到點(diǎn)的局部特征和結(jié)構(gòu)約束，因此與MVCNN相比，在局部特征描述方面能力稍弱。面對(duì)這樣的問題，我們基于PointNet已經(jīng)做了一些改進(jìn)和提升，新的網(wǎng)絡(luò)命名為 PointNet++，已經(jīng)上傳到Arxiv，歡迎大家閱讀并討論交流。

論文地址：https://arxiv.org/abs/1612.00593

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

11人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章