三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

本文作者：楊曉凡

2019-02-02 19:48

導(dǎo)語(yǔ)：走出二維圖像，走向三維世界

雷鋒網(wǎng) AI 科技評(píng)論按：我們生活在一個(gè)三維立體的世界，三維信息的感知也就總是一件有趣的事，三維感知也能帶來(lái)比平面感知帶來(lái)更多信息。全民 AR / VR /立體視覺(jué)的熱潮雖然暫時(shí)過(guò)去了，但這個(gè)領(lǐng)域的學(xué)術(shù)研究和學(xué)術(shù)交流還在持續(xù)進(jìn)行著。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

1 月 23 日，學(xué)術(shù)交流活動(dòng)「AI 之眼，智見(jiàn)未來(lái)——3D 傳感&人工智能前沿科技論壇」在深圳南山舉行。論壇由奧比中光承辦，中國(guó)自動(dòng)化學(xué)會(huì)模式識(shí)別與機(jī)器智能專委會(huì)、中國(guó)人工智能學(xué)會(huì)模式識(shí)別專委會(huì)主辦，指導(dǎo)單位是深圳市南山區(qū)科技創(chuàng)新局。論壇邀請(qǐng)了清華大學(xué)、浙江大學(xué)、國(guó)防科技大學(xué)、上海交通大學(xué)、廈門大學(xué)、四川大學(xué)、北京航空航天大學(xué)等知名大學(xué)的7位頂尖專家學(xué)者發(fā)表主題演講，分享他們?cè)谌S計(jì)算機(jī)視覺(jué)領(lǐng)域的最新科研成果，也給參會(huì)的各知名 AI 企業(yè)的技術(shù)骨干、科研機(jī)構(gòu)重要研發(fā)人員、相關(guān)專業(yè)的高校學(xué)生等提供了一個(gè)交流討論的機(jī)會(huì)。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

參會(huì)專家合影留念

論壇承辦方奧比中光是深圳的 3D 感知技術(shù)企業(yè)，提供軟件、硬件的全套解決方案。OPPO Find X 手機(jī)上使用的三維人臉識(shí)別模組就來(lái)自?shī)W比中光。借著承辦論壇的機(jī)會(huì)，奧比中光的許多研發(fā)技術(shù)人員在座聆聽(tīng)并參與討論。多位演講嘉賓在論壇間隙參觀了奧比中光的展廳，而后在演講中提到不同企業(yè)的 3D 感知解決方案間的對(duì)比時(shí)也對(duì)奧比中光表示了認(rèn)可。

雷鋒網(wǎng) AI 科技評(píng)論記者現(xiàn)場(chǎng)參與了全天的學(xué)術(shù)交流活動(dòng)，我們把七個(gè)論壇報(bào)告的梗概內(nèi)容介紹如下。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇從左至右：肖振中，張漢國(guó)，賈偉

奧比中光聯(lián)合創(chuàng)始人 & CTO 肖振中，深圳市南山區(qū)科協(xié)常務(wù)副主席張漢國(guó)，中國(guó)自動(dòng)化學(xué)會(huì)模式識(shí)別與機(jī)器智能專委會(huì)副秘書長(zhǎng)、合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院副研究員賈偉發(fā)表開幕致辭，預(yù)祝論壇成功。

劉燁斌 - 「人體動(dòng)態(tài)重建技術(shù)前沿」

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

論壇第一個(gè)學(xué)術(shù)報(bào)告來(lái)自清華大學(xué)自動(dòng)化系副教授、博導(dǎo)劉燁斌。他的報(bào)告題目是「人體動(dòng)態(tài)重建技術(shù)前沿」。報(bào)告對(duì)人體動(dòng)態(tài)重建這一研究課題，圍繞便捷性和實(shí)時(shí)性兩大目標(biāo)的學(xué)術(shù)界相關(guān)研究成果回顧了技術(shù)發(fā)展歷程，做了全方位的技術(shù)介紹。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

劉燁斌副教授首先介紹了人體動(dòng)態(tài)重建課題中的一些基本概念。在人體動(dòng)態(tài)重建中，需要捕捉的信息有三維的幾何+紋理，還有它們的運(yùn)動(dòng)；運(yùn)動(dòng)包括幾何體表面的運(yùn)動(dòng)和內(nèi)部骨架的運(yùn)動(dòng)。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

人體動(dòng)態(tài)重建技術(shù)的應(yīng)用包括：全息通信與全息直播，三維虛擬試衣，智能便捷娛樂(lè)（信息采集重建、便攜發(fā)布），自由視角視頻，實(shí)時(shí)三維運(yùn)動(dòng)捕捉，高精度數(shù)字內(nèi)容記錄與制作等。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

人體建模需要的核心技術(shù)是實(shí)時(shí)深度數(shù)據(jù)采集以及深度數(shù)據(jù)處理。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

根據(jù)輸入數(shù)據(jù)不同，可以分為單視點(diǎn)人體建模和多視點(diǎn)人體建模兩大共性技術(shù)，對(duì)應(yīng)六大基礎(chǔ)應(yīng)用。劉燁斌副教授從十幾年前開始做這方面的研究，單視點(diǎn)、多視點(diǎn)技術(shù)都有涉及。

人體動(dòng)態(tài)重建技術(shù)可以分成幾類：

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

早期的做法是不做先驗(yàn)約束，基于多視角數(shù)據(jù)求取點(diǎn)云；

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

然后發(fā)展出了基于三維模版的方法，這類方法需要先人工建立骨架模版或非剛性形變模版（作為先驗(yàn)），三維點(diǎn)云的求解可以依托模版，降低了求解的難度、提高了穩(wěn)定性；

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

基于統(tǒng)計(jì)模版的方法無(wú)需提前由人工建模，系統(tǒng)根據(jù)數(shù)據(jù)學(xué)習(xí)統(tǒng)計(jì)模版然后應(yīng)用。這種方法的問(wèn)題是難以重建復(fù)雜幾何拓?fù)湫螤畹谋砻?，比如裙子等?/p>

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

最后還有表面動(dòng)態(tài)融合的方法，用深度相機(jī)采集點(diǎn)云并進(jìn)行融合。

劉燁斌副教授介紹了重建技術(shù)中的六大目標(biāo)：精準(zhǔn)重建、規(guī)模采集（多人，大采集范圍）、便捷獲取、實(shí)時(shí)計(jì)算、語(yǔ)義建模（以便建模后結(jié)果的遷移）、真實(shí)生成。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

精準(zhǔn)重建需要復(fù)雜的相機(jī)陣列+多光照，需要采集大量的高精度數(shù)據(jù)。劉燁斌副教授的早期研究就是在精準(zhǔn)重建方面，他們?cè)O(shè)計(jì)了包含 40 個(gè)相機(jī)、680 個(gè)光源的采集裝置。精準(zhǔn)重建對(duì)采集設(shè)備體系的高要求也限制了它的實(shí)際應(yīng)用。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

規(guī)模采集的難點(diǎn)在于處理多視角交疊的區(qū)域，也就是緊密交互的人體動(dòng)作，比如左圖中三人腿部交叉。有更多視角、更高精度的采集系統(tǒng)自然可以更好地處理交疊區(qū)域，但這同時(shí)又限制了系統(tǒng)采集的規(guī)模（人數(shù)以及空間大?。?。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

多紅外相機(jī)（多視角）的動(dòng)態(tài)三維重建可以進(jìn)行實(shí)時(shí)的點(diǎn)云融合，解決拓?fù)渥兓y題；單深度相機(jī)則無(wú)法支持拓?fù)渥兓c快速運(yùn)動(dòng)。圖中研究動(dòng)態(tài)融合重建的論文《DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time》獲得了 CVPR 2015 的最佳論文獎(jiǎng)。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

劉燁斌副教授團(tuán)隊(duì)在此基礎(chǔ)上進(jìn)行了改進(jìn)，他們用單深度相機(jī)實(shí)現(xiàn)實(shí)時(shí)動(dòng)態(tài)融合重建，不使用模版，可以支持和物體交互，可以任意視點(diǎn)重建。最新成果可以魯棒地進(jìn)行復(fù)雜人體動(dòng)態(tài)重建，3x3米采集空間，5%到10%測(cè)量精度。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

下一個(gè)技術(shù)目標(biāo)是便捷獲取，其中一種是從單個(gè)相機(jī)視角進(jìn)行動(dòng)態(tài)三維重建。這時(shí)需要先掃描獲得靜態(tài)人體模版（具體做法可以是在鏡頭前以指定動(dòng)作原地轉(zhuǎn)一圈），計(jì)算得到人體模型，之后用單個(gè)相機(jī)的視頻輸入就可以追蹤動(dòng)作并進(jìn)行重建。不過(guò)這有較高的計(jì)算復(fù)雜度，精度也有限。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

另一種便捷獲取任務(wù)是從單圖像恢復(fù)體態(tài)模型，通過(guò)對(duì)圖像深度的學(xué)習(xí)重建體態(tài)模型以及同步恢復(fù)紋理。劉燁斌副教授團(tuán)隊(duì)的近期工作 DeepHuman 有著不錯(cuò)的效果。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

語(yǔ)義建模是對(duì)人體與服裝分離建模，這樣可以進(jìn)行轉(zhuǎn)移（把一個(gè)人的衣服轉(zhuǎn)移到另一個(gè)人身上），但同時(shí)還要保留高度的真實(shí)感。這樣，對(duì)象建模的內(nèi)容就包括了紋理、幾何、材質(zhì)、物理動(dòng)力學(xué)屬性等等。衣物的物理動(dòng)力學(xué)建模始終是一大挑戰(zhàn)。在劉燁斌副教授團(tuán)隊(duì)的研究成果中，他們先采集人體模型，經(jīng)過(guò)計(jì)算后以單視角輸入，服裝可以獨(dú)立解析，然后為服裝加入動(dòng)力學(xué)仿真，服裝背側(cè)使用動(dòng)力學(xué)計(jì)算生成；光影也可以重新重新布置。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

最后，劉燁斌副教授介紹了自己對(duì)這項(xiàng)課題的展望。

盧策吾 - 「Behavior Understanding meets 3D Representation」

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

上午的第二個(gè)學(xué)術(shù)報(bào)告來(lái)自上海交通大學(xué)研究員、博導(dǎo)盧策吾。他演講的主題是三維表征以及行為理解（Behavior Understanding meets 3D Representation），主要介紹了自己團(tuán)隊(duì)在這兩個(gè)方向上的幾項(xiàng)近期工作。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

盧策吾的演講內(nèi)容主要分為兩個(gè)部分，介紹了自己團(tuán)隊(duì)對(duì)三維表征以及對(duì)行為感知的一些研究成果。

三維表征部分

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

首先對(duì)于三維表征，一種基礎(chǔ)的框架是取點(diǎn)的表征，PointNet 就是一種常用的方法，但它無(wú)法編碼不同的點(diǎn)之間的關(guān)系。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

對(duì)于臨近的點(diǎn)表征問(wèn)題，PointNet 和 PointCNN 有各自的處理思路，但也有各自的不足。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

對(duì)于點(diǎn)的結(jié)構(gòu)的表征，有一些特點(diǎn)是我們希望它具備的，比如尺度不變性，比如空間方向編碼（從而可以在不同方向進(jìn)行卷積）。SIFT 算子的引入就可以保留這些信息。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

盧策吾團(tuán)隊(duì)提出的 PointSIFT 就是利用了 SIFT 算子的一種多尺度表征方式，克服了 PointNet++ 只取最近鄰的問(wèn)題。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

對(duì)于網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)，他們使用了一個(gè)類似 U-Net 的結(jié)構(gòu)，尺度先減小后增加。網(wǎng)絡(luò)有自動(dòng)尺度選擇能力，其中也可以使用不同的模塊設(shè)計(jì)。PointSIFT 在多種測(cè)試中都取得了優(yōu)秀的表現(xiàn)。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

下一個(gè)問(wèn)題是點(diǎn)的表示在空間旋轉(zhuǎn)不變性方面的表現(xiàn)。在基于點(diǎn)云的物體部件分割任務(wù)中，PointNet++ 一般能取得不錯(cuò)的效果，但是由于方法的設(shè)計(jì)沒(méi)有考慮空間旋轉(zhuǎn)不變性，對(duì)于旋轉(zhuǎn)/未見(jiàn)過(guò)的角度就效果不好。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

PointNet 中的處理思想是尋找點(diǎn)到點(diǎn)之間的對(duì)應(yīng)關(guān)系，但對(duì)應(yīng)關(guān)系并不具有旋轉(zhuǎn)不變性；另一種思路是把點(diǎn)云映射到球面上，這樣具有了旋轉(zhuǎn)不變性，但點(diǎn)與點(diǎn)之間的對(duì)應(yīng)關(guān)系就無(wú)法保留，這是球面 CNN 的做法。

盧策吾團(tuán)隊(duì)提出的 Pointwise Rotation-Invariant Network 就結(jié)合了點(diǎn)對(duì)點(diǎn)方法和球 CNN 的優(yōu)點(diǎn)，在有空間旋轉(zhuǎn)的情況下也取得了良好表現(xiàn)。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

盧策吾還介紹了基于三維點(diǎn)云的端到端自動(dòng)駕駛學(xué)習(xí)方面的計(jì)劃。他和其他研究人員合作采集了一個(gè)包含視頻、激光雷達(dá)點(diǎn)云、駕駛員行為的駕駛數(shù)據(jù)集 DBNet，對(duì)應(yīng)的論文《LiDAR-Video Driving Dataset: Learning Driving Policies Effectively》也被 CVPR 2018 收錄。在這個(gè)數(shù)據(jù)集上訓(xùn)練端到端自動(dòng)駕駛系統(tǒng)，就是把三維點(diǎn)云（或者二維錄像）作為輸入，通過(guò)模型預(yù)測(cè)人類駕駛員會(huì)有怎樣的駕駛行為。

目前這個(gè)數(shù)據(jù)集已經(jīng)被 Facebook、谷歌、NVIDIA 等企業(yè)以及 MIT、斯坦福、CMU 等學(xué)校使用，盧策吾未來(lái)還計(jì)劃依托這個(gè)數(shù)據(jù)集在 ICCV 2019 舉辦大規(guī)模 SLAM 比賽以及在 CVPR 2020 舉辦大規(guī)模駕駛數(shù)據(jù)分割比賽。

行為識(shí)別部分

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

報(bào)告的第二部分是關(guān)于行為識(shí)別。此前他們的實(shí)時(shí)姿態(tài)估計(jì)系統(tǒng) AlphaPose 兼具高表現(xiàn)和高運(yùn)行速度，在學(xué)術(shù)研究和應(yīng)用實(shí)踐中都非?；馃?，許多工業(yè)界企業(yè)都向他們購(gòu)買了使用許可。不僅如此，AlphaPose 還可以作為許多不同領(lǐng)域、面向多類不同物體的通用型關(guān)鍵點(diǎn)檢測(cè)器。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

提出 AlphaPose 之后，盧策吾團(tuán)隊(duì)關(guān)注的下一個(gè)難題是密集姿態(tài)檢測(cè)。相比于稀疏分布的物體的姿態(tài)檢測(cè)（比如 COCO 數(shù)據(jù)集中的圖像），密集人體識(shí)別實(shí)際上已經(jīng)是另一種問(wèn)題，它的難點(diǎn)在于不同目標(biāo)的互相遮擋形成同構(gòu)噪聲，所以人密集時(shí)各種算法的表現(xiàn)都有明顯的下降。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

盧策吾團(tuán)隊(duì)提出一個(gè)新的 CrowdPose 數(shù)據(jù)集，其中有大量密集人體場(chǎng)景，帶來(lái)很大的挑戰(zhàn)。傳統(tǒng)物體檢測(cè)方法此時(shí)就誤報(bào)率高，關(guān)節(jié)檢測(cè)容易錯(cuò)誤。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

根據(jù)盧策吾介紹，同樣是基于熱力圖辨別人體，傳統(tǒng)方法中對(duì)于主體和障礙物的置信度取值是二值化的，這樣的后果就是臨近主體的障礙物在辨別時(shí)容易取而代之。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

他們提出的新方法中不再使用二值化的取值，并且用競(jìng)爭(zhēng)式的框選擇整體優(yōu)化，從而得到更好的表現(xiàn)。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

運(yùn)動(dòng)識(shí)別的下一個(gè)問(wèn)題是時(shí)間序列圖像作為輸入的識(shí)別。序列輸入我們很容易想到使用 RNN，但它難以直接用于圖像輸入的檢測(cè)。盧策吾團(tuán)隊(duì)提出的方法是深度 RNN 架構(gòu)的時(shí)序模型：RBM，它可以看作是一種通用型的 LSTM/RNN，根據(jù)一定條件簡(jiǎn)化后就得到了我們熟悉的 LSTM。這種方案可以做到 15 層甚至更深的 RNN 疊加。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

他們的改進(jìn)思路是：時(shí)序信息和特征分別學(xué)習(xí)；先學(xué)習(xí)空間表征，再讓表征在時(shí)間上流動(dòng)（兩個(gè)方向的流動(dòng)在圖中用兩個(gè)方向的連線表示）。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

為了便于網(wǎng)絡(luò)的訓(xùn)練，他們提出了 Temporal Dropout 等訓(xùn)練加速技巧。在實(shí)驗(yàn)中也取得了表現(xiàn)的明顯提升。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

物體間的交互關(guān)系也是運(yùn)動(dòng)識(shí)別中需要關(guān)注的重要方面。盧策吾團(tuán)隊(duì)提出的一種思路是把「是否有交互」的二值信息利用起來(lái)，輔助判斷交互類型，起到用先驗(yàn)信息提高整體性能的效果。這也是一種通用可遷移到 Inter-Actioness Prior。

總結(jié)

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

盧策吾認(rèn)為，目前雖然在運(yùn)動(dòng)理解和三維表征方面都各自有不少的研究成果，但它們之間的結(jié)合還很少，還沒(méi)有產(chǎn)生有潛力的成果，這是未來(lái)的一個(gè)可能的方向。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

目前的技術(shù)可以做交互判斷，而學(xué)習(xí)到的交互關(guān)系可以發(fā)展推理引擎。在這里盧策吾展示了一個(gè)視頻，一個(gè)機(jī)械臂可以在與三維物體的互動(dòng)（嘗試抓?。┲袑W(xué)習(xí)先驗(yàn)。對(duì)三維世界的理解可以輔助機(jī)器人工作，機(jī)器人與世界的交互也可以增進(jìn)視覺(jué)理解。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

對(duì)于整個(gè) AI 范圍的總體看法，盧策吾認(rèn)為目前我們?nèi)〉昧嗣黠@成果的都屬于 Physical AI（視覺(jué)、語(yǔ)音、圖像、機(jī)器人），這些技術(shù)確實(shí)可以解決大多數(shù)問(wèn)題；而未來(lái)更大的挑戰(zhàn)在于對(duì)抽象概念的理解和運(yùn)用。

章國(guó)鋒 - 「視覺(jué) SLAM 技術(shù)及應(yīng)用」

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

浙江大學(xué) CAD&CG 國(guó)家重點(diǎn)實(shí)驗(yàn)室教授、博導(dǎo)章國(guó)鋒的報(bào)告主題是「視覺(jué) SLAM 技術(shù)及應(yīng)用」。報(bào)告中綜述介紹了視覺(jué)定位地圖重建跟蹤技術(shù)及應(yīng)用的各方面研究工作。

基礎(chǔ)知識(shí)與技術(shù)

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

SLAM，同時(shí)定位與地圖構(gòu)架，是機(jī)器人和計(jì)算機(jī)視覺(jué)領(lǐng)域的基本問(wèn)題。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

SLAM 技術(shù)的運(yùn)行結(jié)果要計(jì)算設(shè)備自身在空間中的位置和朝向，同時(shí)還要構(gòu)建周圍環(huán)境的地圖。根據(jù)構(gòu)建的環(huán)境地圖包含的信息不同，可以分為稀疏 SLAM 和稠密 SLAM，前者只包含三維點(diǎn)云，后者同時(shí)也要采集重建幾何和紋理。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

經(jīng)過(guò)幾十年的發(fā)展，SLAM 系統(tǒng)常用的技術(shù)框架已經(jīng)基本成熟，主要可以分為輸入、前臺(tái)線程、后臺(tái)線程、輸出四個(gè)組成部分。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

視覺(jué) SLAM 自然是以視覺(jué)輸入為主，單目、雙目、多目攝像頭方案都有。如今也可以結(jié)合其他的輔助傳感器的信號(hào)，進(jìn)一步提高解算精度。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

視覺(jué) SLAM 從視覺(jué)信號(hào)輸入，重建場(chǎng)景三維信息的基本原理是多視圖幾何方程求解。不過(guò)，高效、穩(wěn)定的求解有一定難度，尤其在動(dòng)態(tài) SLAM 中，場(chǎng)景在變化，有outliner，甚至場(chǎng)景有遮擋。章國(guó)鋒教授介紹了幾個(gè)關(guān)鍵思路。

視覺(jué) SLAM 研究工作

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

章國(guó)鋒教授設(shè)計(jì)的視覺(jué) SLAM 解決方案是 RDSLAM。這個(gè)系統(tǒng)可以根據(jù)實(shí)時(shí)視頻信號(hào)輸入檢測(cè)、追蹤場(chǎng)景中的動(dòng)態(tài)變化。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

相比于更傳統(tǒng)的基于濾波器的 SLAM 方法，基于關(guān)鍵幀的方法有較多優(yōu)點(diǎn)，但對(duì)強(qiáng)旋轉(zhuǎn)很敏感。RDSLAM 就是一種基于關(guān)鍵幀的方法。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

機(jī)器人領(lǐng)域的應(yīng)用中大量使用視覺(jué)慣性 SLAM，就是結(jié)合機(jī)器人 IMU （慣性測(cè)量單元）采集的數(shù)據(jù)計(jì)算視角運(yùn)動(dòng)，在它的幫助下提高魯棒性。那么沒(méi)有搭載 IMU 的設(shè)備能否借鑒這種思路呢？由于絕大多數(shù)情況下攝像頭的移動(dòng)線速度較低（米/秒級(jí)），影響不大，重點(diǎn)計(jì)算角速度即可，章國(guó)鋒教授認(rèn)為這種思路是可行的。也就是在沒(méi)有真實(shí) IMU 數(shù)據(jù)時(shí)，通過(guò)采集的數(shù)據(jù)數(shù)據(jù)模擬計(jì)算 IMU 數(shù)據(jù)。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

根據(jù)這個(gè)思路，他們針對(duì)移動(dòng)場(chǎng)景提出 RKSLAM。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

而后還衍生出基于 RGB-D 輸入系統(tǒng)的視覺(jué) SLAM 系統(tǒng) RKD-SLAM，除 RGB 視覺(jué)信息之外增加的深度信息可以大幅提高魯棒性，得以實(shí)現(xiàn)非?？焖俚脑隽考{(diào)整；基于關(guān)鍵幀的重融合，消除累積誤差；其中還使用了多種降低計(jì)算復(fù)雜度的方法，速度可以快一個(gè)數(shù)量級(jí)。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

章國(guó)鋒教授著重介紹了系統(tǒng)中使用的集束調(diào)整方法，把長(zhǎng)序列分成多個(gè)短序列，分段優(yōu)化，收斂快。在演示視頻中，章國(guó)鋒教授在自家小區(qū)中一邊行走，一邊隨意用手機(jī)拍攝視頻，他們的方法就能很好地重建出周圍環(huán)境的三維模型，效果優(yōu)于此前的方法。

視覺(jué) SLAM 技術(shù)應(yīng)用

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

視覺(jué) SLAM 技術(shù)的應(yīng)用有很多。對(duì)于視頻剪輯，可以移動(dòng)、復(fù)制畫面中的對(duì)象，隱藏或者添加對(duì)象，還可以增加時(shí)間停止特效，進(jìn)行景深變換等。（上圖視頻中，在桌面上復(fù)制了一個(gè)同樣的魔方）。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

增強(qiáng)現(xiàn)實(shí)應(yīng)用也是大家喜聞樂(lè)見(jiàn)的應(yīng)用形式。圖中演示的是王者榮耀 AR 人物，可以讓游戲中的英雄在真是桌面上做出各種動(dòng)作；高德地圖有 AR 導(dǎo)航，可以在路面上顯示一個(gè)助手帶著你行走。AR 尺子也已經(jīng)具備了一定的實(shí)用性，基于 RGB-D 慣性 SLAM 的 AR 測(cè)量，平均測(cè)量誤差只有 2.6%?；?TOF （飛行時(shí)間）的技術(shù)還可以具有遮擋處理的能力。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

最后，章國(guó)鋒教授展望了視覺(jué) SLAM 的技術(shù)發(fā)展趨勢(shì)。一方面，我們需要更先進(jìn)的方法緩解視覺(jué) SLAM 中的特征依賴，提高穩(wěn)定性；另一方面，稠密 SLAM、TOF 做得還不夠好、應(yīng)用還不多。最后，多傳感器融合也是一大發(fā)展方向。

黃迪 - 「基于三維人臉數(shù)據(jù)的身份識(shí)別與表情分類」

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

北京航空航天大學(xué)計(jì)算機(jī)學(xué)院院長(zhǎng)聘副教授、博導(dǎo)黃迪的報(bào)告主題是「基于三維人臉數(shù)據(jù)的身份識(shí)別與表情分類」。報(bào)告從背景、三維人臉識(shí)別、三維表情識(shí)別、三維人臉?lè)治龅男绿魬?zhàn)幾個(gè)方面綜述介紹了這個(gè)領(lǐng)域的主要研究和應(yīng)用脈絡(luò)。

背景

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

三維人臉?lè)治龅奶幚砹鞒炭梢苑譃閿?shù)據(jù)采集、預(yù)處理（移除尖點(diǎn)、填充孔洞等）、形狀表示、測(cè)量與匹配幾步。如今進(jìn)入深度學(xué)習(xí)時(shí)代，傳統(tǒng)三維分析流程四步中的后兩步可以合二為一。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

三維人臉?lè)治龅膽?yīng)用場(chǎng)景不外乎身份驗(yàn)證、4D 表情分析，還可以分析身份和表情之外的額外信息，比如人種、性別、年齡等。一個(gè)典型應(yīng)用是 iPhone FaceID，它采集人臉的三維數(shù)據(jù)進(jìn)行記錄和比對(duì)。FaceID 的出現(xiàn)表明三維人臉已經(jīng)可以在一些定制化的產(chǎn)品上進(jìn)行應(yīng)用，回應(yīng)了一些對(duì)三維技術(shù)質(zhì)疑的聲音。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

二維、三維人臉?lè)治黾夹g(shù)的表現(xiàn)有較大不同。二維人臉?lè)治鼋鉀Q不了光照問(wèn)題；二維人臉識(shí)別無(wú)法很好解決姿態(tài)變化的問(wèn)題（對(duì)于不同表情的人臉，做身份識(shí)別之前需要嘗試恢復(fù)到中性的表情，但信息的重加工可能會(huì)破壞身份信息）；三維人臉?lè)治鰧?duì)化妝的容忍度更高。以及，對(duì)于照片、視頻、仿真面具三類攻擊的容忍程度上，三維對(duì)前兩種有天然的免疫（采集不到深度信息），而且對(duì)面具的抵抗性也要比二維方法好很多。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

三維人臉?lè)治銎鹗加?1989年，2005年是三維人臉?lè)治隹焖侔l(fā)展的一年。領(lǐng)域內(nèi)的大牛 Kevin Bowyer 在 2006 年提出，三維人臉?lè)治黾夹g(shù)的發(fā)展面臨的三大挑戰(zhàn)是：更好的三維傳感器、更好的算法以及更好的實(shí)驗(yàn)方法。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

三維人臉?lè)治龅臄?shù)據(jù)集有不少，常用數(shù)據(jù)集 FRGC、BU3DFE、BU-4DFE。不過(guò)所有這些數(shù)據(jù)集的數(shù)據(jù)量都不大，所以深度學(xué)習(xí)模型的表現(xiàn)并不突出。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

三維人臉識(shí)別使用場(chǎng)景：純?nèi)S形狀對(duì)比，多模態(tài)人臉對(duì)比，以及二維三維不對(duì)稱識(shí)別

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

黃迪副教授說(shuō)道，三維人臉識(shí)別的挑戰(zhàn)是，所有的人臉都很像！人臉這個(gè)大類的相似度很高，所有的臉人臉都有相同的結(jié)構(gòu)?？紤]不同身份的人構(gòu)成的小類的話，類內(nèi)有一定的變化，來(lái)自表情變化、姿態(tài)（收集時(shí)的不同姿態(tài)可能導(dǎo)致三維點(diǎn)云不完整）、遮蓋、雙胞胎、低質(zhì)量數(shù)據(jù)等。而類內(nèi)的差異無(wú)法保證小于類間（不同的人之間）的差異。如今，表情變化的處理已經(jīng)比較成熟穩(wěn)定，其他的挑戰(zhàn)仍然等待解決。

三維人臉識(shí)別技術(shù)

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

三維人臉識(shí)別中的關(guān)鍵問(wèn)題：要找到比較好的形狀表示。理想的表示要對(duì)不同的個(gè)體有區(qū)分度，也要能減少其他因素的干擾。形狀表示有基于模版、等高線、剛體、不變區(qū)域等多種方法。后來(lái)公認(rèn)使用 MeshSIFT 類等基于特征的方法。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

由于更早之前人臉數(shù)據(jù)集的樣本太?。〝?shù)據(jù)庫(kù)中默認(rèn)每張臉只有一個(gè)樣本），所以基于深度學(xué)習(xí)的研究工作 2018 年才出現(xiàn)。這項(xiàng)工作微小地改動(dòng)了已有的 VGG-Face 模型，而創(chuàng)新點(diǎn)在于數(shù)據(jù)擴(kuò)增，作者們創(chuàng)造了更多的虛擬 ID、更多的姿態(tài)，保證有足夠的數(shù)據(jù)，然后用二維卷積的方法得到比較好的結(jié)果。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

根據(jù)黃迪副教授介紹，三維人臉識(shí)別的難點(diǎn)，早期一般在于采集，高精度的采集設(shè)備過(guò)于昂貴，能采集的數(shù)據(jù)規(guī)模?。缓髞?lái)才有低成本的采集設(shè)備，而消費(fèi)級(jí)的采集設(shè)備一般還是有比較多的噪聲。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

黃迪副教授利用消費(fèi)級(jí)的 Kinect v2 采集大規(guī)模數(shù)據(jù)，提出 Lock3DFace 數(shù)據(jù)集，包含了 500 個(gè)人、每人 20 個(gè)視頻，其中有 200 人的數(shù)據(jù)采集時(shí)間間隔 7 個(gè)月。這個(gè)數(shù)據(jù)集的目的除了為每個(gè)身份提供充足的數(shù)據(jù)之外，也包含了豐富的表情、姿態(tài)、遮擋，尤其時(shí)間間隔造成的變化是任何此前的數(shù)據(jù)集都不包括的。Kinect v2 雖然只能采集到低精度的原始數(shù)據(jù)，但可以用多幀數(shù)據(jù)聯(lián)合重建，同樣得到可靠的結(jié)果。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

最新研究中，他們提出了一套采集系統(tǒng) Led3DFR，用移動(dòng)級(jí)硬件，利用前端計(jì)算、小模型，達(dá)到高準(zhǔn)確率、高識(shí)別速度。

三維表情識(shí)別技術(shù)

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

三維方法研究表情有天然優(yōu)勢(shì)。傳統(tǒng)表情方法中的一種是肌肉分割。目前還解決的不好的案例是一些近似表情的分割，強(qiáng)度小，混淆性高。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

另一種思路是在流形上做卷積，但對(duì)內(nèi)存大小和計(jì)算復(fù)雜度要求很高。黃迪副教授團(tuán)隊(duì)提出一種快速、輕計(jì)算量的新流形卷積方法，直接在 mesh 上計(jì)算，使用定制化的算法，手工定制的池化步驟，計(jì)算過(guò)程高效，得到的下采樣結(jié)果準(zhǔn)確。

對(duì)于各種基于深度學(xué)習(xí)的方法，黃迪副教授的感受是，受限于訓(xùn)練數(shù)據(jù)集大小，還是需要結(jié)合一些手工優(yōu)化，但深度學(xué)習(xí)的方法仍有優(yōu)勢(shì)。

三維人臉?lè)治龅奶魬?zhàn)

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

最后總結(jié)了三維人臉?lè)治黾夹g(shù)發(fā)展中遇到的挑戰(zhàn)：首先，三維重建、特征計(jì)算都有高計(jì)算量，在移動(dòng)設(shè)備上有計(jì)算時(shí)間的問(wèn)題；點(diǎn)云數(shù)據(jù)是不規(guī)則分布的，空間中不同區(qū)域的點(diǎn)密度有很大區(qū)別，同時(shí)三維人臉數(shù)據(jù)集的數(shù)據(jù)量也不大，深度學(xué)習(xí)的應(yīng)用就受到一定限制。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

對(duì)于三維人臉識(shí)別，真實(shí)場(chǎng)景應(yīng)用中也許多變異點(diǎn)，比如如何適應(yīng)商業(yè)化的（低精度）深度傳感器、如何在移動(dòng)設(shè)備上運(yùn)行、如何克服噪聲和遮擋等問(wèn)題，以及如何與二維RGB數(shù)據(jù)有更好的融合，高效地發(fā)揮各自的優(yōu)勢(shì)。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

對(duì)于三維表情識(shí)別，也有表情的不確定性的問(wèn)題，可以是不同的表情看起來(lái)很類似，也可以是不同的人對(duì)同樣的表情有不同的理解。嘗試其他表達(dá)形式，結(jié)合上下文、肢體語(yǔ)言判斷是一種思路。

趙啟軍 - 「三維人臉建模：由圖到形的人臉識(shí)別」

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

四川大學(xué)計(jì)算機(jī)學(xué)院副教授趙啟軍的報(bào)告主題是「三維人臉建模：由圖到形的人臉識(shí)別」。這個(gè)報(bào)告也是關(guān)于三維人臉的，不過(guò)趙啟軍副教授關(guān)注的重點(diǎn)是從二維圖像重建三維人臉，這不僅是二維三維信息之間的橋梁，也拓展了三維人臉技術(shù)的應(yīng)用范圍。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

二維圖像可以由三維實(shí)體生成，其中有很多因素影響；二維圖像除了紋理之外也有很多三維信息，尤其是在結(jié)合了物體的常識(shí)模型之后。二維和三維相比之下，全視角的三維面部模型含有更多的信息，也更加魯棒。

三維人臉一直不火熱的原因，趙啟軍副教授認(rèn)為是高成本。專業(yè)的三維采集設(shè)備自然非常昂貴、使用不便，即便現(xiàn)在出現(xiàn)了低價(jià)的消費(fèi)級(jí) RGB-D 傳感器，但測(cè)量精度有限；其他原因還有，受限的應(yīng)用場(chǎng)景（絕大部分三維應(yīng)用在短距離測(cè)量和識(shí)別），帶來(lái)的額外收益受限（二維圖像在多數(shù)場(chǎng)景中都有足夠好的效果，占據(jù)支配地位，不過(guò)實(shí)際上二維圖像方法也需要使用環(huán)境中有一些約束，才能達(dá)到滿意的性能）

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

趙啟軍副教授的科研路線圍繞的就是三維數(shù)據(jù)的重建和應(yīng)用：在采集新的三維數(shù)據(jù)的同時(shí)，也要利用已有的二維數(shù)據(jù)。從二維數(shù)據(jù)重建三維數(shù)據(jù)，可以輔助無(wú)限定的二維人臉識(shí)別（角度、光照、姿態(tài)不做嚴(yán)格要求）。這也是本次報(bào)告的主要內(nèi)容。

單張圖像人臉重建

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

從一張到多張圖像恢復(fù)完整的三維模型。這可以看作一個(gè)回歸問(wèn)題。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

解決這個(gè)問(wèn)題的經(jīng)典方法是 3DMM，這是一種統(tǒng)計(jì)方法，做法是收集許多人臉模型，用 PCA （降維）求出統(tǒng)計(jì)模型，然后把統(tǒng)計(jì)模型擬合到待求人臉。如今的深度學(xué)習(xí)方法也是用的同樣的核心思路，只是改變了求參過(guò)程。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

對(duì)于這項(xiàng)方法的后續(xù)改進(jìn)，研究人員們希望可以避免求解統(tǒng)計(jì)模型，直接在三維空間中求回歸，得到保留個(gè)性化特性的、而且有助于識(shí)別的人臉形狀。簡(jiǎn)單直接的人臉重建有許多思路可以完成，但是我們希望重建結(jié)果能對(duì)人臉識(shí)別起到幫助，也就是保留有辨別性的細(xì)節(jié)。另外還希望這個(gè)過(guò)程可以是實(shí)時(shí)的。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

趙啟軍副教授介紹了自己團(tuán)隊(duì)的一項(xiàng)后續(xù)研究工作，從單張圖像重建三維人臉，同時(shí)目標(biāo)讓重建結(jié)果幫助人臉識(shí)別，排除表情之類的對(duì)識(shí)別無(wú)幫助的信息。他們的思路是把每個(gè)面部三維模型看作平均模型+身份信息+表情信息的組合。他們把面部對(duì)齊（獲得更準(zhǔn)確的特征點(diǎn)）和面部重建（獲得更準(zhǔn)確的三維模型）作為聯(lián)合任務(wù)，交替進(jìn)行，多次迭代；最終輸出的三維重建結(jié)果不包含表情信息，也就是一個(gè)表情中性的人臉。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

研究中他們也嘗試了基于深度學(xué)習(xí)的非線性模型，效果并不突出。他們猜測(cè)原因也是測(cè)試數(shù)據(jù)集規(guī)模較小，不足以發(fā)揮出深度學(xué)習(xí)方法的優(yōu)勢(shì)。

經(jīng)過(guò)三維重建得到了正面、表情中性的人臉模型之后，一種應(yīng)用方式是輔助提升二維人臉識(shí)別的效果。重建后的三維模型與原始二維圖像補(bǔ)充成為融合模型后，可以提升較大角度下識(shí)別的性能，減小了姿態(tài)和光照對(duì)純二維方法人臉識(shí)別的影響。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

趙啟軍副教授還做了其他思路的進(jìn)一步研究，他們嘗試三維面部形狀特征解耦，聯(lián)合人臉重建任務(wù)和識(shí)別任務(wù)，希望可以強(qiáng)化識(shí)別人臉需要的身份信息；根據(jù)他們的想法，這些信息可以在隱空間進(jìn)行分解建模。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

經(jīng)過(guò)端到端聯(lián)合訓(xùn)練后實(shí)現(xiàn)了預(yù)想的引導(dǎo)結(jié)果，達(dá)到了身份信息和表情信息的分離，不同人的身份信息有足夠的區(qū)分度。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

他們也做了許多驗(yàn)證研究，表明形狀重建的精度也達(dá)到了較好水平；Alabation study 表明，多層感知機(jī)學(xué)習(xí)到的基向量之間也有很高的區(qū)分度（單個(gè)基向量表示的面部特征已經(jīng)不可能在真實(shí)人臉上出現(xiàn)了，見(jiàn)上圖左側(cè)部分），說(shuō)明了學(xué)習(xí)的有效性。

多圖人臉重建

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

單張圖像的人臉重建問(wèn)題得到較好解決之后，多張圖像帶紋理重建也就是在單圖任務(wù)基礎(chǔ)上的自然延伸。一個(gè)典型的應(yīng)用是，公安系統(tǒng)的罪犯存檔照片包含正面、左、右三種視圖，可以利用這些照片重建帶有紋理的三維人臉模型，與現(xiàn)有的二維圖像采集系統(tǒng)結(jié)合以后可以極大提升目標(biāo)的前 n 位識(shí)別成功率，即便二維圖像采集系統(tǒng)的圖像可以是任意角度的人臉。趙啟軍副教授還介紹了一個(gè)三維人臉重建帶來(lái)目標(biāo)犯罪嫌疑人的識(shí)別排序大幅提升的真實(shí)案例。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

多張圖像的人臉重建也有一種令人十分頭疼的應(yīng)用場(chǎng)景，就是長(zhǎng)時(shí)間跨度的多張無(wú)限制圖像重建。如圖，六張不同年齡的萊昂納多，幾乎可以認(rèn)為是好幾個(gè)不同的人了。這時(shí)我們希望重建出的人臉是一個(gè)平均形狀，能夠代表不同時(shí)期的面部特點(diǎn)。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

這個(gè)問(wèn)題目前還無(wú)法完美地解決，畢竟類內(nèi)就有很大差異。不過(guò)相比以往的方法，趙啟軍副教授團(tuán)隊(duì)提出的方法，減小了同類、類間區(qū)別的重疊（圖中黃色和藍(lán)色交疊部分）。

總結(jié)

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

趙啟軍副教授最后做了總結(jié)：三維人臉在許多任務(wù)中會(huì)有幫助，他們也提出了多種方法進(jìn)行重建并應(yīng)用重建成果。這個(gè)領(lǐng)域的挑戰(zhàn)是：缺乏大規(guī)模的 benchmark；數(shù)據(jù)采集精度需要更高，重建時(shí)希望可以有更多的紋理細(xì)節(jié)（甚至到可以捕捉皮膚缺陷的程度）；另外不同多種來(lái)源的數(shù)據(jù)可以用于多種不同的目的。

郭裕蘭 - 「三維場(chǎng)景智能感知與理解」

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

國(guó)防科技大學(xué)電子科學(xué)學(xué)院講師郭裕蘭的報(bào)告「三維場(chǎng)景智能感知與理解」介紹了他所在的研究小組在雙目深度估計(jì)、三維目標(biāo)識(shí)別以及三維場(chǎng)景標(biāo)注等方向的研究進(jìn)展。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

郭裕蘭首先介紹了三維數(shù)據(jù)獲取與處理的基本知識(shí)，介紹了雙目視覺(jué)深度計(jì)算的基本技術(shù)，以及這個(gè)任務(wù)中傳統(tǒng)算法的流程。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

郭裕蘭所在的研究小組有一些新的嘗試，他們借助深度學(xué)習(xí)，用一個(gè)網(wǎng)絡(luò)解決視差估計(jì)中的多個(gè)步驟。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

在 CVPR 2018 的 ROB 挑戰(zhàn)賽中，他們的方法在不同的數(shù)據(jù)集中取得了均衡的表現(xiàn)，由此獲得了總成績(jī)第一名。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

他們也對(duì)視差超分辨率任務(wù)做了一些研究。視差超分辨率是要利用雙目視覺(jué)兩個(gè)輸入之間的微小差異。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

郭裕蘭還介紹了多種基于三維數(shù)據(jù)的深度學(xué)習(xí)場(chǎng)景理解（對(duì)象識(shí)別）方法。

紀(jì)榮嶸 - 「基于學(xué)習(xí)的場(chǎng)景信息重構(gòu)」

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

論壇的壓軸報(bào)告嘉賓是來(lái)自廈門大學(xué)的“閩江學(xué)者”特聘教授、博導(dǎo)紀(jì)榮嶸。報(bào)告中介紹了課題組圍繞場(chǎng)景信息重構(gòu)的一些研究工作以及技術(shù)應(yīng)用。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

報(bào)告一開始，紀(jì)榮嶸教授就感慨道，「雖然現(xiàn)在是深度學(xué)習(xí)時(shí)代，但是只會(huì)深度學(xué)習(xí)是不行的」。報(bào)告的第一項(xiàng)內(nèi)容也就是一種非深度學(xué)習(xí)的方法。

基于搜索的單圖深度估計(jì)

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

單目視覺(jué)深度估計(jì)本身是一項(xiàng)比較簡(jiǎn)單、如今也被深度學(xué)習(xí)解決得比較好的問(wèn)題，傳統(tǒng)方法先估計(jì)初始深度圖，再用 CRF 優(yōu)化、端到端，以及繼續(xù)加入各種技巧，也可以得到比較好的結(jié)果。

不過(guò)在這項(xiàng)研究中，紀(jì)榮嶸教授指導(dǎo)學(xué)生選擇了一種基于搜索的方法：把深度估計(jì)問(wèn)題作為搜索問(wèn)題，把圖片分為許多 patch（小塊），每個(gè)patch在現(xiàn)有的圖像-深度數(shù)據(jù)庫(kù)中搜索，得到的結(jié)果做上下文平滑。

這種做法的難點(diǎn)在于：1，跨模態(tài)檢索，2，大邊緣結(jié)構(gòu)分析。由于這是一種非深度學(xué)習(xí)方法，它不需要訓(xùn)練，只需要預(yù)先編碼一個(gè)字典即可（用于快速搜索）。這篇論文時(shí)間較早，但也被 ECCV 錄用。

基于序列預(yù)測(cè)的實(shí)時(shí)語(yǔ)義分割

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

下面就進(jìn)入了深度學(xué)習(xí)時(shí)代，在各種任務(wù)中大家都開始嘗試基于深度學(xué)習(xí)的方法。紀(jì)榮嶸教授介紹的這項(xiàng)研究是針對(duì)視頻語(yǔ)義分割的（也就是時(shí)間序列語(yǔ)義分割）。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

一般來(lái)說(shuō)序列分割中都要考慮前后幀之間的聯(lián)系，才能讓分割結(jié)果更穩(wěn)定、魯棒，他們的思路是把編碼器先前的輸出用來(lái)預(yù)測(cè)，也嘗試了級(jí)聯(lián)、相加、Attention、Attention+級(jí)聯(lián)等多種融合策略，編碼器也使用了上下文殘差卷積。最后配合一些提速技巧，取得了性能和速度的很好均衡（在 TITAN Xp 上，2048x1024 的圖像分辨率輸入，達(dá)到 18.5 幀/秒的運(yùn)行速度；同時(shí)在精度上甚至優(yōu)于一些不考慮速度的方法）。這篇論文 CVPR2019 在投。

基于語(yǔ)義信息和生成對(duì)抗的視覺(jué)里程計(jì)

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

下一項(xiàng)研究是關(guān)于視覺(jué)里程計(jì)的。這是首次把生成式對(duì)抗引入視覺(jué)里程計(jì)的設(shè)計(jì)，但取得了不錯(cuò)的效果。

方法的總體流程是，用一個(gè)特征生成模塊 FGN 生成特征，用一個(gè) Discriminator 判別數(shù)據(jù)分布。這個(gè) Discriminator 有三路輸入，分別是圖像、生成器輸出的特征、語(yǔ)義圖，然后把用 SIFT 方法生成的特征點(diǎn)和特征描述作為 Ground Truth。這樣的做法解決了特征點(diǎn)檢測(cè)和描述的問(wèn)題。取特征部分比直接使用 SIFT 和 ORB 快，精度也更高。而且也解決了 SIFT 作為里程計(jì)時(shí)容易中斷的問(wèn)題。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

他們的方法在許多場(chǎng)景下都取得了不錯(cuò)的表現(xiàn)，甚至最終的精度超過(guò)了作為監(jiān)督信息的 SIFT 的精度。不過(guò)，由于方法中沒(méi)有加入閉環(huán)檢測(cè)，在高速、長(zhǎng)路段的后期誤差會(huì)升高。

三維感知與三維數(shù)據(jù)分析最新進(jìn)展 - 3D傳感&人工智能前沿科技論壇

最后，紀(jì)榮嶸教授還簡(jiǎn)單介紹了實(shí)驗(yàn)室在視覺(jué)場(chǎng)景理解方面的多個(gè)項(xiàng)目，包括頭戴式顯示裝備、AR 快速定位、基于神經(jīng)網(wǎng)絡(luò)壓縮的人工智能芯片設(shè)計(jì)、端到端實(shí)時(shí)室內(nèi)物體語(yǔ)義分割等，也是產(chǎn)學(xué)研結(jié)合的范例。

結(jié)束語(yǔ)

七場(chǎng)學(xué)術(shù)報(bào)告下來(lái)，這些在三維數(shù)據(jù)分析、場(chǎng)景感知、人工智能技術(shù)方面有諸多經(jīng)驗(yàn)的專家學(xué)者們之間就一些觀點(diǎn)達(dá)成了共識(shí)，為臺(tái)下聽(tīng)眾講解了重要的發(fā)展脈絡(luò)、關(guān)鍵技術(shù)體系和最新進(jìn)展；借著聽(tīng)眾提問(wèn)的機(jī)會(huì)，嘉賓們也在一些問(wèn)題上更具體深入地表達(dá)了自己的觀點(diǎn)。

三維數(shù)據(jù)的采集和表示、三維數(shù)據(jù)的分析和理解還有許多難點(diǎn)遺留，不過(guò)這同時(shí)也是巨大的空間，等待技術(shù)不斷發(fā)展去填補(bǔ)。奧比中光在三維數(shù)據(jù)采集設(shè)備的普及化、小型化方面做出的探索得到了專家們的關(guān)注和認(rèn)可，也將成為這個(gè)領(lǐng)域的學(xué)術(shù)研究和應(yīng)用普及的一股推動(dòng)力量。

未來(lái)更豐富的三維信息、對(duì)三維信息的更充分利用，也會(huì)像現(xiàn)階段的人工智能技術(shù)一樣帶來(lái)更多機(jī)會(huì)和生活便利。雷鋒網(wǎng) AI 科技評(píng)論也會(huì)持續(xù)關(guān)注相關(guān)學(xué)術(shù)研究和技術(shù)普及應(yīng)用，期待下一次的專家學(xué)者聚首以及最新學(xué)術(shù)成果討論。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

10人收藏

相關(guān)文章

楊曉凡

讀論文為生

日常笑點(diǎn)滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章