丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給栗峰
發(fā)送

0

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

本文作者: 栗峰 編輯:賈偉 2019-10-27 21:38
導(dǎo)語:深入了解何為深度估計~

原文作者:Derrick Mwiti

翻譯:栗峰

校對:Camel

原文標(biāo)題:Research Guide for Depth Estimation with Deep Learning

雷鋒網(wǎng) AI 科技評論編者按:這篇文章介紹了幾篇具有指導(dǎo)意義的論文,助你深入了解何為深度估計。深度估計是一種計算機(jī)視覺任務(wù),旨在從2D圖像中估計深度。這個任務(wù)輸入RGB圖像,輸出深度圖。深度圖包含了從視圖看圖像中的被攝物體距離的信息。

深度估計的應(yīng)用包括:平滑圖像的模糊部分、更好地渲染3D場景、自動駕駛、機(jī)器人抓取、機(jī)器人輔助手術(shù)、電影中的2D到3D的自動轉(zhuǎn)換以及3D計算機(jī)圖形學(xué)中的陰影映射等。

在這篇指南中,我們將介紹幾篇通過深度學(xué)習(xí)來解決這些問題的論文。雷鋒網(wǎng)

1、基于全卷積殘留網(wǎng)絡(luò)的深度預(yù)測(IEEE 2016)

論文標(biāo)題:Deeper Depth Prediction with Fully Convolutional Residual Networks

論文地址:https://arxiv.org/abs/1606.00373v2

這篇論文提出了一種完全卷積架構(gòu),以解決在給定RGB圖像的情況下對場景深度圖進(jìn)行估計的問題。通過殘留學(xué)習(xí)對單目圖像和深度圖之間的模糊映射進(jìn)行建模。反向Huber loss被用來做優(yōu)化。這個模型可在圖像或視頻上實時運行。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

 這篇論文提出的方法是使用CNN進(jìn)行深度估計。該模型是完全卷積的,并包含跟蹤高維回歸問題的有效殘留向上采樣模塊(向上投影)。

網(wǎng)絡(luò)的第一部分基于ResNet50,并使用預(yù)訓(xùn)練的權(quán)值進(jìn)行初始化。第二部分是卷積和解池層的序列,利用它們來指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)其 upscaling 。然后應(yīng)用Dropout,進(jìn)行最后的卷積,得到最終的預(yù)測。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度解池層可提高特征圖譜的空間分辨率。通過將每個條目映射到2 x 2內(nèi)核的左上角實現(xiàn)解池層,從而使大小加倍。每個這樣的層后面是一個5×5的卷積。這個模塊被稱為上卷積。在上卷積之后添加了一個簡單的3×3卷積。投影連接從較低分辨率的特征圖添加到結(jié)果中。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

這篇文章還對上卷積運算進(jìn)行了重新校準(zhǔn),使網(wǎng)絡(luò)的訓(xùn)練時間減少了至少15%。如下圖所示,在左上角,原始的特征圖譜未被合并,并由一個5x5濾波器對其進(jìn)行卷積。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

與其他模型相比,文中提出的模型在NYU Depth v2數(shù)據(jù)集上的表現(xiàn)如下。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度


2、基于影像的深度無監(jiān)督學(xué)習(xí)和自我運動(CVPR 2017)

論文標(biāo)題:Unsupervised Learning of Depth and Ego-Motion from Video (CVPR 2017)

論文鏈接:https://arxiv.org/abs/1704.07813v2

這篇論文的作者提出了一種無監(jiān)督的學(xué)習(xí)框架,用于完成從非結(jié)構(gòu)化視頻序列中進(jìn)行單目深度和攝像頭  移動估計的任務(wù)。這種方法采用單視圖深度和多視圖姿態(tài)網(wǎng)絡(luò)。損失函數(shù)是基于使用計算出的深度和姿態(tài)將附近的視圖變形到目標(biāo)上的結(jié)果。

 8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

作者提出了一種用于聯(lián)合訓(xùn)練未標(biāo)記視頻序列中的單視圖深度CNN和攝像頭姿態(tài)估計CNN的框架。監(jiān)督通道基于視圖合成。深度網(wǎng)絡(luò)將目標(biāo)視圖作為輸入,并輸出每個像素的深度圖。給定圖像中每個像素深度以及附近視圖中的姿態(tài)和可見性,可以合成目標(biāo)視圖。這種合成可以使用CNN作為幾何和姿態(tài)估計模塊以完全可區(qū)分的方式來實現(xiàn)。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度 

作者采用DispNet架構(gòu),這種架構(gòu)是一個具有跳過連接和多尺度側(cè)面預(yù)測的編碼-解碼的設(shè)計。除了預(yù)測層外,其他所有卷積層都使用ReLU激活函數(shù)。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

與所有原視圖連接的目標(biāo)視圖構(gòu)成了姿態(tài)估計網(wǎng)絡(luò)的輸入。輸出是目標(biāo)視圖和每個原視圖之間的相對姿態(tài)。該網(wǎng)絡(luò)由7個stride-2卷積以及緊隨其后的1 x 1卷積和 6 ?(N -1)個輸出通道組成,這些對應(yīng)于每個源的3個歐拉角和3D平移。全局平均值應(yīng)用于所有空間位置的合成預(yù)測。除了最后的卷積層(其中應(yīng)用了非線性激活)之外,所有其他卷積層之后都帶有ReLU激活函數(shù)。

可解釋性預(yù)測網(wǎng)絡(luò)與姿態(tài)網(wǎng)絡(luò)共享前五個特征編碼層。隨后是具有多尺度側(cè)面預(yù)測的5個反卷積層。除預(yù)測層外,所有所有conv 或deconv層后均跟隨ReLU激活函數(shù)。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度 

與其他模型相比,這個模型的性能如下所示:

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度


3、具有左右一致性的無監(jiān)督單目深度估計(CVPR,2017)

論文標(biāo)題:Unsupervised Monocular Depth Estimation with Left-Right Consistency

論文鏈接:https://arxiv.org/abs/1609.03677v3

這篇論文提出了一種不需要基準(zhǔn)深度數(shù)據(jù)就能進(jìn)行單個圖像深度估計的卷積神經(jīng)網(wǎng)絡(luò)。作者提出了一種網(wǎng)絡(luò)體系結(jié)構(gòu),該體系結(jié)構(gòu)執(zhí)行端到端的無監(jiān)督單目深度估計,而訓(xùn)練損失函數(shù)會強(qiáng)制網(wǎng)絡(luò)內(nèi)部左右深度的一致性。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

網(wǎng)絡(luò)通過推斷使左邊圖像變形,匹配右邊圖像的視覺差異,從而來估計深度。左邊輸入的圖像用于推斷左向右和右向左的視覺差異。該網(wǎng)絡(luò)使用雙線性采樣器生成具有向后映射的預(yù)測圖像。這就形成了一個完全可區(qū)分的圖像形成模型。

這種卷積的結(jié)構(gòu)的靈感來源于DispNet。它由兩個部分組成,編碼器和解碼器。解碼器使用來自編碼器激活模塊的跳過連接(skip connections)來解析更高分辨率的細(xì)節(jié)。該網(wǎng)絡(luò)預(yù)測了兩種視覺差異圖,從左到右和從右到左。

 8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

在訓(xùn)練過程中,網(wǎng)絡(luò)通過從相反的立體圖像中采樣像素來生成圖像。圖像形成模型使用來自 spatial transformer網(wǎng)絡(luò)(STN)的圖像采樣器并結(jié)合視差圖對輸入圖像進(jìn)行采樣。這里使用的雙線性樣本是局部可區(qū)分的。

以下是在 KITTI 2015 stereo 200 訓(xùn)練集視差圖像上獲得的結(jié)果:

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度


4、基于3D幾何約束的單目視頻深度無監(jiān)督學(xué)習(xí)和自我運動(2018)

論文標(biāo)題:Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints

論文鏈接:https://arxiv.org/abs/1802.05522v2

這篇論文的作者提出了一種從單個攝像頭拍攝的視頻中進(jìn)行深度無監(jiān)督學(xué)習(xí)和自我運動(Ego-Motion)的方法。它考慮了推斷出的整個場景的3D幾何形狀,并在連續(xù)的幀之間增強(qiáng)了估計的3D點云和自我運動的一致性。這篇文章還采用了反向傳播算法來對齊3D結(jié)構(gòu)。該模型在KITTI數(shù)據(jù)集上進(jìn)行了測試,并在手機(jī)攝像頭上捕獲了視頻數(shù)據(jù)集。

無監(jiān)督的學(xué)習(xí)深度取決于視頻中是否存在自我運動。該網(wǎng)絡(luò)根據(jù)視頻中的兩個連續(xù)幀產(chǎn)生單視圖深度估計。自我運動的估計也是從這兩個連續(xù)的幀中產(chǎn)生的。

訓(xùn)練模型的監(jiān)督任務(wù)是通過要求相鄰幀的深度和自我運動估計值保持一致實現(xiàn)的。作者提出了一種在不依賴于圖像重建進(jìn)行反向傳播的情況下懲罰估計深度不一致性的損失函數(shù)。

 8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

這是在KITTI 特征測試集上得到的結(jié)果。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

5、無傳感器的深度預(yù)測:利用單目視頻實現(xiàn)的無監(jiān)督學(xué)習(xí)結(jié)構(gòu)(AAAI 2019)

論文標(biāo)題:Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos

論文鏈接:https://arxiv.org/abs/1811.06152v1

這篇論文研究的是場景深度和機(jī)器人自我運動的無監(jiān)督學(xué)習(xí)任務(wù),其中監(jiān)督是由單目視頻提供的,其實現(xiàn)則是在學(xué)習(xí)過程中引入幾何結(jié)構(gòu)。它包括對場景和單個被攝物體、攝像頭的自我運動和從單目視頻輸入中獲悉的被攝物體的移動數(shù)據(jù)進(jìn)行建模。在文中作者還介紹了一種在線優(yōu)化的方法。

作者介紹了一種與自我運動網(wǎng)絡(luò)具有相同體系結(jié)構(gòu)的被攝物體運動模型。不過,它的作用則是專門用來預(yù)測3D中單個被攝物體運動的。這個模型以RGB圖像序列作為輸入,由預(yù)先計算的實例分割掩模作為補(bǔ)充。運動模型的工作就是學(xué)習(xí)預(yù)測3D空間中每個被攝物體的變換向量,這將能夠在相應(yīng)的目標(biāo)幀中創(chuàng)建觀察到的被攝物體外觀。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

下圖顯示了使用這個模型得到的結(jié)果:

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度


6、PlaneNet:基于單個RGB圖像進(jìn)行分段平面重建(CVPR 2018)

論文標(biāo)題:PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image

論文鏈接:https://arxiv.org/abs/1804.06278v1

本文提出了一種用于從單個RGB圖像進(jìn)行分段重建平面深度圖的深度神經(jīng)網(wǎng)絡(luò)——PlaneNet。

PlaneNet能夠?qū)W習(xí)從單個RGB圖像中推斷出一組平面參數(shù)和相應(yīng)的平面分割掩模。這里定義的損失函數(shù)與平面的順序無關(guān)。此外,這個網(wǎng)絡(luò)可以在一個非平面的表面上進(jìn)行深度圖的推斷,其損失函數(shù)為了允許反向傳播,采用了概率分割掩模。 

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

PlaneNet是建立在擴(kuò)展殘留網(wǎng)絡(luò)(DRN)上的。給定DRN的高分辨率最終特征圖,可以組成三個預(yù)測任務(wù)的三個輸出分支,分別為平面參數(shù)、非平面深度圖和分割掩模。平面參數(shù)分支具有全局平均池,可以將特征圖的大小減小到1x1。然后是一個完全連接的層,以生成K×3平面參數(shù),這里K是預(yù)測的恒定平面數(shù)。最后定義了基于Chamfer距離度量回歸平面參數(shù)的不可知順序損失函數(shù)(order-agnostic loss function)。

平面分割分支從金字塔池模塊開始,然后是卷積層(用來生成平面和非平面表面的通道似然圖)。在快速推理算法的基礎(chǔ)上,再增加一個密集條件DCRF模塊。DCRF模塊是與上述各層聯(lián)合訓(xùn)練的。隨后使用標(biāo)準(zhǔn)的Softmax交叉熵?fù)p失對分割訓(xùn)練進(jìn)行監(jiān)督。

非平面深度分支共享相同的金字塔池化模塊,后面跟著一個產(chǎn)生單通道深度圖的卷積層。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

下面是對NYUv2數(shù)據(jù)集深度精度的比較:

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

7、具有結(jié)構(gòu)和語義的無監(jiān)督單目深度和自我運動學(xué)習(xí)(AAAI 19)

論文標(biāo)題:Unsupervised Monocular Depth and Ego-motion Learning with Structure and Semantics

論文鏈接:https://arxiv.org/abs/1906.05717v1

這篇論文所提出的方法結(jié)合了深度無監(jiān)督單目學(xué)習(xí)和自我運動學(xué)習(xí)的結(jié)構(gòu)和語義。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

這篇論文所提出的方法能夠通過對被攝物體運動進(jìn)行建模來對動態(tài)場景進(jìn)行建模,并且還可以適應(yīng)可選的在線優(yōu)化技術(shù)。對單個被攝物體運動的建模使這種方法能夠處理高度動態(tài)的場景。這主要是通過在模型中引入的第三個組件實現(xiàn)的,該組件可以預(yù)測被攝物體在3D場景中的運動,它使用了與自我運動網(wǎng)絡(luò)中相同的網(wǎng)絡(luò)結(jié)構(gòu),不同的地方在于,它進(jìn)行了權(quán)值的訓(xùn)練。運動模型預(yù)測了3D空間中每個被攝物體的變換向量。當(dāng)應(yīng)用于攝像頭時,這將在相應(yīng)的目標(biāo)幀中創(chuàng)建所觀察到的被攝物體的外觀。最后的變形結(jié)果是運動被攝物體的個體變形與自我運動的結(jié)合。其中自我運動則是先掩蓋圖像中的對象運動計算得來的。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

以下是在 KITTI數(shù)據(jù)集上得到的結(jié)果: 

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

8、通過觀看《冰雪奇緣》了解移動人物的深度(CVPR 2019)

論文標(biāo)題:Learning the Depths of Moving People by Watching Frozen People

論文鏈接:https://arxiv.org/abs/1904.11111

這篇論文介紹的方法可預(yù)測在單目攝像頭和場景中的人在自由移動的情況下的密集深度。這種方法首先從模仿人體模特的網(wǎng)絡(luò)視頻中學(xué)習(xí)人類的深度,它能夠利用場景靜態(tài)區(qū)域的運動視差線索來指導(dǎo)深度預(yù)測。

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

作者從YouTube中獲得3D數(shù)據(jù),并用它們進(jìn)行監(jiān)督訓(xùn)練;這些視頻構(gòu)成了新的人體模型挑戰(zhàn)數(shù)據(jù)集(Mannequin Challenge (MC) dataset)。作者設(shè)計了一種以RGB圖像、人類區(qū)域掩模和環(huán)境初始深度為輸入的深度神經(jīng)網(wǎng)絡(luò)。

然后,它在整個圖像上輸出密集的深度圖。這個模型生成的深度圖可用于產(chǎn)生3D效果,如合成景深效果、深度感知修補(bǔ)、將虛擬被攝物體正確遮擋插入到3D場景中等。

本文的深度預(yù)測模型本質(zhì)上是以有監(jiān)督(MC數(shù)據(jù)集)的方式建立的。網(wǎng)絡(luò)的完整輸入包括參考圖像、人體區(qū)域的二進(jìn)制掩模、運動視差估計的深度圖、置信度圖和可選的人體關(guān)鍵點圖。利用這些輸入,網(wǎng)絡(luò)可以預(yù)測整個場景的完整深度圖。該網(wǎng)絡(luò)的架構(gòu)是沙漏網(wǎng)絡(luò)(hourglass network)的一個變體,其中的最近鄰上采樣層被雙線性上采樣層所取代。 

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

下面是從這個模型得到的結(jié)果:

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

via:https://heartbeat.fritz.ai/research-guide-for-depth-estimation-with-deep-learning-1a02a439b834

雷鋒網(wǎng)報道。

【封面圖片來源:網(wǎng)站名deviantart,所有者:deviantart】

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

8篇論文深入學(xué)習(xí)深度估計:深度預(yù)測;自我運動學(xué)習(xí);觀看《冰雪奇緣》了解移動人物深度

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說