UC伯克利聯(lián)合谷歌推出無監(jiān)督深度學習框架，模仿人眼實現(xiàn)視頻中的自我運動認知

本文作者：楊文

編輯：郭奕欣

2017-05-03 18:13

專題：CVPR 2017

導語：為了非結(jié)構(gòu)化視頻順序中的單鏡深度和攝像機移動判斷任務(wù)，UC伯克利聯(lián)合谷歌提出了一個無監(jiān)督學習框架。

雷鋒網(wǎng)AI科技評論：無監(jiān)督學習可以說是深度學習的未來，本文第一作者Tinghui Zhou是加州大學伯克利分校電氣工程與計算機科學學院的博士生，師從Alexei (Alyosha) Efros教授。本文是他與谷歌的 Matthew Brown、Noah Snavely與 David Lowe一同合作，此論文入選 CVPR 2017 oral paper。以下為雷鋒網(wǎng)AI科技評論據(jù)論文內(nèi)容進行的部分編譯。

UC伯克利聯(lián)合谷歌推出無監(jiān)督深度學習框架，模仿人眼實現(xiàn)視頻中的自我運動認知

論文摘要

為了非結(jié)構(gòu)化視頻順序中的單鏡深度和攝像機移動判斷任務(wù)，我們提出了一個無監(jiān)督學習框架。我們使用了一個端到端視圖合成的學習方法來作為信號監(jiān)督。和以前的工作相比，我們的方法是完全無監(jiān)督，只需要單鏡視頻順序的訓練。我們的方法運用了單視圖深度和多視圖姿勢網(wǎng)絡(luò)和基于目標附近視圖的翹曲損失來計算深度和姿勢。通過來訓練過程中的損失，網(wǎng)絡(luò)被聯(lián)結(jié)，但是在測試時可以獨立應(yīng)用。在KITTI數(shù)據(jù)組以實驗為依據(jù)的評估也證明了我們方法的有效性。1）單鏡深度表現(xiàn)和運用深度訓練或groud-truth（真實值）的監(jiān)督方法對比。2）在可比較輸入設(shè)置下姿勢判斷表現(xiàn)和已建立的SLAM系統(tǒng)比較。

論文概述

人類有能力甚至于在一個很短的時刻就能判斷自我運動和一個場景中的3D結(jié)構(gòu)。例如，穿過街道，我們可以輕松識別障礙物并能作出快速反應(yīng)去繞過它們。多年的計算機幾何視覺研究并沒達到重現(xiàn)真實世界場景的相似的建模能力。

人類為什么在這個任務(wù)上具有優(yōu)勢呢？一個假設(shè)是我們通過過去的視覺經(jīng)驗進化出了一個豐富的，有結(jié)構(gòu)層次的理解力。大量場景的留心觀察和四處走動和我們發(fā)現(xiàn)的在發(fā)展中的一致模型。通過數(shù)百萬這樣的發(fā)現(xiàn)，我們認識到了這個世界的規(guī)律性——路是平的，建筑是直立的。汽車需要路面的支撐等等。當我們進入一個新場景，甚至是一個單一的單眼圖像，我們可以運用這些認知。

實驗：單視圖深度和多視圖姿勢判斷。

UC伯克利聯(lián)合谷歌推出無監(jiān)督深度學習框架，模仿人眼實現(xiàn)視頻中的自我運動認知

圖1

圖1，對于我們系統(tǒng)訓練數(shù)據(jù)的無標簽圖像順序捕捉是從不同的角度顯現(xiàn)，圖像的姿勢不提供。我們的訓練程序產(chǎn)生兩個單獨運行的模型，一個是單視圖深度預測，另一個是多視圖攝像機姿勢判斷。

在這個實驗中，我們模仿這個方法，通過訓練一個模型，遵循圖像和目標的順序去解釋他的觀察，我們采用端到端的方法讓模型直接從輸入的像素繪出一個自我運動的判斷和基礎(chǔ)的圖像結(jié)構(gòu)。我們尤其是受到前期工作的靈感啟發(fā)，把視圖合成作為一個單位度量。并且近期在端對端框架多視圖3D案例中解決了標準化問題。我們的方法是無監(jiān)督的并且只需要使用有先后順序的圖像就可以訓練，不需要手工標記甚至攝像機運動信息。我們的方法是建立在對幾何視圖綜合系統(tǒng)的深刻見解之上的。只有當幾何場景的中間預測以及攝像機姿勢和物理真實值相一致的時候，系統(tǒng)才能運行流暢。

對于特定類型的場景，當未完成的幾何或姿勢判斷會欺騙合理的綜合視圖。（例如，質(zhì)感缺失）同樣的模型如果呈現(xiàn)給另一類擁有多樣布局和外觀結(jié)構(gòu)的場景將會非常失敗。所以，我們的目標是構(gòu)想出全部的視圖綜合傳遞途徑作為卷積神經(jīng)網(wǎng)絡(luò)的推斷程序。所以，為了視圖合成的元任務(wù)而基于大規(guī)模視頻數(shù)據(jù)來訓練網(wǎng)絡(luò)是被強制來學習中間的深度任務(wù)，攝像機姿勢判斷是為了想出和視覺世界一致的解釋。單視圖深度和攝像機姿勢判斷研究方法的有效性已在KITTI上證明。

研究方法

為了能使單視圖深度卷積神經(jīng)網(wǎng)絡(luò)和攝像機姿勢判斷從未標記視頻序列一起訓練，我們提出了一個框架。盡管是一起訓練，深度模型和姿勢判斷模型可以在測試結(jié)論過程中單獨運行。給我們模型的訓練樣本包括由移動攝像機捕捉到的圖片序列。

UC伯克利聯(lián)合谷歌推出無監(jiān)督深度學習框架，模仿人眼實現(xiàn)視頻中的自我運動認知

圖2

圖2，基于視圖綜合的監(jiān)督途徑的概述。深度網(wǎng)絡(luò)只需將目標視圖作為輸入，然后在深度地圖上輸出相應(yīng)的像素點D? t (p)。姿勢網(wǎng)絡(luò)要提取目標視圖(It )和目標附近的視圖(e.g., It?1 and It+1 )作為輸入，并且輸出相關(guān)的攝像機姿勢(T?t→t?1 , T?t→t+1 ).兩種網(wǎng)絡(luò)的輸出使原始視圖發(fā)生倒轉(zhuǎn)。重建目標視圖，光度測定的重建損失用來訓練卷積神經(jīng)網(wǎng)絡(luò)。通過利用視圖合成作為監(jiān)督，我們能夠以一種無監(jiān)督方式從視頻中來訓練剩余框架。

我們先假設(shè)我們感興趣的是大多數(shù)不動的場景?？缭讲煌目蚣埽瑘鼍巴庥^隨著變化，最終由攝像機運動主宰場景變化。

對深度卷積神經(jīng)網(wǎng)絡(luò)和姿勢預測的關(guān)鍵監(jiān)督信號來自于異常視圖合成：給一個視圖場景的輸入，從不同的攝像機姿勢合成一個場景的新圖像。我們可以合成一個目標視圖，在新圖像上給出像素深度，在視圖附近附加上姿勢和清晰度。正如我們下一步要展示的，這個合成過程伴隨著卷積神經(jīng)網(wǎng)絡(luò)以一種完全可辨的方式運行。清晰度可以隨著非剛性和其他非模型因素被控制。

UC伯克利聯(lián)合谷歌推出無監(jiān)督深度學習框架，模仿人眼實現(xiàn)視頻中的自我運動認知

圖3

圖3，可辨的圖形翹曲過程如圖所示。對于目標視圖的每一個點Pt,我們首先把它投射到基于預知深度和攝像機姿勢的原始視圖，然后利用雙線性插值在目標位置Pt得出翹曲值。

實驗結(jié)論

1）單視圖深度判斷

我們把連續(xù)的圖片分為三部分畫面，并把中間的畫面作為目標視圖，前后的畫面作為原始視圖。我們使用彩色相機一起捕捉這些圖像，但是當形成訓練序列時，要對他們單獨處理。結(jié)果一共是44540張序列圖片，我們使用其中的40109張來訓練，4431張用來確認。單鏡視頻中用無監(jiān)督學習方式來學習單視圖深度判斷，我們是第一個。這里我們提供和之前采用深度監(jiān)督的學習方法以及最近采用標準立體圖片來訓練的方法對比。因為采用我們方法的深度預測由刻度因素來確定。

UC伯克利聯(lián)合谷歌推出無監(jiān)督深度學習框架，模仿人眼實現(xiàn)視頻中的自我運動認知

圖4

圖4提供了視覺對比的例子，我們的結(jié)果和基于大規(guī)模樣本的監(jiān)督學習之間的對比，其中可以看到的是通過無監(jiān)督方式訓練，我們得到的結(jié)果和監(jiān)督學習得到的結(jié)果是相當?shù)摹Ｆ渲性诒４嫔疃冉缦藓腿踅Y(jié)構(gòu)上，比如樹和街燈，表現(xiàn)的更好。

最后兩排我們的模型表現(xiàn)出了典型的錯誤，在巨大的空曠場景和目標物離攝像機太近時，表現(xiàn)的很吃力。

UC伯克利聯(lián)合谷歌推出無監(jiān)督深度學習框架，模仿人眼實現(xiàn)視頻中的自我運動認知

圖5

在圖5，我們展示了通過我們最初的Cityscapes模型和最終模型的得到的樣本預測。由于在這兩個數(shù)據(jù)集中存在域名間隙，Cityscapes模型有時在還原汽車或灌木叢的完整形狀有點困難，并且目標太遠就會判斷錯誤。

2）姿勢判斷

為了評估我們的姿勢判斷網(wǎng)絡(luò)的表現(xiàn)，我們將我們的系統(tǒng)應(yīng)用到官方KITTI測程法（包括11次駕駛序列通過IMU/GPS讀取的真實測程值）使用00-08來訓練，使用09-10序列來測試。在這次試驗中，我們把輸入到我們系統(tǒng)中圖像固定為5部分。我們把自我運動判斷和兩種單鏡ORB-SLAM（一個廣為大家接受的SLAM系統(tǒng)）的變體相比較，1）ORB-SLAM(全)使用了駕駛序列的全部片段來還原里程。2）ORB-SLAM(短)只使用了5小段（和我們輸入設(shè)置一樣）。

UC伯克利聯(lián)合谷歌推出無監(jiān)督深度學習框架，模仿人眼實現(xiàn)視頻中的自我運動認知

圖6

圖6 當側(cè)旋角小的時候，我們的方法是明顯優(yōu)于ORB-SLAM(short)的，和ORB-SLAM(FULL)整個過程的效果是相當?shù)摹Ｎ覀兊姆椒ê蚈RB-SLAM(short)大的表現(xiàn)差距說明我們的自我學習運動在單鏡SLAM系統(tǒng)中的局部判斷模塊很用潛力被運用。

作者Tinghui Zhou也將實驗代碼在GitHub開源: https: //github.com/tinghuiz/SfMLearner

via berkeley，雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。