丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給汪思穎
發(fā)送

0

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

本文作者: 汪思穎 2019-04-26 12:54
導語:與傳統(tǒng)視頻跟蹤不同,本文提出的跟蹤器只需要在模擬器中訓練,節(jié)省人工標記和在現(xiàn)實世界中的試錯調(diào)參。實驗表明,它對未見過的環(huán)境有著良好的泛化能力。

雷鋒網(wǎng) AI 科技評論按:本文是人工智能頂級國際期刊 TPAMI 入選論文《End to end Active Object Tracking and Its Real world Deployment via Reinforcement Learning》的深入解讀,首發(fā)于北京大學前沿計算研究中心,雷鋒網(wǎng) AI 科技評論獲其授權轉(zhuǎn)載。

該論文由騰訊 AI Lab 與北京大學合作共同完成,該研究同時也入選了 2018 騰訊 AI Lab 犀牛鳥專項研究計劃。該論文主要提出了一種基于強化學習的端到端主動目標跟蹤方法,通過自定義獎賞函數(shù)和環(huán)境增強技術在虛擬環(huán)境中訓練得到魯棒的主動跟蹤器,并在真實場景中對模型的泛化能力進行了進一步的驗證。

簡介

主動目標跟蹤是指智能體根據(jù)視覺觀測信息主動控制相機的移動,從而實現(xiàn)對目標物體的跟蹤(與目標保持特定距離)。主動視覺跟蹤在很多真實機器人任務中都有需求,如用無人機跟拍目標拍攝視頻,智能跟隨旅行箱等。然而,傳統(tǒng)的實現(xiàn)方法是將圖像中的目標跟蹤和相機控制分成兩個獨立的任務,這導致系統(tǒng)在進行聯(lián)調(diào)優(yōu)化時變得繁瑣復雜。此外,要單獨實現(xiàn)這兩個任務的代價也是高昂的,既需要大量人工標注目標位置用于訓練跟蹤模塊,也需要在真實系統(tǒng)中通過試錯制定相機控制器參數(shù)。

為了解決上述問題,本文提出一種基于深度強化學習的端到端的解決方案,即用一個 Conv-LSTM 神經(jīng)網(wǎng)絡直接將圖像序列輸入映射成控制信號輸出(如前進、左轉(zhuǎn)等)。為了避免人工標記數(shù)據(jù)和在真實環(huán)境試錯,我們使用仿真環(huán)境進行訓練。我們進一步提出了一種環(huán)境增強技術和自定義的獎賞函數(shù),以保證訓練得到一個魯棒的端到端主動跟蹤器。

實驗證明,在仿真環(huán)境訓練得到的跟蹤器能取得很好的泛化能力,在沒見過的目標外觀、移動軌跡、背景外觀和干擾物體出現(xiàn)等情況下都能較穩(wěn)定工作。當目標偶然消失時,跟蹤器也能魯棒地恢復跟蹤。我們還發(fā)現(xiàn),這種只在仿真器中訓練得到的主動跟蹤器是有可能直接遷移到真實場景中工作的。我們分兩階段實驗,驗證了這種虛擬到現(xiàn)實遷移的能力。首先,我們在 VOT 數(shù)據(jù)集進行了定性測試,即觀察動作輸出的合理性。最終,我們系統(tǒng)解決了虛擬到現(xiàn)實的問題,將主動跟蹤器成功部署在真實移動機器人上,并進行了定量測試。

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

左圖:一個機器人主動跟隨目標移動(圖源:網(wǎng)絡)

右圖:對比基于強化學習的端到端主動跟蹤和傳統(tǒng)的跟蹤方法

主要貢獻

論文的主要貢獻包括:

  1. 一種基于強化學習的端到端主動目標跟蹤的方法;

  2. 設計了一種用于主動跟蹤的獎賞函數(shù)用于訓練,并采用環(huán)境增強技術提升模型泛化能力;

  3. 第一個實現(xiàn)將端到端主動跟蹤器從虛擬環(huán)境遷移部署到現(xiàn)實世界。

本文以之前會議版本(ICML2018)的論文 [1] 為基礎,主要擴展實現(xiàn)了從虛擬到現(xiàn)實的遷移(第三點貢獻),即提供了將在虛擬環(huán)境中訓練獲得的端到端跟蹤器成功部署在真實機器人上的實現(xiàn)方案。具體地,為了克服因虛擬與現(xiàn)實之間的差異帶來的挑戰(zhàn),我們主要考慮解決以下三個問題:

  1. 如何進一步增強環(huán)境來提升模型的泛化能力?

  2. 什么樣的動作空間更適合真實機器人?

  3. 如何將網(wǎng)絡輸出的動作映射成真實的控制信號?

主要方法介紹

首先我們生成了大量的虛擬跟蹤場景用于訓練和測試。然后,我們采用 Conv-LSMT 網(wǎng)絡結構實現(xiàn)端到端的映射(輸入圖像,輸出動作),并用經(jīng)典的強化學習算法 A3C[2] 進行訓練。為了保證訓練的魯棒性和有效性,我們提出了環(huán)境增強方法和設計了獎賞函數(shù)。具體的介紹如下:

跟蹤環(huán)境

強化學習的訓練需要大量試錯,這導致在真實環(huán)境下訓練主動跟蹤器基本上是不可能的。因此,我們基于兩種游戲引擎(VizDoom 和 Unreal Engine)分別構建了不同的跟蹤場景用于訓練和測試,如下圖所示:

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

Vizdoom 環(huán)境的地圖和示例。其中,綠色點代表跟蹤器(箭頭代表方向),灰色點代表目標, 藍線代表規(guī)劃的目標的路徑,黑線代表墻壁。最左邊的場景為訓練環(huán)境,其余場景為測試環(huán)境,包含了不同的目標軌跡、目標外觀、背景顏色,以及干擾物體等情況。

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

Unreal Engine 環(huán)境的地圖和示例。從左到右分別為兩種外觀的目標(Stefani 和 Malcom),兩種軌跡(Paht1 和 Path2)和地圖(Square1 和 Square2),對應的兩種場景的示例,通過不同組合構成了不同的跟蹤場景。我們用其中一種組合進行訓練,其余組合環(huán)境進行測試。

網(wǎng)絡結構

端到端的主動跟蹤器主要由三個部分組成:觀測編碼器(Observation Encoder),序列編碼器(Sequence Encoder)和演員-批評家網(wǎng)絡(Actor-Critic Network)。如下圖所示:

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

每個部件有著特定的功能,都是實現(xiàn)端到端主動跟蹤必不可少的組成部分:

  • 觀測編碼器主要將原始圖像編碼成一個特征向量,作為序列編碼器的輸入。與很多圖像編碼網(wǎng)絡一樣,它通常包含了卷積層、池化層和全連接層等。

  • 序列編碼器將歷史觀測特征進行融合,從而獲得一個包含時序特征的表示,作為后續(xù)演員-批評家網(wǎng)絡的輸入。因為對于主動跟蹤問題而言,除了要識別和定位目標,相應的時序特征(目標的速度、移動方向等)也是至關重要的。一般,它的功能由循環(huán)神經(jīng)網(wǎng)絡來實現(xiàn)。

  • 演員-批評家網(wǎng)絡共享序列編碼器的特征作為輸入,分別輸出近似的價值函數(shù)和動作策略。近似的價值函數(shù)代表著期望的累計獎賞值,主要在訓練時用于計算演員的策略梯度,來更新網(wǎng)絡。當動作空間為離散時,演員輸出選擇每種動作的概率;當動作空間為連續(xù)時,演員輸出每一維度動作的平均值和標準差,并用高斯分布來表示動作分布。實驗中,它們分別由全連接層來實現(xiàn)。

獎賞函數(shù)

在強化學習中,獎賞函數(shù)會引導智能體學習,對最終學習效果起著至關重要的作用。針對主動目標跟蹤任務,我們需要設計一個獎賞函數(shù)以引導智能體學習。最直觀的想法應該是在目標接近期望位置時給與獎勵,在遠離時給與懲罰。因此,我們以跟蹤器為中心定義了一個平行于地面的坐標系,y 軸指向相機前方,x 軸由相機左方指向正右方。對應的,我們用 (x,y) 和 ω 分別表示目標相對跟蹤器的位置和朝向。從而,我們得到了如下一個獎賞函數(shù):

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

其中,A,c,d,λ 均大于 0,為可以調(diào)整的超參, d 代表了期望保持的距離。在這個獎賞函數(shù)引導下,智能體最終學會控制相機位置,保持目標始終在其正前方距離為 d 處。下圖為地圖俯視圖下的示例:

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

綠點代表了跟蹤器,灰點代表了不同位置和朝向(箭頭指向)的目標,虛線與跟蹤器的 y 軸相平行。

環(huán)境增強技術

為了保證模型的泛化能力,我們提出了簡單但有效的環(huán)境增強技術用于訓練。

我們主要采用了以下隨機化方式:

  • 隨機生成跟蹤器和目標的初始位置和朝向

  • 將輸入圖像進行左右鏡像對稱(對應的動作空間也將鏡像對稱)

  • 隨機隱藏一定數(shù)目的背景物體

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

上述三點(細節(jié)見原文),一定程度上保證了跟蹤器的泛化能力。

為了更近一步提升模型的泛化能力以便直接遷移至真實場景,我們對關鍵要素進行了更進一步的隨機化,包括:

  • 目標和背景的表面材質(zhì)(紋理圖案、反射率、粗糙度等);

  • 光照條件(光源位置、方向、顏色和強度);

  • 目標移動(軌跡和移動速度)。具體地,從地圖中隨機選擇一個位置并用內(nèi)置導航模塊生成相應路徑引導目標移動。在移動過程中隨機調(diào)節(jié)速度,其范圍在(0.1m/s, 1.5m/s)之間。

紋理和光照的隨機化主要為了提升觀測編碼器的泛化能力,避免網(wǎng)絡對特定場景和目標外觀過擬合。而目標移動的隨機化是為了提升序列編碼器的泛化能力,避免網(wǎng)絡對特定的移動軌跡過擬合。

下圖為采用上述隨機化方法后生成的示例:

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

實驗驗證

首先,我們分別在 ViZDoom 和 UE 環(huán)境中開展實驗,并在 VOT 數(shù)據(jù)集中定性驗證了模型遷移到真實場景的可能性。之后,我們將介紹如何將主動跟蹤器部署到真實機器人上工作,并分別在兩個室內(nèi)室外真實場景中進行了定量實驗。

在虛擬環(huán)境中進行訓練和測試

這里,我們將展示幾段虛擬環(huán)境中的演示視頻 (實驗細節(jié)可參考原文),展示我們的方法訓練得到的跟蹤器在 VizDoom 和 UE 環(huán)境中的結果。

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

虛擬到真實遷移的可能性

我們選擇了幾段 VOT 數(shù)據(jù)集中的片段定性驗證模型遷移到真實數(shù)據(jù)集的可能性。因為輸出動作無法直接作用到已經(jīng)錄制好的視頻序列,控制下一時刻的觀察,因此我們只能通過觀察當模型輸入給定視頻序列時對應的動作輸出與真實期望的情況是否一致來判定定性分析模型性能,如目標在畫面左邊時,觀察是否輸出左轉(zhuǎn)動作。

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

跟蹤器輸出動作與目標位置和大小的關系。橫坐標代表目標中心相對畫面中心的偏差,縱坐標代表目標包圍框的面積,綠點代表輸出左轉(zhuǎn)動作,紅點代表右轉(zhuǎn)動作,黃點代表停止/后退。

由上圖可見,當目標在左(右)邊上,跟蹤器會傾向于輸出左(右)轉(zhuǎn),以期望通過旋轉(zhuǎn)將目標移動到畫面中心,另外,當目標尺寸變大時,會更傾向于輸出停止/后退動作, 以避免目標尺寸變得過大。以上結果,可以說明當輸入真實圖像時,用純虛擬環(huán)境訓練的主動跟蹤器仍然是可以輸出合理的動作的。但是,用錄制好的視頻作為輸入時,相機無法被跟蹤器所控制,這與真實的主動跟蹤不完全符合,這就無法最終證明我們方法的實際應用價值。因此,我們將開展實驗,將虛擬環(huán)境訓練的主動跟蹤模型遷移到真實機器人上的。

在真實場景中的主動目標跟蹤

我們在增強的虛擬環(huán)境中進行訓練,嘗試了不同動作空間(更多的候選動作,連續(xù)的動作),并直接將訓練得到的模型在不同真實環(huán)境(室內(nèi),室外)中進行測試。

動作空間的選擇

除了采用上文提到的更先進的環(huán)境增強技術,我們還嘗試了不同的動作空間。最早虛擬環(huán)境中的實驗只提供了六種動作,而對于復雜的真實場景,要適應不同的目標速度和運動方向,這是不夠的。因此,我們擴展了原來六種動作至九種,新增的動作有后退和兩種不同速度的前進和后退。加入后退使得機器人可以適應更復雜的軌跡,如目標正面向跟蹤器走來時。不同速度使得機器人可以更好地適應不同的移動速度。下表為九種動作在虛擬和真實場景下的設置(第二列為虛擬環(huán)境,第三列為真實機器人):

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

我們也對連續(xù)動作空間下的表現(xiàn)能力感興趣,因此我們嘗試了一種二維的動作空間,由線速度和角速度組成。具體的虛擬和現(xiàn)實的設置如下表:

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

真實場景實驗設置

我們采用一個輪式機器人進行實驗,如下圖 (a) 中所示。機器人上方固定有一個 RGB-D 攝像頭,離地面約 80cm 高。我們用一個帶有 8 核 Intel CPU 的筆記本電腦作為計算平臺,執(zhí)行圖像采集,神經(jīng)網(wǎng)絡的推理和傳送控制指令至底層控制器等系列任務。每個 50ms (20Hz) 跟蹤器的狀態(tài)和動作會更新迭代一次。

我們分別在室內(nèi)房間下圖 (b) 和室外陽臺下圖 (c) 進行測試,以衡量模型部署到真實場景工作的性能。

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

真實場景實驗的部署設置。(a) 為實驗所用的機器人;(b) (c) 分別為用于測試的室內(nèi)、室外場景。

室內(nèi)房間包括了一張桌子和反射的玻璃墻,玻璃墻會使得機器人在運動過程中觀測到的背景發(fā)生動態(tài)變化。另外,墻上還貼了一張與目標外型接近的海報,可能會對跟蹤者產(chǎn)生干擾。為了控制變量,目標將沿著紅線進行行走。下圖為執(zhí)行連續(xù)動作的主動跟蹤器在室內(nèi)的演示序列。

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

執(zhí)行連續(xù)動作的主動跟蹤器在室內(nèi)場景的觀測與輸出動作的關系。注意,數(shù)值極性對應不同速度方向。至于角速度,正值為左,負值為右。至于線速度,正值為向前,負值為后退。圖像中心的紅點是一個參考點,可以幫助我們標記目標和機器人的相對位置。底部綠條的長度代表速度的大小,水平條代表角速度,垂直條表示線速度。橙色線代表零值。

室外陽臺的背景包含了建筑物、桌子、椅子、植物和天空。相比于室內(nèi)場景,室外陽臺更加復雜,因為物體是隨機雜亂擺放的。另外,由于光線不均勻,相機很難準確曝光,這就需要跟蹤器適應不同曝光程度的圖像觀測(如下圖序列)。測試時,目標將沿著場地行走一圈。

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

一段跟蹤器在室外執(zhí)行離散動作進行跟蹤的序列。紅點代表畫面中心,水平條形代表跟蹤器輸出的期望角速度,垂直的則代表期望線速度。橙線代表零值。

真實場景的實驗結果

我們對跟蹤器在上述兩個真實場景下的性能進行了定量測試,主要考慮模型的準確性和魯棒性。因為在真實場景中我們無法獲得計算獎賞函數(shù)所需要的具體坐標位置,因此我們需要采用其它方式衡量。我們規(guī)定,當跟蹤器讓目標持續(xù)出現(xiàn)在當前畫面當中,直到目標走完全程軌跡,視作一次成功跟蹤,反之,當目標從畫面中持續(xù)消失 3s 以上時,就認為是一次失敗的跟蹤。關于準確度,我們考慮目標大小和目標到畫面中心的偏差兩個指標。目標大小的穩(wěn)定代表了跟蹤器對相對距離的控制能力,目標到畫面中心的偏差代表了跟蹤器對相對夾角的控制能力。我們采用當前流行的檢測器 YOLOv3[3] 來提取目標的包圍框,以計算上述指標。

我們在兩個真實環(huán)境中,分別測試了跟蹤器執(zhí)行離散動作和連續(xù)動作下的性能指標(每種跟蹤器在每個場景中分別執(zhí)行了十次),結果如下表所示:

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

通過上表可見,采取離散動作的跟蹤器在兩個場景中都可以取得更高的成功率。在室外,離散動作可以讓目標大小保持更加穩(wěn)定(更小的方差)。無論是室內(nèi)室外,基于離散動作的跟蹤器都能保證更小的平均偏差。綜合這些結果,說明了采用離散動作可以幫助模型更好更魯棒地遷移到真實場景。我們猜想對動作空間離散化可以使得智能體對場景中的干擾和機器人控制系統(tǒng)的噪聲都更加魯棒,而連續(xù)空間會更加敏感。

下面,我們將分別展示兩段主動跟蹤器在室內(nèi)外真實場景中的演示視頻。

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

總結

在本文中,我們提出了一種基于深度強化學習的端到端主動目標跟蹤方法。與傳統(tǒng)視頻跟蹤不同,我們提出的跟蹤器只需要在模擬器中訓練,節(jié)省人工標記和在現(xiàn)實世界中的試錯調(diào)參。實驗表明,它對未見過的環(huán)境有著良好的泛化能力。通過開發(fā)更先進的環(huán)境增強技術并采用更合適的動作空間,我們已成功將跟蹤器部署在了一個機器人上,在真實世界中實現(xiàn)主動目標跟蹤。

更多細節(jié)和實驗結果請參考原文:

https://ieeexplore.ieee.org/document/8642452/

參考文獻:

[1]Wenhan Luo*, Peng Sun*, Fangwei Zhong, Wei Liu, Tong Zhang, and Yizhou Wang. End-to-end active object tracking via reinforcement learning, In ICML 2018.

[2]V. Mnih, A. P. Badia, M. Mirza, A. Graves, T. Lillicrap, T. Harley, D. Silver, and K. Kavukcuoglu, Asynchronous methods for deep reinforcement learning, in International conference on machine learning, 2016, pp. 1928–1937.

[3]J. Redmon and A. Farhadi, Yolov3: An incremental improvement, arXiv preprint arXiv: 1804.02767, 2018.

TPAMI

IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE TPAMI)是人工智能領域最頂級國際期刊(CCF A 類,SCI 一區(qū),2017 年影響因子 9.455),對論文的原創(chuàng)性有很高的要求,并以嚴苛的審稿過程著稱,每年收錄的論文數(shù)量十分有限。

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

TPAMI | 從虛擬到現(xiàn)實,一種基于強化學習的端到端主動目標跟蹤方法

分享:
相關文章

編輯

關注AI學術,例如論文
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說