0
本文作者: 汪思穎 | 2019-04-26 12:54 |
雷鋒網(wǎng) AI 科技評(píng)論按:本文是人工智能頂級(jí)國(guó)際期刊 TPAMI 入選論文《End to end Active Object Tracking and Its Real world Deployment via Reinforcement Learning》的深入解讀,首發(fā)于北京大學(xué)前沿計(jì)算研究中心,雷鋒網(wǎng) AI 科技評(píng)論獲其授權(quán)轉(zhuǎn)載。
該論文由騰訊 AI Lab 與北京大學(xué)合作共同完成,該研究同時(shí)也入選了 2018 騰訊 AI Lab 犀牛鳥專項(xiàng)研究計(jì)劃。該論文主要提出了一種基于強(qiáng)化學(xué)習(xí)的端到端主動(dòng)目標(biāo)跟蹤方法,通過自定義獎(jiǎng)賞函數(shù)和環(huán)境增強(qiáng)技術(shù)在虛擬環(huán)境中訓(xùn)練得到魯棒的主動(dòng)跟蹤器,并在真實(shí)場(chǎng)景中對(duì)模型的泛化能力進(jìn)行了進(jìn)一步的驗(yàn)證。
簡(jiǎn)介
主動(dòng)目標(biāo)跟蹤是指智能體根據(jù)視覺觀測(cè)信息主動(dòng)控制相機(jī)的移動(dòng),從而實(shí)現(xiàn)對(duì)目標(biāo)物體的跟蹤(與目標(biāo)保持特定距離)。主動(dòng)視覺跟蹤在很多真實(shí)機(jī)器人任務(wù)中都有需求,如用無人機(jī)跟拍目標(biāo)拍攝視頻,智能跟隨旅行箱等。然而,傳統(tǒng)的實(shí)現(xiàn)方法是將圖像中的目標(biāo)跟蹤和相機(jī)控制分成兩個(gè)獨(dú)立的任務(wù),這導(dǎo)致系統(tǒng)在進(jìn)行聯(lián)調(diào)優(yōu)化時(shí)變得繁瑣復(fù)雜。此外,要單獨(dú)實(shí)現(xiàn)這兩個(gè)任務(wù)的代價(jià)也是高昂的,既需要大量人工標(biāo)注目標(biāo)位置用于訓(xùn)練跟蹤模塊,也需要在真實(shí)系統(tǒng)中通過試錯(cuò)制定相機(jī)控制器參數(shù)。
為了解決上述問題,本文提出一種基于深度強(qiáng)化學(xué)習(xí)的端到端的解決方案,即用一個(gè) Conv-LSTM 神經(jīng)網(wǎng)絡(luò)直接將圖像序列輸入映射成控制信號(hào)輸出(如前進(jìn)、左轉(zhuǎn)等)。為了避免人工標(biāo)記數(shù)據(jù)和在真實(shí)環(huán)境試錯(cuò),我們使用仿真環(huán)境進(jìn)行訓(xùn)練。我們進(jìn)一步提出了一種環(huán)境增強(qiáng)技術(shù)和自定義的獎(jiǎng)賞函數(shù),以保證訓(xùn)練得到一個(gè)魯棒的端到端主動(dòng)跟蹤器。
實(shí)驗(yàn)證明,在仿真環(huán)境訓(xùn)練得到的跟蹤器能取得很好的泛化能力,在沒見過的目標(biāo)外觀、移動(dòng)軌跡、背景外觀和干擾物體出現(xiàn)等情況下都能較穩(wěn)定工作。當(dāng)目標(biāo)偶然消失時(shí),跟蹤器也能魯棒地恢復(fù)跟蹤。我們還發(fā)現(xiàn),這種只在仿真器中訓(xùn)練得到的主動(dòng)跟蹤器是有可能直接遷移到真實(shí)場(chǎng)景中工作的。我們分兩階段實(shí)驗(yàn),驗(yàn)證了這種虛擬到現(xiàn)實(shí)遷移的能力。首先,我們?cè)?VOT 數(shù)據(jù)集進(jìn)行了定性測(cè)試,即觀察動(dòng)作輸出的合理性。最終,我們系統(tǒng)解決了虛擬到現(xiàn)實(shí)的問題,將主動(dòng)跟蹤器成功部署在真實(shí)移動(dòng)機(jī)器人上,并進(jìn)行了定量測(cè)試。
左圖:一個(gè)機(jī)器人主動(dòng)跟隨目標(biāo)移動(dòng)(圖源:網(wǎng)絡(luò))
右圖:對(duì)比基于強(qiáng)化學(xué)習(xí)的端到端主動(dòng)跟蹤和傳統(tǒng)的跟蹤方法
主要貢獻(xiàn)
論文的主要貢獻(xiàn)包括:
一種基于強(qiáng)化學(xué)習(xí)的端到端主動(dòng)目標(biāo)跟蹤的方法;
設(shè)計(jì)了一種用于主動(dòng)跟蹤的獎(jiǎng)賞函數(shù)用于訓(xùn)練,并采用環(huán)境增強(qiáng)技術(shù)提升模型泛化能力;
第一個(gè)實(shí)現(xiàn)將端到端主動(dòng)跟蹤器從虛擬環(huán)境遷移部署到現(xiàn)實(shí)世界。
本文以之前會(huì)議版本(ICML2018)的論文 [1] 為基礎(chǔ),主要擴(kuò)展實(shí)現(xiàn)了從虛擬到現(xiàn)實(shí)的遷移(第三點(diǎn)貢獻(xiàn)),即提供了將在虛擬環(huán)境中訓(xùn)練獲得的端到端跟蹤器成功部署在真實(shí)機(jī)器人上的實(shí)現(xiàn)方案。具體地,為了克服因虛擬與現(xiàn)實(shí)之間的差異帶來的挑戰(zhàn),我們主要考慮解決以下三個(gè)問題:
如何進(jìn)一步增強(qiáng)環(huán)境來提升模型的泛化能力?
什么樣的動(dòng)作空間更適合真實(shí)機(jī)器人?
如何將網(wǎng)絡(luò)輸出的動(dòng)作映射成真實(shí)的控制信號(hào)?
主要方法介紹
首先我們生成了大量的虛擬跟蹤場(chǎng)景用于訓(xùn)練和測(cè)試。然后,我們采用 Conv-LSMT 網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)端到端的映射(輸入圖像,輸出動(dòng)作),并用經(jīng)典的強(qiáng)化學(xué)習(xí)算法 A3C[2] 進(jìn)行訓(xùn)練。為了保證訓(xùn)練的魯棒性和有效性,我們提出了環(huán)境增強(qiáng)方法和設(shè)計(jì)了獎(jiǎng)賞函數(shù)。具體的介紹如下:
跟蹤環(huán)境
強(qiáng)化學(xué)習(xí)的訓(xùn)練需要大量試錯(cuò),這導(dǎo)致在真實(shí)環(huán)境下訓(xùn)練主動(dòng)跟蹤器基本上是不可能的。因此,我們基于兩種游戲引擎(VizDoom 和 Unreal Engine)分別構(gòu)建了不同的跟蹤場(chǎng)景用于訓(xùn)練和測(cè)試,如下圖所示:
Vizdoom 環(huán)境的地圖和示例。其中,綠色點(diǎn)代表跟蹤器(箭頭代表方向),灰色點(diǎn)代表目標(biāo), 藍(lán)線代表規(guī)劃的目標(biāo)的路徑,黑線代表墻壁。最左邊的場(chǎng)景為訓(xùn)練環(huán)境,其余場(chǎng)景為測(cè)試環(huán)境,包含了不同的目標(biāo)軌跡、目標(biāo)外觀、背景顏色,以及干擾物體等情況。
Unreal Engine 環(huán)境的地圖和示例。從左到右分別為兩種外觀的目標(biāo)(Stefani 和 Malcom),兩種軌跡(Paht1 和 Path2)和地圖(Square1 和 Square2),對(duì)應(yīng)的兩種場(chǎng)景的示例,通過不同組合構(gòu)成了不同的跟蹤場(chǎng)景。我們用其中一種組合進(jìn)行訓(xùn)練,其余組合環(huán)境進(jìn)行測(cè)試。
網(wǎng)絡(luò)結(jié)構(gòu)
端到端的主動(dòng)跟蹤器主要由三個(gè)部分組成:觀測(cè)編碼器(Observation Encoder),序列編碼器(Sequence Encoder)和演員-批評(píng)家網(wǎng)絡(luò)(Actor-Critic Network)。如下圖所示:
每個(gè)部件有著特定的功能,都是實(shí)現(xiàn)端到端主動(dòng)跟蹤必不可少的組成部分:
觀測(cè)編碼器主要將原始圖像編碼成一個(gè)特征向量,作為序列編碼器的輸入。與很多圖像編碼網(wǎng)絡(luò)一樣,它通常包含了卷積層、池化層和全連接層等。
序列編碼器將歷史觀測(cè)特征進(jìn)行融合,從而獲得一個(gè)包含時(shí)序特征的表示,作為后續(xù)演員-批評(píng)家網(wǎng)絡(luò)的輸入。因?yàn)閷?duì)于主動(dòng)跟蹤問題而言,除了要識(shí)別和定位目標(biāo),相應(yīng)的時(shí)序特征(目標(biāo)的速度、移動(dòng)方向等)也是至關(guān)重要的。一般,它的功能由循環(huán)神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)。
演員-批評(píng)家網(wǎng)絡(luò)共享序列編碼器的特征作為輸入,分別輸出近似的價(jià)值函數(shù)和動(dòng)作策略。近似的價(jià)值函數(shù)代表著期望的累計(jì)獎(jiǎng)賞值,主要在訓(xùn)練時(shí)用于計(jì)算演員的策略梯度,來更新網(wǎng)絡(luò)。當(dāng)動(dòng)作空間為離散時(shí),演員輸出選擇每種動(dòng)作的概率;當(dāng)動(dòng)作空間為連續(xù)時(shí),演員輸出每一維度動(dòng)作的平均值和標(biāo)準(zhǔn)差,并用高斯分布來表示動(dòng)作分布。實(shí)驗(yàn)中,它們分別由全連接層來實(shí)現(xiàn)。
獎(jiǎng)賞函數(shù)
在強(qiáng)化學(xué)習(xí)中,獎(jiǎng)賞函數(shù)會(huì)引導(dǎo)智能體學(xué)習(xí),對(duì)最終學(xué)習(xí)效果起著至關(guān)重要的作用。針對(duì)主動(dòng)目標(biāo)跟蹤任務(wù),我們需要設(shè)計(jì)一個(gè)獎(jiǎng)賞函數(shù)以引導(dǎo)智能體學(xué)習(xí)。最直觀的想法應(yīng)該是在目標(biāo)接近期望位置時(shí)給與獎(jiǎng)勵(lì),在遠(yuǎn)離時(shí)給與懲罰。因此,我們以跟蹤器為中心定義了一個(gè)平行于地面的坐標(biāo)系,y 軸指向相機(jī)前方,x 軸由相機(jī)左方指向正右方。對(duì)應(yīng)的,我們用 (x,y) 和 ω 分別表示目標(biāo)相對(duì)跟蹤器的位置和朝向。從而,我們得到了如下一個(gè)獎(jiǎng)賞函數(shù):
其中,A,c,d,λ 均大于 0,為可以調(diào)整的超參, d 代表了期望保持的距離。在這個(gè)獎(jiǎng)賞函數(shù)引導(dǎo)下,智能體最終學(xué)會(huì)控制相機(jī)位置,保持目標(biāo)始終在其正前方距離為 d 處。下圖為地圖俯視圖下的示例:
綠點(diǎn)代表了跟蹤器,灰點(diǎn)代表了不同位置和朝向(箭頭指向)的目標(biāo),虛線與跟蹤器的 y 軸相平行。
環(huán)境增強(qiáng)技術(shù)
為了保證模型的泛化能力,我們提出了簡(jiǎn)單但有效的環(huán)境增強(qiáng)技術(shù)用于訓(xùn)練。
我們主要采用了以下隨機(jī)化方式:
隨機(jī)生成跟蹤器和目標(biāo)的初始位置和朝向
將輸入圖像進(jìn)行左右鏡像對(duì)稱(對(duì)應(yīng)的動(dòng)作空間也將鏡像對(duì)稱)
隨機(jī)隱藏一定數(shù)目的背景物體
上述三點(diǎn)(細(xì)節(jié)見原文),一定程度上保證了跟蹤器的泛化能力。
為了更近一步提升模型的泛化能力以便直接遷移至真實(shí)場(chǎng)景,我們對(duì)關(guān)鍵要素進(jìn)行了更進(jìn)一步的隨機(jī)化,包括:
目標(biāo)和背景的表面材質(zhì)(紋理圖案、反射率、粗糙度等);
光照條件(光源位置、方向、顏色和強(qiáng)度);
目標(biāo)移動(dòng)(軌跡和移動(dòng)速度)。具體地,從地圖中隨機(jī)選擇一個(gè)位置并用內(nèi)置導(dǎo)航模塊生成相應(yīng)路徑引導(dǎo)目標(biāo)移動(dòng)。在移動(dòng)過程中隨機(jī)調(diào)節(jié)速度,其范圍在(0.1m/s, 1.5m/s)之間。
紋理和光照的隨機(jī)化主要為了提升觀測(cè)編碼器的泛化能力,避免網(wǎng)絡(luò)對(duì)特定場(chǎng)景和目標(biāo)外觀過擬合。而目標(biāo)移動(dòng)的隨機(jī)化是為了提升序列編碼器的泛化能力,避免網(wǎng)絡(luò)對(duì)特定的移動(dòng)軌跡過擬合。
下圖為采用上述隨機(jī)化方法后生成的示例:
實(shí)驗(yàn)驗(yàn)證
首先,我們分別在 ViZDoom 和 UE 環(huán)境中開展實(shí)驗(yàn),并在 VOT 數(shù)據(jù)集中定性驗(yàn)證了模型遷移到真實(shí)場(chǎng)景的可能性。之后,我們將介紹如何將主動(dòng)跟蹤器部署到真實(shí)機(jī)器人上工作,并分別在兩個(gè)室內(nèi)室外真實(shí)場(chǎng)景中進(jìn)行了定量實(shí)驗(yàn)。
在虛擬環(huán)境中進(jìn)行訓(xùn)練和測(cè)試
這里,我們將展示幾段虛擬環(huán)境中的演示視頻 (實(shí)驗(yàn)細(xì)節(jié)可參考原文),展示我們的方法訓(xùn)練得到的跟蹤器在 VizDoom 和 UE 環(huán)境中的結(jié)果。
虛擬到真實(shí)遷移的可能性
我們選擇了幾段 VOT 數(shù)據(jù)集中的片段定性驗(yàn)證模型遷移到真實(shí)數(shù)據(jù)集的可能性。因?yàn)檩敵鰟?dòng)作無法直接作用到已經(jīng)錄制好的視頻序列,控制下一時(shí)刻的觀察,因此我們只能通過觀察當(dāng)模型輸入給定視頻序列時(shí)對(duì)應(yīng)的動(dòng)作輸出與真實(shí)期望的情況是否一致來判定定性分析模型性能,如目標(biāo)在畫面左邊時(shí),觀察是否輸出左轉(zhuǎn)動(dòng)作。
跟蹤器輸出動(dòng)作與目標(biāo)位置和大小的關(guān)系。橫坐標(biāo)代表目標(biāo)中心相對(duì)畫面中心的偏差,縱坐標(biāo)代表目標(biāo)包圍框的面積,綠點(diǎn)代表輸出左轉(zhuǎn)動(dòng)作,紅點(diǎn)代表右轉(zhuǎn)動(dòng)作,黃點(diǎn)代表停止/后退。
由上圖可見,當(dāng)目標(biāo)在左(右)邊上,跟蹤器會(huì)傾向于輸出左(右)轉(zhuǎn),以期望通過旋轉(zhuǎn)將目標(biāo)移動(dòng)到畫面中心,另外,當(dāng)目標(biāo)尺寸變大時(shí),會(huì)更傾向于輸出停止/后退動(dòng)作, 以避免目標(biāo)尺寸變得過大。以上結(jié)果,可以說明當(dāng)輸入真實(shí)圖像時(shí),用純虛擬環(huán)境訓(xùn)練的主動(dòng)跟蹤器仍然是可以輸出合理的動(dòng)作的。但是,用錄制好的視頻作為輸入時(shí),相機(jī)無法被跟蹤器所控制,這與真實(shí)的主動(dòng)跟蹤不完全符合,這就無法最終證明我們方法的實(shí)際應(yīng)用價(jià)值。因此,我們將開展實(shí)驗(yàn),將虛擬環(huán)境訓(xùn)練的主動(dòng)跟蹤模型遷移到真實(shí)機(jī)器人上的。
在真實(shí)場(chǎng)景中的主動(dòng)目標(biāo)跟蹤
我們?cè)谠鰪?qiáng)的虛擬環(huán)境中進(jìn)行訓(xùn)練,嘗試了不同動(dòng)作空間(更多的候選動(dòng)作,連續(xù)的動(dòng)作),并直接將訓(xùn)練得到的模型在不同真實(shí)環(huán)境(室內(nèi),室外)中進(jìn)行測(cè)試。
動(dòng)作空間的選擇
除了采用上文提到的更先進(jìn)的環(huán)境增強(qiáng)技術(shù),我們還嘗試了不同的動(dòng)作空間。最早虛擬環(huán)境中的實(shí)驗(yàn)只提供了六種動(dòng)作,而對(duì)于復(fù)雜的真實(shí)場(chǎng)景,要適應(yīng)不同的目標(biāo)速度和運(yùn)動(dòng)方向,這是不夠的。因此,我們擴(kuò)展了原來六種動(dòng)作至九種,新增的動(dòng)作有后退和兩種不同速度的前進(jìn)和后退。加入后退使得機(jī)器人可以適應(yīng)更復(fù)雜的軌跡,如目標(biāo)正面向跟蹤器走來時(shí)。不同速度使得機(jī)器人可以更好地適應(yīng)不同的移動(dòng)速度。下表為九種動(dòng)作在虛擬和真實(shí)場(chǎng)景下的設(shè)置(第二列為虛擬環(huán)境,第三列為真實(shí)機(jī)器人):
我們也對(duì)連續(xù)動(dòng)作空間下的表現(xiàn)能力感興趣,因此我們嘗試了一種二維的動(dòng)作空間,由線速度和角速度組成。具體的虛擬和現(xiàn)實(shí)的設(shè)置如下表:
真實(shí)場(chǎng)景實(shí)驗(yàn)設(shè)置
我們采用一個(gè)輪式機(jī)器人進(jìn)行實(shí)驗(yàn),如下圖 (a) 中所示。機(jī)器人上方固定有一個(gè) RGB-D 攝像頭,離地面約 80cm 高。我們用一個(gè)帶有 8 核 Intel CPU 的筆記本電腦作為計(jì)算平臺(tái),執(zhí)行圖像采集,神經(jīng)網(wǎng)絡(luò)的推理和傳送控制指令至底層控制器等系列任務(wù)。每個(gè) 50ms (20Hz) 跟蹤器的狀態(tài)和動(dòng)作會(huì)更新迭代一次。
我們分別在室內(nèi)房間下圖 (b) 和室外陽臺(tái)下圖 (c) 進(jìn)行測(cè)試,以衡量模型部署到真實(shí)場(chǎng)景工作的性能。
真實(shí)場(chǎng)景實(shí)驗(yàn)的部署設(shè)置。(a) 為實(shí)驗(yàn)所用的機(jī)器人;(b) (c) 分別為用于測(cè)試的室內(nèi)、室外場(chǎng)景。
室內(nèi)房間包括了一張桌子和反射的玻璃墻,玻璃墻會(huì)使得機(jī)器人在運(yùn)動(dòng)過程中觀測(cè)到的背景發(fā)生動(dòng)態(tài)變化。另外,墻上還貼了一張與目標(biāo)外型接近的海報(bào),可能會(huì)對(duì)跟蹤者產(chǎn)生干擾。為了控制變量,目標(biāo)將沿著紅線進(jìn)行行走。下圖為執(zhí)行連續(xù)動(dòng)作的主動(dòng)跟蹤器在室內(nèi)的演示序列。
執(zhí)行連續(xù)動(dòng)作的主動(dòng)跟蹤器在室內(nèi)場(chǎng)景的觀測(cè)與輸出動(dòng)作的關(guān)系。注意,數(shù)值極性對(duì)應(yīng)不同速度方向。至于角速度,正值為左,負(fù)值為右。至于線速度,正值為向前,負(fù)值為后退。圖像中心的紅點(diǎn)是一個(gè)參考點(diǎn),可以幫助我們標(biāo)記目標(biāo)和機(jī)器人的相對(duì)位置。底部綠條的長(zhǎng)度代表速度的大小,水平條代表角速度,垂直條表示線速度。橙色線代表零值。
室外陽臺(tái)的背景包含了建筑物、桌子、椅子、植物和天空。相比于室內(nèi)場(chǎng)景,室外陽臺(tái)更加復(fù)雜,因?yàn)槲矬w是隨機(jī)雜亂擺放的。另外,由于光線不均勻,相機(jī)很難準(zhǔn)確曝光,這就需要跟蹤器適應(yīng)不同曝光程度的圖像觀測(cè)(如下圖序列)。測(cè)試時(shí),目標(biāo)將沿著場(chǎng)地行走一圈。
一段跟蹤器在室外執(zhí)行離散動(dòng)作進(jìn)行跟蹤的序列。紅點(diǎn)代表畫面中心,水平條形代表跟蹤器輸出的期望角速度,垂直的則代表期望線速度。橙線代表零值。
真實(shí)場(chǎng)景的實(shí)驗(yàn)結(jié)果
我們對(duì)跟蹤器在上述兩個(gè)真實(shí)場(chǎng)景下的性能進(jìn)行了定量測(cè)試,主要考慮模型的準(zhǔn)確性和魯棒性。因?yàn)樵谡鎸?shí)場(chǎng)景中我們無法獲得計(jì)算獎(jiǎng)賞函數(shù)所需要的具體坐標(biāo)位置,因此我們需要采用其它方式衡量。我們規(guī)定,當(dāng)跟蹤器讓目標(biāo)持續(xù)出現(xiàn)在當(dāng)前畫面當(dāng)中,直到目標(biāo)走完全程軌跡,視作一次成功跟蹤,反之,當(dāng)目標(biāo)從畫面中持續(xù)消失 3s 以上時(shí),就認(rèn)為是一次失敗的跟蹤。關(guān)于準(zhǔn)確度,我們考慮目標(biāo)大小和目標(biāo)到畫面中心的偏差兩個(gè)指標(biāo)。目標(biāo)大小的穩(wěn)定代表了跟蹤器對(duì)相對(duì)距離的控制能力,目標(biāo)到畫面中心的偏差代表了跟蹤器對(duì)相對(duì)夾角的控制能力。我們采用當(dāng)前流行的檢測(cè)器 YOLOv3[3] 來提取目標(biāo)的包圍框,以計(jì)算上述指標(biāo)。
我們?cè)趦蓚€(gè)真實(shí)環(huán)境中,分別測(cè)試了跟蹤器執(zhí)行離散動(dòng)作和連續(xù)動(dòng)作下的性能指標(biāo)(每種跟蹤器在每個(gè)場(chǎng)景中分別執(zhí)行了十次),結(jié)果如下表所示:
通過上表可見,采取離散動(dòng)作的跟蹤器在兩個(gè)場(chǎng)景中都可以取得更高的成功率。在室外,離散動(dòng)作可以讓目標(biāo)大小保持更加穩(wěn)定(更小的方差)。無論是室內(nèi)室外,基于離散動(dòng)作的跟蹤器都能保證更小的平均偏差。綜合這些結(jié)果,說明了采用離散動(dòng)作可以幫助模型更好更魯棒地遷移到真實(shí)場(chǎng)景。我們猜想對(duì)動(dòng)作空間離散化可以使得智能體對(duì)場(chǎng)景中的干擾和機(jī)器人控制系統(tǒng)的噪聲都更加魯棒,而連續(xù)空間會(huì)更加敏感。
下面,我們將分別展示兩段主動(dòng)跟蹤器在室內(nèi)外真實(shí)場(chǎng)景中的演示視頻。
總結(jié)
在本文中,我們提出了一種基于深度強(qiáng)化學(xué)習(xí)的端到端主動(dòng)目標(biāo)跟蹤方法。與傳統(tǒng)視頻跟蹤不同,我們提出的跟蹤器只需要在模擬器中訓(xùn)練,節(jié)省人工標(biāo)記和在現(xiàn)實(shí)世界中的試錯(cuò)調(diào)參。實(shí)驗(yàn)表明,它對(duì)未見過的環(huán)境有著良好的泛化能力。通過開發(fā)更先進(jìn)的環(huán)境增強(qiáng)技術(shù)并采用更合適的動(dòng)作空間,我們已成功將跟蹤器部署在了一個(gè)機(jī)器人上,在真實(shí)世界中實(shí)現(xiàn)主動(dòng)目標(biāo)跟蹤。
更多細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參考原文:
https://ieeexplore.ieee.org/document/8642452/
參考文獻(xiàn):
[1]Wenhan Luo*, Peng Sun*, Fangwei Zhong, Wei Liu, Tong Zhang, and Yizhou Wang. End-to-end active object tracking via reinforcement learning, In ICML 2018.
[2]V. Mnih, A. P. Badia, M. Mirza, A. Graves, T. Lillicrap, T. Harley, D. Silver, and K. Kavukcuoglu, Asynchronous methods for deep reinforcement learning, in International conference on machine learning, 2016, pp. 1928–1937.
[3]J. Redmon and A. Farhadi, Yolov3: An incremental improvement, arXiv preprint arXiv: 1804.02767, 2018.
TPAMI
IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE TPAMI)是人工智能領(lǐng)域最頂級(jí)國(guó)際期刊(CCF A 類,SCI 一區(qū),2017 年影響因子 9.455),對(duì)論文的原創(chuàng)性有很高的要求,并以嚴(yán)苛的審稿過程著稱,每年收錄的論文數(shù)量十分有限。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。