亮風(fēng)臺(tái)推出全球最大單目標(biāo)跟蹤數(shù)據(jù)集 LaSOT | CVPR 2019

本文作者： AI科技評(píng)論

2019-06-27 15:04

專(zhuān)題：CVPR 2019

導(dǎo)語(yǔ)：包含超過(guò) 352 萬(wàn)幀手工標(biāo)注的圖片和 1400 個(gè)視頻，也是目前為止最大的擁有密集標(biāo)注的單目標(biāo)跟蹤數(shù)據(jù)集。

雷鋒網(wǎng) AI 科技評(píng)論消息，計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域頂級(jí)會(huì)議 CVPR 2019 于上周在美國(guó)落下帷幕，各大企業(yè)和科研機(jī)構(gòu)紛紛發(fā)布自家最新成果，其中，不乏諸多來(lái)自中國(guó)的研究成果。接下來(lái)，雷鋒網(wǎng) AI 科技評(píng)論將為大家介紹亮風(fēng)臺(tái)在 CVPR 2019 上展示的大規(guī)模單目標(biāo)跟蹤高質(zhì)量數(shù)據(jù)集 LaSOT，這一數(shù)據(jù)集包含超過(guò) 352 萬(wàn)幀手工標(biāo)注的圖片和 1400 個(gè)視頻，這也是目前為止最大的擁有密集標(biāo)注的單目標(biāo)跟蹤數(shù)據(jù)集。以下為亮風(fēng)臺(tái)所提供的詳細(xì)解讀：

論文《LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking》詳細(xì)闡述了 LaSOT 數(shù)據(jù)集的構(gòu)造原理和評(píng)估方法，由亮風(fēng)臺(tái)、華南理工大學(xué)、美圖-亮風(fēng)臺(tái)聯(lián)合實(shí)驗(yàn)室等單位共同完成，收錄于 CVPR 2019。

LaSOT 貢獻(xiàn)

視覺(jué)跟蹤是計(jì)算機(jī)視覺(jué)中最重要的問(wèn)題之一，其應(yīng)用領(lǐng)域包括視頻監(jiān)控、機(jī)器人技術(shù)、人機(jī)交互等。隨著跟蹤領(lǐng)域的巨大進(jìn)步，人們提出了許多算法。在這一過(guò)程中，跟蹤基準(zhǔn)對(duì)客觀(guān)評(píng)估起到了至關(guān)重要的作用。LaSOT 的推出，也是希望為行業(yè)提供一個(gè)大規(guī)模的、專(zhuān)門(mén)的、高質(zhì)量的基準(zhǔn)，用于深度跟蹤訓(xùn)練和跟蹤算法的真實(shí)評(píng)估。

亮風(fēng)臺(tái)推出全球最大單目標(biāo)跟蹤數(shù)據(jù)集 LaSOT | CVPR 2019

圖 1：常用跟蹤數(shù)據(jù)集統(tǒng)計(jì)示意圖。包括 OTB-2013、OTB-2015、TC-128、NUS-PRO、UAV123、UAV20L、VOT-2014、VOT-2017 和 LaSOT。圓直徑與數(shù)據(jù)集的總幀數(shù)數(shù)成比例。所提出的 LaSOT 比所有其他基準(zhǔn)都要大，并且專(zhuān)注于長(zhǎng)期跟蹤。

觀(guān)察和比較不同的跟蹤算法發(fā)現(xiàn)，其進(jìn)一步發(fā)展和評(píng)估受到現(xiàn)有評(píng)測(cè)集的限制，存在的問(wèn)題主要包括：

1. 規(guī)模小。現(xiàn)有數(shù)據(jù)集很少有超過(guò) 400 個(gè)序列，由于缺乏大規(guī)模的跟蹤數(shù)據(jù)集，很難使用跟蹤特定視頻訓(xùn)練深度跟蹤器。

2. 短時(shí)跟蹤。理想的跟蹤器能夠在相對(duì)較長(zhǎng)的時(shí)間內(nèi)定位目標(biāo)，目標(biāo)可能消失并重新進(jìn)入視圖。然而，大多數(shù)現(xiàn)有的基準(zhǔn)都集中在短期跟蹤上，其中平均序列長(zhǎng)度小于 600 幀（即 20 秒左右），而且目標(biāo)幾乎總是出現(xiàn)在視頻幀中。

3. 類(lèi)別偏見(jiàn)。一個(gè)穩(wěn)健的跟蹤系統(tǒng)應(yīng)該表現(xiàn)出對(duì)目標(biāo)所屬類(lèi)別的不敏感性，這意味著在訓(xùn)練和評(píng)估跟蹤算法時(shí)都應(yīng)該抑制類(lèi)別偏差（或類(lèi)別不平衡）。然而，現(xiàn)有的基準(zhǔn)通常只包含幾個(gè)類(lèi)別，視頻數(shù)量不平衡。

許多數(shù)據(jù)集被提議處理上述問(wèn)題，然而，并沒(méi)有解決所有的問(wèn)題。

亮風(fēng)臺(tái)推出全球最大單目標(biāo)跟蹤數(shù)據(jù)集 LaSOT | CVPR 2019

基于上述動(dòng)機(jī)，亮風(fēng)臺(tái)為社區(qū)提供了一個(gè)新的大型單目標(biāo)跟蹤（LaSOT）基準(zhǔn)，并提供了多方面的貢獻(xiàn)：

1. LaSOT 包含 1400 個(gè)視頻，每個(gè)序列平均 2512 幀。每一幀都經(jīng)過(guò)仔細(xì)檢查和手動(dòng)標(biāo)記，并在需要時(shí)對(duì)結(jié)果進(jìn)行目視檢查和糾正。這樣，可以生成大約 352 萬(wàn)個(gè)高質(zhì)量的邊界框標(biāo)注。

此外，LaSOT 包含 70 個(gè)類(lèi)別，每個(gè)類(lèi)別包含 20 個(gè)序列。據(jù)了解，LaSOT 是迄今為止最大的具有高質(zhì)量手動(dòng)密集注釋的對(duì)象跟蹤數(shù)據(jù)集。

2. 與之前的數(shù)據(jù)集不同，LaSOT 提供了可視化邊界框注釋和豐富的自然語(yǔ)言規(guī)范，這些規(guī)范最近被證明對(duì)各種視覺(jué)任務(wù)都是有益的，包括視覺(jué)跟蹤。這樣做的目標(biāo)是鼓勵(lì)和促進(jìn)探索集成視覺(jué)和語(yǔ)言功能，以實(shí)現(xiàn)強(qiáng)大的跟蹤性能。

3. 為了評(píng)估現(xiàn)有的跟蹤器，并為將來(lái)在 LaSOT 上的比較提供廣泛的基準(zhǔn)，團(tuán)隊(duì)在不同的協(xié)議下評(píng)估了 35 個(gè)具有代表性的跟蹤器，并使用不同的指標(biāo)分析其性能。

LaSOT 大規(guī)模多樣化的數(shù)據(jù)采集

LaSOT 數(shù)據(jù)集的構(gòu)建遵循大規(guī)模、高質(zhì)量的密集注釋、長(zhǎng)期跟蹤、類(lèi)別平衡和綜合標(biāo)記五個(gè)原則。

LaSOT 基準(zhǔn)數(shù)據(jù)采集涵蓋了各種不同背景下的各種對(duì)象類(lèi)別，包含 70 個(gè)對(duì)象類(lèi)別。大多數(shù)類(lèi)別是從 ImageNet 的 1000 個(gè)類(lèi)別中選擇的，但少數(shù)例外（如無(wú)人機(jī)）是為流行的跟蹤應(yīng)用程序精心選擇的。以往的數(shù)據(jù)集通常含有的類(lèi)別少于 30 個(gè)，并且一般分布不均勻。相比之下，LaSOT 為每個(gè)類(lèi)別提供相同數(shù)量的序列，以減輕潛在的類(lèi)別偏差。

在確定了 LaSOT 中的 70 個(gè)對(duì)象類(lèi)別之后，研究人員從 YouTube 中搜索了每個(gè)類(lèi)的視頻。最初，收集了 5000 多個(gè)視頻?？紤]到追蹤視頻的質(zhì)量和 LaSOT 的設(shè)計(jì)原則，挑選了 1400 個(gè)視頻。但是，由于大量無(wú)關(guān)內(nèi)容，這 1400 個(gè)序列不能立即用于跟蹤任務(wù)。例如，對(duì)于個(gè)人類(lèi)別的視頻（例如，運(yùn)動(dòng)員），它通常在開(kāi)始時(shí)包含每個(gè)運(yùn)動(dòng)員的一些介紹內(nèi)容，這不適合跟蹤。因此，研究人員仔細(xì)過(guò)濾掉每個(gè)視頻中不相關(guān)的內(nèi)容，并保留一個(gè)可用于跟蹤的剪輯。此外，LaSOT 的每一個(gè)分類(lèi)都包含 20 個(gè)目標(biāo)，反映了自然場(chǎng)景中的分類(lèi)平衡和多樣性。

最終，研究人員通過(guò)收集 1400 個(gè)序列和 352 萬(wàn)幀的 YouTube 視頻，在 Creative Commons 許可下，編譯了一個(gè)大規(guī)模的數(shù)據(jù)集。LaSOT 的平均視頻長(zhǎng)度為 2512 幀（即 30 幀每秒 84 秒）。最短的視頻包含 1000 幀（即 33 秒），最長(zhǎng)的視頻包含 11397 幀（即 378 秒）。

LaSOT 提供可視化邊界框標(biāo)注

為了提供一致的邊界框標(biāo)注，團(tuán)隊(duì)還定義了一個(gè)確定性標(biāo)注策略。對(duì)于具有特定跟蹤目標(biāo)的視頻，對(duì)于每個(gè)幀，如果目標(biāo)對(duì)象出現(xiàn)在幀中，則標(biāo)注者會(huì)手動(dòng)繪制/編輯其邊界框，使其成為最緊的右邊界框，以適合目標(biāo)的任何可見(jiàn)部分；否則，標(biāo)注者會(huì)向幀提供一個(gè)「目標(biāo)不存在」的標(biāo)簽，無(wú)論是不可見(jiàn)還是完全遮擋。請(qǐng)注意，如任何其他數(shù)據(jù)集中所觀(guān)察到的那樣，這種策略不能保證最小化框中的背景區(qū)域。然而，該策略確實(shí)提供了一個(gè)一致的標(biāo)注，這對(duì)于學(xué)習(xí)物體的運(yùn)動(dòng)是相對(duì)穩(wěn)定的。

雖然上述策略在大多數(shù)情況下都很有效，但也存在例外情況。有些物體，例如老鼠，可能有細(xì)長(zhǎng)和高度變形的部分，例如尾巴，這不僅會(huì)在物體的外觀(guān)和形狀上產(chǎn)生嚴(yán)重的噪聲，而且對(duì)目標(biāo)物體的定位提供很少的信息。在 LaSOT 中仔細(xì)識(shí)別這些對(duì)象和相關(guān)的視頻，并為它們的注釋設(shè)計(jì)特定的規(guī)則（例如，在繪制它們時(shí)不包括老鼠的尾部）。

亮風(fēng)臺(tái)推出全球最大單目標(biāo)跟蹤數(shù)據(jù)集 LaSOT | CVPR 2019

圖 2：LaSOT 示例序列和標(biāo)注

序列的自然語(yǔ)言規(guī)范由描述目標(biāo)的顏色、行為和環(huán)境的句子表示。對(duì)于 LaSOT，為所有視頻提供 1400 個(gè)描述語(yǔ)句。請(qǐng)注意，語(yǔ)言描述旨在為跟蹤提供輔助幫助。例如，如果追蹤器生成進(jìn)一步處理的建議，那么語(yǔ)言規(guī)范可以作為全局語(yǔ)義指導(dǎo)，幫助減少它們之間的模糊性。

亮風(fēng)臺(tái)推出全球最大單目標(biāo)跟蹤數(shù)據(jù)集 LaSOT | CVPR 2019

構(gòu)建高質(zhì)量密集跟蹤數(shù)據(jù)集的最大努力顯然是手動(dòng)標(biāo)記、雙重檢查和糾錯(cuò)。為了完成這項(xiàng)任務(wù)，亮風(fēng)臺(tái)組建了一個(gè)注釋小組，包括幾個(gè)在相關(guān)領(lǐng)域工作的博士生和大約 10 名志愿者。

35 個(gè)代表性跟蹤器的評(píng)估

沒(méi)有對(duì)如何使用 LaSOT 進(jìn)行限制，提出了兩種協(xié)議來(lái)評(píng)估跟蹤算法，并進(jìn)行相應(yīng)的評(píng)估。

方案一：使用 1400 個(gè)序列來(lái)評(píng)估跟蹤性能。研究人員可以使用除了 LaSOT 中的序列以外的任何序列來(lái)開(kāi)發(fā)跟蹤算法。方案一旨在對(duì)跟蹤器進(jìn)行大規(guī)模評(píng)估。

方案二：將 LaSOT 劃分為訓(xùn)練和測(cè)試子集。根據(jù) 80/20 原則（即帕累托原則），從每類(lèi) 20 個(gè)視頻中選出 16 個(gè)進(jìn)行培訓(xùn)，其余的進(jìn)行測(cè)試。具體來(lái)說(shuō)，訓(xùn)練子集包含 1120 個(gè)視頻，2.83m 幀，測(cè)試子集包含 280 個(gè)序列，690k 幀。跟蹤程序的評(píng)估在測(cè)試子集上執(zhí)行。方案二的目標(biāo)是同時(shí)提供一大套視頻用于訓(xùn)練和評(píng)估跟蹤器。

根據(jù)流行的協(xié)議（如 OTB-2015[53]），使用 OPE 作為量化評(píng)估標(biāo)準(zhǔn)，并測(cè)量?jī)蓚€(gè)協(xié)議下不同跟蹤算法的精度、標(biāo)準(zhǔn)化精度和成功率。評(píng)估了 LaSOT 上的 35 種算法，以提供廣泛客觀(guān)的基準(zhǔn)，Tab. 3 按時(shí)間順序總結(jié)這些跟蹤器及其表示方案和搜索策略。

亮風(fēng)臺(tái)推出全球最大單目標(biāo)跟蹤數(shù)據(jù)集 LaSOT | CVPR 2019

表 3：已評(píng)估跟蹤程序的摘要

方案一評(píng)估結(jié)果

方案一旨在對(duì) LaSot 的 1400 個(gè)視頻進(jìn)行大規(guī)模評(píng)估。每個(gè)跟蹤器都按原樣用于評(píng)估，沒(méi)有任何修改。使用精度、標(biāo)準(zhǔn)化精度和成功率在 OPE 中報(bào)告評(píng)估結(jié)果。

亮風(fēng)臺(tái)推出全球最大單目標(biāo)跟蹤數(shù)據(jù)集 LaSOT | CVPR 2019

圖 3：利用精度、歸一化精度和成功率對(duì)一號(hào)方案下的算法量化評(píng)估。

亮風(fēng)臺(tái)推出全球最大單目標(biāo)跟蹤數(shù)據(jù)集 LaSOT | CVPR 2019

圖 4：在協(xié)議 I 下，追蹤器在三個(gè)最具挑戰(zhàn)性的屬性上的代表性結(jié)果。

亮風(fēng)臺(tái)推出全球最大單目標(biāo)跟蹤數(shù)據(jù)集 LaSOT | CVPR 2019

圖 5：六大典型挑戰(zhàn)序列上的的定性評(píng)價(jià)結(jié)果。

方案二評(píng)估結(jié)果

圖 6：使用精度、標(biāo)準(zhǔn)化精度和成功率對(duì)方案 II 下的跟蹤算法評(píng)估。

根據(jù)方案二，將 LaSOT 分為訓(xùn)練集和測(cè)試集。研究人員可以利用訓(xùn)練集中的序列來(lái)開(kāi)發(fā)他們的跟蹤器，并評(píng)估他們?cè)跍y(cè)試集中的表現(xiàn)。為了提供測(cè)試集的基線(xiàn)和比較，評(píng)估了 35 種跟蹤算法。每個(gè)跟蹤器都被用于評(píng)估，沒(méi)有任何修改或再培訓(xùn)。使用精度、歸一化精度和成功率的評(píng)價(jià)結(jié)果如圖 6 所示。

除了對(duì)每一種跟蹤算法進(jìn)行評(píng)估外，還對(duì)兩種具有代表性的深跟蹤算法 MDNET[42] 和 SIAMFC 進(jìn)行了重新培訓(xùn)，并對(duì)其進(jìn)行了評(píng)估。評(píng)估結(jié)果表明，這些跟蹤器在沒(méi)有重訓(xùn)練的情況下具有相似的性能。一個(gè)潛在的原因是重新培訓(xùn)可能和原作者使用配置不同。

文中又對(duì) SiamFC 的 LaSOT 訓(xùn)練集進(jìn)行了再培訓(xùn)，以證明使用更多的數(shù)據(jù)如何改進(jìn)基于深度學(xué)習(xí)的跟蹤器。Tab. 4 報(bào)告了 OTB-2013 和 OTB-2015 的結(jié)果，并與在 ImageNet 視頻上培訓(xùn)的原始 SIAMFC 的性能進(jìn)行了比較。請(qǐng)注意，論文中使用彩色圖像進(jìn)行訓(xùn)練，并應(yīng)用 3 個(gè)比例的金字塔進(jìn)行跟蹤，即 SIAMFC-3S（彩色）。所有訓(xùn)練參數(shù)和跟蹤在這兩個(gè)實(shí)驗(yàn)中保持不變。最后在兩個(gè)評(píng)測(cè)集上觀(guān)察到了一致的性能提升，顯示了針對(duì)深度追蹤器的特定大規(guī)模訓(xùn)練集的重要性。

亮風(fēng)臺(tái)推出全球最大單目標(biāo)跟蹤數(shù)據(jù)集 LaSOT | CVPR 2019