1
本文作者: AI科技評論 | 2019-06-27 15:04 | 專題:CVPR 2019 |
雷鋒網 AI 科技評論消息,計算機視覺和模式識別領域頂級會議 CVPR 2019 于上周在美國落下帷幕,各大企業(yè)和科研機構紛紛發(fā)布自家最新成果,其中,不乏諸多來自中國的研究成果。接下來,雷鋒網 AI 科技評論將為大家介紹亮風臺在 CVPR 2019 上展示的大規(guī)模單目標跟蹤高質量數據集 LaSOT,這一數據集包含超過 352 萬幀手工標注的圖片和 1400 個視頻,這也是目前為止最大的擁有密集標注的單目標跟蹤數據集。以下為亮風臺所提供的詳細解讀:
論文《LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking》詳細闡述了 LaSOT 數據集的構造原理和評估方法,由亮風臺、華南理工大學、美圖-亮風臺聯合實驗室等單位共同完成,收錄于 CVPR 2019。
LaSOT 貢獻
視覺跟蹤是計算機視覺中最重要的問題之一,其應用領域包括視頻監(jiān)控、機器人技術、人機交互等。隨著跟蹤領域的巨大進步,人們提出了許多算法。在這一過程中,跟蹤基準對客觀評估起到了至關重要的作用。LaSOT 的推出,也是希望為行業(yè)提供一個大規(guī)模的、專門的、高質量的基準,用于深度跟蹤訓練和跟蹤算法的真實評估。
圖 1:常用跟蹤數據集統計示意圖。包括 OTB-2013、OTB-2015、TC-128、NUS-PRO、UAV123、UAV20L、VOT-2014、VOT-2017 和 LaSOT。圓直徑與數據集的總幀數數成比例。所提出的 LaSOT 比所有其他基準都要大,并且專注于長期跟蹤。
觀察和比較不同的跟蹤算法發(fā)現,其進一步發(fā)展和評估受到現有評測集的限制,存在的問題主要包括:
1. 規(guī)模小。現有數據集很少有超過 400 個序列,由于缺乏大規(guī)模的跟蹤數據集,很難使用跟蹤特定視頻訓練深度跟蹤器。
2. 短時跟蹤。理想的跟蹤器能夠在相對較長的時間內定位目標,目標可能消失并重新進入視圖。然而,大多數現有的基準都集中在短期跟蹤上,其中平均序列長度小于 600 幀(即 20 秒左右),而且目標幾乎總是出現在視頻幀中。
3. 類別偏見。一個穩(wěn)健的跟蹤系統應該表現出對目標所屬類別的不敏感性,這意味著在訓練和評估跟蹤算法時都應該抑制類別偏差(或類別不平衡)。然而,現有的基準通常只包含幾個類別,視頻數量不平衡。
許多數據集被提議處理上述問題,然而,并沒有解決所有的問題。
基于上述動機,亮風臺為社區(qū)提供了一個新的大型單目標跟蹤(LaSOT)基準,并提供了多方面的貢獻:
1. LaSOT 包含 1400 個視頻,每個序列平均 2512 幀。每一幀都經過仔細檢查和手動標記,并在需要時對結果進行目視檢查和糾正。這樣,可以生成大約 352 萬個高質量的邊界框標注。
此外,LaSOT 包含 70 個類別,每個類別包含 20 個序列。據了解,LaSOT 是迄今為止最大的具有高質量手動密集注釋的對象跟蹤數據集。
2. 與之前的數據集不同,LaSOT 提供了可視化邊界框注釋和豐富的自然語言規(guī)范,這些規(guī)范最近被證明對各種視覺任務都是有益的,包括視覺跟蹤。這樣做的目標是鼓勵和促進探索集成視覺和語言功能,以實現強大的跟蹤性能。
3. 為了評估現有的跟蹤器,并為將來在 LaSOT 上的比較提供廣泛的基準,團隊在不同的協議下評估了 35 個具有代表性的跟蹤器,并使用不同的指標分析其性能。
LaSOT 大規(guī)模多樣化的數據采集
LaSOT 數據集的構建遵循大規(guī)模、高質量的密集注釋、長期跟蹤、類別平衡和綜合標記五個原則。
LaSOT 基準數據采集涵蓋了各種不同背景下的各種對象類別,包含 70 個對象類別。大多數類別是從 ImageNet 的 1000 個類別中選擇的,但少數例外(如無人機)是為流行的跟蹤應用程序精心選擇的。以往的數據集通常含有的類別少于 30 個,并且一般分布不均勻。相比之下,LaSOT 為每個類別提供相同數量的序列,以減輕潛在的類別偏差。
在確定了 LaSOT 中的 70 個對象類別之后,研究人員從 YouTube 中搜索了每個類的視頻。最初,收集了 5000 多個視頻??紤]到追蹤視頻的質量和 LaSOT 的設計原則,挑選了 1400 個視頻。但是,由于大量無關內容,這 1400 個序列不能立即用于跟蹤任務。例如,對于個人類別的視頻(例如,運動員),它通常在開始時包含每個運動員的一些介紹內容,這不適合跟蹤。因此,研究人員仔細過濾掉每個視頻中不相關的內容,并保留一個可用于跟蹤的剪輯。此外,LaSOT 的每一個分類都包含 20 個目標,反映了自然場景中的分類平衡和多樣性。
最終,研究人員通過收集 1400 個序列和 352 萬幀的 YouTube 視頻,在 Creative Commons 許可下,編譯了一個大規(guī)模的數據集。LaSOT 的平均視頻長度為 2512 幀(即 30 幀每秒 84 秒)。最短的視頻包含 1000 幀(即 33 秒),最長的視頻包含 11397 幀(即 378 秒)。
LaSOT 提供可視化邊界框標注
為了提供一致的邊界框標注,團隊還定義了一個確定性標注策略。對于具有特定跟蹤目標的視頻,對于每個幀,如果目標對象出現在幀中,則標注者會手動繪制/編輯其邊界框,使其成為最緊的右邊界框,以適合目標的任何可見部分;否則,標注者會向幀提供一個「目標不存在」的標簽,無論是不可見還是完全遮擋。請注意,如任何其他數據集中所觀察到的那樣,這種策略不能保證最小化框中的背景區(qū)域。然而,該策略確實提供了一個一致的標注,這對于學習物體的運動是相對穩(wěn)定的。
雖然上述策略在大多數情況下都很有效,但也存在例外情況。有些物體,例如老鼠,可能有細長和高度變形的部分,例如尾巴,這不僅會在物體的外觀和形狀上產生嚴重的噪聲,而且對目標物體的定位提供很少的信息。在 LaSOT 中仔細識別這些對象和相關的視頻,并為它們的注釋設計特定的規(guī)則(例如,在繪制它們時不包括老鼠的尾部)。
圖 2:LaSOT 示例序列和標注
序列的自然語言規(guī)范由描述目標的顏色、行為和環(huán)境的句子表示。對于 LaSOT,為所有視頻提供 1400 個描述語句。請注意,語言描述旨在為跟蹤提供輔助幫助。例如,如果追蹤器生成進一步處理的建議,那么語言規(guī)范可以作為全局語義指導,幫助減少它們之間的模糊性。
構建高質量密集跟蹤數據集的最大努力顯然是手動標記、雙重檢查和糾錯。為了完成這項任務,亮風臺組建了一個注釋小組,包括幾個在相關領域工作的博士生和大約 10 名志愿者。
35 個代表性跟蹤器的評估
沒有對如何使用 LaSOT 進行限制,提出了兩種協議來評估跟蹤算法,并進行相應的評估。
方案一:使用 1400 個序列來評估跟蹤性能。研究人員可以使用除了 LaSOT 中的序列以外的任何序列來開發(fā)跟蹤算法。方案一旨在對跟蹤器進行大規(guī)模評估。
方案二:將 LaSOT 劃分為訓練和測試子集。根據 80/20 原則(即帕累托原則),從每類 20 個視頻中選出 16 個進行培訓,其余的進行測試。具體來說,訓練子集包含 1120 個視頻,2.83m 幀,測試子集包含 280 個序列,690k 幀。跟蹤程序的評估在測試子集上執(zhí)行。方案二的目標是同時提供一大套視頻用于訓練和評估跟蹤器。
根據流行的協議(如 OTB-2015[53]),使用 OPE 作為量化評估標準,并測量兩個協議下不同跟蹤算法的精度、標準化精度和成功率。評估了 LaSOT 上的 35 種算法,以提供廣泛客觀的基準,Tab. 3 按時間順序總結這些跟蹤器及其表示方案和搜索策略。
表 3:已評估跟蹤程序的摘要
方案一評估結果
方案一旨在對 LaSot 的 1400 個視頻進行大規(guī)模評估。每個跟蹤器都按原樣用于評估,沒有任何修改。使用精度、標準化精度和成功率在 OPE 中報告評估結果。
圖 3:利用精度、歸一化精度和成功率對一號方案下的算法量化評估。
圖 4:在協議 I 下,追蹤器在三個最具挑戰(zhàn)性的屬性上的代表性結果。
圖 5:六大典型挑戰(zhàn)序列上的的定性評價結果。
方案二評估結果
圖 6:使用精度、標準化精度和成功率對方案 II 下的跟蹤算法評估。
根據方案二,將 LaSOT 分為訓練集和測試集。研究人員可以利用訓練集中的序列來開發(fā)他們的跟蹤器,并評估他們在測試集中的表現。為了提供測試集的基線和比較,評估了 35 種跟蹤算法。每個跟蹤器都被用于評估,沒有任何修改或再培訓。使用精度、歸一化精度和成功率的評價結果如圖 6 所示。
除了對每一種跟蹤算法進行評估外,還對兩種具有代表性的深跟蹤算法 MDNET[42] 和 SIAMFC 進行了重新培訓,并對其進行了評估。評估結果表明,這些跟蹤器在沒有重訓練的情況下具有相似的性能。一個潛在的原因是重新培訓可能和原作者使用配置不同。
文中又對 SiamFC 的 LaSOT 訓練集進行了再培訓,以證明使用更多的數據如何改進基于深度學習的跟蹤器。Tab. 4 報告了 OTB-2013 和 OTB-2015 的結果,并與在 ImageNet 視頻上培訓的原始 SIAMFC 的性能進行了比較。請注意,論文中使用彩色圖像進行訓練,并應用 3 個比例的金字塔進行跟蹤,即 SIAMFC-3S(彩色)。所有訓練參數和跟蹤在這兩個實驗中保持不變。最后在兩個評測集上觀察到了一致的性能提升,顯示了針對深度追蹤器的特定大規(guī)模訓練集的重要性。
表 4:在 LaSOT 上對 SiamFC 進行再訓練
LaSOT 主頁:https://cis.temple.edu/lasot/
數據集下載:https://cis.temple.edu/lasot/download.html
算法測評和工具包:https://cis.temple.edu/lasot/results.html
論文:https://arxiv.org/abs/1809.07845
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。