丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領(lǐng)域 | CVPR 2019

本文作者: skura 2019-03-13 15:13 專題:CVPR 2019
導(dǎo)語:作者對自己投遞的 CVPR019 論文的反思

雷鋒網(wǎng) AI 科技評論按,本文作者 Qiang Wang,原載于知乎,雷鋒網(wǎng)獲得授權(quán)轉(zhuǎn)載。

今年的 CVPR 的結(jié)果已經(jīng)完全公布,我參與的兩篇文章 SiamMask SiamRPN++均被接收。遺憾的是 SiamMask 最終并沒有被 reviewer 認(rèn)可,只取得了 poster。

SiamMask 的測試代碼:foolwood/SiamMask

Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領(lǐng)域 | CVPR 2019

以下正文:

在兩年前,當(dāng)我們提起視覺跟蹤(Visual Tracking),我們的腦海里總是灌滿了相關(guān)濾波(KCF,SRDCF,CF2,CCOT,ECO... 等等經(jīng)典工作在我的腦海里飄蕩)。如果給這個時代截取一篇最經(jīng)典的工作,我想我會選擇 KCF。他是真的將視覺跟蹤推向流行,讓整個領(lǐng)域真的沸騰起來的工作。如果現(xiàn)在來分析他之所以能統(tǒng)治跟蹤領(lǐng)域的原因,我覺得主要是兩點(diǎn):足夠高效+開源。高效到只需要 10 行以內(nèi)的代碼就可以實(shí)現(xiàn)核心計算,隨便一個 CPU 就可以跑到 200FPS 以上。這極大程度上拉低了視覺跟蹤領(lǐng)域的門檻,讓所有人很容易進(jìn)入這個領(lǐng)域。開源,這個詞匯現(xiàn)在看已經(jīng)是土的不能在土的詞匯。真的做起來卻也存在很多阻力。

當(dāng)然,除了懷舊以外。我們也會經(jīng)常反思甚至有些詫異,似乎視覺跟蹤和整個 CV 大領(lǐng)域走到了不同的方向,深度學(xué)習(xí)在跟蹤領(lǐng)域并沒有得到什么用武之地。當(dāng)然,所有新的方向的產(chǎn)生大都遵循著量變到質(zhì)變的基本原則。下圖可以看到到 CVPR2018 時候的時間跟蹤發(fā)展,相關(guān)濾波的發(fā)展已經(jīng)經(jīng)過了幾代迭代,深度學(xué)習(xí)方向也在不斷積攢(廣度高而深度淺)。大家都在嘗試可行的方向。目前來看,應(yīng)該是以 SiamFC 為代表的 Siamese Tracker 脫穎而出。

Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領(lǐng)域 | CVPR 2019

視覺跟蹤在 CVPR2018 時的發(fā)展分布

而 Siamese 網(wǎng)絡(luò)的概念應(yīng)用于目標(biāo)跟蹤的源頭應(yīng)該從 SINT 這篇文章開始,但真正開始流行卻是從 SiamFC 開始。簡潔優(yōu)雅的框架讓它得變得流行,像極了上一波的 KCF。

有關(guān) SiamFC 的討論可以見上一篇:Qiang Wang:CVPR2018 視覺跟蹤 (RASNet)

關(guān)于我的新工作 (SiamMask)

Motivation: 視頻跟蹤到底是跟蹤什么?

長久以來,我們的思維傾向于陷入舒適區(qū)。當(dāng) A 做了物體檢測,我們嘗試改網(wǎng)絡(luò),改 loss,別的領(lǐng)域 trick 拿來就是一篇。而我們常常忽略了更為重要的問題,到底這個問題的該如何定義,這點(diǎn)極為重要。

對于目標(biāo)跟蹤而言,一般論文開篇通常都會說在第一幀給定目標(biāo)位置,在后續(xù)幀中預(yù)測目標(biāo)的位置。然而如何對后續(xù)幀中表述的定義直接影響了整個跟蹤領(lǐng)域的發(fā)展。

為了方便表述,早期的跟蹤算法都是坐標(biāo)軸對齊的的矩形框。但隨著跟蹤精度的不斷提升,數(shù)據(jù)集的難度在不斷提升,在 VOT2015 時即提出使用旋轉(zhuǎn)矩形框來作為標(biāo)記。在 VOT2016 的時候提出自動的通過 mask 來生成旋轉(zhuǎn)框的方法。更為本質(zhì)的,我們會發(fā)現(xiàn),這個旋轉(zhuǎn)的矩形框?qū)嶋H上就是 mask 的一種近似。我們所要預(yù)測的實(shí)際上就是目標(biāo)物體的 mask。利用 mask 才能得到精度本身的上界。

Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領(lǐng)域 | CVPR 2019

我自己將 2013 年以后的跟蹤分為幾類,第一類是預(yù)測 score 的方法,這類算法以相關(guān)濾波和 SiameFC 為代表。通過預(yù)測候選區(qū)域的 score map 來得到物體的位置,物體的尺度大小通常是通過圖像金字塔得到。同時無法得到物體的長寬比變化。

第二類就是以 GOTURN 和 SiamRPN 為代表的做 boundingbox regression 的方法。這也是 SiamRPN 取得當(dāng)前最好結(jié)果的核心所在,充分挖取精度方向的紅利。實(shí)際上并不是 SiamRPN 預(yù)測的有多穩(wěn)定,而是在預(yù)測正確的時候,會給出更為精確的 box。利用網(wǎng)絡(luò)預(yù)測長寬比可以調(diào)整 box,這個方向一直以來被大家所忽視,所以 SiamRPN 很快殺出重圍。

Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領(lǐng)域 | CVPR 2019

而在物體發(fā)生旋轉(zhuǎn)的時候,簡單的 box 的表述通常會產(chǎn)生極大的損失,這實(shí)際上就是表述本身存在的缺陷。而為了進(jìn)一步探索在精度上存在的問題。我們更進(jìn)一步,直接預(yù)測物體的 mask。這種表述使得我們可以得到最為準(zhǔn)確的 box。最直觀的利用一個簡單的事例的可視化就可以看出,這三種算法的區(qū)別(左中右分別是 SiamFC | SiamRPN | SiamMask)。

Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領(lǐng)域 | CVPR 2019

同時,對于視頻目標(biāo)分割(VOS)領(lǐng)域,之前普遍流行的算法是利用語義分割網(wǎng)絡(luò)在線進(jìn)行一個二分類的訓(xùn)練,然后再后續(xù)幀進(jìn)行預(yù)測。這種方法在訓(xùn)練過程中一般都會花費(fèi)數(shù)分鐘,給人一種電腦假死的感覺。最近越來越多的不需要在線 finetune 的算法被提出。但其速度仍然無法到達(dá)令人滿意的狀態(tài),例如 FAVOS 和 OSMN 分別需要 1s/幀,120ms/幀。這距離真正的實(shí)時運(yùn)行還是有一定差異。另一方面,VOS 算法的第一幀需要給定目標(biāo)的 mask,這在人機(jī)交互的場景中很難時間,這個 mask 獲取成本過高。

所以我們提出了對視覺目標(biāo)跟蹤(VOT)和視頻目標(biāo)分割(VOS)的統(tǒng)一框架 SiamMask。我們將初始化簡化為視頻跟蹤的 box 輸入即可,同時得到 box 和 mask 兩個輸出。

Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領(lǐng)域 | CVPR 2019

具體實(shí)現(xiàn)

當(dāng)有了上述的 motivation 之后,具體實(shí)現(xiàn)非常簡單,只需要在 siamese 網(wǎng)絡(luò)架構(gòu)中額外增加一個 Mask 分支即可。

Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領(lǐng)域 | CVPR 2019

但是相較于預(yù)測 score 和 box,mask 的預(yù)測會更為困難。我們這里使用的表述方法,是利用一個 vector 來編碼一個 RoW 的 mask。這使得每個 prediction 位置具有非常高的輸出維度(63*63), 我們通過 depthwise 的卷積后級聯(lián) 1x1 卷積來升維來實(shí)現(xiàn)高效運(yùn)行。這樣即構(gòu)成了我們的主要模型框架。

但直接預(yù)測的 Mask 分支的精度并不太高。所以提出了如下圖所示的 Refine Module 用來提升分割的精度,refine module 采用 top-down 的結(jié)構(gòu)。

Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領(lǐng)域 | CVPR 2019

這一部分借鑒了 SharpMask 的思路。deepmask 和 sharpmask 是 facebook 在 2015-2016 年提出的物體分割 proposal 框架。我進(jìn)行了一個重現(xiàn) foolwood/deepmask-pytorch。

實(shí)驗結(jié)果

對照實(shí)驗(ablation study)結(jié)果方面,我們首先通過實(shí)驗分析驗證了所提出的 Mask 的輸出表達(dá)對于跟蹤問題的貢獻(xiàn)。通過進(jìn)行 Oracle 實(shí)驗分析,可以明確得出,旋轉(zhuǎn)矩形框的平均 IoU 會遠(yuǎn)好于只預(yù)測坐標(biāo)軸對齊的矩形框。尤其是在更高的 IoU 閾值下,旋轉(zhuǎn)矩形框的優(yōu)勢更為明顯。當(dāng)對比 SiamFC,SiamRPN 的時候,SiamMask 對于整體的精度提升非常顯著。對于輸出 mask 轉(zhuǎn)換為 box,有多重選擇,我們使用了較為容易生成的最小外包矩形(MBR)。按照 VOT 的優(yōu)化方式生成的框的質(zhì)量會更高,但按照優(yōu)化算法生成太慢。如果有編碼好的同學(xué)可以把這個加速,我相信我們算法的精度至少可以再提升一個百分點(diǎn),非常歡迎嘗試之后在我們的 github 上提 Pull Requests。(優(yōu)化的 box 的 matlab:http://cmp.felk.cvut.cz/~vojirtom/dataset/votseg/data/optimize_bboxes.m)

Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領(lǐng)域 | CVPR 2019

視頻跟蹤領(lǐng)域(VOT),VOT2016 和 VOT2018 數(shù)據(jù)集上的性能,我們的方法已經(jīng)到達(dá)到 SOTA 的結(jié)果,同時保持了 55fps 的超實(shí)時的性能表現(xiàn)。

Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領(lǐng)域 | CVPR 2019

視頻目標(biāo)分割領(lǐng)域(VOS),我們?nèi)〉昧水?dāng)前最快的速度。在 DAVIS2017 和 Youtube-VOS 上,我們和最近發(fā)表的較為快速的算法對比, 我們的算法可以取得可比較的分割精度,同時速度快了近一個數(shù)量級。對比經(jīng)典的 OSVOS, 我們的算法快了近三個數(shù)量級,使得視頻目標(biāo)分割可以得到實(shí)際使用。Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領(lǐng)域 | CVPR 2019

此外,我們需要強(qiáng)調(diào)的是,視頻分割任務(wù)目前的視頻片段都較短,我們的 decay 要遠(yuǎn)小于其他算法,這意味著在更長的視頻片段中,我們的算法性能會保持的更好。

對比上述 VOS 算法,我們的算法更易于交互,只需要簡單的畫一個框,就可以實(shí)現(xiàn)自動的分割跟蹤:

對于應(yīng)用領(lǐng)域

自動駕駛場景中的視頻跟蹤分割簡單應(yīng)用:

帶字幕表情包生成

Adobe MAX 2018 FastMask 項目

我也使用 SiamMask 做了一個類似的項目,當(dāng)然精度上和 Adobe 的 FastMask 肯定存在差距。但我們的方法可以很容易的生成一些表情包或者 b 站的智能防擋彈幕_bilibili_嗶哩嗶哩彈幕視頻網(wǎng)

關(guān)于 CVPR2019 跟蹤領(lǐng)域發(fā)展: foolwood/benchmark_results

從今年接收的文章已經(jīng)可以明顯看出來,跟蹤領(lǐng)域已經(jīng)基本完成換代更新。接收的文章中 Siamese 網(wǎng)絡(luò)的改進(jìn)工作已經(jīng)占據(jù)了主導(dǎo)的地位。

SiamRPN++,CIR 兩篇都是圍繞如何使用深度網(wǎng)絡(luò)主干這個問題,兩篇文章都中了 oral。這個問題一直困擾著整個跟蹤圈子,在此之前的所有工作都采用的是 alexnet 為主的網(wǎng)絡(luò)架構(gòu)。不能使用現(xiàn)代網(wǎng)絡(luò)架構(gòu)一直困擾著整個跟蹤領(lǐng)域的發(fā)展。SiamRPN++通過數(shù)據(jù)增強(qiáng)的方法解決訓(xùn)練的空間位置偏見。CIR 通過 crop 操作從網(wǎng)絡(luò)架構(gòu)上減弱網(wǎng)絡(luò) padding 帶來的學(xué)習(xí)偏見,通過大量的實(shí)驗分析了感受野等因素對學(xué)習(xí)的影響。總的來說,當(dāng)網(wǎng)絡(luò)問題被解決了之后直接導(dǎo)致了現(xiàn)在在幾乎所有的數(shù)據(jù)集上,SiamRPN++已經(jīng)超過了相關(guān)濾波的方法。

在 SiamRPN++的基礎(chǔ)上,網(wǎng)絡(luò)主干問題已經(jīng)被解決,我們可以做更多方向的探索。我們可以非常簡單的讓輸出做更復(fù)雜的預(yù)測,這就催生了 SiamMask 這篇文章。

SPM 和 C-RPN 兩篇都算是多階段的 SiamRPN 擴(kuò)展。SPM 就是典型的 faster-RCNN 的思路做跟蹤,只是最后的 score fusion 的方式可以再優(yōu)雅一些。C-RPN 當(dāng)然就是 Cascade R-CNN: Delving into High Quality Object Detection 在跟蹤領(lǐng)域的翻版。兩者的思路都很直接,通過第二/N 階段來學(xué)習(xí)更精細(xì)的判別。

Martin Danelljan 大神的 ATOM: Accurate Tracking by Overlap Maximization 這篇肯定也是重量級的文章。Martin 大神并沒有 fellow SiamRPN 的架構(gòu),轉(zhuǎn)而使用粒子濾波采樣搭配 IoU 預(yù)測,多次迭代得到目標(biāo)結(jié)果。在多個庫上取得了非常驚人的結(jié)果。這項工作我覺得最突破的點(diǎn)是網(wǎng)絡(luò)學(xué)習(xí)的問題實(shí)際上更 hard,更符合跟蹤的需求。

LaSOT 這個測評集的接收也是常規(guī)操作。希望各位大佬能繼續(xù)維護(hù)好這個庫。最近跟蹤的數(shù)據(jù)庫相當(dāng)多,人們都意識到之前的數(shù)據(jù)已經(jīng)無法滿足深度學(xué)習(xí)的跟蹤算法。

關(guān)于 Siamese Tracking 的未來研究方向(free ideas):

當(dāng)你閱讀了一定的文章以及有現(xiàn)成的代碼之后,下面當(dāng)然是如何著手改進(jìn)。我自己總結(jié)了一些小的可以改進(jìn)的方向,僅供參考。

1)高效的在線學(xué)習(xí)算法:進(jìn)展到目前為止,我的所有實(shí)驗研究表明。Siamese 網(wǎng)絡(luò)無法真正意義上抑制背景中的困難樣本。離線的學(xué)習(xí)從本質(zhì)上無法區(qū)分兩個長相相似的人或者車。而 CF 相關(guān)算法可以通過分析整個環(huán)境的上下文關(guān)系來進(jìn)行調(diào)整。如果對于提升整個算法的上界(偏學(xué)術(shù))的角度考慮,在線學(xué)習(xí)有必要。如果正常的工程使用,我認(rèn)為目前的算法只要在相應(yīng)的場景中進(jìn)行訓(xùn)練就足夠了。

2)精確輸出表達(dá):今年我們的工作提出額外的 mask 輸出??芍苯訑U(kuò)展的思路為關(guān)鍵點(diǎn)輸出(CornerNet / PoseTrack),極點(diǎn)預(yù)測(ExtremeNet),甚至 6D pose 跟蹤。本質(zhì)上是通過網(wǎng)絡(luò)可以預(yù)測任何與目標(biāo)相關(guān)的輸出。大家可以任意的發(fā)散思維。

3)定制網(wǎng)絡(luò)架構(gòu):其中包含兩個子方向,一個是追求精度的去探索究竟什么樣的網(wǎng)絡(luò)架構(gòu)會有利于當(dāng)前的跟蹤框架的學(xué)習(xí)。另一個有價值的子方向是如何構(gòu)建超快速的小網(wǎng)絡(luò)用于實(shí)際工程。工程項目中有時并沒有 GPU 的資源供使用,如何提供「廉價」的高質(zhì)量跟蹤算法也具有很強(qiáng)的實(shí)際意義。當(dāng)對網(wǎng)絡(luò)進(jìn)行裁剪之后,很容易達(dá)到 500FPS 的高性能算法來對傳統(tǒng)的 KCF 進(jìn)行真正的替換。

4)離線訓(xùn)練學(xué)習(xí)優(yōu)化:目前的跟蹤算法在相似性學(xué)習(xí)方向還是過于簡單,如果去設(shè)計更為有效的度量學(xué)習(xí)方案,應(yīng)該會有一定的提升。同時我們也并沒有很好的掌握網(wǎng)絡(luò)的訓(xùn)練。當(dāng)前的訓(xùn)練策略是將網(wǎng)絡(luò)主干的參數(shù)進(jìn)行固定,先訓(xùn)練 head。然后逐步放開。實(shí)際上我們發(fā)現(xiàn),當(dāng)直接將所有層全部放開一起訓(xùn)練的時候,網(wǎng)絡(luò)的泛化性能會顯著下降。另一個方面,train from scratch 的概念已經(jīng)在檢測領(lǐng)域非常普遍了。跟蹤的網(wǎng)絡(luò)目前我們的經(jīng)驗在跟蹤方面并不 work。

5)更細(xì)粒度預(yù)測:這一條實(shí)際上是上一條的續(xù)集,就是專注于 score 分支的預(yù)測。現(xiàn)在大家的做法是>0.6 IoU 的都當(dāng)做前景(正樣本),但實(shí)際上正樣本之間還是有較大的差異的。跟蹤本質(zhì)上也是不斷預(yù)測一個非常細(xì)小物體幀間運(yùn)動的過程,如果一個網(wǎng)絡(luò)不能很好的分辨細(xì)小的差異,他可能并不是一個最優(yōu)的設(shè)計選擇。這也是 ATOM 的 IoUNet 主攻的方向。

6)泛化性能提升:非常推薦自動化所黃凱奇老師組的 GOT-10k 數(shù)據(jù)集,數(shù)據(jù)組織的非常棒。黃老師組在 one-shot learning 領(lǐng)域有著深厚的積淀,所以站在這個領(lǐng)域的角度,他們提出了嚴(yán)格分離訓(xùn)練集和測試集的物體類別來驗證泛化性能。所以原則上所有 one-shot learning 方向的一些嵌入學(xué)習(xí)方法都可以移過來用。同時,我覺得 Mask-X-RCNN,segment everything 這個思路可以借鑒。本質(zhì)上我也不得不承認(rèn),基于深度學(xué)習(xí)的跟蹤算法存在泛化性能問題。我們有理由懷疑跟蹤是否會在未知的類別上有較好的泛化性能,實(shí)際上肯定是會下降。

7)long-term 跟蹤框架:截止到目前為止,雖然 VOT 組委會以及牛津這邊的 OxUVA 都有專門的 long-term 的數(shù)據(jù)集,但 long-term 算法并沒有一個較好的統(tǒng)一框架出來。關(guān)于這方面的研究似乎有點(diǎn)停滯,今年大連理工的文章非??上?,我覺得質(zhì)量非常不錯。

當(dāng)然,寫到這里,也該結(jié)尾了。畢竟大家都在趕 ICCV,祝大家都有好的運(yùn)氣。也真的感謝周邊認(rèn)識的很多優(yōu)秀的朋友。

期待 CVPR2020。希望明年我可以帶來更好的工作。

歡迎關(guān)注我的這個項目:foolwood/SiamMask

另外,我們 AI 研習(xí)社建立了 CVPR 相關(guān)的討論群,想了解更多關(guān)于 CVPR 的最新消息,就快快加入小組討論吧~

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領(lǐng)域 | CVPR 2019

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說