0
本文作者: 奕欣 | 2018-05-14 18:56 | 專(zhuān)題:CVPR 2018 |
全球計(jì)算機(jī)視覺(jué)頂會(huì) CVPR 2018(Conference on Computer Vision and Pattern Recognition,即 IEEE 國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議)將于 6 月 18 日至 22 日在美國(guó)鹽湖城舉行。作為大會(huì)鉆石贊助商,曠視科技 Face++研究院也將在孫劍博士的帶領(lǐng)下重磅出席此次盛會(huì),本次曠視共有 1 篇 spotlight 論文,7 篇 poster 論文,在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評(píng)論旗下數(shù)據(jù)庫(kù)項(xiàng)目「AI影響因子」中有突出表現(xiàn)。而在盛會(huì)召開(kāi)之前,曠視將針對(duì) CVPR 2018 收錄論文集中進(jìn)行系列解讀。本次第 3 篇主題是可優(yōu)化解決人群密集遮擋問(wèn)題的 RepLoss。
論文鏈接:https://arxiv.org/abs/1711.07752
導(dǎo)語(yǔ)
RepLoss 設(shè)計(jì)思想
密集遮擋的影響
RepLoss 計(jì)算方法
吸引項(xiàng)
排斥項(xiàng)(RepGT)
排斥項(xiàng)(RepBox)
RepLoss 實(shí)驗(yàn)結(jié)果
結(jié)論
參考文獻(xiàn)
人群檢測(cè)是計(jì)算機(jī)視覺(jué)技術(shù)發(fā)展不可繞過(guò)的關(guān)鍵一環(huán),其中密集遮擋(crowd occlusion)問(wèn)題是最具挑戰(zhàn)性的問(wèn)題之一。曠視科技 Face++從技術(shù)底層的層面提出一種全新的人群檢測(cè)定位模型 Repulsion Loss(RepLoss),在相當(dāng)程度上優(yōu)化解決了這一難題。底層技術(shù)創(chuàng)新的適用范圍異常廣泛,這意味著絕大多數(shù)與人群檢測(cè)相關(guān)的產(chǎn)品應(yīng)用皆可實(shí)現(xiàn)不同程度的提升,從根本上推動(dòng)安防監(jiān)控、自動(dòng)駕駛、無(wú)人零售、智慧城市的落地和發(fā)展。此外,人群定位技術(shù) RepLoss 的檢測(cè)對(duì)象并不僅限于人,還可遷移泛化至一般物體檢測(cè),其底層創(chuàng)新驅(qū)動(dòng)力的波及范圍十分廣泛,有助于機(jī)器之眼打造一個(gè)人、物、字、車(chē)的檢測(cè)矩陣,進(jìn)一步看清楚、看明白這個(gè)世界。
檢測(cè)人群之中的行人依然是一個(gè)充滿(mǎn)挑戰(zhàn)性的問(wèn)題,因?yàn)樵诂F(xiàn)實(shí)場(chǎng)景中行人經(jīng)常聚集成群,相互遮擋。一般而言,物體遮擋問(wèn)題可以分為類(lèi)內(nèi)遮擋和類(lèi)間遮擋兩種情況。類(lèi)間遮擋產(chǎn)生于扎堆的同類(lèi)物體,也被稱(chēng)為密集遮擋(crowd occlusion)。在行人檢測(cè)中,密集遮擋在所有遮擋問(wèn)題中占比最大,嚴(yán)重影響著行人檢測(cè)器的性能。
密集遮擋的主要影響表現(xiàn)在顯著增加了行人定位的難度。比如,當(dāng)目標(biāo)行人 T 被行人 B 遮擋之時(shí),由于兩者外觀特征相似,檢測(cè)器很可能無(wú)法進(jìn)行定位。從而本應(yīng)該框定 T 的邊界框轉(zhuǎn)而框定 B,導(dǎo)致定位不準(zhǔn)確。更糟糕的是,由于非極大值抑制(non-maximum suppression/NMS)需要進(jìn)一步處理主要的檢測(cè)結(jié)果,從 T 移走的邊界框可能會(huì)被 B 的預(yù)測(cè)框抑制,進(jìn)而造成 T 漏檢。即,人群遮擋使得檢測(cè)器對(duì) NMS 閾值很敏感:較高的閾值會(huì)帶來(lái)更多的誤檢(false positives),較低的閾值則造成更多的漏檢(missed detection)。這會(huì)讓大多數(shù)實(shí)例分割框架失效,因?yàn)樗鼈円残枰_的檢測(cè)結(jié)果。因此,如何精確地定位人群之中的每個(gè)行人是檢測(cè)器最為關(guān)鍵的問(wèn)題之一。
圖 1:RepLoss 圖示。
在當(dāng)前最優(yōu)的檢測(cè)框架中,邊界框回歸技術(shù)常用來(lái)定位物體,其中回歸器被訓(xùn)練用來(lái)縮小 proposal 和 groundtruth box 之間的差距(通過(guò)一些距離度量進(jìn)行測(cè)量,比如 Smooth_L1 或者 IoU)。盡管如此,現(xiàn)有方法只需要 proposal 接近其指定目標(biāo),并不考慮周遭的物體。如圖 1 所示,在標(biāo)準(zhǔn)的邊界框回歸損失中,當(dāng)預(yù)測(cè)框移向周遭物體時(shí),對(duì)其并沒(méi)有額外的懲罰。這不免使人設(shè)想:如果要檢測(cè)人群之中的一個(gè)目標(biāo),是否應(yīng)該考慮其周遭物體的定位?
在磁極相互排斥吸引的啟發(fā)下,本文提出一種全新的定位技術(shù),稱(chēng)之為 Repulsion Loss(RepLoss),通過(guò)它,每一個(gè) proposal 不僅會(huì)靠近其指定目標(biāo) T,還會(huì)遠(yuǎn)離其他 groundtruth 物體以及指定目標(biāo)不是 T 的其他 proposal。如圖 1 所示,由于與周遭的非目標(biāo)物體重疊,紅色邊界框移向 B 將受到額外的懲罰。因此,RepLoss 可以有效防止預(yù)測(cè)邊界框移向相鄰的重疊物體,提升檢測(cè)器在人群場(chǎng)景中的魯棒性。
本節(jié)將借助實(shí)驗(yàn)探討當(dāng)前最優(yōu)的行人檢測(cè)器如何受到密集遮擋(crowd occlusion)的影響,更加深入地理解密集遮擋問(wèn)題。密集遮擋主要會(huì)造成兩個(gè)方面的問(wèn)題,漏檢和誤檢,下面會(huì)通過(guò)兩個(gè)圖示分別作出解釋?zhuān)渲谢€檢測(cè)器是針對(duì)行人檢測(cè)優(yōu)化的 Faster R-CNN,并使用新型行人檢測(cè)數(shù)據(jù)集 CityPersons。
圖 3:基線與 RepGT 的錯(cuò)誤檢測(cè)分析。
圖 3(a) 是不同檢測(cè)分值下在 reasonable-crowd 子集上的漏檢數(shù)量,紅線表示基線的 groundtruth 行人漏檢數(shù)量。在現(xiàn)實(shí)應(yīng)用中,只考慮帶有高置信度的預(yù)測(cè)邊界框,曲線左端的高漏檢量意味著離實(shí)際應(yīng)用還很遠(yuǎn)。圖 3(b) 表示由密集遮擋導(dǎo)致的誤檢占全部誤檢的比例,紅線表明基線的這一比例大概在 20% 左右。如圖 3 紅、藍(lán)線對(duì)比所示,RepGT 損失分別有效降低了由密集遮擋造成的漏檢和誤檢數(shù)量。
圖 4:錯(cuò)誤檢測(cè)的可視化實(shí)例。紅框表示由密集遮擋引起的誤檢。
如圖 4 所示,綠框是正確的預(yù)測(cè)邊界框,而紅框是由密集遮擋造成的誤檢,并給出了檢測(cè)器的置信值。如果預(yù)測(cè)框輕微或顯著移向相鄰的非目標(biāo) groundtruth 物體(比如右上圖),或者框定若干個(gè)彼此遮擋物體的重疊部分(比如右下圖),則經(jīng)常出現(xiàn)檢測(cè)錯(cuò)誤。此外,密集遮擋引起的檢測(cè)錯(cuò)誤通常有著較高的置信度,從而造成高排名的誤檢。這表明為提高檢測(cè)器在密集場(chǎng)景中的魯棒性,需要在執(zhí)行邊界框回歸時(shí)有更具判別力的損失。下面是另一個(gè)可視化實(shí)例:
?圖 9:基線與 RepLoss 的對(duì)比。藍(lán)框表示誤檢,紅框表示漏檢?;疑摼€上、下兩部分的第一行是基線的預(yù)測(cè)結(jié)果;第二行是添加 RepLoss 之后的預(yù)測(cè)結(jié)果。
通過(guò)分析錯(cuò)誤檢測(cè)表明,密集遮擋對(duì)行人檢測(cè)器的影響令人吃驚,不僅是漏檢的主要來(lái)源,還在增加定位難度的同時(shí)造成了更多的誤檢。正是為解決上述問(wèn)題,提升行人檢測(cè)器在密集場(chǎng)景中的魯棒性,RepLoss 被提了出來(lái)。
本節(jié)將詳述如何計(jì)算 RepLoss。受到磁石屬性的啟發(fā),RepLoss 包括 3 個(gè)組件,表示為:
其中 L_Attr 是吸引項(xiàng),需要預(yù)測(cè)框靠近其指定目標(biāo);L_RepGT 和 L_RepBox 是排斥項(xiàng),分別需要預(yù)測(cè)框遠(yuǎn)離周遭其他的 groundtruth 物體和其他指定目標(biāo)不同的預(yù)測(cè)框。系數(shù) α 和 β 充當(dāng)權(quán)重以平衡輔助損失。
為簡(jiǎn)明起見(jiàn),下面僅考慮兩類(lèi)檢測(cè),假定所有的 groundtruth 物體屬于同一類(lèi)別。分別使 P = (l_P,t_P,w_P,h_P) 和 G = (l_G, t_G, w_G, h_G) 為 proposal 邊界框和 groundtruth 邊界框,并分別由它們的左上點(diǎn)坐標(biāo)及其高度、寬度表示。P_+ = {P} 是所有 positive proposal 的集合(那些和至少一個(gè) groundtruth box 有高 IoU 的被視為正樣本,反之為負(fù)樣本);G = {G} 是一張圖片中所有 groudtruth box 的集合。
本文沿用 Smooth_L1 構(gòu)造吸引項(xiàng)。給定一個(gè) proposal P ∈ P_+,把具有極大值 IoU 的 groundtruth box 作為其指定目標(biāo):G^P_Attr = arg max_G∈G IoU(G,P)。B^P 是回歸自 proposal P 的預(yù)測(cè)框。由此吸引損失可計(jì)算為:
RepGT 損失旨在使 proposal 受到相鄰的非目標(biāo) groundtruth 物體的排斥。給定一個(gè) proposal P ∈ P_+,它的排斥 groundtruth 物體被定義為除了其指定目標(biāo)之外帶有最大 IoU 區(qū)域的 groundtruth 物體。受 IoU 損失的啟發(fā),RepGT 損失被計(jì)算以懲罰 B^P 和 G^P_Rep 之間的重疊(由 IoG 定義)。IoG(B, G) ∈ [0, 1],從而 RepGT 損失可寫(xiě)為:
其?中 Smooth_ln 是一個(gè)在區(qū)間 (0, 1) 連續(xù)可微分的平滑 ln 函數(shù),σ ∈ [0, 1) 是調(diào)節(jié) RepLoss 對(duì)異常值的敏感度的平滑參數(shù)。由此可見(jiàn),proposal 越傾向于與非目標(biāo) groundtruth 物體重疊,RepGT 損失對(duì)邊界框回歸器的懲罰就越大,從而有效防止邊界框移向相鄰的非目標(biāo)物體。
NMS 是絕大多數(shù)檢測(cè)框架中不可或缺的后處理步驟,為降低檢測(cè)器對(duì) NMS 的敏感度,作者接著提出 RepBox 損失,意在排斥來(lái)自不同指定目標(biāo)的 proposal。RepBox 損失可計(jì)算為:
從上式可以看到,為最小化 RepBox 損失,指定目標(biāo)不同的兩個(gè)預(yù)測(cè)框之間的 IoU 區(qū)域需要較小。這意味著 RepBox 損失可以降低 NMS 之后不同回歸目標(biāo)的邊界框合并為一的概率,使得檢測(cè)器在密集場(chǎng)景中更魯棒。
本節(jié)將直接給出 RepLoss 在數(shù)據(jù)集 CityPersons 和 Caltech-USA 上的評(píng)估結(jié)果,包括在 CityPersons 上分別評(píng)估和分析 RepGT 損失 和 RepBox 損失;在 CityPersons 和 Caltech-USA 上把 RepLoss 與當(dāng)前最優(yōu)的方法相對(duì)比。實(shí)驗(yàn)設(shè)置和實(shí)現(xiàn)細(xì)節(jié)從略,了解更多請(qǐng)參見(jiàn)原論文。
??表 3:在 CityPersons 上評(píng)估的 RepLoss 行人檢測(cè)結(jié)果。模型在訓(xùn)練集上訓(xùn)練,并在驗(yàn)證集上測(cè)試。ResNet-50 是 backbone。最佳的 3 個(gè)結(jié)果分別標(biāo)為紅、藍(lán)、綠色。
表 4:在新注釋中評(píng)估的 Calech-USA 測(cè)試集 (reasonable) 結(jié)果。在 0.5 IoU 閾值下,作者進(jìn)一步在強(qiáng)基線上把當(dāng)前最優(yōu)推進(jìn)到顯著的 4.0 MR^?2。當(dāng)把 IoU 閾值增至 0.75,持續(xù)的漲點(diǎn)證明了 RepLoss 的有效性。
?圖 7:在基線和 RepBox 的 NMS 之前的預(yù)測(cè)框可視化對(duì)比。RepBox 結(jié)果中兩個(gè)相鄰的 groundtruth 之間的預(yù)測(cè)較少,模型輸出的邊界框的分布更加明晰。
圖 10:更多的 CityPersons 數(shù)據(jù)集檢測(cè)實(shí)例。綠框中是預(yù)測(cè)的行人,其分值 ([0, 1.0]) 大于 0.8。
RepLoss 專(zhuān)為行人檢測(cè)精心設(shè)計(jì),尤其提升了密集場(chǎng)景的檢測(cè)性能,其主要想法在于目標(biāo)物體的吸引損失并不足以訓(xùn)練最優(yōu)的檢測(cè)器,來(lái)自周遭物體的排斥損失同樣至關(guān)重要。
為充分發(fā)揮排斥損失的潛能,本文提出 RepGT 和 RepBox,并在流行數(shù)據(jù)集 CityPersons 和 Caltech-USA 上取得了當(dāng)前最優(yōu)水平。特別是,本文結(jié)果在未使用像素注釋的情況下優(yōu)于使用像素注釋的先前最佳結(jié)果大約 2%。詳細(xì)的實(shí)驗(yàn)結(jié)果對(duì)比證實(shí)了 RepLoss 在大幅提升遮擋場(chǎng)景下檢測(cè)精度方面的價(jià)值,并且一般的物體檢測(cè) (PASCAL VOC) 結(jié)果進(jìn)一步表明了其有效性。作者希望 RepLoss 在諸多其他物體檢測(cè)任務(wù)中也有更為廣泛的應(yīng)用。
[1]Dollar, C. Wojek, B. Schiele, and P. Perona. Pedestrian detection: A benchmark. In IEEE Computer Vision and Pattern Recognition, 2009.
[2]K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition, 2016.
[3]J. Mao, T. Xiao, Y. Jiang, and Z. Cao. What can help pedestrian detection? In IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[4]S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towardsreal-time object detection with region proposal networks. In NIPS, 2015.
[5]J. Yu, Y. Jiang, Z. Wang, Z. Cao, and T. Huang. Unitbox: An advanced object detection network. In Proceedings of the 2016 ACM on Multimedia Conference.
[6]S. Zhang, R. Benenson, and B. Schiele. Citypersons: A diverse dataset for pedestrian detection. In IEEE Conference on Computer Vision and Pattern Recognition, 2017.
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章