0
本文作者: 黃善清 | 2019-11-06 11:42 | 專題:ICCV 2019 |
大賽簡介
帝國理工學(xué)院聯(lián)合愛奇藝、格靈深瞳、深見網(wǎng)絡(luò)科技舉辦了輕量級人臉識別競賽ICCV 2019 LFR(Lightweight Face Recognition Challenge),它是今年ICCV人臉識別的一項(xiàng)重要競賽,吸引了來自全球的292支競賽隊(duì)伍參加。
此次ICCV LFR挑戰(zhàn)賽一共分為四項(xiàng)任務(wù),每項(xiàng)競賽都有各自的限制和側(cè)重點(diǎn):
Protocol-1 (DeepGlint-Light)圖像人臉識別輕量級識別模型,運(yùn)算復(fù)雜度小于1Gflops,模型大小小于20MB,數(shù)據(jù)類型float32,特征維度512 (FPR@1e-8);
Protocol-2 (DeepGlint-Large)圖像人臉識別大型級識別模型,運(yùn)算復(fù)雜度小于30Gflops,數(shù)據(jù)類型float32,特征維度512 (FPR@1e-8);
Protocol-3 (iQIYI-Light) 視頻人臉識別輕量級識別模型,運(yùn)算復(fù)雜度小于1Gflops,數(shù)據(jù)類型float32,特征維度512 (FPR@1e-4);
Protocol-4 (iQIYI-Large) 視頻人臉識別大型識別模型,運(yùn)算復(fù)雜度小于30Gflops,數(shù)據(jù)類型float32,特征維度512 (FPR@1e-4)。
賽題的社會價值
ICCV LFR(Lightweight Face Recognition Challenge )輕量級人臉識別挑戰(zhàn)賽的設(shè)立是為了尋找一個可以在無限制的動態(tài)監(jiān)控視頻場景下有優(yōu)異表現(xiàn)的輕量級高精度的模型來應(yīng)對大數(shù)據(jù)庫人臉識別應(yīng)用。這對于進(jìn)一步推動非受限場景下的人臉識別技術(shù)的研究以及提升相關(guān)學(xué)術(shù)成果的轉(zhuǎn)化效果具有重要意義。
冠軍方案解讀
本次競賽中格靈深瞳有兩個競賽賽道,分別為 DeepGlint-Light 與 DeepGlint-Large:
DeepGlint-Light賽道的冠軍團(tuán)隊(duì),來自地平線 (HorizonRobotics)公司,以0.8878精度的成績獲得第一名。
DeepGLint-Large賽道的冠軍團(tuán)隊(duì),來自自動化所模式識別實(shí)驗(yàn)室和Winsense,以0.9419精度的成績獲得第一名。
愛奇藝有兩個競賽賽道,分別為 iQIYI-Light 與 iQIYI-Large(愛奇藝視頻人臉識別輕量級識別模型與愛奇藝視頻人臉識別大型識別模型)。
iQIYI-Light 賽道的冠軍團(tuán)隊(duì),來自微軟亞洲研究院,以0.6323精度的成績獲得第一名;
iQIYI-Large 賽道的冠軍團(tuán)隊(duì), 來自商湯和香港中文大學(xué),以0.7298精度的成績獲得第一名。
不同于其他人臉識別比賽,ICCV LFR挑戰(zhàn)賽嚴(yán)格限制了訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。在如此嚴(yán)格的限制條件下,在292個參賽隊(duì)伍中脫穎而出變得異常艱難。我們來看看各個賽道的優(yōu)勝者們,是如何殺出重圍,喜獲桂冠的呢?通過下面的解析,大家也許能夠找到答案。
iQIYI Large 冠軍
團(tuán)隊(duì)組成及分工
Trojans團(tuán)隊(duì)由香港中文大學(xué)多媒體實(shí)驗(yàn)室的劉宇和Sensetime X-Lab的宋廣錄、劉吉豪、張滿園、周彧聰、閆俊杰組成。其中前四位隊(duì)員負(fù)責(zé)主干模型設(shè)計(jì)與搜索、數(shù)據(jù)分析、質(zhì)量評估模型設(shè)計(jì)以及實(shí)驗(yàn)調(diào)參,周彧聰負(fù)責(zé)了整個過程訓(xùn)練平臺的搭建和維護(hù)。而閆俊杰是團(tuán)隊(duì)的顧問。
模型思路
模型思路分為主干網(wǎng)絡(luò)和幀融合策略兩個部分。由于比賽約束了總運(yùn)算量不超過30GFlops的限制,他們選擇通過類似MNasNet和EfficientNet的方式搜索在30GFlops附近的帕累托最優(yōu)模型。同時,設(shè)計(jì)了一個新?lián)p失函數(shù),這使得單模型結(jié)果提升了0.8。對于幀融合方式,他們提出了鑒別力分布假設(shè)。該假設(shè)認(rèn)為每一幀特征的融合權(quán)重應(yīng)該由主干特征網(wǎng)絡(luò)來決定——對于特征網(wǎng)絡(luò)約具有區(qū)分度的特征應(yīng)該越具有更高的權(quán)重。就是這些設(shè)計(jì)幫助他們在視頻人臉識別的大模型賽道中獲得了第一的成績。他們已將模型和代碼放在GitHub(https://github.com/sciencefans/trojans-face-recognizer)中,供大家參考。
不足之處
這個模型也并非完美,Trojans團(tuán)隊(duì)認(rèn)為還有可改進(jìn)的空間。在搜索主干網(wǎng)絡(luò)結(jié)構(gòu)的過程中,由于時間關(guān)系,出現(xiàn)了搜索空間比較小的問題。同時,他們也沒有考慮augmentation,domain gap等方面的問題。這些都是他們覺得能夠進(jìn)一步提升性能的方法。
DeepGlint Large 冠軍
團(tuán)隊(duì)組成及分工
該團(tuán)隊(duì)由自動化所模式識別實(shí)驗(yàn)室CBSR組的博士生劉浩,助理研研究員朱翔昱,雷震研究員,李子青研究員和贏識科技的張帆,易東老師組成。
其中,劉浩主要負(fù)責(zé)代碼和實(shí)驗(yàn),其他成員主要給予方法上的指導(dǎo)。
模型思路
由于本次競賽的訓(xùn)練集、切圖方式是固定的,所以團(tuán)隊(duì)主要著眼于網(wǎng)絡(luò)架構(gòu)和損失函數(shù)的設(shè)計(jì)。針對他們參加的DeepGlint Large賽道,計(jì)算量限制30gflops,他們分別設(shè)計(jì)了Resnet和AttentionNet架構(gòu)下兩個網(wǎng)絡(luò),Resnet152 和AttentionNet152,其中AttentionNet152的計(jì)算量為29.5GFLOPs,充分利用了規(guī)則允許計(jì)算量,這也正是他們?nèi)〉酶咝阅艿年P(guān)鍵。在損失函數(shù)方面,他們認(rèn)為目前最先進(jìn)的人臉損失函數(shù)CosFace,ArcFace在本質(zhì)上幾乎一樣,他們的關(guān)鍵幾乎在于Margin的設(shè)置,所以他們只選用了CosFace,重點(diǎn)調(diào)整了Margin,最終取得了冠軍。關(guān)于代碼,他們使用的技術(shù)其實(shí)都是有開源代碼的,大家可以按照他們的方案組合在一起即可。
不足之處
方案的不足之處主要就是里面使用的技術(shù)都是現(xiàn)有的,他們沒能提出一些新的方案或改進(jìn)。另外,目前AutoML正在引發(fā)新一輪變革,沒能使用AutoML在網(wǎng)絡(luò)架構(gòu)和損失函數(shù)上帶來進(jìn)一步的提升,希望日后能借助AutoML在人臉識別上帶來新一輪的進(jìn)步。
DeepGlint Light 冠軍
團(tuán)隊(duì)組成及分工
該團(tuán)隊(duì)來自地平線 (Horizon Robotics)公司. 主要由三位研究員和工程師組成。從訓(xùn)練策略探索、網(wǎng)絡(luò)結(jié)構(gòu)調(diào)優(yōu)、KD(KnowledgeDistillation)算法調(diào)優(yōu)這幾個方面進(jìn)行探索。
模型思路
他們主要是基于VarGNet進(jìn)行Large Scale的Face Recognition,其中對Embedding Setting和Head Setting進(jìn)行了修改,然后對Block進(jìn)行了修改,以及修改了網(wǎng)絡(luò)的堆疊方式以滿足受限Flops。最后使用了KD的方法進(jìn)行調(diào)優(yōu)。
不足之處
相對于其他的隊(duì)伍,他們的方法更為直接,不需要很多的Finetune,沒有太多的Tricks,復(fù)現(xiàn)起來也比較方便。改進(jìn)方面主要是兩個方面,一個是網(wǎng)絡(luò)結(jié)構(gòu)可以針對需要的硬件平臺使用NAS進(jìn)行設(shè)計(jì)。另一個是在KD方面,他們現(xiàn)在使用的KD方法比較簡單,后面可以繼續(xù)探索使用KD進(jìn)行泛化能力的遷移等。除此之外,在FR tasks上面,也可以嘗試去除與身份信息不太相關(guān)的信息,比如年齡,域等。
雷鋒網(wǎng) AI 開發(fā)者雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章