0
本文作者: 奕欣 | 2017-12-22 10:01 |
雷鋒網(wǎng) AI 科技評(píng)論按:12 月 18 日,騰訊 AI Lab 宣布,其研發(fā)的人臉?biāo)惴?Face R-FCN 和 Face CNN 分別在人臉檢測(cè)平臺(tái) WIDER FACE 與人臉識(shí)別平臺(tái) MegaFace 的多項(xiàng)測(cè)評(píng)中斬獲冠軍。獲悉這一消息后,雷鋒網(wǎng) AI 科技評(píng)論與騰訊 AI Lab 計(jì)算機(jī)視覺(jué)中心總監(jiān)劉威博士進(jìn)行了交流。
Face R-FCN 算法為針對(duì)人臉檢測(cè)問(wèn)題而設(shè)計(jì),而 Face CNN 則著眼于解決人臉識(shí)別問(wèn)題。據(jù)劉威博士介紹,目前 Face R-FCN 的部分技術(shù)細(xì)節(jié)已在 arXiv 上公布,F(xiàn)ace CNN 的技術(shù)細(xì)節(jié)解讀也將在未來(lái)呈現(xiàn)。
Face R-FCN 論文地址:https://arxiv.org/abs/1709.05256
據(jù)雷鋒網(wǎng) AI 科技評(píng)論了解,Face R-CNN 與 Face R-FCN 分別在今年的 6 月與 9 月發(fā)布在 arXiv 平臺(tái)上。據(jù)劉威博士介紹,F(xiàn)ace R-CNN 是騰訊 AI Lab 的早期研究版本,目前升級(jí)的更強(qiáng)版本是 Face R-FCN。
Face R-FCN 主要是基于 R-FCN(基于區(qū)域的全卷積網(wǎng)絡(luò))框架來(lái)解決人臉檢測(cè)問(wèn)題。「在 R-FCN 框架的基礎(chǔ)上,我們采用 ResNet(殘差網(wǎng)絡(luò))作為基礎(chǔ)網(wǎng)絡(luò),結(jié)合了多尺度訓(xùn)練和測(cè)試、Online Hard Example Mining 等改進(jìn),并針對(duì)人臉特性設(shè)計(jì)了位置敏感平均池化的方法,提升了檢測(cè)準(zhǔn)確率?!?/p>
WIDER FACE 是由香港中文大學(xué)公開(kāi)的人臉檢測(cè)基準(zhǔn)數(shù)據(jù)集,包含訓(xùn)練集、驗(yàn)證集和測(cè)試集。共包含 3.2 萬(wàn)張圖片,39.3 萬(wàn)個(gè)手工標(biāo)注人臉,標(biāo)注人臉在尺寸、姿態(tài)、角度和遮擋等有較大程度的變化。
騰訊 AI Lab 的 Face R-FCN 算法在 WIDER FACE 測(cè)試平臺(tái)中使用官方指定訓(xùn)練集,在簡(jiǎn)單、中等及困難模式(Easy、Medium、Hard)的全部三個(gè)測(cè)試子集中均取得第一。
WIDER FACE 人臉圖像示例,綠框?yàn)轵v訊 AI Lab 算法檢測(cè)結(jié)果,紅框?yàn)楣俜綐?biāo)注結(jié)果。
騰訊 AI Lab 提供
「和同類算法相比,F(xiàn)ace R-FCN 在檢測(cè)難度很大的人臉樣本時(shí)更有優(yōu)勢(shì)。從 WIDER FACE 的測(cè)試結(jié)果也可看出,隨著測(cè)試難度的增加, 從 Easy set 到 Medium set 到 Hard set,我們的算法的領(lǐng)先優(yōu)勢(shì)在擴(kuò)大。」劉威博士如是告訴雷鋒網(wǎng) AI 科技評(píng)論。
WIDER FACE 驗(yàn)證集結(jié)果與測(cè)試集結(jié)果
「針對(duì) Face CNN,騰訊 AI Lab 在網(wǎng)絡(luò)模型結(jié)構(gòu)、損失函數(shù)、訓(xùn)練樣本挖掘上都進(jìn)行了創(chuàng)新性改進(jìn);和同類算法相比,F(xiàn)ace CNN 的優(yōu)勢(shì)在于能比較好地適應(yīng)不同的人臉應(yīng)用場(chǎng)景,比如常規(guī)識(shí)別評(píng)測(cè)、跨年齡識(shí)別評(píng)測(cè)、1:N 辨識(shí)(Face Identification)、1:1 驗(yàn)證(Face Verification)等?!箘⑼┦肯蚶卒h網(wǎng) AI 科技評(píng)論介紹道。
Face CNN 的技術(shù)實(shí)力在人臉識(shí)別評(píng)測(cè)平臺(tái) MegaFace 的 Challenge 2(MF2)上得到了驗(yàn)證。MegaFace 是由美國(guó)華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程實(shí)驗(yàn)室發(fā)布并維護(hù)的一套公開(kāi)人臉數(shù)據(jù)集,資料集包含一百萬(wàn)張圖片,包含 690,000 個(gè)人臉。
MegaFace 包括兩個(gè)不同的 Challenge,Challenge 1(MF1)與 Challenge 2(MF2)。與 MF1 可采用任何外部不限量的人臉數(shù)據(jù)來(lái)訓(xùn)練參賽算法不同的是,MF2 要求使用官方固定訓(xùn)練集 FaceScrub 和 FGNET 測(cè)試集進(jìn)行訓(xùn)練,在給定數(shù)據(jù)集的情況下,算法的測(cè)試結(jié)果更具客觀性。
系統(tǒng)需在百萬(wàn)規(guī)模人臉數(shù)據(jù)下,評(píng)定兩大指標(biāo)的準(zhǔn)確率,包括:
1:N 辨識(shí),即 Face Identification,需要從 N 個(gè)人數(shù)據(jù)庫(kù)中找到 1 個(gè)目標(biāo)人臉;
1:1 驗(yàn)證,即 Face Verification,比對(duì)給定的兩張人臉是否為同一個(gè)身份。
MF2 分常規(guī)識(shí)別與跨年齡識(shí)別兩類任務(wù),又分別進(jìn)行兩大指標(biāo)準(zhǔn)確率的測(cè)試,即四項(xiàng)小任務(wù)。
從 MegaFace 的官網(wǎng)中,雷鋒網(wǎng) AI 科技評(píng)論了解到,在 MF2 常規(guī)識(shí)別任務(wù)的辨識(shí)準(zhǔn)確率(1:N)、MF2 的常規(guī)識(shí)別任務(wù)的驗(yàn)證準(zhǔn)確率(1:1)、MF2 的跨年齡識(shí)別任務(wù)的辨識(shí)準(zhǔn)確率(1:N)、MF2 的跨年齡任務(wù)的驗(yàn)證準(zhǔn)確率(1:1)四項(xiàng)任務(wù)中,騰訊 AI Lab 的 Face CNN 均獲得了第一名的優(yōu)秀成績(jī)。
MF2 詳細(xì)評(píng)測(cè)結(jié)果參閱:http://megaface.cs.washington.edu/results/facescrub_challenge2.html
劉威博士肯定了標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)集在人臉技術(shù)發(fā)展過(guò)程中的地位?!冈谌四樇夹g(shù)發(fā)展過(guò)程中,標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)集的重要性不言而喻。參與標(biāo)準(zhǔn)數(shù)據(jù)集測(cè)試時(shí),研究人員可在固定標(biāo)準(zhǔn)下,評(píng)估算法性能,并以此為方向推動(dòng)技術(shù)不斷發(fā)展?!?/p>
但在人臉識(shí)別與人臉檢測(cè)平臺(tái)上斬獲冠軍,對(duì)于騰訊 AI Lab 只是研究工作的一部分。劉威博士告訴雷鋒網(wǎng) AI 科技評(píng)論,目前騰訊 AI Lab 計(jì)算機(jī)視覺(jué)中心的工作重點(diǎn)是讓機(jī)器理解真實(shí)的視覺(jué)世界,
「我們的研究重點(diǎn)包括圖像或視頻的編輯、生成、分析和理解,物體或人臉的檢測(cè)、跟蹤和識(shí)別,以及文字識(shí)別、3D 視覺(jué)、SLAM 和基于視覺(jué)的強(qiáng)化學(xué)習(xí)等?!?/p>
而在基礎(chǔ)和前沿研究方向上,CV 團(tuán)隊(duì)聚焦中高層視覺(jué),尤其視頻等可視結(jié)構(gòu)數(shù)據(jù)的深度理解,同時(shí)也在重要的交叉領(lǐng)域發(fā)力,如視覺(jué)+NLP、視覺(jué)+信息檢索等。劉威博士表示,「騰訊 AI Lab 正在進(jìn)行或計(jì)劃中的研究項(xiàng)目兼具了挑戰(zhàn)性和趣味性,包括超大規(guī)模圖像分類、視頻編輯與生成、時(shí)序數(shù)據(jù)建模和增強(qiáng)現(xiàn)實(shí),這些項(xiàng)目吸引了哥倫比亞和清華等海內(nèi)外知名大學(xué)的優(yōu)秀實(shí)習(xí)生參與。」
而與此同時(shí),劉威博士也向雷鋒網(wǎng) AI 科技評(píng)論表示,騰訊秉承「與學(xué)界和行業(yè)『共享 AI』成果」的發(fā)展之路,以迅速將研究成果推進(jìn)到應(yīng)用落地階段,縮短迭代時(shí)間。
人臉技術(shù)目前已接入包括政務(wù)、金融、安防在內(nèi)的騰訊各類業(yè)務(wù)場(chǎng)景,據(jù)騰訊 AI Lab 介紹,每日技術(shù)調(diào)用量已超過(guò) 6 億次。人臉技術(shù)的典型應(yīng)用場(chǎng)景在互聯(lián)網(wǎng)+公眾服務(wù)領(lǐng)域,用戶可以通過(guò)人臉驗(yàn)證,完成身份自動(dòng)鑒別的「刷臉辦事」。
劉威博士也向雷鋒網(wǎng) AI 科技評(píng)論表示介紹了騰訊 AI Lab 的其它應(yīng)用內(nèi)容,「除了人臉技術(shù)外,以圖像和視頻實(shí)時(shí)濾鏡和肢體動(dòng)作追蹤為代表的技術(shù)在研究出來(lái)后,也馬上有了應(yīng)用場(chǎng)景,是很好的例證?!?/p>
在 SIGGRAPH ASIA 2016 的 exhibitor talk 中,騰訊 AI Lab 展示了實(shí)時(shí)視頻風(fēng)格轉(zhuǎn)換的相關(guān)研究成果,即通過(guò)訓(xùn)練一個(gè)深度前向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)了如何將視頻的每一幀都轉(zhuǎn)換成指定的藝術(shù)風(fēng)格。系統(tǒng)除了學(xué)習(xí)如何將一幀視頻藝術(shù)化外,還學(xué)會(huì)了如何保持藝術(shù)化之后的幀間一致性。在應(yīng)用層面,騰訊 AI Lab 在現(xiàn)場(chǎng)展示了多部不同電影添加視頻藝術(shù)濾鏡的效果。
via ai.tencent
而最近手機(jī) QQ 剛剛上線的「高能舞室」功能,也是騰訊 AI Lab 研發(fā)的「肢體動(dòng)作追蹤」在移動(dòng)端的率先落地。系統(tǒng)通過(guò)對(duì)人體 22 個(gè)關(guān)鍵點(diǎn)的實(shí)時(shí)和高精度檢測(cè),它會(huì)將人體動(dòng)作與預(yù)測(cè)的動(dòng)作進(jìn)行比對(duì),再進(jìn)行打分。據(jù)悉,這也是與高通在AI領(lǐng)域的首次合作。通過(guò)高通驍龍神經(jīng)處理引擎(Snapdragon Neural Processing Engine, SNPE)SDK,讓 QQ「高能舞室」應(yīng)用可以直接在手機(jī)上,而不需要在云端運(yùn)行 QQ 相應(yīng)的 AI 神經(jīng)網(wǎng)絡(luò),以提升識(shí)別效率與運(yùn)行時(shí)間。
via 騰訊
成立于 2016 年 4 月的騰訊 AI Lab 在一年多的時(shí)間內(nèi),秉承「Make AI Everywhere」的愿景,專注于 AI 基礎(chǔ)研究與落地應(yīng)用的結(jié)合,研究方向包括機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言處理四大方向,技術(shù)應(yīng)用聚焦于內(nèi)容、游戲、社交和平臺(tái)工具型 AI 四個(gè)方向。據(jù)騰訊 AI Lab 官方介紹,目前研究工作已落地到微信、QQ、天天快報(bào)和 QQ 音樂(lè)等上百個(gè)騰訊產(chǎn)品。在行業(yè)落地上,圍棋 AI「絕藝」及 AI+醫(yī)療項(xiàng)目「騰訊覓影」等項(xiàng)目取得了突破性進(jìn)展。
而針對(duì)騰訊 AI Lab 的年度系列回顧總結(jié),雷鋒網(wǎng)將在春節(jié)前后為讀者呈現(xiàn),敬請(qǐng)期待。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。