0
本文作者: AI研習(xí)社-譯站 | 2018-11-23 11:26 |
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
NeuroNuggets: CVPR 2018 in Review, Part II
作者 | Sergey Nikolenko、Aleksey Artamonov
翻譯 | 老趙 校對(duì) | 醬番梨
整理 | 菠蘿妹
原文鏈接:
https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-ii-4759fd95f65c
NeuroNuggets:CVPR 2018年回顧,第二部分
今天,我們繼續(xù)推出最近的CVPR(計(jì)算機(jī)視覺和模式識(shí)別)會(huì)議系列,這是世界上計(jì)算機(jī)視覺的頂級(jí)會(huì)議。 Neuromation成功參加了DeepGlobe研討會(huì),現(xiàn)在我們正在看主會(huì)議的論文。 在我們的CVPR回顧的第一部分,我們簡(jiǎn)要回顧了有關(guān)計(jì)算機(jī)視覺的生成對(duì)抗網(wǎng)絡(luò)(GAN)的最有趣的論文。 這一次,我們深入研究了將計(jì)算機(jī)視覺應(yīng)用于我們?nèi)祟惖墓ぷ鳎焊櫼曨l中的人體和其他物體,估計(jì)姿勢(shì)甚至是完整的3D體形,等等。 同樣,論文沒有特別的順序,我們的評(píng)論非常簡(jiǎn)短,所以我們絕對(duì)建議完整閱讀論文。
人物:人物識(shí)別,跟蹤和姿勢(shì)估計(jì)
人類非常擅長(zhǎng)識(shí)別和識(shí)別其他人類,而不是識(shí)別其他物體。特別是,大腦的一個(gè)特殊部分,稱為梭狀回,被認(rèn)為含有負(fù)責(zé)面部識(shí)別的神經(jīng)元,并且這些神經(jīng)元被認(rèn)為與識(shí)別其他事物的神經(jīng)元有所不同。這就是那些關(guān)于顛倒的面孔(撒切爾效應(yīng))的幻想來自的地方,甚至還有一種特殊的認(rèn)知障礙,即失語(yǔ)癥,一個(gè)人失去了識(shí)別人類面孔的能力......但仍然很好地識(shí)別桌子,椅子,貓或英文字母。當(dāng)然,這并不是很清楚,并且可能沒有特定的“個(gè)體面部神經(jīng)元”,但面部肯定是不同的。人類一般(它們的形狀,輪廓,身體部位)在我們的心靈和大腦中也有一個(gè)非常特殊的位置:我們大腦的“基本形狀”可能包括三角形,圓形,矩形......和人體輪廓。
人類認(rèn)知是人類的核心問題,因此它一直是計(jì)算機(jī)視覺。 早在2014年(很久以前在深度學(xué)習(xí)中),F(xiàn)acebook聲稱在人臉識(shí)別方面達(dá)到了超人的表現(xiàn),而且不管當(dāng)代的批評(píng)現(xiàn)在我們基本上可以認(rèn)為人臉識(shí)別確實(shí)很好地解決了。 但是,仍然有許多任務(wù); 例如,我們已經(jīng)發(fā)布了關(guān)于年齡和性別估計(jì)以及人類姿勢(shì)估計(jì)的文章。 在CVPR 2018上,大多數(shù)與人類相關(guān)的論文要么是關(guān)于在3D中尋找姿勢(shì),要么是關(guān)于在視頻流中跟蹤人類,這正是我們今天所關(guān)注的。 為了更好地衡量,我們還回顧了一些關(guān)于物體跟蹤的論文,這些論文與人類沒有直接關(guān)系(但人類肯定是最有趣的科目之一)。
R. Girdhar等人,“檢測(cè)與跟蹤:視頻中的高效姿態(tài)估計(jì)”
我們已經(jīng)利用Mask R-CNN實(shí)現(xiàn)分割,這是2017年出現(xiàn)的最有前途的分割方法之一。去年,基本的Mask R-CNN的幾個(gè)擴(kuò)展和修改出現(xiàn)了,卡內(nèi)基梅隆的合作, Facebook和Dartmouth提出了另一個(gè):作者提出了一個(gè)3D Mask R-CNN架構(gòu),該架構(gòu)使用時(shí)空卷積來提取特征并直接識(shí)別短片上的姿勢(shì)。 然后他們繼續(xù)展示以3D Mask R-CNN作為第一步的兩步算法(以及將關(guān)鍵點(diǎn)預(yù)測(cè)作為第二步鏈接的二分匹配)擊敗姿勢(shì)估計(jì)和人類跟蹤中的現(xiàn)有技術(shù)方法。 以下是3D Mask R-CNN架構(gòu),肯定會(huì)在未來找到更多應(yīng)用:
M. Saquib Sarfraz等人,利用擴(kuò)充的領(lǐng)域重分級(jí)敏感姿態(tài)嵌入的人員重識(shí)別
人員重新識(shí)別是計(jì)算機(jī)視覺中的一個(gè)具有挑戰(zhàn)性的問題:如上所示,攝像機(jī)視圖和姿勢(shì)的變化可能使兩張圖片完全不同(盡管我們?nèi)祟惾匀涣⒓窗l(fā)現(xiàn)這是同一個(gè)人)。 該問題通常通過基于檢索的方法來解決,該方法導(dǎo)出查詢圖像與來自某個(gè)嵌入空間的存儲(chǔ)圖像之間的鄰近度量。 德國(guó)研究人員的這項(xiàng)工作提出了一種將姿勢(shì)信息直接納入嵌入的新方法,從而改善了重新識(shí)別結(jié)果。 這是一個(gè)簡(jiǎn)短的概述圖,但我們建議你完整閱讀本文,以了解如何將姿勢(shì)添加到嵌入中:
G. Pavlakos等人,從單一彩色圖像學(xué)習(xí)估計(jì)3D人體姿勢(shì)和形狀
姿態(tài)估計(jì)是一個(gè)眾所周知的問題; 我們之前已經(jīng)寫過這篇文章并在本文中已經(jīng)提到過。 然而,制作完整的3D人體形狀是另一回事。 這項(xiàng)工作提出了一個(gè)非常有希望和非常令人驚訝的結(jié)果:它們直接通過端到端卷積結(jié)構(gòu)生成人體的3D網(wǎng)格,該結(jié)構(gòu)結(jié)合了姿勢(shì)估計(jì),人體輪廓分割和網(wǎng)格生成(見上圖)。 這里的關(guān)鍵見解是基于使用SMPL,一種統(tǒng)計(jì)的身體形狀模型,為人體形狀提供了良好的先驗(yàn)。 因此,這種方法設(shè)法從單一彩色圖像構(gòu)建人體的3D網(wǎng)格。以下是一些說明性結(jié)果,包括標(biāo)準(zhǔn)UP-3D數(shù)據(jù)集中的一些非常具有挑戰(zhàn)性的案例:
Z. Zhu等,具有時(shí)空注意力的端到端流動(dòng)相關(guān)跟蹤
判別相關(guān)濾波器(DCF)是用于對(duì)象跟蹤的現(xiàn)有技術(shù)學(xué)習(xí)技術(shù)。 我們的想法是學(xué)習(xí)一個(gè)過濾器 - 即圖像窗口的轉(zhuǎn)換,通常只是一個(gè)卷積 - 它對(duì)應(yīng)于你想要跟蹤的對(duì)象,然后將其應(yīng)用于視頻中的所有幀。 正如經(jīng)常發(fā)生在神經(jīng)網(wǎng)絡(luò)中一樣,DCF遠(yuǎn)非一個(gè)新的想法,可追溯到1980年的一篇開創(chuàng)性論文,但它們幾乎被遺忘到2010年; MOSSE跟蹤器開始復(fù)興,現(xiàn)在DCF風(fēng)靡一時(shí)。 然而,經(jīng)典DCF不利用實(shí)際視頻流并分別處理每個(gè)幀。 在這項(xiàng)工作中,中國(guó)研究人員提出了一種建筑,其中涉及能夠跨越不同時(shí)間框架參與的時(shí)空關(guān)注機(jī)制; 他們報(bào)告了大大改善的結(jié)果。以下是他們模型的一般流程:
C.Suni等人,通過聯(lián)合歧視和可靠性學(xué)習(xí)進(jìn)行相關(guān)跟蹤
與前一篇文章一樣,本文致力于跟蹤視頻中的對(duì)象(目前這是一個(gè)非常熱門的話題),就像前一篇一樣,它使用相關(guān)過濾器進(jìn)行跟蹤。 但是,與前一個(gè)形成鮮明對(duì)比的是,本文并沒有使用深度神經(jīng)網(wǎng)絡(luò)。這里的基本思想是在模型中明確地包括可靠性信息,即,向目標(biāo)函數(shù)添加一個(gè)術(shù)語(yǔ),該目標(biāo)函數(shù)模擬學(xué)習(xí)過濾器的可靠性。 作者報(bào)告顯著改進(jìn)了跟蹤,并顯示了經(jīng)??雌饋矸浅:侠淼膶W(xué)習(xí)可靠性圖:
感謝您的關(guān)注。下次加入我們 - 來自CVPR 2018的更多有趣的論文......而且,就像偷看一樣,ICLR 2019截止日期已經(jīng)過去,其提交的論文已經(jīng)上線,雖然我們不知道哪些可以接受更多 幾個(gè)月我們已經(jīng)在看他們了。
Sergey Nikolenko
Chief Research Officer, Neuromation
Aleksey Artamonov
Senior Researcher, Neuromation
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
長(zhǎng)按鏈接點(diǎn)擊打開【CVPR2018摘要:第二部分】:
http://ai.yanxishe.com/page/TextTranslation/1194
查看 CVPR 2018摘要 系列更多文章,請(qǐng)點(diǎn)擊:
AI研習(xí)社每日更新精彩內(nèi)容,觀看更多精彩內(nèi)容:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。