0
雷鋒網(wǎng) AI 科技評(píng)論按:本文為 2018 年 5 月 11 日在微軟亞洲研究院進(jìn)行的 CVPR 2018 中國(guó)論文宣講研討會(huì)中最后一個(gè)Session ——「Human, Face and 3D Shape」環(huán)節(jié)的三場(chǎng)論文報(bào)告。
來(lái)自上海交通大學(xué)的盧策吾第一個(gè)報(bào)告,他介紹了他們?cè)谌梭w部分分割方面的工作。主要思想是在人體部分分割數(shù)據(jù)集難以獲取的情況下,通過(guò)知識(shí)遷移的方式,使用人體姿態(tài)數(shù)據(jù)集+少量人體部分分割數(shù)據(jù)集,實(shí)現(xiàn)弱監(jiān)督或半監(jiān)督的人體部分分割。
第二個(gè)報(bào)告由來(lái)自北京郵電大學(xué)的趙凱莉介紹他們?cè)谌四槃?dòng)作單元標(biāo)注方面的工作。他們同樣面臨著數(shù)據(jù)集少且難以獲取的困難。主要思想也是弱監(jiān)督,即通過(guò)弱監(jiān)督聚類的方式將大量標(biāo)注圖片、弱標(biāo)注圖片、未標(biāo)注圖片根據(jù)其視覺(jué)特性和弱標(biāo)注特性進(jìn)行聚類,對(duì)聚類后的結(jié)果進(jìn)行重新標(biāo)注。
最后一場(chǎng)報(bào)告時(shí)由清華大學(xué)的張子昭介紹了他們?cè)谔崛?D對(duì)象特征方面的工作。該工作的一個(gè)基本考慮就是,從不同視角看3D物體所得到的視圖,在辨別該物體是什么的問(wèn)題上貢獻(xiàn)并不相同,因此應(yīng)當(dāng)給予不同的權(quán)重;作為對(duì)比,之前的所有方法都是將這些視圖等權(quán)處置。
雷鋒網(wǎng)注:
[1] CVPR 2018 中國(guó)論文宣講研討會(huì)由微軟亞洲研究院、清華大學(xué)媒體與網(wǎng)絡(luò)技術(shù)教育部-微軟重點(diǎn)實(shí)驗(yàn)室、商湯科技、中國(guó)計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺(jué)專委會(huì)、中國(guó)圖象圖形學(xué)會(huì)視覺(jué)大數(shù)據(jù)專委會(huì)合作舉辦,數(shù)十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術(shù)觀點(diǎn)。研討會(huì)共包含了 6 個(gè) session(共 22 個(gè)報(bào)告),1 個(gè)論壇,以及 20 多個(gè) posters,雷鋒網(wǎng) AI 科技評(píng)論將為您詳細(xì)報(bào)道。
[2] CVPR 2018 將于 6 月 18 - 22 日在美國(guó)鹽湖城召開(kāi)。據(jù) CVPR 官網(wǎng)顯示,今年大會(huì)有超過(guò) 3300 篇論文投稿,其中錄取 979 篇;相比去年 783 篇論文,今年增長(zhǎng)了近 25%。
更多報(bào)道請(qǐng)參看:
Session 3: Person Re-Identification and Tracking
Session 4: Vision and Language
報(bào)告題目:Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer
報(bào)告人:盧策吾 - 上海交通大學(xué)
論文下載地址:Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer
code下載地址:https://github.com/MVIG-SJTU/WSHP
這里主要講了如何將人體圖像的肢體進(jìn)行分割。
為了更加精細(xì)地對(duì)人的行為進(jìn)行分析,關(guān)鍵的一點(diǎn)就是能夠?qū)⑷梭w的各個(gè)部分分割出來(lái)。但是這個(gè)問(wèn)題很難,因?yàn)樽屓巳?biāo)注這些數(shù)據(jù)(一個(gè)部分一個(gè)部分地畫出來(lái))是非常困難的;也正是因?yàn)檫@樣,目前這方面最大的數(shù)據(jù)集也只有少于 2000 個(gè)用于訓(xùn)練的標(biāo)注數(shù)據(jù)。那么最好的方法就是讓機(jī)器能夠自動(dòng)且有效地標(biāo)記出這樣的 label。
Human Parsing 只有極少的標(biāo)注數(shù)據(jù),而另一方面人體關(guān)鍵點(diǎn)(人體姿態(tài))由于標(biāo)注比較輕松,所以目前有非常多的標(biāo)注數(shù)據(jù)。所以盧策吾團(tuán)隊(duì)就考慮是否可以利用人體姿態(tài)的數(shù)據(jù),通過(guò)知識(shí)遷移來(lái)幫助自動(dòng)地完成人體部分分割標(biāo)注的任務(wù)。
思路就是,將帶有關(guān)鍵點(diǎn)的圖像與已有的少量標(biāo)注過(guò)的 human body part parsing 數(shù)據(jù)集通過(guò)關(guān)鍵點(diǎn)的相似性進(jìn)行臨近搜索,然后以姿態(tài)作為指導(dǎo)進(jìn)行知識(shí)遷移,從而實(shí)現(xiàn)人體部分分割的標(biāo)注。
具體的方法共分為三步:輸入帶有關(guān)鍵點(diǎn)的圖片+已有的部分分割數(shù)據(jù)集,首先根據(jù)關(guān)鍵點(diǎn)進(jìn)行聚類,也即找到與輸入圖片相似的標(biāo)注分割圖片;然后進(jìn)行對(duì)齊、變形,從而完成對(duì)輸入圖片的分割;這時(shí)候的結(jié)果存在很大的誤差,最后一步則是進(jìn)行精細(xì)化調(diào)整。
Discovering Pose-similar Cluster
為了度量不同姿態(tài)間的相似度,首先需要對(duì)所有的姿態(tài)進(jìn)行歸一化和對(duì)齊,即將身高統(tǒng)一,臀部關(guān)鍵點(diǎn)作為坐標(biāo)原點(diǎn)。由此計(jì)算出輸入圖片中幾個(gè)關(guān)鍵點(diǎn)與標(biāo)注數(shù)據(jù)集中所有圖片的對(duì)應(yīng)關(guān)鍵點(diǎn)之間的歐氏距離,選出距離最小的 Top n 作為 similar cluster。
這里之所以選擇 top n,而不是 top 1,是因?yàn)檎鎸?shí)的人體千奇百怪(例如存在遮擋),某一個(gè)人體的分割不一定能夠適用于另一個(gè)人體,所以要選擇最相似的幾個(gè),在下一步生成 part-level prior 中做下平均。
Generating Part-level Prior
依據(jù)上面找到的 similar cluster,然后基于關(guān)鍵點(diǎn)即可以將已知的分割映射到圖像上。這里 cluster 中每一個(gè)身體的部分都有 binary mask,將所有這些部分分別進(jìn)行求平均,便得到了 bady part parsing。
Prior Refinement
前面通過(guò)遷移得到的 morphed part parsing result 可能與真實(shí)的 parsing 之間有些微的差別,且由于求平均會(huì)有陰影的存在,因此通過(guò) refinement network 進(jìn)一步進(jìn)行調(diào)整。Refinement Network 采用的是 U-Net 的一個(gè)變體。
首先來(lái)看未經(jīng)過(guò) refine 和經(jīng)過(guò) refine 后的結(jié)果對(duì)比
從左到右分別為:輸入圖像、完全卷積網(wǎng)絡(luò)預(yù)測(cè)的結(jié)果、輸入圖像相關(guān)的 part-level prior、經(jīng)過(guò) refinement network 預(yù)測(cè)出的結(jié)果??梢钥闯?refine 后的結(jié)果有相當(dāng)好的表現(xiàn)。
實(shí)驗(yàn)驗(yàn)證,這種方法不僅能夠用在單人的圖像上,還能夠?qū)Χ嗳藞D像進(jìn)行分割。如下圖所示:
定量實(shí)驗(yàn)結(jié)果請(qǐng)參看論文。此外盧策吾團(tuán)隊(duì)還有另外四篇 CVPR 2018 論文,分別為:
Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines
Recurrent Residual Module for Fast Inference in Videos
LiDAR-Video Driving Dataset: Learning Driving Policies Effectively
Beyond Holistic Object Recognition: Enriching Image Understanding with Part State
參考資料:
[1] https://zhuanlan.zhihu.com/p/36129234
[2] http://mvig.sjtu.edu.cn/publications/index.html
[3] https://github.com/MVIG-SJTU/WSHP
[4] https://arxiv.org/abs/1805.04310
[5]
Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines
Recurrent Residual Module for Fast Inference in Videos
LiDAR-Video Driving Dataset: Learning Driving Policies Effectively
Beyond Holistic Object Recognition: Enriching Image Understanding with Part State
論文:Learning Facial Action Units from Web Images with Scalable Weakly Supervised Clustering
報(bào)告人:趙凱莉 - 北京郵電大學(xué)
論文下載地址:暫無(wú)
正如論文標(biāo)題所述,趙凱莉團(tuán)隊(duì)所做的工作是使用弱監(jiān)督聚類方法來(lái)學(xué)習(xí)面部活動(dòng)單元(Action Units,AUs),動(dòng)機(jī)則是有監(jiān)督/半監(jiān)督方法所需要的標(biāo)注數(shù)據(jù)太少且收集困難。
這里首先需要解釋一個(gè)概念,即什么是 AU?
我們知道,人臉表情識(shí)別的研究目前得到廣泛的關(guān)注,但表情的主觀性和個(gè)體之間的差異性給研究人員帶來(lái)很大的挑戰(zhàn)和困難。而另一方面,從解剖學(xué)角度來(lái)講,每一個(gè)面部表情牽動(dòng)著若干條肌肉線,而肌肉的變化影響著面部表面區(qū)域的變化。因此通過(guò)定義面部肌肉的動(dòng)作單元,則可以提供一種更加客觀的描述人臉表情的方法。目前較為科學(xué)的面部肌肉動(dòng)作定義方式是通過(guò)面部活動(dòng)編碼系統(tǒng) FACS 來(lái)定義。FACS 定義這種面部區(qū)域活動(dòng)為「面部活動(dòng)單元」,簡(jiǎn)稱「AU」(Action Units)?;镜?AU 單元如下圖所示:
例如,AU6 表示眼部周圍的肌肉收縮。也就是說(shuō)從太陽(yáng)穴向眼睛的部位皮膚產(chǎn)生拉 扯,使得下三角區(qū)變高。并且引起臉頰的上揚(yáng)。在此情況下,臉部變窄。與此 同時(shí),眼睛下面的皮膚出現(xiàn)皺紋。AU12 表示嘴角上揚(yáng)。在一個(gè)強(qiáng)度較弱的 AU12 下,此時(shí)會(huì)有臉頰上揚(yáng)和眼瞼 溝的加深。在一個(gè)強(qiáng)度較強(qiáng)的 AU12 下,眼瞼和臉頰部分的褶皺加深,并且臉 頰變窄。AU14 嘴角收緊,使得嘴角向內(nèi)運(yùn)動(dòng)并且嘴角變窄。在嘴角部分產(chǎn)生褶皺。
根據(jù) FACS 定義,32 個(gè) AU 的配合幾乎可以表示所有的人臉情緒。如下圖所示:
所以相比于基本 的表情識(shí)別或者是復(fù)雜的混合表情,面部活動(dòng)單元 AUs 是一種更加客觀、更加概括 性的、對(duì)人的情緒或者面部動(dòng)作較為全面的定義方式。所以 AU 檢測(cè)在表情識(shí)別中是重中之重。
AU 的檢測(cè)目前有多種方法,一類屬于完全監(jiān)督,也即基于完全標(biāo)注的數(shù)據(jù)來(lái)訓(xùn)練 AU 檢測(cè)器;另一類則是半監(jiān)督,也即利用部分監(jiān)督數(shù)據(jù)加上補(bǔ)充的無(wú)標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練 AU 檢測(cè)器。
但是這兩類方法都需要有標(biāo)注好數(shù)據(jù)。我們知道,即使是人的表情標(biāo)注對(duì)普通人來(lái)說(shuō)已經(jīng)很困難了,更何況是人臉的 AU 標(biāo)注。在收集 AU 標(biāo)注數(shù)據(jù)時(shí),一方面需要有經(jīng)驗(yàn)的專家花費(fèi)大量的精力,例如一個(gè) 1 分鐘長(zhǎng)的視頻需要專家花費(fèi) 30-45 分鐘才能標(biāo)注完;另一方面由于 AU 標(biāo)注的主觀性較大,所以即使是專家標(biāo)注的數(shù)據(jù)也很容易出錯(cuò)或不準(zhǔn)確,根據(jù)這些標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練的分類器可能會(huì)有不一致的預(yù)測(cè)結(jié)果,從而影響性能。
基于這些考慮,趙凱莉團(tuán)隊(duì)提出使用弱監(jiān)督聚類(weakly-supervised clustering,WSC)的方式來(lái)學(xué)習(xí) AU。所謂弱監(jiān)督,即數(shù)據(jù)集中有標(biāo)簽,但這些標(biāo)簽并不可靠,可能是不正確的,也可能是有多種標(biāo)記或者標(biāo)記不充分,或者局部標(biāo)記等。趙凱莉團(tuán)隊(duì)這項(xiàng)工作的思路是,收集大量免費(fèi)的網(wǎng)絡(luò)圖片,這些圖片可能來(lái)自之前預(yù)訓(xùn)練后帶有標(biāo)注的數(shù)據(jù)集,也有可能來(lái)自網(wǎng)絡(luò)關(guān)鍵詞搜索,通過(guò)弱監(jiān)督聚類將這些圖片在嵌入到一個(gè)新的特征空間中,使得相似表情能夠有更小的間距;在此基礎(chǔ)上使用 majority voting 方法對(duì)相同類的圖片進(jìn)行重標(biāo)注;最后用重標(biāo)注的人臉圖片去訓(xùn)練 AU 檢測(cè)器。
這主要有兩個(gè)步驟,首先是通過(guò)弱監(jiān)督譜嵌入(weakly-supervised spectral embedding,WSE)找到一個(gè)嵌入空間,以能夠讓相同表情聚類在一起(如上面右圖);其次是使用 rank-order 聚類方法對(duì)嵌入空間中的圖片進(jìn)行重標(biāo)注。
弱監(jiān)督譜嵌入
WSE 的作用就是發(fā)現(xiàn)一個(gè)嵌入空間,它能夠保持視覺(jué)相似和弱標(biāo)注的一致性,而不是像通常的 feature space 那樣只是考慮視覺(jué)相似。所以用公式來(lái)表示就是
其中 f(W, L) 表示譜聚類,Ψ(W, G) 則是為了保持弱標(biāo)注的一致性。
排序聚類重標(biāo)注
在上一步通過(guò) WSE 學(xué)習(xí)到嵌入空間后,第二步就是改善之前的弱標(biāo)注。過(guò)程如下圖:
首先,使用排序距離(rank-order distance,通過(guò)近鄰排序測(cè)量?jī)蓚€(gè)樣本之間的距離)為學(xué)習(xí)到的嵌入空間建立一個(gè)無(wú)向圖。相同類的樣本通常有相似的最近鄰分布。隨后,他們使用廣度優(yōu)先分層聚類找到簇內(nèi)密度高且簇間密度低的簇。這兩個(gè)過(guò)程稱為 Rank-Order Clustering(ROC)。
為了描述聚類結(jié)果的質(zhì)量,他們將模塊化質(zhì)量指數(shù)(Modularization Quality Index,MQI)進(jìn)行了修改,亦適應(yīng)無(wú)向圖,因此也稱為「uMQI」。
最后,基于 majority voting 直接將相同簇的圖像視為相同的類。
通過(guò)上述方法標(biāo)注的數(shù)據(jù),如果拿來(lái)訓(xùn)練 AU 檢測(cè)器,那么是否會(huì)有更好的表現(xiàn)呢?趙凱莉團(tuán)隊(duì)在其實(shí)驗(yàn)中通過(guò)使用 EmotioNet 數(shù)據(jù)集進(jìn)行了驗(yàn)證,這個(gè)數(shù)據(jù)集包含了 100 萬(wàn)張來(lái)自互聯(lián)網(wǎng)的圖片,其中有 5 萬(wàn)張是有多種 AU 標(biāo)記的圖片。
通過(guò)實(shí)驗(yàn)的驗(yàn)證,有以下結(jié)論:
1)這種方式重標(biāo)注的數(shù)據(jù)訓(xùn)練出的模型不遜于人類標(biāo)注數(shù)據(jù)訓(xùn)練處的模型,超過(guò)其他方式(例如弱標(biāo)注、半監(jiān)督等)訓(xùn)練出的模型:
2)該方法提供了一種直觀地剔除異常圖片或噪聲圖片的方法,類似這些:
參考資料:
[1] https://github.com/BraveApple/paper/blob/master/Face%20Attribute/%E9%9D%A2%E9%83%A8%E6%B4%BB%E5%8A%A8%E5%8D%95%E5%85%83%E7%9A%84%E7%BB%93%E6%9E%84%E5%8C%96%E5%A4%9A%E6%A0%87%E7%AD%BE%E5%AD%A6%E4%B9%A0.pdf
[2] https://github.com/zkl20061823
[3] http://cdmd.cnki.com.cn/Article/CDMD-10013-1017292023.htm
[4] https://www.bilibili.com/video/av17005116/
報(bào)告題目:GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition
報(bào)告人:張子昭 - 清華大學(xué)
論文下載地址:暫無(wú)
在現(xiàn)實(shí)生活中存在著大量的3D對(duì)象的應(yīng)用,例如增強(qiáng)現(xiàn)實(shí)和3D建模,因此我們需要構(gòu)建有效的3D深度學(xué)習(xí)方法來(lái)解決3D對(duì)象的識(shí)別問(wèn)題。對(duì)于這方面的研究已經(jīng)有很多,代表性的工作有:發(fā)表在CVPR 2015的ShapeNet,它將3D模型表示成體素,輸入到網(wǎng)絡(luò)中提取特征從而進(jìn)行分類;發(fā)表在CVPR 2017中的PointNet將3D對(duì)象用點(diǎn)云的數(shù)據(jù)來(lái)表示,然后對(duì)三維對(duì)象進(jìn)行分類、部分分割以及場(chǎng)景語(yǔ)義分割等;發(fā)表在ICCV 2015中的MVCNN對(duì)三維對(duì)象從多個(gè)視角進(jìn)行刻畫,提取出每個(gè)視圖的CNN特征,然后再通過(guò)池化層對(duì)多個(gè)視圖的特征進(jìn)行融合從而得到對(duì)象特征。
本質(zhì)上來(lái)講,張子昭所在團(tuán)隊(duì)的這項(xiàng)工作是對(duì)基于多視圖的MVCNN方法的一種改進(jìn),出發(fā)點(diǎn)在于:考慮到從不同視角去看3D對(duì)象其辨識(shí)度也是不一樣的,因此應(yīng)該將不同視圖按可辨識(shí)度進(jìn)行分組并賦予不同的權(quán)重。
傳統(tǒng)的MVCNN方法將視圖的特征通過(guò)View Pooling直接得到對(duì)象特征,這種方式?jīng)]法區(qū)分視圖的權(quán)重。張子昭所在團(tuán)隊(duì)的想法是,先根據(jù)視圖的可辨識(shí)度進(jìn)行分組并進(jìn)行組內(nèi)View Pooling,得到組級(jí)的特征,然后再通過(guò)組間融合得到對(duì)象特征?;谶@樣的考慮,他們提出了View-Group-Shape的三層網(wǎng)絡(luò)框架。
具體來(lái)說(shuō),整個(gè)網(wǎng)絡(luò)的框架如下:
在上圖中,首先將不同視角的視圖輸入到網(wǎng)絡(luò)中,經(jīng)過(guò)FCN和CNN分別提取出不同視圖的特征(即圖中“final View descriptors”這一步)。
另一方面,經(jīng)FCN和初步特征描述之后,通過(guò)grouping module可以得到不同視圖的可辨識(shí)度分?jǐn)?shù)(將分?jǐn)?shù)歸一化到0-1之間)。值得強(qiáng)調(diào)的是,這里的grouping module唯一作用就是給不同視圖進(jìn)行打分。根據(jù)視圖數(shù)量,例如五個(gè),那么就將[0,1]分為5個(gè)等寬的組。不同的視圖會(huì)根據(jù)其分?jǐn)?shù)歸到某個(gè)組中。
依據(jù)分組情況,每個(gè)組中的視圖經(jīng)過(guò)平均池化的方式得到這個(gè)組別的特征;同時(shí)依據(jù)不同的組別內(nèi)視圖的分?jǐn)?shù)可以賦予該組別一個(gè)權(quán)重。組別特征+組別權(quán)重進(jìn)行加權(quán)融合便可以得到最后的對(duì)象特征。
視圖分組和組別權(quán)重
據(jù)張子昭介紹,其實(shí)驗(yàn)室在ModelNet-40數(shù)據(jù)集上進(jìn)行的測(cè)試,這個(gè)數(shù)據(jù)集共有10000個(gè)左右的三維對(duì)象,共40類。
另一方面,3D對(duì)象的識(shí)別問(wèn)題主要有兩個(gè)任務(wù):一是分類任務(wù),即判斷給定3D模型的類別,他們使用準(zhǔn)確率作為評(píng)判標(biāo)準(zhǔn);二是檢索任務(wù),即從數(shù)據(jù)庫(kù)中找到與給定3D模型同一類的模型,他們使用mAP作為評(píng)價(jià)指標(biāo)。
通過(guò)與過(guò)去的一些模型進(jìn)行比較,發(fā)現(xiàn)無(wú)論是在分類任務(wù)還是檢索任務(wù)中,GVCNN都有很大的提升;尤其是與MVCNN相比,在分類任務(wù)中提升了大約3%,在檢索任務(wù)中提升了5%左右。
另一方面,在實(shí)際應(yīng)用中很難獲得三維對(duì)象固定視角和固定數(shù)量的視圖。那么本文所提出的框架是否要求輸入的視圖數(shù)量或者視角是固定的呢?
他們進(jìn)行了相關(guān)的實(shí)驗(yàn),先用8視圖進(jìn)行訓(xùn)練,然后分別用1視圖、2視圖、4視圖、8視圖和12視圖進(jìn)行測(cè)試。
注:表中 * 表示不預(yù)設(shè)攝像機(jī)視角
實(shí)驗(yàn)結(jié)果表明隨著視圖數(shù)量越多,分類準(zhǔn)確率也就越高。而另一方面,如果不預(yù)設(shè)攝像機(jī)的視角,而是隨機(jī)選取8/12個(gè)視角進(jìn)行測(cè)試,那么分辨率只有84.3% / 85.3%,相比固定視角的表現(xiàn)下降了很多。
基本思想就是將不同可辨識(shí)度的視圖進(jìn)行分組并賦予不同的權(quán)重,然后再進(jìn)行融合得到整體的特征;而不像傳統(tǒng)方法那樣,所有視圖的權(quán)重都是一樣的。這種方法的本質(zhì)就是,對(duì)樣本進(jìn)行精細(xì)化分類和賦權(quán),總能帶來(lái)性能上的提升。
參考資料:
[1] http://www.gaoyue.org/#publications
[2] http://std.xmu.edu.cn/11/70/c4739a332144/page.htm
[3] https://blog.csdn.net/dilusense/article/details/54630473
[4] Multi-view Convolutional Neural Networks for 3D Shape Recognition (MVCNN,視圖)
[5] 3D ShapeNets: A Deep Representation for Volumetric Shapes (ShapNet,體素)
相關(guān)文章:
CVPR 2018 中國(guó)論文分享會(huì) 之「深度學(xué)習(xí)」
CVPR 2018 中國(guó)論文分享會(huì)之 「GAN 與合成」
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。