丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

本文作者: camel 2018-05-28 17:32
導(dǎo)語(yǔ):上交大、北郵、清華

雷鋒網(wǎng) AI 科技評(píng)論按:本文為 2018 年 5 月 11 日在微軟亞洲研究院進(jìn)行的 CVPR 2018 中國(guó)論文宣講研討會(huì)中最后一個(gè)Session ——「Human, Face and 3D Shape」環(huán)節(jié)的三場(chǎng)論文報(bào)告。

來(lái)自上海交通大學(xué)的盧策吾第一個(gè)報(bào)告,他介紹了他們?cè)谌梭w部分分割方面的工作。主要思想是在人體部分分割數(shù)據(jù)集難以獲取的情況下,通過(guò)知識(shí)遷移的方式,使用人體姿態(tài)數(shù)據(jù)集+少量人體部分分割數(shù)據(jù)集,實(shí)現(xiàn)弱監(jiān)督或半監(jiān)督的人體部分分割。

第二個(gè)報(bào)告由來(lái)自北京郵電大學(xué)的趙凱莉介紹他們?cè)谌四槃?dòng)作單元標(biāo)注方面的工作。他們同樣面臨著數(shù)據(jù)集少且難以獲取的困難。主要思想也是弱監(jiān)督,即通過(guò)弱監(jiān)督聚類的方式將大量標(biāo)注圖片、弱標(biāo)注圖片、未標(biāo)注圖片根據(jù)其視覺(jué)特性和弱標(biāo)注特性進(jìn)行聚類,對(duì)聚類后的結(jié)果進(jìn)行重新標(biāo)注。

最后一場(chǎng)報(bào)告時(shí)由清華大學(xué)的張子昭介紹了他們?cè)谔崛?D對(duì)象特征方面的工作。該工作的一個(gè)基本考慮就是,從不同視角看3D物體所得到的視圖,在辨別該物體是什么的問(wèn)題上貢獻(xiàn)并不相同,因此應(yīng)當(dāng)給予不同的權(quán)重;作為對(duì)比,之前的所有方法都是將這些視圖等權(quán)處置。

雷鋒網(wǎng)注:

[1] CVPR 2018 中國(guó)論文宣講研討會(huì)由微軟亞洲研究院、清華大學(xué)媒體與網(wǎng)絡(luò)技術(shù)教育部-微軟重點(diǎn)實(shí)驗(yàn)室、商湯科技、中國(guó)計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺(jué)專委會(huì)、中國(guó)圖象圖形學(xué)會(huì)視覺(jué)大數(shù)據(jù)專委會(huì)合作舉辦,數(shù)十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術(shù)觀點(diǎn)。研討會(huì)共包含了 6 個(gè) session(共 22 個(gè)報(bào)告),1 個(gè)論壇,以及 20 多個(gè) posters,雷鋒網(wǎng) AI 科技評(píng)論將為您詳細(xì)報(bào)道。

[2] CVPR 2018 將于 6 月 18 - 22 日在美國(guó)鹽湖城召開(kāi)。據(jù) CVPR 官網(wǎng)顯示,今年大會(huì)有超過(guò) 3300 篇論文投稿,其中錄取 979 篇;相比去年 783 篇論文,今年增長(zhǎng)了近 25%。

更多報(bào)道請(qǐng)參看:

Session 1:GAN and Synthesis

Session 2: Deep Learning

Session 3: Person Re-Identification and Tracking

Session 4: Vision and Language

Session 5: Segmentation, Detection

Session 6: Human, Face and 3D Shape

一、如何自動(dòng)人體分割標(biāo)注?

報(bào)告題目:Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided  Knowledge Transfer

報(bào)告人:盧策吾 - 上海交通大學(xué)

論文下載地址:Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided  Knowledge Transfer

code下載地址:https://github.com/MVIG-SJTU/WSHP

這里主要講了如何將人體圖像的肢體進(jìn)行分割。

1、背景

為了更加精細(xì)地對(duì)人的行為進(jìn)行分析,關(guān)鍵的一點(diǎn)就是能夠?qū)⑷梭w的各個(gè)部分分割出來(lái)。但是這個(gè)問(wèn)題很難,因?yàn)樽屓巳?biāo)注這些數(shù)據(jù)(一個(gè)部分一個(gè)部分地畫出來(lái))是非常困難的;也正是因?yàn)檫@樣,目前這方面最大的數(shù)據(jù)集也只有少于 2000 個(gè)用于訓(xùn)練的標(biāo)注數(shù)據(jù)。那么最好的方法就是讓機(jī)器能夠自動(dòng)且有效地標(biāo)記出這樣的 label。

2、思路

Human Parsing 只有極少的標(biāo)注數(shù)據(jù),而另一方面人體關(guān)鍵點(diǎn)(人體姿態(tài))由于標(biāo)注比較輕松,所以目前有非常多的標(biāo)注數(shù)據(jù)。所以盧策吾團(tuán)隊(duì)就考慮是否可以利用人體姿態(tài)的數(shù)據(jù),通過(guò)知識(shí)遷移來(lái)幫助自動(dòng)地完成人體部分分割標(biāo)注的任務(wù)。

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

思路就是,將帶有關(guān)鍵點(diǎn)的圖像與已有的少量標(biāo)注過(guò)的 human body part parsing 數(shù)據(jù)集通過(guò)關(guān)鍵點(diǎn)的相似性進(jìn)行臨近搜索,然后以姿態(tài)作為指導(dǎo)進(jìn)行知識(shí)遷移,從而實(shí)現(xiàn)人體部分分割的標(biāo)注。

3、方法

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

具體的方法共分為三步:輸入帶有關(guān)鍵點(diǎn)的圖片+已有的部分分割數(shù)據(jù)集,首先根據(jù)關(guān)鍵點(diǎn)進(jìn)行聚類,也即找到與輸入圖片相似的標(biāo)注分割圖片;然后進(jìn)行對(duì)齊、變形,從而完成對(duì)輸入圖片的分割;這時(shí)候的結(jié)果存在很大的誤差,最后一步則是進(jìn)行精細(xì)化調(diào)整。

Discovering Pose-similar Cluster

為了度量不同姿態(tài)間的相似度,首先需要對(duì)所有的姿態(tài)進(jìn)行歸一化和對(duì)齊,即將身高統(tǒng)一,臀部關(guān)鍵點(diǎn)作為坐標(biāo)原點(diǎn)。由此計(jì)算出輸入圖片中幾個(gè)關(guān)鍵點(diǎn)與標(biāo)注數(shù)據(jù)集中所有圖片的對(duì)應(yīng)關(guān)鍵點(diǎn)之間的歐氏距離,選出距離最小的 Top n 作為 similar cluster。

這里之所以選擇 top n,而不是 top 1,是因?yàn)檎鎸?shí)的人體千奇百怪(例如存在遮擋),某一個(gè)人體的分割不一定能夠適用于另一個(gè)人體,所以要選擇最相似的幾個(gè),在下一步生成 part-level prior 中做下平均。

Generating Part-level Prior


CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

依據(jù)上面找到的 similar cluster,然后基于關(guān)鍵點(diǎn)即可以將已知的分割映射到圖像上。這里 cluster 中每一個(gè)身體的部分都有 binary mask,將所有這些部分分別進(jìn)行求平均,便得到了 bady part parsing。

Prior Refinement

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

前面通過(guò)遷移得到的 morphed part parsing result 可能與真實(shí)的 parsing 之間有些微的差別,且由于求平均會(huì)有陰影的存在,因此通過(guò) refinement network 進(jìn)一步進(jìn)行調(diào)整。Refinement Network 采用的是 U-Net 的一個(gè)變體。

4、實(shí)驗(yàn)

首先來(lái)看未經(jīng)過(guò) refine 和經(jīng)過(guò) refine 后的結(jié)果對(duì)比

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

從左到右分別為:輸入圖像、完全卷積網(wǎng)絡(luò)預(yù)測(cè)的結(jié)果、輸入圖像相關(guān)的 part-level prior、經(jīng)過(guò) refinement network 預(yù)測(cè)出的結(jié)果??梢钥闯?refine 后的結(jié)果有相當(dāng)好的表現(xiàn)。

實(shí)驗(yàn)驗(yàn)證,這種方法不僅能夠用在單人的圖像上,還能夠?qū)Χ嗳藞D像進(jìn)行分割。如下圖所示:

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

定量實(shí)驗(yàn)結(jié)果請(qǐng)參看論文。此外盧策吾團(tuán)隊(duì)還有另外四篇 CVPR 2018 論文,分別為:

  • Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines

  • Recurrent Residual Module for Fast Inference in Videos

  • LiDAR-Video Driving Dataset: Learning Driving Policies Effectively

  • Beyond Holistic Object Recognition: Enriching Image Understanding with Part State

參考資料:

[1] https://zhuanlan.zhihu.com/p/36129234

[2] http://mvig.sjtu.edu.cn/publications/index.html

[3] https://github.com/MVIG-SJTU/WSHP

[4] https://arxiv.org/abs/1805.04310

[5]

Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines

Recurrent Residual Module for Fast Inference in Videos

LiDAR-Video Driving Dataset: Learning Driving Policies Effectively

Beyond Holistic Object Recognition: Enriching Image Understanding with Part State


 

二、如何弱監(jiān)督標(biāo)注面部活動(dòng)單元?

論文:Learning Facial Action Units from Web Images with Scalable Weakly Supervised Clustering

報(bào)告人:趙凱莉 - 北京郵電大學(xué)

論文下載地址:暫無(wú)

正如論文標(biāo)題所述,趙凱莉團(tuán)隊(duì)所做的工作是使用弱監(jiān)督聚類方法來(lái)學(xué)習(xí)面部活動(dòng)單元(Action Units,AUs),動(dòng)機(jī)則是有監(jiān)督/半監(jiān)督方法所需要的標(biāo)注數(shù)據(jù)太少且收集困難。

1、基本概念

這里首先需要解釋一個(gè)概念,即什么是 AU?

我們知道,人臉表情識(shí)別的研究目前得到廣泛的關(guān)注,但表情的主觀性和個(gè)體之間的差異性給研究人員帶來(lái)很大的挑戰(zhàn)和困難。而另一方面,從解剖學(xué)角度來(lái)講,每一個(gè)面部表情牽動(dòng)著若干條肌肉線,而肌肉的變化影響著面部表面區(qū)域的變化。因此通過(guò)定義面部肌肉的動(dòng)作單元,則可以提供一種更加客觀的描述人臉表情的方法。目前較為科學(xué)的面部肌肉動(dòng)作定義方式是通過(guò)面部活動(dòng)編碼系統(tǒng) FACS 來(lái)定義。FACS 定義這種面部區(qū)域活動(dòng)為「面部活動(dòng)單元」,簡(jiǎn)稱「AU」(Action Units)?;镜?AU 單元如下圖所示:

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

例如,AU6 表示眼部周圍的肌肉收縮。也就是說(shuō)從太陽(yáng)穴向眼睛的部位皮膚產(chǎn)生拉 扯,使得下三角區(qū)變高。并且引起臉頰的上揚(yáng)。在此情況下,臉部變窄。與此 同時(shí),眼睛下面的皮膚出現(xiàn)皺紋。AU12 表示嘴角上揚(yáng)。在一個(gè)強(qiáng)度較弱的 AU12 下,此時(shí)會(huì)有臉頰上揚(yáng)和眼瞼 溝的加深。在一個(gè)強(qiáng)度較強(qiáng)的 AU12 下,眼瞼和臉頰部分的褶皺加深,并且臉 頰變窄。AU14 嘴角收緊,使得嘴角向內(nèi)運(yùn)動(dòng)并且嘴角變窄。在嘴角部分產(chǎn)生褶皺。

根據(jù) FACS 定義,32 個(gè) AU 的配合幾乎可以表示所有的人臉情緒。如下圖所示:

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

所以相比于基本 的表情識(shí)別或者是復(fù)雜的混合表情,面部活動(dòng)單元 AUs 是一種更加客觀、更加概括 性的、對(duì)人的情緒或者面部動(dòng)作較為全面的定義方式。所以 AU 檢測(cè)在表情識(shí)別中是重中之重。

2、為什么要弱監(jiān)督?

AU 的檢測(cè)目前有多種方法,一類屬于完全監(jiān)督,也即基于完全標(biāo)注的數(shù)據(jù)來(lái)訓(xùn)練 AU 檢測(cè)器;另一類則是半監(jiān)督,也即利用部分監(jiān)督數(shù)據(jù)加上補(bǔ)充的無(wú)標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練 AU 檢測(cè)器。

但是這兩類方法都需要有標(biāo)注好數(shù)據(jù)。我們知道,即使是人的表情標(biāo)注對(duì)普通人來(lái)說(shuō)已經(jīng)很困難了,更何況是人臉的 AU 標(biāo)注。在收集 AU 標(biāo)注數(shù)據(jù)時(shí),一方面需要有經(jīng)驗(yàn)的專家花費(fèi)大量的精力,例如一個(gè) 1 分鐘長(zhǎng)的視頻需要專家花費(fèi) 30-45 分鐘才能標(biāo)注完;另一方面由于 AU 標(biāo)注的主觀性較大,所以即使是專家標(biāo)注的數(shù)據(jù)也很容易出錯(cuò)或不準(zhǔn)確,根據(jù)這些標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練的分類器可能會(huì)有不一致的預(yù)測(cè)結(jié)果,從而影響性能。

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

基于這些考慮,趙凱莉團(tuán)隊(duì)提出使用弱監(jiān)督聚類(weakly-supervised clustering,WSC)的方式來(lái)學(xué)習(xí) AU。所謂弱監(jiān)督,即數(shù)據(jù)集中有標(biāo)簽,但這些標(biāo)簽并不可靠,可能是不正確的,也可能是有多種標(biāo)記或者標(biāo)記不充分,或者局部標(biāo)記等。趙凱莉團(tuán)隊(duì)這項(xiàng)工作的思路是,收集大量免費(fèi)的網(wǎng)絡(luò)圖片,這些圖片可能來(lái)自之前預(yù)訓(xùn)練后帶有標(biāo)注的數(shù)據(jù)集,也有可能來(lái)自網(wǎng)絡(luò)關(guān)鍵詞搜索,通過(guò)弱監(jiān)督聚類將這些圖片在嵌入到一個(gè)新的特征空間中,使得相似表情能夠有更小的間距;在此基礎(chǔ)上使用 majority voting 方法對(duì)相同類的圖片進(jìn)行重標(biāo)注;最后用重標(biāo)注的人臉圖片去訓(xùn)練 AU 檢測(cè)器。

3、可擴(kuò)展弱監(jiān)督聚類

這主要有兩個(gè)步驟,首先是通過(guò)弱監(jiān)督譜嵌入(weakly-supervised spectral embedding,WSE)找到一個(gè)嵌入空間,以能夠讓相同表情聚類在一起(如上面右圖);其次是使用 rank-order 聚類方法對(duì)嵌入空間中的圖片進(jìn)行重標(biāo)注。

弱監(jiān)督譜嵌入

WSE 的作用就是發(fā)現(xiàn)一個(gè)嵌入空間,它能夠保持視覺(jué)相似和弱標(biāo)注的一致性,而不是像通常的 feature space 那樣只是考慮視覺(jué)相似。所以用公式來(lái)表示就是

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

其中 f(W, L) 表示譜聚類,Ψ(W, G) 則是為了保持弱標(biāo)注的一致性。

排序聚類重標(biāo)注

在上一步通過(guò) WSE 學(xué)習(xí)到嵌入空間后,第二步就是改善之前的弱標(biāo)注。過(guò)程如下圖:

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

首先,使用排序距離(rank-order distance,通過(guò)近鄰排序測(cè)量?jī)蓚€(gè)樣本之間的距離)為學(xué)習(xí)到的嵌入空間建立一個(gè)無(wú)向圖。相同類的樣本通常有相似的最近鄰分布。隨后,他們使用廣度優(yōu)先分層聚類找到簇內(nèi)密度高且簇間密度低的簇。這兩個(gè)過(guò)程稱為 Rank-Order Clustering(ROC)。

為了描述聚類結(jié)果的質(zhì)量,他們將模塊化質(zhì)量指數(shù)(Modularization Quality Index,MQI)進(jìn)行了修改,亦適應(yīng)無(wú)向圖,因此也稱為「uMQI」。

最后,基于 majority voting 直接將相同簇的圖像視為相同的類。

4、實(shí)驗(yàn)

通過(guò)上述方法標(biāo)注的數(shù)據(jù),如果拿來(lái)訓(xùn)練 AU 檢測(cè)器,那么是否會(huì)有更好的表現(xiàn)呢?趙凱莉團(tuán)隊(duì)在其實(shí)驗(yàn)中通過(guò)使用 EmotioNet 數(shù)據(jù)集進(jìn)行了驗(yàn)證,這個(gè)數(shù)據(jù)集包含了 100 萬(wàn)張來(lái)自互聯(lián)網(wǎng)的圖片,其中有 5 萬(wàn)張是有多種 AU 標(biāo)記的圖片。

通過(guò)實(shí)驗(yàn)的驗(yàn)證,有以下結(jié)論:

1)這種方式重標(biāo)注的數(shù)據(jù)訓(xùn)練出的模型不遜于人類標(biāo)注數(shù)據(jù)訓(xùn)練處的模型,超過(guò)其他方式(例如弱標(biāo)注、半監(jiān)督等)訓(xùn)練出的模型:

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

2)該方法提供了一種直觀地剔除異常圖片或噪聲圖片的方法,類似這些:

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

參考資料:

[1] https://github.com/BraveApple/paper/blob/master/Face%20Attribute/%E9%9D%A2%E9%83%A8%E6%B4%BB%E5%8A%A8%E5%8D%95%E5%85%83%E7%9A%84%E7%BB%93%E6%9E%84%E5%8C%96%E5%A4%9A%E6%A0%87%E7%AD%BE%E5%AD%A6%E4%B9%A0.pdf
[2] https://github.com/zkl20061823

[3] http://cdmd.cnki.com.cn/Article/CDMD-10013-1017292023.htm

[4] https://www.bilibili.com/video/av17005116/


 

三、如何有效提取3D對(duì)象特征?

報(bào)告題目:GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition

報(bào)告人:張子昭 - 清華大學(xué)

論文下載地址:暫無(wú)

在現(xiàn)實(shí)生活中存在著大量的3D對(duì)象的應(yīng)用,例如增強(qiáng)現(xiàn)實(shí)和3D建模,因此我們需要構(gòu)建有效的3D深度學(xué)習(xí)方法來(lái)解決3D對(duì)象的識(shí)別問(wèn)題。對(duì)于這方面的研究已經(jīng)有很多,代表性的工作有:發(fā)表在CVPR 2015的ShapeNet,它將3D模型表示成體素,輸入到網(wǎng)絡(luò)中提取特征從而進(jìn)行分類;發(fā)表在CVPR 2017中的PointNet將3D對(duì)象用點(diǎn)云的數(shù)據(jù)來(lái)表示,然后對(duì)三維對(duì)象進(jìn)行分類、部分分割以及場(chǎng)景語(yǔ)義分割等;發(fā)表在ICCV 2015中的MVCNN對(duì)三維對(duì)象從多個(gè)視角進(jìn)行刻畫,提取出每個(gè)視圖的CNN特征,然后再通過(guò)池化層對(duì)多個(gè)視圖的特征進(jìn)行融合從而得到對(duì)象特征。

本質(zhì)上來(lái)講,張子昭所在團(tuán)隊(duì)的這項(xiàng)工作是對(duì)基于多視圖的MVCNN方法的一種改進(jìn),出發(fā)點(diǎn)在于:考慮到從不同視角去看3D對(duì)象其辨識(shí)度也是不一樣的,因此應(yīng)該將不同視圖按可辨識(shí)度進(jìn)行分組并賦予不同的權(quán)重。

1、方法

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

傳統(tǒng)的MVCNN方法將視圖的特征通過(guò)View Pooling直接得到對(duì)象特征,這種方式?jīng)]法區(qū)分視圖的權(quán)重。張子昭所在團(tuán)隊(duì)的想法是,先根據(jù)視圖的可辨識(shí)度進(jìn)行分組并進(jìn)行組內(nèi)View Pooling,得到組級(jí)的特征,然后再通過(guò)組間融合得到對(duì)象特征?;谶@樣的考慮,他們提出了View-Group-Shape的三層網(wǎng)絡(luò)框架。

具體來(lái)說(shuō),整個(gè)網(wǎng)絡(luò)的框架如下:

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

在上圖中,首先將不同視角的視圖輸入到網(wǎng)絡(luò)中,經(jīng)過(guò)FCN和CNN分別提取出不同視圖的特征(即圖中“final View descriptors”這一步)。

另一方面,經(jīng)FCN和初步特征描述之后,通過(guò)grouping module可以得到不同視圖的可辨識(shí)度分?jǐn)?shù)(將分?jǐn)?shù)歸一化到0-1之間)。值得強(qiáng)調(diào)的是,這里的grouping module唯一作用就是給不同視圖進(jìn)行打分。根據(jù)視圖數(shù)量,例如五個(gè),那么就將[0,1]分為5個(gè)等寬的組。不同的視圖會(huì)根據(jù)其分?jǐn)?shù)歸到某個(gè)組中。

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

依據(jù)分組情況,每個(gè)組中的視圖經(jīng)過(guò)平均池化的方式得到這個(gè)組別的特征;同時(shí)依據(jù)不同的組別內(nèi)視圖的分?jǐn)?shù)可以賦予該組別一個(gè)權(quán)重。組別特征+組別權(quán)重進(jìn)行加權(quán)融合便可以得到最后的對(duì)象特征。

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

視圖分組和組別權(quán)重

2、實(shí)驗(yàn)

據(jù)張子昭介紹,其實(shí)驗(yàn)室在ModelNet-40數(shù)據(jù)集上進(jìn)行的測(cè)試,這個(gè)數(shù)據(jù)集共有10000個(gè)左右的三維對(duì)象,共40類。

另一方面,3D對(duì)象的識(shí)別問(wèn)題主要有兩個(gè)任務(wù):一是分類任務(wù),即判斷給定3D模型的類別,他們使用準(zhǔn)確率作為評(píng)判標(biāo)準(zhǔn);二是檢索任務(wù),即從數(shù)據(jù)庫(kù)中找到與給定3D模型同一類的模型,他們使用mAP作為評(píng)價(jià)指標(biāo)。

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

通過(guò)與過(guò)去的一些模型進(jìn)行比較,發(fā)現(xiàn)無(wú)論是在分類任務(wù)還是檢索任務(wù)中,GVCNN都有很大的提升;尤其是與MVCNN相比,在分類任務(wù)中提升了大約3%,在檢索任務(wù)中提升了5%左右。

另一方面,在實(shí)際應(yīng)用中很難獲得三維對(duì)象固定視角和固定數(shù)量的視圖。那么本文所提出的框架是否要求輸入的視圖數(shù)量或者視角是固定的呢?

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

他們進(jìn)行了相關(guān)的實(shí)驗(yàn),先用8視圖進(jìn)行訓(xùn)練,然后分別用1視圖、2視圖、4視圖、8視圖和12視圖進(jìn)行測(cè)試。

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

注:表中 * 表示不預(yù)設(shè)攝像機(jī)視角

實(shí)驗(yàn)結(jié)果表明隨著視圖數(shù)量越多,分類準(zhǔn)確率也就越高。而另一方面,如果不預(yù)設(shè)攝像機(jī)的視角,而是隨機(jī)選取8/12個(gè)視角進(jìn)行測(cè)試,那么分辨率只有84.3% / 85.3%,相比固定視角的表現(xiàn)下降了很多。

3、總結(jié)

基本思想就是將不同可辨識(shí)度的視圖進(jìn)行分組并賦予不同的權(quán)重,然后再進(jìn)行融合得到整體的特征;而不像傳統(tǒng)方法那樣,所有視圖的權(quán)重都是一樣的。這種方法的本質(zhì)就是,對(duì)樣本進(jìn)行精細(xì)化分類和賦權(quán),總能帶來(lái)性能上的提升。

參考資料:

[1] http://www.gaoyue.org/#publications

[2] http://std.xmu.edu.cn/11/70/c4739a332144/page.htm

[3] https://blog.csdn.net/dilusense/article/details/54630473

[4] Multi-view Convolutional Neural Networks for 3D Shape Recognition (MVCNN,視圖)

[5] 3D ShapeNets: A Deep Representation for Volumetric Shapes (ShapNet,體素)

[6] PointNet: A 3D Convolutional Neural Network for real-time object class recognition (PointNet,點(diǎn)云)

相關(guān)文章:

CVPR 2018 中國(guó)論文分享會(huì) 之「深度學(xué)習(xí)」

CVPR 2018 中國(guó)論文分享會(huì)之 「GAN 與合成」

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

CVPR 2018 中國(guó)論文分享會(huì) 之「人類、人臉及3D形狀」

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)