0
本文作者: 我在思考中 | 2021-10-13 17:34 |
:
作者 | 蔣寶尚、琰琰
剛剛,計(jì)算機(jī)視覺三大頂會(huì)之一的 ICCV 2021于線上拉開序幕。
今年 ICCV收到有效投稿6236篇,1617篇被收錄,接收率為25.9%,其中210篇論文為oral。就總數(shù)來看,相比ICCV 2019,接收數(shù)量增加了1800篇。
在這些論文中,中國學(xué)者幾乎拿下了“半壁江山”,占比45.7%,超過第二名美國近一倍,是第三名英國的近13倍。
而在優(yōu)秀論文評選中,中國科學(xué)技術(shù)大學(xué)劉澤、西安交通大學(xué)的林宇桐、微軟的曹越合作的Swin Transformer拿下了馬爾獎(jiǎng)(最佳論文)。
此外,在杰出評審名單中,中國學(xué)者至少上榜50位,占比23%。
據(jù)悉,為了選出這一千六百多篇論文,共有233位領(lǐng)域主席(AC)、4216位評審為之付出努力。為了保障論文質(zhì)量,每篇論文至少接受3位評審的審閱,而能否拒稿是由“一對兒”領(lǐng)域主席決定的。
以下是馬爾獎(jiǎng)、最佳學(xué)生論文的貢獻(xiàn):
最佳學(xué)生論文:“Pixel-Perfect Structure-From-Motion With Featuremetric Refinement”
貢獻(xiàn):提供了一種用于優(yōu)化 SFM 建圖精度的方案,能夠大幅度提升建圖精度與后續(xù)的視覺定位精度。
馬爾獎(jiǎng):“Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows”
貢獻(xiàn):提出了名為Swin Transformer的新型視覺Transformer,它可以用作計(jì)算機(jī)視覺的通用骨干網(wǎng)絡(luò)。
獲獎(jiǎng)?wù)撐闹R爾獎(jiǎng)
論文題目:Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows”
論文地址:https://arxiv.org/pdf/2103.14030.pdf
對于這篇文章的貢獻(xiàn),作者曹越介紹:
1.之前的ViT(Vision Transformer)中,由于self-attention是全局計(jì)算的,所以在圖像分辨率較大時(shí)不太經(jīng)濟(jì)。由于locality一直是視覺建模里非常有效的一種inductive bias,所以我們將圖片切分為無重合的window,然后在local window內(nèi)部進(jìn)行self-attention計(jì)算。為了讓window之間有信息交換,我們在相鄰兩層使用不同的window劃分(shifted window)。
2. 圖片中的物體大小不一,而ViT中使用固定的scale進(jìn)行建?;蛟S對下游任務(wù)例如目標(biāo)檢測而言不是最優(yōu)的。在這里我們還是follow傳統(tǒng)CNN構(gòu)建了一個(gè)層次化的transformer模型,從4x逐漸降分辨率到32x,這樣也可以在任意框架中無縫替代之前的CNN模型。
Swin Transformer的這些特性使其可直接用于多種視覺任務(wù),包括圖像分類(ImageNet-1K中取得86.4 top-1 acc)、目標(biāo)檢測(COCO test-dev 58.7 box AP和51.1 mask AP)和語義分割(ADE20K 53.5 val mIoU,并在其公開benchmark中排名第一),其中在COCO目標(biāo)檢測與ADE20K語義分割中均為state-of-the-art。
獲獎(jiǎng)?wù)撐闹罴褜W(xué)生論文
論文標(biāo)題:Pixel-Perfect Structure-From-Motion With Featuremetric Refinement
論文地址:https://arxiv.org/pdf/2108.08291.pdf
我們在幾何估計(jì)之前調(diào)整初始關(guān)鍵點(diǎn)位置,隨后作為后處理完善點(diǎn)和攝像機(jī)的位置。因?yàn)閮?yōu)化了基于神經(jīng)網(wǎng)絡(luò)預(yù)測的密集特征的測量誤差,所以對噪聲檢測和外觀變化是穩(wěn)健的。這也顯著提高了各種關(guān)鍵點(diǎn)檢測器算法、具有挑戰(zhàn)性的觀察條件和現(xiàn)成深度特征的相機(jī)pose和場景幾何體的準(zhǔn)確性。該系統(tǒng)可以輕松擴(kuò)展到大型圖像集,實(shí)現(xiàn)大規(guī)模像素完美密集定位。
目前,代碼已經(jīng)開源:https://github.com/cvg/pixel-perfect-sfm
獲獎(jiǎng)?wù)撐闹畼s譽(yù)提名論文
1.論文題目:“Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields”
論文地址:https://arxiv.org/pdf/2103.13415.pdf
摘要:對于NeRF來說,通過每個(gè)像素渲染多條光線進(jìn)行采樣是不切實(shí)際的,因?yàn)槊織l光線的渲染都需要查詢多層感知器上百次。在這項(xiàng)研究中,我們提出了一種名為“mip-NeRF”的擴(kuò)展解決方案,它以連續(xù)值的比例表示場景。通過高效渲染消除反鋸齒圓錐錐體( anti-aliased conical frustums)取代光線,mip NeRF減少了混疊瑕疵,顯著提高了NeRF表示精細(xì)細(xì)節(jié)的能力,在速度上比NeRF 快了7%,大小僅為NeRF的一半。
此外,與NeRF相比,mip NeRF在數(shù)據(jù)集上降低了17%的平均錯(cuò)誤率,在具有挑戰(zhàn)性的多尺度變體上降低了60%的平均錯(cuò)誤率。Mip NeRF還能夠在多尺度數(shù)據(jù)集上與強(qiáng)力超采樣NeRF的精度相匹配,同時(shí)速度快22倍。
2.論文題目:OpenGAN: Open-Set Recognition via Open Data Generation
論文地址:https://arxiv.org/pdf/2104.02939.pdf
摘要:現(xiàn)實(shí)世界的機(jī)器學(xué)習(xí)系統(tǒng)需要分析與訓(xùn)練數(shù)據(jù)不同的測試數(shù)據(jù)。在K-way分類中,這通常被表述為開集(open-set)識(shí)別,以區(qū)分 K閉集(closed-set)數(shù)據(jù)集。關(guān)于開集識(shí)別通常有兩種處理方案:1)使用一些離群數(shù)據(jù)作為開集,對開-閉二進(jìn)制判別器分別進(jìn)行判別學(xué)習(xí)(discriminatively learning an open-vs-closed binary discriminator by exploiting some outlier data as the open-set,);2)使用GAN,對閉集數(shù)據(jù)分布進(jìn)行無監(jiān)督學(xué)習(xí),并使用其判別器作為開集似然函數(shù)。
然而,由于過度擬合訓(xùn)練離散值,前者不能很好地推廣到不同的開放測試數(shù)據(jù),而后者由于GANs訓(xùn)練不穩(wěn)定,效果也不好?;谝陨蠁栴},我們提出了一種新的解決方案OpenGAN,它解決了現(xiàn)有技術(shù)存在的局限,首先,在一些真實(shí)的離群數(shù)據(jù)上經(jīng)過挑選的GAN鑒別器已經(jīng)達(dá)到最先進(jìn)的水平。第二,可用敵對合成的“假”數(shù)據(jù)來擴(kuò)充可用的真實(shí)開集示例集。第三,也是最重要的一點(diǎn),它可以在 K-way網(wǎng)絡(luò)計(jì)算的特征上構(gòu)建鑒別器。大量實(shí)驗(yàn)表明,OpenGAN的性能明顯優(yōu)于以前的開集方法。
值得一提的是,該論文的第一作者Shu Kong也是一位華人學(xué)者。
3.論文標(biāo)題:Viewing Graph Solvability via Cycle Consistency
論文鏈接:
https://openaccess.thecvf.com/content/ICCV2021/papers/Arrigoni_Viewing_Graph_Solvability_via_Cycle_Consistency_ICCV_2021_paper.pdf
摘要:在SfM(Structure from motion) 中,視圖的頂點(diǎn)代表相機(jī),邊代表矩陣。我們在論文中設(shè)計(jì)了一組算法,能夠讓解算視圖,即確定唯一的投影相機(jī)(projective cameras)減少未知數(shù)的數(shù)量.
當(dāng)前,已有的理論完全描述所有視圖的可解性,或者計(jì)算有難度,畢竟其涉及包含大量未知數(shù)的多項(xiàng)式方程組。本文的主要思想是:通過利用循環(huán)一致性(cycle consistency)。具體而言:
1.完成對所有先前未定最小圖(undecided minimal graphs)的分類,所謂最小是指:最多9個(gè)節(jié)點(diǎn)。
2.將實(shí)際的可解性測試擴(kuò)展到最多90個(gè)節(jié)點(diǎn)的最小圖
3.明確回答了一個(gè)公開的研究問題,證明了有限可解性與可解性不等價(jià)。
4.論文題目:Common Objects in 3D: Large-Scale Learning and Evaluation of Real-Life 3D Category Reconstruction
論文鏈接:https://arxiv.org/pdf/2109.00512.pdf
摘要:在過去,識(shí)別3D對象類別需要在合成數(shù)據(jù)集上進(jìn)行訓(xùn)練和評估,這是因?yàn)檎鎸?shí)的3D注釋類別的中心數(shù)據(jù)不可用。為了促進(jìn)相關(guān)研究的推進(jìn),我們收集了與現(xiàn)有合成數(shù)據(jù)相似的真實(shí)數(shù)據(jù)。在這項(xiàng)工作中,我們最主要貢獻(xiàn)是創(chuàng)建了 3D公共對象數(shù)據(jù)集(Common Objects in 3D),它全部來自真實(shí)世界,包含了對象類別的多視圖圖像,并使用攝影機(jī)姿勢和地面真實(shí)3D點(diǎn)云進(jìn)行了注釋。
具體而言,該數(shù)據(jù)集包含近19000個(gè)視頻的150萬幀,這些視頻捕獲了50個(gè)MS-COCO類別的對象,因此,就類別和對象的數(shù)量而言,該數(shù)據(jù)集遠(yuǎn)遠(yuǎn)大于現(xiàn)有數(shù)據(jù)集。利用這個(gè)新數(shù)據(jù)集,我們對幾種新的視圖合成和以類別為中心的三維重建方法進(jìn)行了一次大規(guī)模的“野外”評估。最后,我們還提出了一種新的神經(jīng)渲染方法NerFormer,實(shí)驗(yàn)證明,它利用強(qiáng)大的轉(zhuǎn)換器在給定少量視圖的情況下也能夠重建對象。
PAMI-TC 獎(jiǎng)
ICCV 2021 組委會(huì)還頒布了過往杰出研究類獎(jiǎng)項(xiàng) PAMI-TC 獎(jiǎng),包括四個(gè)獎(jiǎng)項(xiàng):Azriel Rosenfeld終身成就獎(jiǎng)、杰出學(xué)者獎(jiǎng),Everingham 獎(jiǎng)和ICCV Helmholtz 獎(jiǎng)。
其中,Azriel Rosenfeld終身成就獎(jiǎng)?lì)C發(fā)給了加州大學(xué)Berkeley 分校電氣工程與計(jì)算機(jī)科學(xué)系教授 RUzena Bajcsy,以表彰其長期以來在計(jì)算機(jī)視覺領(lǐng)域所作出的重大貢獻(xiàn)。
Bajcsy 博士是美國國家工程院 (1997) 和美國國家醫(yī)學(xué)科學(xué)院 (1995) 的成員,也是計(jì)算機(jī)協(xié)會(huì) (ACM) 和美國人工智能協(xié)會(huì) (AAAI) 成員。曾獲得了ACM/AAAI 艾倫紐厄爾獎(jiǎng),本杰明富蘭克林計(jì)算機(jī)和認(rèn)知科學(xué)獎(jiǎng)、 IEEE 機(jī)器人和自動(dòng)化獎(jiǎng)。2002 年,她還被《探索》雜志評為 50 位最重要的女性之一。主要從事機(jī)器人研究,包括計(jì)算機(jī)視覺、觸覺感知以及系統(tǒng)識(shí)別。
個(gè)人主頁:
https://people.eecs.berkeley.edu/~bajcsy/?_ga=2.102438914.2095164583.1634049418-1623552618.1634049418)
PAMI杰出學(xué)者獎(jiǎng)項(xiàng)頒發(fā)給了加州理工學(xué)院教授Pietro Perona和法國國家信息與自動(dòng)化研究所(INRIA)研究員Cordelia Schmid。
Everingham獎(jiǎng)?lì)C發(fā)給了KITTI 視覺基準(zhǔn)團(tuán)隊(duì)和Detectron對象檢測和分割軟件團(tuán)隊(duì),其成員分別包括:
Andreas Geiger ,philip Lenz,Christoph Stiller,Raquel Urtasun and other contributors
Ross Girshick,Yuxin Wu,llijia Radosavovic ,Alexander Kirllov ,Georgia Gkioxari,F(xiàn)rancisco Massa ,Wan-Yen Lo,Piotr Dollar ,Kaiming He
ICCV Helmholtz 獎(jiǎng)在獎(jiǎng)勵(lì)對計(jì)算機(jī)視覺領(lǐng)域做出重要貢獻(xiàn)的工作,頒發(fā)對象是十年前對計(jì)算機(jī)視覺領(lǐng)域產(chǎn)生重大影響的論文。今年的 Helmholtz 獎(jiǎng)?lì)C給了三篇論文:
ORB:An efficient alternative to SIFT or SURF
HMDB:A large video datebase for human motion recognition
DTAM;Dense tracking and mapping in real-time
ICCV 2021投稿趨勢一覽
就接收論文分布領(lǐng)域而言,遷移\小樣本\無監(jiān)督學(xué)習(xí)、圖像視頻合成、識(shí)別和分類位列前三甲,接收數(shù)量都超過了80篇。而新出現(xiàn)的領(lǐng)域,例如可解釋AI、公平、負(fù)責(zé)、透明和道德等研究主題的論文,其接收數(shù)量一直“上漲”。
拋卻“論文的絕對數(shù)量”,通過比例觀察,可以明顯看出:手和身的姿態(tài)、機(jī)器和自動(dòng)駕駛視覺、視頻分析和理解、倫理等領(lǐng)域接受率相差不大;視覺推理和邏輯表達(dá)領(lǐng)域接受率最低。
在國家層面,中國論文數(shù)量幾乎占據(jù)了“半壁江山”(43.2%+2.5%=45.7%),超過美國(23.6%)接近一半,超過第三名英國(3.6%)12倍.....
中國力量的另一個(gè)體現(xiàn)是杰出評審的數(shù)量,本屆ICCV總共評出了220位,粗略估計(jì)華人學(xué)者52位。
另外,據(jù)大會(huì)主席james clark介紹,本屆ICCV會(huì)維持三天,共有82個(gè)workshops,12個(gè)tutorial進(jìn)行展示,研究主題涵蓋各個(gè)領(lǐng)域。
另外三場專家論壇將討論研究熱點(diǎn),分別是:深度學(xué)習(xí)和傳統(tǒng)技法在計(jì)算機(jī)視覺中的比較;Deepfake和數(shù)據(jù)安全;計(jì)算機(jī)視覺和工業(yè)應(yīng)用。
相關(guān)鏈接:
https://www.zhihu.com/question/437495132/answer/1800881612
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。