0
本文作者: 楊曉凡 | 2019-06-26 00:31 | 專題:CVPR 2019 |
雷鋒網(wǎng) AI 科技評(píng)論按:對(duì)于計(jì)算機(jī)視覺研究者們來說,以當(dāng)前的技術(shù)水平為基礎(chǔ),尋找突破點(diǎn)做提升改進(jìn)是科研的主旋律。這幾年來,計(jì)算機(jī)視覺領(lǐng)域的已有問題在研究者們的努力下普遍得到了越來越好的解決,映入大家視野的新問題也越來越多。不過到了 CVPR 這個(gè)供全球計(jì)算機(jī)視覺研究者齊聚討論的盛會(huì)上,一個(gè)可能不那么直接指導(dǎo)短期研究、不那么容易形成共識(shí)問題也就自然地涌上了大家的心頭:在五到十年后的未來,計(jì)算機(jī)視覺的研究會(huì)是什么樣子,是深度學(xué)習(xí)幾乎完全替代了目前還在使用的其他一些方法,還是我們應(yīng)該期待新的革命?CVPR 2019 上的首屆「Computer Vision After 5 Years - CVPR Workshop」就正式地帶大家一起討論這個(gè)問題,不僅讓已經(jīng)有經(jīng)驗(yàn)的研究者們交流觀點(diǎn),也為這個(gè)領(lǐng)域的年輕學(xué)者們拓展思路和視野。
Computer Vision After 5 Years Workshop 的三位組織者來自 UC 伯克利、FAIR 以及 UIUC,邀請(qǐng)到的演講者包括 Ross Girshick、Jitendra Malik、Alexei Efros 等計(jì)算機(jī)視覺領(lǐng)域響當(dāng)當(dāng)?shù)娜宋铩Q杏憰?huì)在中午休息后開始;開始前五分鐘,會(huì)議廳內(nèi)就座無虛席。到了計(jì)劃開始時(shí)間時(shí),容量約 400 人的演講廳的兩側(cè)走道、門內(nèi)走廊就像 Facebook 何愷明、Ross 組組織的 Visual Recognition and Beyond 教學(xué)講座一樣擠滿了人,這也說明了研究者們對(duì)整個(gè)領(lǐng)域大方向的關(guān)心。(雖然相比于本屆 CVPR 超過 9000 的參會(huì)人員來說也算不上是多大的數(shù)字)
雷鋒網(wǎng) AI 科技評(píng)論把各位學(xué)者演講的主要內(nèi)容摘錄如下。
演講一
首位演講者是 INRIA 法國(guó)國(guó)家信息于自動(dòng)化所的研究主任 Cordelia Schmid。
Cordelia Schmid 是 IEEE Fellow,研究領(lǐng)域?yàn)閳D像和視頻描述、對(duì)象和類別識(shí)別、機(jī)器學(xué)習(xí),長(zhǎng)期任 IEEE PAMI、IJCV 編輯,如今是 IJCV 主編,也是 CVPR2015 的大會(huì)主席。
Cordelia Schmid 的演講題目是《5 年后對(duì)視覺世界的自動(dòng)化理解》。
得益于機(jī)器學(xué)習(xí)研究的新進(jìn)展和各種大規(guī)模數(shù)據(jù)集,今天的機(jī)器感知已經(jīng)有了很多喜人的成果,對(duì)如何設(shè)計(jì)模型也有了新的思路。但當(dāng)前的數(shù)據(jù)集其實(shí)存在一些問題,這會(huì)限制新任務(wù)中的表現(xiàn)。
數(shù)據(jù)方面,目前的人工標(biāo)注數(shù)據(jù)存在許多問題,比如能覆蓋的類別和實(shí)例數(shù)量都很有限,需要增加新的類別或者概念時(shí)難以重新標(biāo)注或者升級(jí)標(biāo)注,類別存在長(zhǎng)尾現(xiàn)象,有一些信息是難以標(biāo)注進(jìn)去的(比如流、三維形體)。
針對(duì)人體動(dòng)作識(shí)別任務(wù),Cordelia Schmid 介紹了她對(duì)數(shù)據(jù)問題的解決方案 SURREAL Dataset,這是一個(gè)合成的三維人體動(dòng)作數(shù)據(jù)集,有良好的可遷移性,也有許多不同級(jí)別的標(biāo)注。
總體上來說,她認(rèn)為未來的計(jì)算機(jī)視覺有這三個(gè)發(fā)展方向:數(shù)據(jù)集會(huì)同時(shí)有手工標(biāo)注的、生成的和弱監(jiān)督數(shù)據(jù)三類;更好的視頻理解;以及多模態(tài)表征,與世界有更多互動(dòng)。
對(duì)于視頻學(xué)習(xí)話題,目前一大問題是視頻數(shù)據(jù)集規(guī)模不理想,比如 UCF-101 和 J-HMDB 數(shù)據(jù)集的多樣性、時(shí)長(zhǎng)、分辨率都很有限。新型的數(shù)據(jù)集需要主角之外的更多動(dòng)作,也更豐富多變。視頻學(xué)習(xí)的目標(biāo)包括判斷時(shí)序依賴(時(shí)序關(guān)系)、動(dòng)作預(yù)測(cè)。為此也需要新型的模型設(shè)計(jì),她小組的一篇視頻動(dòng)作檢測(cè)的論文就被 CVPR 2019 接收了。
在感知畫面之外,計(jì)算機(jī)視覺研究還可以有更多補(bǔ)充,比如視覺系統(tǒng)可以與世界互動(dòng),和機(jī)器人、強(qiáng)化學(xué)習(xí)結(jié)合;音頻和文字?jǐn)?shù)據(jù)的加入也可以帶來更好的視覺理解。
具體做法是多模態(tài)監(jiān)督,最新的 Video-Bert 能學(xué)習(xí)視頻和對(duì)話之間的對(duì)應(yīng)關(guān)系;模仿學(xué)習(xí)結(jié)合強(qiáng)化學(xué)習(xí)、虛擬環(huán)境訓(xùn)練到真實(shí)環(huán)境訓(xùn)練遷移也是值得引入到計(jì)算機(jī)視覺領(lǐng)域的做法。
總結(jié):Cordelia Schmid 對(duì)未來計(jì)算機(jī)視覺發(fā)展趨勢(shì)的預(yù)測(cè)是,需要設(shè)計(jì)新的模型,它們需要能考慮到空間和時(shí)間信息;弱監(jiān)督訓(xùn)練如果能做出好的結(jié)果,那么下一步就是自監(jiān)督學(xué)習(xí);需要高質(zhì)量的人類檢測(cè)和視頻對(duì)象檢測(cè)數(shù)據(jù)集,這非常重要;結(jié)合文本和聲音的跨模態(tài)集成;在與世界的交互中學(xué)習(xí)。
下一位講者是 UC 伯克利電子工程與計(jì)算機(jī)系教授 Alexei Efros,他也是計(jì)算機(jī)視覺領(lǐng)域的先驅(qū),尤其以最近鄰方法而聞名。他的演講風(fēng)趣幽默,令人愉悅,也引發(fā)了現(xiàn)場(chǎng)許多聽眾的共鳴。
他首先展示了這樣一張 PPT——計(jì)算機(jī)視覺的下一個(gè)五年計(jì)劃。然后他很快解釋這是開玩笑的,學(xué)術(shù)研究的事情怎么可能做得像蘇聯(lián)的五年計(jì)劃一樣呢。他緊接著講了個(gè)關(guān)于學(xué)術(shù)課題的笑話,一個(gè)學(xué)生問他的導(dǎo)師「什么課題才是真正重要的」,導(dǎo)師回答他「當(dāng)然是現(xiàn)在正在做的!」(也許是暗示沒有一心投入哪個(gè)課題的人才能真正看得遠(yuǎn))
所以他真正的演講題目是:「沒有遺憾的未來五年」。預(yù)測(cè)五年很難,但是可以做盡量不讓自己后悔的事情。也是借機(jī)談一談自己學(xué)術(shù)經(jīng)歷中的一些感想。
遺憾是從哪里來的?Vladlen Koltun 有句話說「每篇論文都是障礙」,因?yàn)樵愀獾恼撐目赡軙?huì)影響自己一生的學(xué)術(shù)名譽(yù),可能會(huì)浪費(fèi)了時(shí)間以至于做不了更有影響力的事情,甚至更糟糕地,可能會(huì)把整個(gè)領(lǐng)域引向錯(cuò)誤的方向。而且也會(huì)長(zhǎng)期帶有這種負(fù)罪感。但是也不能只顧著安全,做學(xué)術(shù)研究就是需要冒一些險(xiǎn)的。
Alexei Efros 說自己的學(xué)術(shù)生涯里有兩大遺憾:圖模型,就不應(yīng)該嘗試這個(gè)方向的,而且把很多別的研究人員也帶到溝里了;而卷積網(wǎng)絡(luò),應(yīng)該更早地研究、更早地使用。他講了一則趣事,Yann LeCun 以前到伯克利做過演講,介紹 CNN,LeCun 講的時(shí)候仿佛完全沒覺得有必要解釋是怎么來的,就只是說了你需要這個(gè)、那個(gè),把它們連起來,然后就好了。他還帶了電腦,現(xiàn)場(chǎng)演示訓(xùn)練和預(yù)測(cè)(當(dāng)時(shí)別的方法都沒法這么快地完成)。這和當(dāng)時(shí)做圖模型的人的做法完全不一樣,但也直到后來大家才接受了 CNN。
而所有遺憾的「元遺憾」,就是領(lǐng)域內(nèi)的研究人員們花了太多時(shí)間精力研究算法。對(duì)特征的研究要少一些,對(duì)數(shù)據(jù)的研究更少,但實(shí)際上它們的效果是反過來的——數(shù)據(jù)帶來的提升是最顯著的。
他舉了例子說明,如今面部識(shí)別早已不是問題,但當(dāng)時(shí),1998 年、1999 年都有人已經(jīng)用簡(jiǎn)單的方法做出了優(yōu)秀的結(jié)果,但讓領(lǐng)域內(nèi)公認(rèn)「解決」了面部識(shí)別問題的算法,是看起來足夠難的那個(gè)算法—— 2011 年的 Haar 特征加級(jí)聯(lián)提升多厲害,更早的用像素特征、用樸素貝葉斯聽起來就沒難度,樸素貝葉斯(Naive Bayesian)這么天真、簡(jiǎn)單,怎么能說是突破性結(jié)果的代表呢。
另一個(gè)例子是他自己在 2008 年用最近鄰算法做了圖像的地理位置識(shí)別,巧的是谷歌也在 2016 年用深度學(xué)習(xí)研究了同一個(gè)問題。作為后來者的谷歌拿出了更多的數(shù)據(jù),所以結(jié)果更好。
但有趣的是,在實(shí)驗(yàn)數(shù)據(jù)里,一樣的數(shù)據(jù)量下,他們的老方法比谷歌的新方法效果還好。所以關(guān)鍵點(diǎn)還是在于數(shù)據(jù),但大家都在急著提出并且標(biāo)榜自己的算法。
所以說,做科研的人都有這么種自戀:相比之下,我們更愿意把成果歸功于自己的聰明才智。
對(duì)于未來 5 年計(jì)算機(jī)視覺領(lǐng)域的發(fā)展趨勢(shì),Alexei Efros 接下來給出了自己的看法,更具體地說是對(duì)未來研究可能證明是障礙、可能會(huì)成為遺憾的東西的看法。不過他也說自己的觀點(diǎn)是有爭(zhēng)議性的,如果有人能證明他是錯(cuò)的也挺好的:
1,對(duì)抗性攻擊和魯棒性問題,他認(rèn)為這不應(yīng)該是個(gè)問題,沒必要花那么多精力去想辦法避免,實(shí)際上可能也永遠(yuǎn)都避免不了。因?yàn)閷?duì)抗性樣本本來就不是來自自然數(shù)據(jù)流形的數(shù)據(jù),落在由自然數(shù)據(jù)流形所劃分的決策邊界上就是有可能的,所以這并不是一個(gè)數(shù)學(xué)問題,而是一個(gè)人類的感知問題。他的建議是只要我們讓人類的視覺行為和計(jì)算機(jī)的類似就行了。換句話說,對(duì)抗性樣本只是人類與計(jì)算機(jī)的感知特點(diǎn)不同的表現(xiàn),而不是問題本身;如果想要治病,不要只吃止痛藥(要研究感知特點(diǎn),就不要緊盯著想要消滅對(duì)抗性樣本);
2,他認(rèn)為短期內(nèi)視覺無法和語言結(jié)合,抽象程度相差太多。Alexei Efros 挖苦說,最近幾十年的 CVPR 論文可能都會(huì)反復(fù)上演這樣的戲碼:每一年都會(huì)有論文帶來新的視覺+語言數(shù)據(jù)集,然后第二年發(fā)現(xiàn)在這個(gè)數(shù)據(jù)集上只需要用最近鄰算法或者隨便一個(gè)什么基準(zhǔn)線方法就能打敗所有別的方法。他說這是因?yàn)槲覀儸F(xiàn)在有的方法真的太弱了,還不足以把這兩種模態(tài)的信息有效地提取、融合起來?!肝覀冞€沒達(dá)到一只老鼠的視覺能力,怎么就開始想著做直立人做的事情了」
3,我們對(duì)可解釋性的要求太嚴(yán)苛,有些問題沒有簡(jiǎn)單的低維描述,就是復(fù)雜的,就是需要足夠多的數(shù)據(jù)才能解決。相比于理工科往往用簡(jiǎn)單明了的公式描述現(xiàn)象,心理學(xué)、基因、經(jīng)濟(jì)學(xué)等學(xué)科已經(jīng)沒辦法簡(jiǎn)單地用公式表示了。所以在這種時(shí)候我們就是應(yīng)當(dāng)依靠大量數(shù)據(jù),沒必要一定要追求一個(gè)簡(jiǎn)單的解。
他還舉了個(gè)例子,一團(tuán)煙霧的行為可以用公式描述,但是一顆樹的生長(zhǎng)行為是由溫度、光照、水、氣候等等許多復(fù)雜的因素在很長(zhǎng)時(shí)間內(nèi)連續(xù)變化所影響的,那么它就是沒辦法簡(jiǎn)單地解釋的。
4,重新思考數(shù)據(jù)集。雖然做實(shí)驗(yàn)、發(fā)論文的時(shí)候一定需要用數(shù)據(jù)集,但是我們心里要記得,數(shù)據(jù)集并不等于整個(gè)世界,它只是一個(gè)相當(dāng)固定的、獨(dú)立同分布(independent identically distributed)的側(cè)寫。所以模型出現(xiàn)的過擬合/作弊行為也就不應(yīng)該被看作是問題,同樣的樣本甚至同樣的數(shù)據(jù)集(多輪訓(xùn)練)反復(fù)看了很多次,當(dāng)然會(huì)出現(xiàn)這樣的結(jié)果。說到底,就不應(yīng)該使用有限的標(biāo)注和數(shù)據(jù)集。
結(jié)束語:如果說人生目標(biāo)可以是增加未來可以懷念的東西的話,他自己的五年計(jì)劃就是減少遺憾、增加可以讓在未來懷念的東西,比如可以從別發(fā)表自己不滿意的論文開始。
(限于文章篇幅,后續(xù) Ross Girshick、Jitendra Malik 等幾位講者的演講內(nèi)容請(qǐng)點(diǎn)擊閱讀 下篇)
雷鋒網(wǎng) AI 科技評(píng)論現(xiàn)場(chǎng)報(bào)道
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。