0
本文作者: 楊曉凡 | 2019-06-26 22:48 | 專題:CVPR 2019 |
雷鋒網(wǎng) AI 科技評論按:計(jì)算機(jī)視覺頂會 CVPR 2019 上舉辦了首屆「Computer Vision After 5 Years - CVPR Workshop」,領(lǐng)域內(nèi)的多位知名學(xué)者受邀演講,和大家分享他們對于 5 年后的計(jì)算機(jī)視覺領(lǐng)域發(fā)展的看法。
在上篇中,雷鋒網(wǎng) AI 科技評論已經(jīng)介紹了 Cordelia Schmid、Alexei Efros 兩位的演講內(nèi)容。這篇中我們繼續(xù)帶來其他幾位講者的內(nèi)容。
Facebook 人工智能研究院(FAIR)的研究科學(xué)家、目標(biāo)檢測界的領(lǐng)軍人物 Ross Girshick 上午還在教學(xué)講座,下午就在這個(gè)研討會進(jìn)行又一個(gè)演講。
就在 Ross Girshick 之前演講的 Alexei Efros 說到有四件我們需要改變看法的事情,Ross 一開場也就說,他的演講相當(dāng)于只針對其中的第四點(diǎn)數(shù)據(jù)集的一點(diǎn)想法。他的演講主題是「Big Little Data」。
目前在深度學(xué)習(xí)時(shí)代,可以說「大規(guī)模、類別均衡的數(shù)據(jù)集+手工標(biāo)簽+神經(jīng)網(wǎng)絡(luò)=不錯的表現(xiàn)」,不過這也是我們唯一掌握的模式,所有不符合這個(gè)模式的都是還沒解決的問題。
在這個(gè)演講里,Ross 打算討論的是一個(gè)和這個(gè)模式非常類似,但是還沒被解決的問題。
從命名說起,人類和機(jī)器之間交流、機(jī)器和機(jī)器之間的交流會打開一個(gè)很大的新挑戰(zhàn):實(shí)體命名。自然場景中的物體非常多非常細(xì),對它們的命名是一個(gè)尚未得到充分研究的挑戰(zhàn),這也將是未來的重要發(fā)展方向。
相比于當(dāng)前的數(shù)據(jù)集、當(dāng)前的對象識別任務(wù)中只檢測主要的一些物體,如果要檢測場景中的所有物體,這有一系列不同:首先需要大幅擴(kuò)充詞匯庫,其次,如果希望能服務(wù)更豐富的行為的話也需要更豐富的表征。實(shí)際上,要檢測所有的物體,其實(shí)并不僅僅是檢測更多類別而已,它會啟發(fā)很多全新的研究課題。
很明顯的,第一個(gè)問題:是要如何評價(jià)分類結(jié)果;第二個(gè)問題是,如何應(yīng)對數(shù)據(jù)效率、長尾數(shù)據(jù)的狀況。
長尾數(shù)據(jù)的狀況其實(shí)遠(yuǎn)比我們一般印象里的糟糕,他們統(tǒng)計(jì)了 COCO 數(shù)據(jù)集中的類別分布比例,并同步嘗試了用更少的數(shù)據(jù)訓(xùn)練模型。在減少到只有 1k 訓(xùn)練樣本時(shí),超過 90% 的類別都仍然有至少 20 個(gè)樣本,甚至還沒有到小樣本學(xué)習(xí)的范疇,但模型的準(zhǔn)確率已經(jīng)出現(xiàn)了大幅下降。
而如果統(tǒng)計(jì)更大范圍的圖片內(nèi)的類別分布,總的類別數(shù)目越大時(shí),最后出現(xiàn)的罕見類別也就越多、每個(gè)類別樣本越少。
Facebook 探究這個(gè)問題的努力是設(shè)計(jì)了 LVIS 數(shù)據(jù)集。它基于的是 COCO 數(shù)據(jù)集中的圖像,數(shù)據(jù)總量很大,但是樣本量很小的數(shù)據(jù)類別也很多。非常多的實(shí)例分割標(biāo)注,但是包含的長尾數(shù)據(jù)中也有數(shù)量很少的類別,這就是 Big Little 兩個(gè)詞的所指。
Ross 說道,構(gòu)建數(shù)據(jù)集時(shí)就需要重新思考不少東西:過往的數(shù)據(jù)集構(gòu)建時(shí),做法都是先選定想要包含的類型(哪一千個(gè)類別),再通過關(guān)鍵詞搜索對應(yīng)類別的圖片,然后添加到數(shù)據(jù)集中。這樣的結(jié)果就是模糊的類別少、類別總數(shù)目有限、不同類型的樣本分布過于平衡。這其實(shí)都是和更廣泛的圖像、生活中的圖像的特性不符的,也達(dá)不到檢測所有物體的目標(biāo)。LVIS 的設(shè)計(jì)目標(biāo)和方法都有所不同,所以不再有這些特點(diǎn)(也可以說是缺點(diǎn))。
Ross 著重說了一下他們對「類別」概念的重新思考。目前的對象識別數(shù)據(jù)集中都有許許多多類別名,但是「類別名只是一種表達(dá)」,并不能真的等同于類別本身的定義。
實(shí)際上,類別就是具有靈活性和多義性的,比如玩具鹿可以同時(shí)屬于「玩具」類別和「鹿」類別,小汽車和卡車都可以屬于「交通工具」,以及同一個(gè)物體可以有不同的稱呼。一種直白的處理方式是把所有類別都列出來,然后每一個(gè)對象實(shí)例都要分別一一標(biāo)注出它是否屬于某個(gè)類別。但類別和實(shí)例稍微多一點(diǎn)以后這種做法就是不行的。
除此之外,真實(shí)世界的物體分類很多時(shí)候也就是模糊的,比如 hotdog(熱狗)、taco(肉卷)、sandwich(三明治)三者之間的區(qū)別就很難說清,cereal(燕麥粥)和 soup(粥)也很類似。對于 toast 的理解就更是令人迷惑了。沒有準(zhǔn)確的定義,類別間的區(qū)別非常模糊。這都說明了沒法做以往那樣的直白的標(biāo)注。
Facebook 的解決方案是用聯(lián)邦數(shù)據(jù)集的概念,不做所有圖像中的實(shí)例的精細(xì)標(biāo)注,而是把整個(gè)數(shù)據(jù)集看作許多個(gè)類別數(shù)據(jù)集的集合;其中每個(gè)類別數(shù)據(jù)集由出一定數(shù)量的正例和負(fù)例組成,除此之外的圖像都允許處于未知的狀態(tài),不再逼迫分類器一定要給出某個(gè)結(jié)果。
這種做法也帶來了一些標(biāo)注方面的新特性。建立這個(gè)數(shù)據(jù)集他們花了一年多時(shí)間,目前還沒完全完成。感興趣的研究者可以訪問 www.lvisdataset.org。
對于數(shù)據(jù)效率問題,Ross 有一個(gè)有趣的說法:我們嘗試持續(xù)提升 AP 了這么多年,是時(shí)候把它降下來了——需要讓大家知道這不是一個(gè)已經(jīng)完全解決的問題。
數(shù)據(jù)中的長尾特性是不可能消除的,檢測不同類別對象的 mAP 有明顯的高低區(qū)別,而且 Ross 認(rèn)為當(dāng)前的小樣本學(xué)習(xí)根本就還沒發(fā)展到可以解決問題的程度。從小樣本中學(xué)習(xí)的能力真的是未來五年中的一個(gè)非常重要的課題。
Ross 并沒有介紹他們在這方面的新的成果,但是他們將在 ICCV2019 上舉辦比賽,就基于 LVIS 數(shù)據(jù)集,通過挑戰(zhàn)的過程吸引更多研究者關(guān)注長尾小樣本學(xué)習(xí)問題。
MIT 電子工程與計(jì)算機(jī)科學(xué)教授 Bill Freeman 的演講主題是「The future of CV told through seven classic rock songs」。
他說這個(gè)主題,用搖滾比喻計(jì)算機(jī)視覺,其實(shí)覺得挺貼切的。不過鑒于這些老歌曲國內(nèi)讀者都不熟悉,這里暫時(shí)把比喻都略去,只關(guān)注正題內(nèi)容。
Bill Freeman 一開頭也諷刺了過去五年的論文發(fā)表模式:翻到計(jì)算機(jī)視覺教科書的隨便哪一頁,在那一頁講的課題前面加上「深度」,收集一個(gè)相關(guān)的數(shù)據(jù)集,仿照 AlexNet 的樣子訓(xùn)練一個(gè) CNN 模型,然后就可以發(fā)表在 CVPR 了。
最近幾年的一個(gè)新風(fēng)潮是從人類的視覺感知系統(tǒng)獲得靈感發(fā)表論文,也許接下來五年的計(jì)算機(jī)視覺論文發(fā)表模式會變成:翻開 MIT 的《視覺科學(xué)》教科書,隨便翻到哪一頁,然后仔細(xì)地把這一頁的概念融入到自己設(shè)計(jì)的網(wǎng)絡(luò)中,就可以把論文命名為「一個(gè) xxxx 的架構(gòu)設(shè)計(jì)」,然后補(bǔ)充內(nèi)容以后發(fā)表到 CVPR 了。(這當(dāng)然也是諷刺)
接下來 Bill Freeman 花時(shí)間和聽眾一起討論了許多視覺系統(tǒng)概念的辨析,大家交換了一下看法。鳥類能夠飛行,當(dāng)時(shí)有人認(rèn)為是因?yàn)轼B有羽毛,也有人認(rèn)為是鳥有翅膀?,F(xiàn)在當(dāng)然公認(rèn)翅膀才是對飛行來說真正重要的,羽毛不一定需要。他希望大家思考一下,后面的這些概念,對視覺系統(tǒng)來講哪些是翅膀、哪些是羽毛。也藉由這些討論,窺探未來計(jì)算機(jī)視覺研究有待探究的課題。
1 人類視覺系統(tǒng)中獨(dú)立的背側(cè)和腹側(cè)視覺通路,對類別和位置的分別表征,大多數(shù)人認(rèn)為是羽毛;
2,明確地表征對象的邊界,應(yīng)該是翅膀;3,邊界的重建能力,應(yīng)該是翅膀;
4,F(xiàn)oveation,視野的中央部分最靈敏,Bill 認(rèn)為這對學(xué)術(shù)研究來說是羽毛,對商業(yè)產(chǎn)品是翅膀(學(xué)術(shù)研究要研究視覺系統(tǒng)的本質(zhì),但商業(yè)產(chǎn)品有恰當(dāng)?shù)墓δ苄跃蛪颍?/p>
5,感知分類(認(rèn)為上圖中是一個(gè)條形貫穿了方形和圓形),應(yīng)該是翅膀;6,三色視覺,有待討論;7,高效率,低發(fā)熱,可移動性,對學(xué)術(shù)研究來說是羽毛,對商業(yè)產(chǎn)品是翅膀;
8,反向連接,大多數(shù)人認(rèn)為應(yīng)該是翅膀
在這些說完之后,Bill Freeman 告誡大家要多看看前人的成果,不要總是重復(fù)發(fā)明輪子。
第五位演講的是計(jì)算機(jī)視覺領(lǐng)域奠基人之一的 UC 伯克利教授 Jitendra Malik。
Malik 開場首先說了像繞口令一樣的一句話:科研的藝術(shù),就是要找重要的、未解決的、但能解決的問題,去解決。
Malik 說,其實(shí)許多年前的演講中他就曾討論過未來:在 2004 年他就做過以《The Hilbert Problems of Computer Vision》的演講,提出了一些對于計(jì)算機(jī)視覺系統(tǒng)的問題,希望未來的研究可以給出答案;然后在 2015 年,他做了《The (new) Hilbert Problems of Computer Vision》的演講,為 2004 年提出的問題給出了一些回答,也提出了新的問題。他說他挺喜歡這個(gè)模式的,這個(gè)問答過程就是很好的預(yù)測和回顧,而且現(xiàn)在我們還可以回過頭看以前對更早的問題的回答,以此作為預(yù)測未來的參考。唯一的遺憾是,今天這次演講在 2019 年,距離上一次 2015 年的預(yù)測稍微近了點(diǎn)。
2004 年提出的對于早期視覺、靜態(tài)視覺、動態(tài)視覺三個(gè)板塊的問題,可以看作是在深度學(xué)習(xí)時(shí)代來之前對視覺領(lǐng)域的思考。在 2015 年時(shí)給出的回答分別是:
早期視覺問題
如何從圖像統(tǒng)計(jì)中獲得目前還不了解的信息?
在監(jiān)督學(xué)習(xí)任務(wù)中訓(xùn)練一個(gè)多層神經(jīng)網(wǎng)絡(luò)就可以獲得通用的圖像表征
自底向上的圖像分割能發(fā)展到什么水平?
可以產(chǎn)生一小組物體分割候選,然后可以用分類器添上標(biāo)簽?;瑒哟翱谝呀?jīng)不再需要了。
如何根據(jù)自然圖像中的陰影、紋理進(jìn)行推理?
相比于對成像過程進(jìn)行反向建模,我們可以進(jìn)行學(xué)習(xí)。如果數(shù)據(jù)比較稀疏,我們需要給一些參數(shù)設(shè)定先驗(yàn)的值;如果有足夠的數(shù)據(jù),就可以直接用神經(jīng)網(wǎng)絡(luò)之類的非參數(shù)化方法學(xué)習(xí)。
靜態(tài)場景理解
分割和識別之間如何互動?
雙向信息流。
場景、物體、部件之間如何互動?
在感知域內(nèi)能夠隱式地捕捉到一些聯(lián)系,但還不是普遍的結(jié)構(gòu)
識別系統(tǒng)中的設(shè)計(jì)和學(xué)習(xí)的角色如何?
盡量多地從數(shù)據(jù)中學(xué)習(xí)。不要設(shè)計(jì)特征。要設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。
動態(tài)場景理解
在大范圍運(yùn)動對應(yīng)關(guān)系中,高階知識起到什么樣的作用?
如何找到好的對應(yīng)關(guān)系是可以通過學(xué)習(xí)得到的
如何找到并追蹤明確的結(jié)構(gòu)?
重建人體形狀和動作方面已經(jīng)有了巨大的進(jìn)步
如何表征動作?
這還是個(gè)開放性的問題,目前我們還不理解動作和活動之間的層次結(jié)構(gòu)
2015 年提出的新問題和現(xiàn)在給出的回答則是
人、地點(diǎn)和物體
世界上的每一個(gè)地點(diǎn)建模
已經(jīng)有了表現(xiàn)優(yōu)秀的 SLAM、地點(diǎn)分類和視覺導(dǎo)航
對每個(gè)物體類別建模
已經(jīng)有了表現(xiàn)優(yōu)秀的實(shí)例分割、分類和形狀重建
用于社交感知的人類建模以及算法
已經(jīng)有了表現(xiàn)優(yōu)秀的人類形狀、姿態(tài)、動作識別
不過對于社交感知的現(xiàn)狀,Malik 認(rèn)為并不樂觀:今天的計(jì)算機(jī)的社交智慧少得可憐;當(dāng)人類之間互動、人類和外部世界互動時(shí),我們需要能夠理解人類的內(nèi)部狀態(tài),例子比如情感狀況、身體語言、當(dāng)前目標(biāo)
Malik 回憶了圖靈當(dāng)年在圖靈機(jī)論文較為靠后的章節(jié)里對智慧的表述,然后說我們的視覺感知發(fā)展之路可以像人類小孩的學(xué)習(xí)一樣經(jīng)歷六個(gè)方向的發(fā)展。
這六個(gè)方向是:多模態(tài)學(xué)習(xí);漸進(jìn)學(xué)習(xí);物理交互學(xué)習(xí);探索;社交學(xué)習(xí);使用語言。對于體現(xiàn)不同階段的內(nèi)建過程(以觀察為監(jiān)督、以互動為監(jiān)督、以文化為監(jiān)督),他認(rèn)為這是挺合適的思考結(jié)構(gòu)。
最終,我們希望達(dá)到的效果是,看到這樣一張圖(街邊長凳上坐著一個(gè)演奏手風(fēng)琴的人,邊上經(jīng)過兩個(gè)路人),除了能識別出來圖中的凳子、識別出人的動作之外,還能推測路人是否會給演奏者留下一些錢。
雷鋒網(wǎng) AI 科技評論總結(jié):在這個(gè)研討會的演講中,大家關(guān)注的不再是發(fā)論文時(shí)候需要的非常具體的任務(wù)和條件限定(做實(shí)驗(yàn)所必須的),而是關(guān)注整個(gè)領(lǐng)域里未解決的問題需要我們?nèi)绾嗡伎?,以及對?jì)算機(jī)視覺、甚至就是視覺、自然世界的本質(zhì)有全面的審視。用全局的、貼近自然世界的視角看過以后,也就更理解了 Ross Girshick 在演講中說到的這個(gè)成功的模式是「我們唯一掌握的模式」,現(xiàn)階段能在數(shù)據(jù)集上比較、能在論文中展示算法表現(xiàn)的只是一部分具體刻畫后的任務(wù),整個(gè)計(jì)算機(jī)視覺領(lǐng)域內(nèi)尚未得出結(jié)論的問題還有很多,我們都需要用更長遠(yuǎn)更開放的眼光去看待。到最后,預(yù)測五年后會發(fā)生什么,遠(yuǎn)不如提醒大家「我們還可以嘗試做什么」來得重要。
雷鋒網(wǎng) AI 科技評論現(xiàn)場參會報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。