五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

本文作者：楊曉凡

2019-06-26 22:48

專題：CVPR 2019

導(dǎo)語：真實世界中視覺系統(tǒng)的表現(xiàn)如何

雷鋒網(wǎng) AI 科技評論按：計算機視覺頂會 CVPR 2019 上舉辦了首屆「Computer Vision After 5 Years - CVPR Workshop」，領(lǐng)域內(nèi)的多位知名學(xué)者受邀演講，和大家分享他們對于 5 年后的計算機視覺領(lǐng)域發(fā)展的看法。

在上篇中，雷鋒網(wǎng) AI 科技評論已經(jīng)介紹了 Cordelia Schmid、Alexei Efros 兩位的演講內(nèi)容。這篇中我們繼續(xù)帶來其他幾位講者的內(nèi)容。

演講三

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

Facebook 人工智能研究院（FAIR）的研究科學(xué)家、目標檢測界的領(lǐng)軍人物 Ross Girshick 上午還在教學(xué)講座，下午就在這個研討會進行又一個演講。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

就在 Ross Girshick 之前演講的 Alexei Efros 說到有四件我們需要改變看法的事情，Ross 一開場也就說，他的演講相當(dāng)于只針對其中的第四點數(shù)據(jù)集的一點想法。他的演講主題是「Big Little Data」。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

目前在深度學(xué)習(xí)時代，可以說「大規(guī)模、類別均衡的數(shù)據(jù)集+手工標簽+神經(jīng)網(wǎng)絡(luò)=不錯的表現(xiàn)」，不過這也是我們唯一掌握的模式，所有不符合這個模式的都是還沒解決的問題。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

在這個演講里，Ross 打算討論的是一個和這個模式非常類似，但是還沒被解決的問題。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

從命名說起，人類和機器之間交流、機器和機器之間的交流會打開一個很大的新挑戰(zhàn)：實體命名。自然場景中的物體非常多非常細，對它們的命名是一個尚未得到充分研究的挑戰(zhàn)，這也將是未來的重要發(fā)展方向。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

相比于當(dāng)前的數(shù)據(jù)集、當(dāng)前的對象識別任務(wù)中只檢測主要的一些物體，如果要檢測場景中的所有物體，這有一系列不同：首先需要大幅擴充詞匯庫，其次，如果希望能服務(wù)更豐富的行為的話也需要更豐富的表征。實際上，要檢測所有的物體，其實并不僅僅是檢測更多類別而已，它會啟發(fā)很多全新的研究課題。

很明顯的，第一個問題：是要如何評價分類結(jié)果；第二個問題是，如何應(yīng)對數(shù)據(jù)效率、長尾數(shù)據(jù)的狀況。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

長尾數(shù)據(jù)的狀況其實遠比我們一般印象里的糟糕，他們統(tǒng)計了 COCO 數(shù)據(jù)集中的類別分布比例，并同步嘗試了用更少的數(shù)據(jù)訓(xùn)練模型。在減少到只有 1k 訓(xùn)練樣本時，超過 90% 的類別都仍然有至少 20 個樣本，甚至還沒有到小樣本學(xué)習(xí)的范疇，但模型的準確率已經(jīng)出現(xiàn)了大幅下降。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

而如果統(tǒng)計更大范圍的圖片內(nèi)的類別分布，總的類別數(shù)目越大時，最后出現(xiàn)的罕見類別也就越多、每個類別樣本越少。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

Facebook 探究這個問題的努力是設(shè)計了 LVIS 數(shù)據(jù)集。它基于的是 COCO 數(shù)據(jù)集中的圖像，數(shù)據(jù)總量很大，但是樣本量很小的數(shù)據(jù)類別也很多。非常多的實例分割標注，但是包含的長尾數(shù)據(jù)中也有數(shù)量很少的類別，這就是 Big Little 兩個詞的所指。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

Ross 說道，構(gòu)建數(shù)據(jù)集時就需要重新思考不少東西：過往的數(shù)據(jù)集構(gòu)建時，做法都是先選定想要包含的類型（哪一千個類別），再通過關(guān)鍵詞搜索對應(yīng)類別的圖片，然后添加到數(shù)據(jù)集中。這樣的結(jié)果就是模糊的類別少、類別總數(shù)目有限、不同類型的樣本分布過于平衡。這其實都是和更廣泛的圖像、生活中的圖像的特性不符的，也達不到檢測所有物體的目標。LVIS 的設(shè)計目標和方法都有所不同，所以不再有這些特點（也可以說是缺點）。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

Ross 著重說了一下他們對「類別」概念的重新思考。目前的對象識別數(shù)據(jù)集中都有許許多多類別名，但是「類別名只是一種表達」，并不能真的等同于類別本身的定義。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

實際上，類別就是具有靈活性和多義性的，比如玩具鹿可以同時屬于「玩具」類別和「鹿」類別，小汽車和卡車都可以屬于「交通工具」，以及同一個物體可以有不同的稱呼。一種直白的處理方式是把所有類別都列出來，然后每一個對象實例都要分別一一標注出它是否屬于某個類別。但類別和實例稍微多一點以后這種做法就是不行的。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

除此之外，真實世界的物體分類很多時候也就是模糊的，比如 hotdog（熱狗）、taco（肉卷）、sandwich（三明治）三者之間的區(qū)別就很難說清，cereal（燕麥粥）和 soup（粥）也很類似。對于 toast 的理解就更是令人迷惑了。沒有準確的定義，類別間的區(qū)別非常模糊。這都說明了沒法做以往那樣的直白的標注。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

Facebook 的解決方案是用聯(lián)邦數(shù)據(jù)集的概念，不做所有圖像中的實例的精細標注，而是把整個數(shù)據(jù)集看作許多個類別數(shù)據(jù)集的集合；其中每個類別數(shù)據(jù)集由出一定數(shù)量的正例和負例組成，除此之外的圖像都允許處于未知的狀態(tài)，不再逼迫分類器一定要給出某個結(jié)果。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

這種做法也帶來了一些標注方面的新特性。建立這個數(shù)據(jù)集他們花了一年多時間，目前還沒完全完成。感興趣的研究者可以訪問 www.lvisdataset.org。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

對于數(shù)據(jù)效率問題，Ross 有一個有趣的說法：我們嘗試持續(xù)提升 AP 了這么多年，是時候把它降下來了——需要讓大家知道這不是一個已經(jīng)完全解決的問題。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

數(shù)據(jù)中的長尾特性是不可能消除的，檢測不同類別對象的 mAP 有明顯的高低區(qū)別，而且 Ross 認為當(dāng)前的小樣本學(xué)習(xí)根本就還沒發(fā)展到可以解決問題的程度。從小樣本中學(xué)習(xí)的能力真的是未來五年中的一個非常重要的課題。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

Ross 并沒有介紹他們在這方面的新的成果，但是他們將在 ICCV2019 上舉辦比賽，就基于 LVIS 數(shù)據(jù)集，通過挑戰(zhàn)的過程吸引更多研究者關(guān)注長尾小樣本學(xué)習(xí)問題。

演講四

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

MIT 電子工程與計算機科學(xué)教授 Bill Freeman 的演講主題是「The future of CV told through seven classic rock songs」。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

他說這個主題，用搖滾比喻計算機視覺，其實覺得挺貼切的。不過鑒于這些老歌曲國內(nèi)讀者都不熟悉，這里暫時把比喻都略去，只關(guān)注正題內(nèi)容。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

Bill Freeman 一開頭也諷刺了過去五年的論文發(fā)表模式：翻到計算機視覺教科書的隨便哪一頁，在那一頁講的課題前面加上「深度」，收集一個相關(guān)的數(shù)據(jù)集，仿照 AlexNet 的樣子訓(xùn)練一個 CNN 模型，然后就可以發(fā)表在 CVPR 了。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

最近幾年的一個新風(fēng)潮是從人類的視覺感知系統(tǒng)獲得靈感發(fā)表論文，也許接下來五年的計算機視覺論文發(fā)表模式會變成：翻開 MIT 的《視覺科學(xué)》教科書，隨便翻到哪一頁，然后仔細地把這一頁的概念融入到自己設(shè)計的網(wǎng)絡(luò)中，就可以把論文命名為「一個 xxxx 的架構(gòu)設(shè)計」，然后補充內(nèi)容以后發(fā)表到 CVPR 了。（這當(dāng)然也是諷刺）

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

接下來 Bill Freeman 花時間和聽眾一起討論了許多視覺系統(tǒng)概念的辨析，大家交換了一下看法。鳥類能夠飛行，當(dāng)時有人認為是因為鳥有羽毛，也有人認為是鳥有翅膀。現(xiàn)在當(dāng)然公認翅膀才是對飛行來說真正重要的，羽毛不一定需要。他希望大家思考一下，后面的這些概念，對視覺系統(tǒng)來講哪些是翅膀、哪些是羽毛。也藉由這些討論，窺探未來計算機視覺研究有待探究的課題。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

1 人類視覺系統(tǒng)中獨立的背側(cè)和腹側(cè)視覺通路，對類別和位置的分別表征，大多數(shù)人認為是羽毛；

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

2，明確地表征對象的邊界，應(yīng)該是翅膀；3，邊界的重建能力，應(yīng)該是翅膀；

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

4，F(xiàn)oveation，視野的中央部分最靈敏，Bill 認為這對學(xué)術(shù)研究來說是羽毛，對商業(yè)產(chǎn)品是翅膀（學(xué)術(shù)研究要研究視覺系統(tǒng)的本質(zhì)，但商業(yè)產(chǎn)品有恰當(dāng)?shù)墓δ苄跃蛪颍?/p>

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

5，感知分類（認為上圖中是一個條形貫穿了方形和圓形），應(yīng)該是翅膀；6，三色視覺，有待討論；7，高效率，低發(fā)熱，可移動性，對學(xué)術(shù)研究來說是羽毛，對商業(yè)產(chǎn)品是翅膀；

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

8，反向連接，大多數(shù)人認為應(yīng)該是翅膀

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

在這些說完之后，Bill Freeman 告誡大家要多看看前人的成果，不要總是重復(fù)發(fā)明輪子。

演講五

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

第五位演講的是計算機視覺領(lǐng)域奠基人之一的 UC 伯克利教授 Jitendra Malik。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

Malik 開場首先說了像繞口令一樣的一句話：科研的藝術(shù)，就是要找重要的、未解決的、但能解決的問題，去解決。

Malik 說，其實許多年前的演講中他就曾討論過未來：在 2004 年他就做過以《The Hilbert Problems of Computer Vision》的演講，提出了一些對于計算機視覺系統(tǒng)的問題，希望未來的研究可以給出答案；然后在 2015 年，他做了《The (new) Hilbert Problems of Computer Vision》的演講，為 2004 年提出的問題給出了一些回答，也提出了新的問題。他說他挺喜歡這個模式的，這個問答過程就是很好的預(yù)測和回顧，而且現(xiàn)在我們還可以回過頭看以前對更早的問題的回答，以此作為預(yù)測未來的參考。唯一的遺憾是，今天這次演講在 2019 年，距離上一次 2015 年的預(yù)測稍微近了點。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

2004 年提出的對于早期視覺、靜態(tài)視覺、動態(tài)視覺三個板塊的問題，可以看作是在深度學(xué)習(xí)時代來之前對視覺領(lǐng)域的思考。在 2015 年時給出的回答分別是：

早期視覺問題

如何從圖像統(tǒng)計中獲得目前還不了解的信息？

在監(jiān)督學(xué)習(xí)任務(wù)中訓(xùn)練一個多層神經(jīng)網(wǎng)絡(luò)就可以獲得通用的圖像表征

自底向上的圖像分割能發(fā)展到什么水平？

可以產(chǎn)生一小組物體分割候選，然后可以用分類器添上標簽。滑動窗口已經(jīng)不再需要了。

如何根據(jù)自然圖像中的陰影、紋理進行推理？

相比于對成像過程進行反向建模，我們可以進行學(xué)習(xí)。如果數(shù)據(jù)比較稀疏，我們需要給一些參數(shù)設(shè)定先驗的值；如果有足夠的數(shù)據(jù)，就可以直接用神經(jīng)網(wǎng)絡(luò)之類的非參數(shù)化方法學(xué)習(xí)。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

靜態(tài)場景理解

分割和識別之間如何互動？

雙向信息流。

場景、物體、部件之間如何互動？

在感知域內(nèi)能夠隱式地捕捉到一些聯(lián)系，但還不是普遍的結(jié)構(gòu)

識別系統(tǒng)中的設(shè)計和學(xué)習(xí)的角色如何？

盡量多地從數(shù)據(jù)中學(xué)習(xí)。不要設(shè)計特征。要設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

動態(tài)場景理解

在大范圍運動對應(yīng)關(guān)系中，高階知識起到什么樣的作用？

如何找到好的對應(yīng)關(guān)系是可以通過學(xué)習(xí)得到的

如何找到并追蹤明確的結(jié)構(gòu)？

重建人體形狀和動作方面已經(jīng)有了巨大的進步

如何表征動作？

這還是個開放性的問題，目前我們還不理解動作和活動之間的層次結(jié)構(gòu)

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

2015 年提出的新問題和現(xiàn)在給出的回答則是

人、地點和物體

世界上的每一個地點建模

已經(jīng)有了表現(xiàn)優(yōu)秀的 SLAM、地點分類和視覺導(dǎo)航

對每個物體類別建模

已經(jīng)有了表現(xiàn)優(yōu)秀的實例分割、分類和形狀重建

用于社交感知的人類建模以及算法

已經(jīng)有了表現(xiàn)優(yōu)秀的人類形狀、姿態(tài)、動作識別

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

不過對于社交感知的現(xiàn)狀，Malik 認為并不樂觀：今天的計算機的社交智慧少得可憐；當(dāng)人類之間互動、人類和外部世界互動時，我們需要能夠理解人類的內(nèi)部狀態(tài)，例子比如情感狀況、身體語言、當(dāng)前目標

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

Malik 回憶了圖靈當(dāng)年在圖靈機論文較為靠后的章節(jié)里對智慧的表述，然后說我們的視覺感知發(fā)展之路可以像人類小孩的學(xué)習(xí)一樣經(jīng)歷六個方向的發(fā)展。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

這六個方向是：多模態(tài)學(xué)習(xí)；漸進學(xué)習(xí)；物理交互學(xué)習(xí)；探索；社交學(xué)習(xí)；使用語言。對于體現(xiàn)不同階段的內(nèi)建過程（以觀察為監(jiān)督、以互動為監(jiān)督、以文化為監(jiān)督），他認為這是挺合適的思考結(jié)構(gòu)。

五年后的計算機視覺會是什么樣？和CV先驅(qū)們一同暢想（下） | CVPR 2019

最終，我們希望達到的效果是，看到這樣一張圖（街邊長凳上坐著一個演奏手風(fēng)琴的人，邊上經(jīng)過兩個路人），除了能識別出來圖中的凳子、識別出人的動作之外，還能推測路人是否會給演奏者留下一些錢。

雷鋒網(wǎng) AI 科技評論總結(jié)：在這個研討會的演講中，大家關(guān)注的不再是發(fā)論文時候需要的非常具體的任務(wù)和條件限定（做實驗所必須的），而是關(guān)注整個領(lǐng)域里未解決的問題需要我們?nèi)绾嗡伎迹约皩τ嬎銠C視覺、甚至就是視覺、自然世界的本質(zhì)有全面的審視。用全局的、貼近自然世界的視角看過以后，也就更理解了 Ross Girshick 在演講中說到的這個成功的模式是「我們唯一掌握的模式」，現(xiàn)階段能在數(shù)據(jù)集上比較、能在論文中展示算法表現(xiàn)的只是一部分具體刻畫后的任務(wù)，整個計算機視覺領(lǐng)域內(nèi)尚未得出結(jié)論的問題還有很多，我們都需要用更長遠更開放的眼光去看待。到最后，預(yù)測五年后會發(fā)生什么，遠不如提醒大家「我們還可以嘗試做什么」來得重要。

雷鋒網(wǎng) AI 科技評論現(xiàn)場參會報道。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。