0
本文作者: skura | 2019-06-28 18:04 | 專題:CVPR 2019 |
雷鋒網(wǎng) AI 科技評(píng)論按,隨著計(jì)算機(jī)視覺(jué)技術(shù)日趨火熱,作為該領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議,CVPR 參與人數(shù)逐年猛增 。上周在美國(guó)長(zhǎng)灘舉辦的 CVPR 2019 熱度還未散去,6 月 26 日,會(huì)議的程序主席 Derek Hoiem 發(fā)表了一篇博文。在博文中,Derek Hoiem 表示,現(xiàn)在是計(jì)算機(jī)視覺(jué)技術(shù)的黃金時(shí)代,同時(shí)他也表示,目前的計(jì)算機(jī)視覺(jué)技術(shù)只是記憶,而不是智力。雷鋒網(wǎng) AI 科技評(píng)論將他的文章編譯如下。
對(duì)于計(jì)算機(jī)視覺(jué)研究者來(lái)說(shuō),這是一個(gè)激動(dòng)人心但難以抗拒的時(shí)代。上周二,我有幸在 CVPR 2019 大會(huì)上向 9277 名與會(huì)者發(fā)表開(kāi)幕詞。作為四個(gè)程序主席之一,我的工作是管理論文決策過(guò)程,這其中包括協(xié)調(diào) 132 個(gè)區(qū)域主席、2887 名審稿人和提交 5160 篇論文的 14104 名作者,以及規(guī)劃 1296 張海報(bào)的展示和 288 次演講。這是有史以來(lái)最大的計(jì)算機(jī)視覺(jué)會(huì)議,但在短短四個(gè)月內(nèi)又將會(huì)有一次會(huì)議——ICCV 2019。如此多的事情正在發(fā)生——誰(shuí)能跟上?
CVPR 每年提交(藍(lán)色)和接收(綠色)論文數(shù)量
計(jì)算機(jī)視覺(jué)不再只是一種學(xué)術(shù)追求。數(shù)十億美元被用于從智能攝像頭到自動(dòng)駕駛的計(jì)算機(jī)視覺(jué)應(yīng)用程序中。大多數(shù)教授把至少一半的時(shí)間花在工業(yè)界的研究上,即使是初出茅廬的博士生,也能拿到六位數(shù)的豐厚薪水。但這是否是一場(chǎng)泡沫?我們?nèi)绾螌⒊墒斓纳虡I(yè)化突破與大肆宣傳的概念證明區(qū)分開(kāi)來(lái)?
首先,讓我們簡(jiǎn)單回顧一下我們是如何做到這一點(diǎn)的:
1963 年:Robert 的經(jīng)典「Blocks World」論文使用精心設(shè)計(jì)的特征和規(guī)則,從圖像構(gòu)建三維對(duì)象。
1981 年:Lucas 和 Kanade 在僅僅長(zhǎng)達(dá)六頁(yè)紙的論文中提出了有效的運(yùn)動(dòng)跟蹤和立體視覺(jué)算法。隨之而來(lái)的是幾何視覺(jué)和圖像處理的進(jìn)步。
1996 年:Rowley、Baluja 和 Kanade 描述了第一個(gè)現(xiàn)代物體檢測(cè),即一個(gè)訓(xùn)練用來(lái)檢測(cè)人臉的神經(jīng)網(wǎng)絡(luò)。數(shù)字圖像激增,數(shù)據(jù)取代了規(guī)則。
2012 年:數(shù)以百萬(wàn)計(jì)的標(biāo)記圖像和 GPU 處理為 Krizevsky、Sutskever 和 Hinton 提供了證明深度學(xué)習(xí)強(qiáng)大力量的基礎(chǔ),相比原來(lái)的方法,深度學(xué)習(xí)方法的錯(cuò)誤率降低了一半。數(shù)據(jù)取代了手工標(biāo)記特征。
2019 年:面部識(shí)別、身體追蹤和常見(jiàn)物體的檢測(cè)就像魔術(shù)一樣神奇。單張圖像的深度預(yù)測(cè)看起來(lái)很棒。但只有門(mén)外漢試圖解決標(biāo)簽圖像少于 100000 張的問(wèn)題。數(shù)據(jù)標(biāo)注產(chǎn)業(yè)應(yīng)運(yùn)而生。
所以,這就是計(jì)算機(jī)視覺(jué)成功的秘密:它是記憶,而不是智力。讓我們以單視圖深度預(yù)測(cè)為例。2005 年,我苦苦鉆研這個(gè)問(wèn)題,首次提出了從室外圖像自動(dòng)創(chuàng)建 3D 模型的方法。它的關(guān)鍵是學(xué)習(xí)「識(shí)別」幾何圖形,將像素標(biāo)記為地面、垂直物體和支撐物,并使用透視幾何規(guī)則構(gòu)建場(chǎng)景幾何的簡(jiǎn)單模型。這花費(fèi)了大約 30% 的時(shí)間。
早期的單視圖 3D 重建方法:一點(diǎn)數(shù)據(jù)、手工設(shè)計(jì)的特征和一些數(shù)學(xué)
單視圖構(gòu)建 3D 模型是現(xiàn)在的一個(gè)熱門(mén)話題,僅在 CVPR 2019 上就有 35 篇論文。有一些方法可以從全景圖生成場(chǎng)景布局,從圖像生成對(duì)象網(wǎng)格,從一個(gè)視圖生成深度圖。然而,正如我們小組和 UCI 在 2018 年指出的,以及 Freiburg 和 Intel 的研究人員在 CVPR 2019 所指出的那樣,許多似乎解釋了幾何學(xué)的方法實(shí)際上只是在學(xué)習(xí)和檢索與輸入類(lèi)似例子的記憶以做出預(yù)測(cè)。預(yù)測(cè)出來(lái)的的 3D 模型可能看起來(lái)不錯(cuò),但這些方法并不能推廣到新的形狀或場(chǎng)景中。
因此,讓我們考慮兩個(gè)非常有意思的問(wèn)題:
圖像深度。如果你能在現(xiàn)場(chǎng)拍攝一張照片,并將其發(fā)送到辦公室進(jìn)行 3D 測(cè)量和質(zhì)量控制,這難道不是一件很棒的事情嗎?再見(jiàn),昂貴的激光掃描儀和笨重的攝影測(cè)量?jī)x!好了,夢(mèng)做完了,現(xiàn)在睜開(kāi)眼睛。Matterport 最近公布了 360 全景的深度預(yù)測(cè),這是一個(gè)令人印象深刻的數(shù)據(jù)收集和機(jī)器學(xué)習(xí)壯舉。它的相對(duì)深度很好,邊緣也在正確的位置。Ricoh Theta 需要以已知的高度固定在三腳架上,這消除了由于未知的相機(jī)參數(shù)和姿勢(shì)而產(chǎn)生的一些變化。但是它在精度上仍然達(dá)不到可用的標(biāo)準(zhǔn),它使用的編解碼器模式也只是一種記憶形式,因此,各種各樣不同的重建場(chǎng)景中的深度預(yù)測(cè)可能在接下來(lái)很長(zhǎng)一段時(shí)間內(nèi)都會(huì)容易出錯(cuò)。我所在的 Reconstruct 公司最近推出了基于 360 度全景視頻的三維重建,由于它使用的是老式的相關(guān)性和優(yōu)化方法,它工作起來(lái)非??煽?。目前,我覺(jué)得這種 3D 重建最好只用在無(wú)人機(jī)、視頻捕捉和掃描儀等。不過(guò),即便我這么說(shuō)了,我還是對(duì)單視圖識(shí)別的深度方法與多視圖方法相結(jié)合來(lái)產(chǎn)生精確幾何的潛力感到非常興奮?!?br/>
自動(dòng)化進(jìn)度監(jiān)控。在重建時(shí),我們將點(diǎn)云和圖像與 BIM 對(duì)齊,因此可以很容易地自動(dòng)比較構(gòu)建計(jì)劃和評(píng)估進(jìn)度。我們有一些基本方法的專利和論文,但它們并不像看上去那么簡(jiǎn)單,而且,它們還沒(méi)有準(zhǔn)備好迎接這個(gè)黃金時(shí)代。最大的挑戰(zhàn)是各種各樣的建筑元素和任務(wù)、不完整的觀察結(jié)果、評(píng)估幾何和材料特性(例如,板巖與噴漆墻)、獲取標(biāo)記數(shù)據(jù)的挑戰(zhàn)。有些人聲稱有自動(dòng)進(jìn)度監(jiān)控,但由于缺乏數(shù)據(jù)和專業(yè)知識(shí),我認(rèn)為這些說(shuō)法不可信,無(wú)法廣泛應(yīng)用。但是,有了正確的數(shù)據(jù)以及最近在語(yǔ)義分割方面取得的進(jìn)展,這可能在未來(lái)一兩年內(nèi)實(shí)現(xiàn),至少對(duì)于已經(jīng)完成的粗略測(cè)量工作來(lái)說(shuō)是如此。
總而言之,如果有人聲稱剛解決了一個(gè)很難的識(shí)別或預(yù)測(cè)的問(wèn)題,那么問(wèn)問(wèn)你自己:他們是否有足夠的數(shù)據(jù),就像我關(guān)心的類(lèi)型一樣,他們的方法能夠記住所有的答案?這就要求:
他們是否用了足夠多的數(shù)據(jù),以至于他們的方法只需要記住所有的答案就夠了;
他們?cè)跇?biāo)注上花費(fèi)了數(shù)百萬(wàn)美元,或者有一種自動(dòng)化的方式來(lái)獲得監(jiān)督(例如,Matterport 深度掃描儀);
預(yù)測(cè)問(wèn)題足夠簡(jiǎn)單,并且你的領(lǐng)域也足夠有限,以至于可能會(huì)被他們的數(shù)據(jù)和實(shí)驗(yàn)室所覆蓋。數(shù)十億美元的圖像標(biāo)注產(chǎn)業(yè)的存在是有原因的,到目前為止,還沒(méi)有什么東西能代替數(shù)據(jù)。
via:https://medium.com/reconstruct-inc/the-golden-age-of-computer-vision-338da3e471d1
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章