0
本文作者: 李雨晨 | 2019-04-03 16:04 | 專題:2019中國人工智能安防峰會 |
近日,由雷鋒網(wǎng) & AI掘金志主辦的「第二屆中國人工智能安防峰會」在杭州召開。
峰會現(xiàn)場,香港科技大學教授,CVPR 2022、ICCV 2011大會主席,Altizure創(chuàng)始人權(quán)龍教授發(fā)表了題為《三維視覺重新定義人工智能安防》的演講。
權(quán)教授表示,人工智能的核心是視覺,視覺定義了智能安防,但現(xiàn)在的視覺仍局限在二維識別層面,未來三維視覺重建將會成為最重要的任務(wù), 它也將重新定義智能安防。
權(quán)教授也談到,現(xiàn)在計算機視覺本質(zhì)上是大數(shù)據(jù)統(tǒng)計意義上的分類與識別。
“我們的終極目標是對圖像的理解,也就是認知,但當前的計算機視覺只處于感知階段,我們并不知如何理解,計算機視覺一直是要探索最基礎(chǔ)的視覺特征,這一輪視覺卷積神經(jīng)網(wǎng)絡(luò)CNN本質(zhì)上重新定義了計算機視覺的特征。但人類是生活在三維環(huán)境中的雙目動物,這使得人類生物視覺的識別不只是識別,同時也包括三維感知與環(huán)境交互?!?/strong>
“因此我們要和三維打交道,二維識別所能做的事,在當前眾多復雜場景中,是遠遠不夠的。但三維重建不是最終目的,而且是要把三維重建和識別融為一體?!?/strong>
以下為權(quán)龍教授的現(xiàn)場演講內(nèi)容,雷鋒網(wǎng)作了不改變原意的編輯及整理:
感謝雷鋒網(wǎng)的邀請,今天我主要分享下現(xiàn)階段計算機視覺的現(xiàn)狀與未來發(fā)展方向,以及三維視覺在人工智能安防中的應(yīng)用。
我們知道,現(xiàn)在AI安防的核心,本質(zhì)上是計算機視覺,而計算機視覺分為兩大部分,分別是識別和重建。
“識別”是現(xiàn)在非常熱門的方向,相比而言,大家對“重建”的理解卻并沒有那么透徹。我們需要知道這一點,計算機視覺不止局限于識別,三維重建在其中扮演的角色甚至更為重要。
這是三維重建和安防融合的實際案例:
這些景物都是由三維構(gòu)建,我們把實時視頻投影到三維,用戶在界面上也可以“前、后、左、右”拖動操作。
接下來我要講的是當前計算機視覺存在的問題,以及為何三維視覺將重新定義計算機視覺,并且重新定義人工智能安防。
人工智能的本質(zhì)上是讓計算機去聽、看、讀,在所有的信息里面,視覺信息占了所有感官的80%,所以視覺基本上是現(xiàn)代人工智能的核心。
對我們來說,其實并沒有泛泛的人工智能,人工智能需要具體根據(jù)技術(shù)維度和場景維度,區(qū)分開來看,人工智能的發(fā)展、革命和應(yīng)用落地,一定是取決于以及受限于計算機視覺發(fā)展、革命和應(yīng)用。
而人工智能安防也同樣是伴隨著計算機視覺的發(fā)展而崛起。
2012年是非常重要的一年,當時在ImageNet比賽中,有團隊用卷積神經(jīng)網(wǎng)絡(luò)CNN把圖像識別準確率從75%提高到了85%,這件“非常小”的事情帶動了這一輪深度學習之下的人工智能,所以我們也可把2012年稱作是這輪以深度學習為代表的人工智能元年。
這件事再回到1998年,那個年代Yann Lecun已經(jīng)發(fā)表了卷積神經(jīng)網(wǎng)絡(luò)LeNet,這個網(wǎng)絡(luò)呢,首先它輸入的圖像比較小,只黑白單通道32*32,只能識別出一些字符和字母;因為也沒有GPU,所以當時整個網(wǎng)絡(luò)也只有60萬的參數(shù)。
到了2012年卷積神經(jīng)網(wǎng)絡(luò)復活出現(xiàn)了AlexNet。AlexNet和1998年LeNet的卷積神經(jīng)網(wǎng)絡(luò)相比,它的內(nèi)部結(jié)構(gòu)基本不變,但可輸入的圖像尺寸不一樣:1998年的模型,輸入尺寸為32*32,且只有一個通道。新的模型輸入尺寸已經(jīng)擴大到了224*224,而且有三個通道。最關(guān)鍵的是里面有了GPU,當時的訓練用到了兩塊GPU,參數(shù)達到將近6000萬。
這么多年來計算機視覺的卷積神經(jīng)網(wǎng)絡(luò),算法和結(jié)構(gòu),基本的結(jié)構(gòu)變化是很小的。
但1998年到2012年這十五年來發(fā)生了兩件特別重要的事:一是英偉達研發(fā)了GPU;第二就是李飛飛創(chuàng)建了ImageNet,她把幾百萬張照片發(fā)到網(wǎng)絡(luò)上并發(fā)動群眾做了標注。也正是因為算力和數(shù)據(jù),才創(chuàng)造了AlexNet的成就。
到了2015年,機器視覺的識別率基本超越了人類。其實人類在識別方面并沒有那么強,我們的記憶非常容易犯錯誤。根據(jù)統(tǒng)計,人類在分類上的錯誤率達到了5%。而機器,從2015年之后你們看各種ImageNet在公開域數(shù)據(jù)集上的錯誤率已經(jīng)遠遠低于5%。
但為什么ImageNet在兩年前停止了比賽,因為現(xiàn)在比拼的基本上都是靠算力和數(shù)據(jù)。
2015年隨著卷積神經(jīng)網(wǎng)絡(luò)下的人工智能技術(shù)的成熟,AI也到達了一定的巔峰,計算機視覺或者說更寬泛的安防市場也被重新定義。
也在這一時期,曠視、商湯這幾家做視覺的公司進入了安防市場。
從2012年到2019年的7年間,所有的數(shù)據(jù)又都翻了一千倍,計算速度比以前快一千倍,模型也比以前大一千倍。2012年訓練AlexNet模型需要使用兩塊GPU,花費兩個星期;今天做同樣的事情只需要一塊DGX-2,十幾分鐘就能完成。
從整個模型的參數(shù)來看,2012年的AlexNet已非常可觀,6000萬的參數(shù)非常龐大,這個數(shù)字我們當時都不敢想象。到今天這個網(wǎng)絡(luò)又要放大千倍,達到十億級的參數(shù)量。但是從算法、架構(gòu)來說,現(xiàn)在基本上都是標準的卷積神經(jīng)網(wǎng)絡(luò),其實并沒有太大的進步。
我們也可以想一下,計算機視覺里面的識別到底能夠達到什么程度?其實它并沒有那么強,它只是在一個大數(shù)據(jù)統(tǒng)計意義上的識別而已。
大家都聽說過無監(jiān)督學習,但無監(jiān)督學習的結(jié)果和應(yīng)用的場景并不是太多?,F(xiàn)在可用的、做的好的也就是可監(jiān)督的,也就是CNN。
我簡要概括下,現(xiàn)在的計算機視覺就是基于卷積神經(jīng)網(wǎng)絡(luò)而來,整個CNN的架構(gòu)非常簡單,能做的事其實也沒那么多,它提取了高維的特征,然后要結(jié)合其它方法解決視覺問題。
如果你有足夠的數(shù)據(jù)并且能夠明確定義你想要的東西,CNN的效果很好,但是它有沒有智能?其實沒有。
你說它蠢,它跟以前一樣蠢。它能識別出貓和狗,但我們要知道貓和狗的分類都是我們?nèi)祟愖约憾x的,我們可以把貓和狗分開,也可以把復雜的狗類動物進行聚合和分類,這些東西本質(zhì)上來說并不是客觀的,而是主觀的。
我們做計算機視覺研究的理想,是讓機器進行理解圖像。如何讓它進行理解?這非常的困難,直到現(xiàn)在也沒有人知道它怎么去進行理解?,F(xiàn)在它能做的,只能做到認知。我們研究計算機視覺的目的是得到視覺特征,有了視覺特征后才能開展一系列工作。
為什么視覺特征如此重要?在語音識別領(lǐng)域,語音的特征已經(jīng)定義得非常清晰——音素。但如果我們拿來一個圖像,問它最重要的視覺特征是什么,答案并不明確。大家知道圖像包含像素,但像素并不是真正的特征。像素只是一個數(shù)字化的載體,將圖像進行了數(shù)字化的表述。計算機視覺的終極目標就是尋找行之有效的視覺特征。
在這樣一個擁有視覺特征前提之下,計算機視覺也只有兩個現(xiàn)實目的,一個是識別,另一個是三維重建。
它們的英文單詞都以“re”做前綴,說明這是一個反向的問題。
計算機視覺不是一個很好定義(ill-posed)的問題,沒有一個完美的答案或方法。
這一輪的卷積神經(jīng)網(wǎng)絡(luò)(CNN)最本質(zhì)的一件事是重新定義了計算機視覺的特征。在此之前,所有的特征都是人工設(shè)計的。今天CNN學來的東西,它學到特征的維度動輒幾百萬,在以前沒有這類網(wǎng)絡(luò)的情況下是根本做不到的。
縱使CNN的特征提取能力極其強,但是我們不要忘記建立在CNN基礎(chǔ)上的計算機視覺是單目識別,而人類是雙目。我們的現(xiàn)實世界是在一個三維空間,我們要和三維打交道。拿著二維圖像去做識別,這遠遠不夠。
在雙目視覺下,要包含深度、視差和重建三個概念,它們基本等價,使用哪個詞匯取決你處在哪個群體。
傳統(tǒng)意義上,三維重建是在識別之前,它是一個最本質(zhì)的問題,三維視覺里面也要用到識別,但是它的識別是對同樣物體在不同視角下的識別,所以說它的識別是更好定義(well-posed) 的一個識別,也叫匹配。
雙目視覺對整個生物世界的等級劃分是非常嚴格的。大家知道馬的眼睛往外看,對角的部分才有可能得到一部分三維信息,但它的三維視角非常小,不像人類。魚的眼睛也是往兩邊看的,它的主要視線范圍是單目的,它能看到的雙目視區(qū)也是非常狹窄的一部分。
人類有兩只眼睛,通過兩只眼睛才能得到有深度的三維信息。當然,通過一只移動的眼睛,也可以獲得有深度的信息。
獲取深度信息的挑戰(zhàn)很大,它本質(zhì)上是一個三角測量問題。第一步需要將兩幅圖像或兩只眼睛感知到的東西進行匹配,也就是識別。這里的“識別”和前面有所不同,前面提到的是有標注情況下的識別,這里的“識別”是兩幅圖像之間的識別,沒有數(shù)據(jù)庫。它不僅要識別物體,還要識別每一個像素,所以對計算量要求非常高。
在生物世界里,雙目視覺非常重要,哺乳動物都有雙目視覺,而且越兇猛的食肉的動物雙目重疊的區(qū)域越大,用雙目獲得的深度信息去主動捕捉獵物。吃草的或被吃的動物視覺單目視覺,視野很寬,只有識別而無深度,目的是被進攻時跑得快!
在這一輪的CNN之前,計算機視覺里面研究最多的是三維重建這樣的問題,在CNN之前有非常好的人工設(shè)計的視覺特征,這些東西本質(zhì)上最早都是為三維重建而設(shè)計,例如SIFT特征。而在這之后的“識別”,只是把它放在一個沒有結(jié)構(gòu)的圖像數(shù)據(jù)庫里去搜索而已。 由此可見,現(xiàn)代三維視覺是由三維重建所定義。CNN誕生之前,它曾是視覺發(fā)展的主要動力源于幾何,因為它的定義相對清晰。
我們再來看一下當今的三維重建技術(shù)的現(xiàn)狀和挑戰(zhàn)。
三維視覺既有理論又有算法,一部分是統(tǒng)計,另外一部分則是確定性的,非統(tǒng)計,也就是傳統(tǒng)的應(yīng)用數(shù)學。
計算機視覺中的三維重建包含三大問題:一、定位置。假如我給出一張照片,計算機視覺要知道這張照片是在什么位置拍的。二、多目。通過多目的視差獲取三維信息,識別每一個像素并進行匹配,進行三維重建。三、語義識別。完成幾何三維重建后,要對這個三維信息進行語義識別,這是重建的最終目的。
這里我再強調(diào)下,我們要把三維場景重新捕捉,但三維重建不是最終的目的,你要把識別加進去,所以說最終的應(yīng)用肯定要把三維重建和識別融為一體。
現(xiàn)在三維重建的主要挑戰(zhàn)是,算力不夠,而且采集也比較困難。我舉個例子,我們安防場景識別一個攝像頭比較容易,但如果實時重建N個攝像頭的實景,這對算力要求非常高。這些限制也使得當前的單目應(yīng)用比較多,但我認為,未來雙目一定會成趨勢。
在深度學習的影響下,三維重建已經(jīng)取得了比較大的成就。CNN在2012年之后的幾年內(nèi),對三維重建的影響不是很大。但是從2017年開始,CNN就對三維重建產(chǎn)生了重要的影響。在三維重建領(lǐng)域有一個數(shù)據(jù)集叫KITTI,從2017年,我們開始用三維卷積神經(jīng)網(wǎng)絡(luò)。
以前是把它作為一個跟識別有關(guān)系的二維CNN,更現(xiàn)代的雙目算法都是基于完整的三維卷積神經(jīng)網(wǎng)絡(luò)?,F(xiàn)階段三維卷積神經(jīng)網(wǎng)絡(luò)的表現(xiàn)也非常強,給任何兩幅圖像,錯誤率只有百分之2到3。
現(xiàn)在計算機視覺覆蓋的應(yīng)用場景,被計算機視覺重新定義,但這些應(yīng)用也受制于計算機視覺的技術(shù)瓶頸。
雖然計算機視覺對安防行業(yè)的推動作用很大,但基本也不外乎識別人臉、車、物體等應(yīng)用,如果計算機視覺得到進一步發(fā)展,安防行業(yè)也將再度被重新定義。
而我認為,三維視覺將對安防產(chǎn)生非常深遠的影響。
三維重建在安防領(lǐng)域的應(yīng)用,第一個是大規(guī)模城市級別的三維重建。
每個大型城市動輒都百萬級的攝像頭,把攝像頭融合在這樣的一個實景三維場景里,才可達到城市級管控的效果,這是AI安防最理想化的形態(tài)。
現(xiàn)在政府都在通過一張實景圖對城市進行治理,這張圖以前是二維的,但今后一定是實景的,是三維的。
我們港科大的三維視覺初創(chuàng)公司Altizure就是一家做城市級別的實景三維重建和平臺企業(yè),大規(guī)模重建有兩方面非常有挑戰(zhàn)性:
第一是因為它的數(shù)據(jù)量非常大,我們現(xiàn)在建模動輒百萬級的高清圖像,要有強大的分布式以及并行算法,幾個星期才能做完。
第二就是可視化,一張實景圖的展示也特別有挑戰(zhàn)性,因為一張實景圖數(shù)據(jù)量非常大,即便是在任何一個端口的瀏覽實景三維都是非常有挑戰(zhàn)性的。
現(xiàn)時只有Altizure可以應(yīng)對這個挑戰(zhàn)。
我們做的一個典型案例就是為深圳坪山區(qū)布局了時空信息云平臺,我們對坪山的大片住宅區(qū)域進行了三維重建,后臺用戶可在三維實景圖像上進行“上、下放大“以及”前、后、左、右”拖拽移動,來查看區(qū)域?qū)嵕啊?/p>
后臺用戶也可用鼠標在三維實景圖像中選取部分區(qū)域,然后這一區(qū)域的各個重點視頻監(jiān)控畫面便在大屏幕中一一實時展示。坪山第一期項目的實時監(jiān)控視頻顯示,與常規(guī)的視頻監(jiān)控后臺呈現(xiàn)效果相似,總體更為傳統(tǒng)一些。
而在二期和三期,我們開始可以把所有的視頻在三維平臺上進行展示。
現(xiàn)在深圳已經(jīng)有很多區(qū)在布局這類實景三維立體時空信息平臺。
有了這樣的平臺,不僅是視頻,其實還有一些別的數(shù)據(jù)也是可以加進去應(yīng)用。
這個總控系統(tǒng),集成了景區(qū)的監(jiān)控攝像,閘機,商店,wifi等公共設(shè)施,實時可視化人流、電瓶車位置。三維實景給景區(qū)總控和下一步游客的導覽帶來了便利。
下圖是我們在廣州做第一個案例,對歷史建筑進行保護以及城市規(guī)劃。
Altizure實景三維視覺平臺現(xiàn)在已經(jīng)有180個國家的實景三維內(nèi)容和30萬專業(yè)用戶。
我們的香港科技大學計算機視覺實驗室和初創(chuàng)公司Altizure 在全球引領(lǐng)視覺三維重建的研究與應(yīng)用。我們的目的并不是為刷榜而刷榜,但在一些關(guān)鍵的三維榜單,我們從去年四月以來一直穩(wěn)居榜首!
最后總結(jié)一下,計算機視覺中的“識別”定義了智能安防,但現(xiàn)在的“視覺”和“識別”仍局限在二維,三維重建是未來計算機視覺中最為重要的任務(wù),因此三維重建也將重新定義人工智能以及智能安防。
現(xiàn)在的視覺研究,同質(zhì)化現(xiàn)象非常明顯。
我們在八十年代就開始做人工智能了,今天的現(xiàn)狀,有點像是歷史重演,計算機視覺的本質(zhì)跟以往并沒什么差別,只是大家用的硬件工具不一樣。
計算機視覺雖然正處于黃金時期 ,但它的發(fā)展還是非常有局限性的,我認為,所謂的通用人工智能和通用計算機視覺還遙遙無期。
謝謝大家!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。