丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
智慧安防 正文
發(fā)私信給李雨晨
發(fā)送

0

港科大教授權(quán)龍:三維視覺重新定義人工智能安防

導(dǎo)語:計(jì)算機(jī)視覺迎來自己的黃金時(shí)代 ,但通用人工智能和視覺仍然遙遠(yuǎn)。

港科大教授權(quán)龍:三維視覺重新定義人工智能安防

近日,由雷鋒網(wǎng) & AI掘金志主辦的「第二屆中國人工智能安防峰會(huì)」在杭州召開。

峰會(huì)現(xiàn)場(chǎng),香港科技大學(xué)教授,CVPR 2022、ICCV 2011大會(huì)主席,Altizure創(chuàng)始人權(quán)龍教授發(fā)表了題為《三維視覺重新定義人工智能安防》的演講。

權(quán)教授表示,人工智能的核心是視覺,視覺定義了智能安防,但現(xiàn)在的視覺仍局限在二維識(shí)別層面,未來三維視覺重建將會(huì)成為最重要的任務(wù), 它也將重新定義智能安防。

權(quán)教授也談到,現(xiàn)在計(jì)算機(jī)視覺本質(zhì)上是大數(shù)據(jù)統(tǒng)計(jì)意義上的分類與識(shí)別。

“我們的終極目標(biāo)是對(duì)圖像的理解,也就是認(rèn)知,但當(dāng)前的計(jì)算機(jī)視覺只處于感知階段,我們并不知如何理解,計(jì)算機(jī)視覺一直是要探索最基礎(chǔ)的視覺特征,這一輪視覺卷積神經(jīng)網(wǎng)絡(luò)CNN本質(zhì)上重新定義了計(jì)算機(jī)視覺的特征。但人類是生活在三維環(huán)境中的雙目動(dòng)物,這使得人類生物視覺的識(shí)別不只是識(shí)別,同時(shí)也包括三維感知與環(huán)境交互?!?/strong>

“因此我們要和三維打交道,二維識(shí)別所能做的事,在當(dāng)前眾多復(fù)雜場(chǎng)景中,是遠(yuǎn)遠(yuǎn)不夠的。但三維重建不是最終目的,而且是要把三維重建和識(shí)別融為一體?!?/strong>

以下為權(quán)龍教授的現(xiàn)場(chǎng)演講內(nèi)容,雷鋒網(wǎng)作了不改變?cè)獾木庉嫾罢恚?/strong>

感謝雷鋒網(wǎng)的邀請(qǐng),今天我主要分享下現(xiàn)階段計(jì)算機(jī)視覺的現(xiàn)狀與未來發(fā)展方向,以及三維視覺在人工智能安防中的應(yīng)用。

我們知道,現(xiàn)在AI安防的核心,本質(zhì)上是計(jì)算機(jī)視覺,而計(jì)算機(jī)視覺分為兩大部分,分別是識(shí)別和重建。

“識(shí)別”是現(xiàn)在非常熱門的方向,相比而言,大家對(duì)“重建”的理解卻并沒有那么透徹。我們需要知道這一點(diǎn),計(jì)算機(jī)視覺不止局限于識(shí)別,三維重建在其中扮演的角色甚至更為重要。

這是三維重建和安防融合的實(shí)際案例:

港科大教授權(quán)龍:三維視覺重新定義人工智能安防

港科大教授權(quán)龍:三維視覺重新定義人工智能安防

港科大教授權(quán)龍:三維視覺重新定義人工智能安防

港科大教授權(quán)龍:三維視覺重新定義人工智能安防

這些景物都是由三維構(gòu)建,我們把實(shí)時(shí)視頻投影到三維,用戶在界面上也可以“前、后、左、右”拖動(dòng)操作。

接下來我要講的是當(dāng)前計(jì)算機(jī)視覺存在的問題,以及為何三維視覺將重新定義計(jì)算機(jī)視覺,并且重新定義人工智能安防。

人工智能的本質(zhì)上是讓計(jì)算機(jī)去聽、看、讀,在所有的信息里面,視覺信息占了所有感官的80%,所以視覺基本上是現(xiàn)代人工智能的核心。

對(duì)我們來說,其實(shí)并沒有泛泛的人工智能,人工智能需要具體根據(jù)技術(shù)維度和場(chǎng)景維度,區(qū)分開來看,人工智能的發(fā)展、革命和應(yīng)用落地,一定是取決于以及受限于計(jì)算機(jī)視覺發(fā)展、革命和應(yīng)用。

而人工智能安防也同樣是伴隨著計(jì)算機(jī)視覺的發(fā)展而崛起。

2012年是非常重要的一年,當(dāng)時(shí)在ImageNet比賽中,有團(tuán)隊(duì)用卷積神經(jīng)網(wǎng)絡(luò)CNN把圖像識(shí)別準(zhǔn)確率從75%提高到了85%,這件“非常小”的事情帶動(dòng)了這一輪深度學(xué)習(xí)之下的人工智能,所以我們也可把2012年稱作是這輪以深度學(xué)習(xí)為代表的人工智能元年。

這件事再回到1998年,那個(gè)年代Yann Lecun已經(jīng)發(fā)表了卷積神經(jīng)網(wǎng)絡(luò)LeNet,這個(gè)網(wǎng)絡(luò)呢,首先它輸入的圖像比較小,只黑白單通道32*32,只能識(shí)別出一些字符和字母;因?yàn)橐矝]有GPU,所以當(dāng)時(shí)整個(gè)網(wǎng)絡(luò)也只有60萬的參數(shù)。

到了2012年卷積神經(jīng)網(wǎng)絡(luò)復(fù)活出現(xiàn)了AlexNet。AlexNet和1998年LeNet的卷積神經(jīng)網(wǎng)絡(luò)相比,它的內(nèi)部結(jié)構(gòu)基本不變,但可輸入的圖像尺寸不一樣:1998年的模型,輸入尺寸為32*32,且只有一個(gè)通道。新的模型輸入尺寸已經(jīng)擴(kuò)大到了224*224,而且有三個(gè)通道。最關(guān)鍵的是里面有了GPU,當(dāng)時(shí)的訓(xùn)練用到了兩塊GPU,參數(shù)達(dá)到將近6000萬。

港科大教授權(quán)龍:三維視覺重新定義人工智能安防

這么多年來計(jì)算機(jī)視覺的卷積神經(jīng)網(wǎng)絡(luò),算法和結(jié)構(gòu),基本的結(jié)構(gòu)變化是很小的。

但1998年到2012年這十五年來發(fā)生了兩件特別重要的事:一是英偉達(dá)研發(fā)了GPU;第二就是李飛飛創(chuàng)建了ImageNet,她把幾百萬張照片發(fā)到網(wǎng)絡(luò)上并發(fā)動(dòng)群眾做了標(biāo)注。也正是因?yàn)樗懔蛿?shù)據(jù),才創(chuàng)造了AlexNet的成就。

到了2015年,機(jī)器視覺的識(shí)別率基本超越了人類。其實(shí)人類在識(shí)別方面并沒有那么強(qiáng),我們的記憶非常容易犯錯(cuò)誤。根據(jù)統(tǒng)計(jì),人類在分類上的錯(cuò)誤率達(dá)到了5%。而機(jī)器,從2015年之后你們看各種ImageNet在公開域數(shù)據(jù)集上的錯(cuò)誤率已經(jīng)遠(yuǎn)遠(yuǎn)低于5%。

但為什么ImageNet在兩年前停止了比賽,因?yàn)楝F(xiàn)在比拼的基本上都是靠算力和數(shù)據(jù)。

2015年隨著卷積神經(jīng)網(wǎng)絡(luò)下的人工智能技術(shù)的成熟,AI也到達(dá)了一定的巔峰,計(jì)算機(jī)視覺或者說更寬泛的安防市場(chǎng)也被重新定義。

也在這一時(shí)期,曠視、商湯這幾家做視覺的公司進(jìn)入了安防市場(chǎng)。

從2012年到2019年的7年間,所有的數(shù)據(jù)又都翻了一千倍,計(jì)算速度比以前快一千倍,模型也比以前大一千倍。2012年訓(xùn)練AlexNet模型需要使用兩塊GPU,花費(fèi)兩個(gè)星期;今天做同樣的事情只需要一塊DGX-2,十幾分鐘就能完成。

從整個(gè)模型的參數(shù)來看,2012年的AlexNet已非常可觀,6000萬的參數(shù)非常龐大,這個(gè)數(shù)字我們當(dāng)時(shí)都不敢想象。到今天這個(gè)網(wǎng)絡(luò)又要放大千倍,達(dá)到十億級(jí)的參數(shù)量。但是從算法、架構(gòu)來說,現(xiàn)在基本上都是標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò),其實(shí)并沒有太大的進(jìn)步。

我們也可以想一下,計(jì)算機(jī)視覺里面的識(shí)別到底能夠達(dá)到什么程度?其實(shí)它并沒有那么強(qiáng),它只是在一個(gè)大數(shù)據(jù)統(tǒng)計(jì)意義上的識(shí)別而已。

大家都聽說過無監(jiān)督學(xué)習(xí),但無監(jiān)督學(xué)習(xí)的結(jié)果和應(yīng)用的場(chǎng)景并不是太多?,F(xiàn)在可用的、做的好的也就是可監(jiān)督的,也就是CNN。

我簡(jiǎn)要概括下,現(xiàn)在的計(jì)算機(jī)視覺就是基于卷積神經(jīng)網(wǎng)絡(luò)而來,整個(gè)CNN的架構(gòu)非常簡(jiǎn)單,能做的事其實(shí)也沒那么多,它提取了高維的特征,然后要結(jié)合其它方法解決視覺問題。

如果你有足夠的數(shù)據(jù)并且能夠明確定義你想要的東西,CNN的效果很好,但是它有沒有智能?其實(shí)沒有。

你說它蠢,它跟以前一樣蠢。它能識(shí)別出貓和狗,但我們要知道貓和狗的分類都是我們?nèi)祟愖约憾x的,我們可以把貓和狗分開,也可以把復(fù)雜的狗類動(dòng)物進(jìn)行聚合和分類,這些東西本質(zhì)上來說并不是客觀的,而是主觀的。

我們做計(jì)算機(jī)視覺研究的理想,是讓機(jī)器進(jìn)行理解圖像。如何讓它進(jìn)行理解?這非常的困難,直到現(xiàn)在也沒有人知道它怎么去進(jìn)行理解?,F(xiàn)在它能做的,只能做到認(rèn)知。我們研究計(jì)算機(jī)視覺的目的是得到視覺特征,有了視覺特征后才能開展一系列工作。

為什么視覺特征如此重要?在語音識(shí)別領(lǐng)域,語音的特征已經(jīng)定義得非常清晰——音素。但如果我們拿來一個(gè)圖像,問它最重要的視覺特征是什么,答案并不明確。大家知道圖像包含像素,但像素并不是真正的特征。像素只是一個(gè)數(shù)字化的載體,將圖像進(jìn)行了數(shù)字化的表述。計(jì)算機(jī)視覺的終極目標(biāo)就是尋找行之有效的視覺特征。

在這樣一個(gè)擁有視覺特征前提之下,計(jì)算機(jī)視覺也只有兩個(gè)現(xiàn)實(shí)目的,一個(gè)是識(shí)別,另一個(gè)是三維重建。

它們的英文單詞都以“re”做前綴,說明這是一個(gè)反向的問題。

計(jì)算機(jī)視覺不是一個(gè)很好定義(ill-posed)的問題,沒有一個(gè)完美的答案或方法。

這一輪的卷積神經(jīng)網(wǎng)絡(luò)(CNN)最本質(zhì)的一件事是重新定義了計(jì)算機(jī)視覺的特征。在此之前,所有的特征都是人工設(shè)計(jì)的。今天CNN學(xué)來的東西,它學(xué)到特征的維度動(dòng)輒幾百萬,在以前沒有這類網(wǎng)絡(luò)的情況下是根本做不到的。

縱使CNN的特征提取能力極其強(qiáng),但是我們不要忘記建立在CNN基礎(chǔ)上的計(jì)算機(jī)視覺是單目識(shí)別,而人類是雙目。我們的現(xiàn)實(shí)世界是在一個(gè)三維空間,我們要和三維打交道。拿著二維圖像去做識(shí)別,這遠(yuǎn)遠(yuǎn)不夠。

在雙目視覺下,要包含深度、視差和重建三個(gè)概念,它們基本等價(jià),使用哪個(gè)詞匯取決你處在哪個(gè)群體。

傳統(tǒng)意義上,三維重建是在識(shí)別之前,它是一個(gè)最本質(zhì)的問題,三維視覺里面也要用到識(shí)別,但是它的識(shí)別是對(duì)同樣物體在不同視角下的識(shí)別,所以說它的識(shí)別是更好定義(well-posed) 的一個(gè)識(shí)別,也叫匹配。

雙目視覺對(duì)整個(gè)生物世界的等級(jí)劃分是非常嚴(yán)格的。大家知道馬的眼睛往外看,對(duì)角的部分才有可能得到一部分三維信息,但它的三維視角非常小,不像人類。魚的眼睛也是往兩邊看的,它的主要視線范圍是單目的,它能看到的雙目視區(qū)也是非常狹窄的一部分。

人類有兩只眼睛,通過兩只眼睛才能得到有深度的三維信息。當(dāng)然,通過一只移動(dòng)的眼睛,也可以獲得有深度的信息。

獲取深度信息的挑戰(zhàn)很大,它本質(zhì)上是一個(gè)三角測(cè)量問題。第一步需要將兩幅圖像或兩只眼睛感知到的東西進(jìn)行匹配,也就是識(shí)別。這里的“識(shí)別”和前面有所不同,前面提到的是有標(biāo)注情況下的識(shí)別,這里的“識(shí)別”是兩幅圖像之間的識(shí)別,沒有數(shù)據(jù)庫。它不僅要識(shí)別物體,還要識(shí)別每一個(gè)像素,所以對(duì)計(jì)算量要求非常高。

在生物世界里,雙目視覺非常重要,哺乳動(dòng)物都有雙目視覺,而且越兇猛的食肉的動(dòng)物雙目重疊的區(qū)域越大,用雙目獲得的深度信息去主動(dòng)捕捉獵物。吃草的或被吃的動(dòng)物視覺單目視覺,視野很寬,只有識(shí)別而無深度,目的是被進(jìn)攻時(shí)跑得快!

在這一輪的CNN之前,計(jì)算機(jī)視覺里面研究最多的是三維重建這樣的問題,在CNN之前有非常好的人工設(shè)計(jì)的視覺特征,這些東西本質(zhì)上最早都是為三維重建而設(shè)計(jì),例如SIFT特征。而在這之后的“識(shí)別”,只是把它放在一個(gè)沒有結(jié)構(gòu)的圖像數(shù)據(jù)庫里去搜索而已。 由此可見,現(xiàn)代三維視覺是由三維重建所定義。CNN誕生之前,它曾是視覺發(fā)展的主要?jiǎng)恿υ从趲缀危驗(yàn)樗亩x相對(duì)清晰。

我們?cè)賮砜匆幌庐?dāng)今的三維重建技術(shù)的現(xiàn)狀和挑戰(zhàn)。

三維視覺既有理論又有算法,一部分是統(tǒng)計(jì),另外一部分則是確定性的,非統(tǒng)計(jì),也就是傳統(tǒng)的應(yīng)用數(shù)學(xué)。

計(jì)算機(jī)視覺中的三維重建包含三大問題:一、定位置。假如我給出一張照片,計(jì)算機(jī)視覺要知道這張照片是在什么位置拍的。二、多目。通過多目的視差獲取三維信息,識(shí)別每一個(gè)像素并進(jìn)行匹配,進(jìn)行三維重建。三、語義識(shí)別。完成幾何三維重建后,要對(duì)這個(gè)三維信息進(jìn)行語義識(shí)別,這是重建的最終目的。

這里我再強(qiáng)調(diào)下,我們要把三維場(chǎng)景重新捕捉,但三維重建不是最終的目的,你要把識(shí)別加進(jìn)去,所以說最終的應(yīng)用肯定要把三維重建和識(shí)別融為一體。

現(xiàn)在三維重建的主要挑戰(zhàn)是,算力不夠,而且采集也比較困難。我舉個(gè)例子,我們安防場(chǎng)景識(shí)別一個(gè)攝像頭比較容易,但如果實(shí)時(shí)重建N個(gè)攝像頭的實(shí)景,這對(duì)算力要求非常高。這些限制也使得當(dāng)前的單目應(yīng)用比較多,但我認(rèn)為,未來雙目一定會(huì)成趨勢(shì)。

在深度學(xué)習(xí)的影響下,三維重建已經(jīng)取得了比較大的成就。CNN在2012年之后的幾年內(nèi),對(duì)三維重建的影響不是很大。但是從2017年開始,CNN就對(duì)三維重建產(chǎn)生了重要的影響。在三維重建領(lǐng)域有一個(gè)數(shù)據(jù)集叫KITTI,從2017年,我們開始用三維卷積神經(jīng)網(wǎng)絡(luò)。

以前是把它作為一個(gè)跟識(shí)別有關(guān)系的二維CNN,更現(xiàn)代的雙目算法都是基于完整的三維卷積神經(jīng)網(wǎng)絡(luò)?,F(xiàn)階段三維卷積神經(jīng)網(wǎng)絡(luò)的表現(xiàn)也非常強(qiáng),給任何兩幅圖像,錯(cuò)誤率只有百分之2到3。

現(xiàn)在計(jì)算機(jī)視覺覆蓋的應(yīng)用場(chǎng)景,被計(jì)算機(jī)視覺重新定義,但這些應(yīng)用也受制于計(jì)算機(jī)視覺的技術(shù)瓶頸。

雖然計(jì)算機(jī)視覺對(duì)安防行業(yè)的推動(dòng)作用很大,但基本也不外乎識(shí)別人臉、車、物體等應(yīng)用,如果計(jì)算機(jī)視覺得到進(jìn)一步發(fā)展,安防行業(yè)也將再度被重新定義。

而我認(rèn)為,三維視覺將對(duì)安防產(chǎn)生非常深遠(yuǎn)的影響。

三維重建在安防領(lǐng)域的應(yīng)用,第一個(gè)是大規(guī)模城市級(jí)別的三維重建。

港科大教授權(quán)龍:三維視覺重新定義人工智能安防

每個(gè)大型城市動(dòng)輒都百萬級(jí)的攝像頭,把攝像頭融合在這樣的一個(gè)實(shí)景三維場(chǎng)景里,才可達(dá)到城市級(jí)管控的效果,這是AI安防最理想化的形態(tài)。

現(xiàn)在政府都在通過一張實(shí)景圖對(duì)城市進(jìn)行治理,這張圖以前是二維的,但今后一定是實(shí)景的,是三維的。

我們港科大的三維視覺初創(chuàng)公司Altizure就是一家做城市級(jí)別的實(shí)景三維重建和平臺(tái)企業(yè),大規(guī)模重建有兩方面非常有挑戰(zhàn)性:

第一是因?yàn)樗臄?shù)據(jù)量非常大,我們現(xiàn)在建模動(dòng)輒百萬級(jí)的高清圖像,要有強(qiáng)大的分布式以及并行算法,幾個(gè)星期才能做完。

第二就是可視化,一張實(shí)景圖的展示也特別有挑戰(zhàn)性,因?yàn)橐粡垖?shí)景圖數(shù)據(jù)量非常大,即便是在任何一個(gè)端口的瀏覽實(shí)景三維都是非常有挑戰(zhàn)性的。

現(xiàn)時(shí)只有Altizure可以應(yīng)對(duì)這個(gè)挑戰(zhàn)。

我們做的一個(gè)典型案例就是為深圳坪山區(qū)布局了時(shí)空信息云平臺(tái),我們對(duì)坪山的大片住宅區(qū)域進(jìn)行了三維重建,后臺(tái)用戶可在三維實(shí)景圖像上進(jìn)行“上、下放大“以及”前、后、左、右”拖拽移動(dòng),來查看區(qū)域?qū)嵕啊?/p>

后臺(tái)用戶也可用鼠標(biāo)在三維實(shí)景圖像中選取部分區(qū)域,然后這一區(qū)域的各個(gè)重點(diǎn)視頻監(jiān)控畫面便在大屏幕中一一實(shí)時(shí)展示。坪山第一期項(xiàng)目的實(shí)時(shí)監(jiān)控視頻顯示,與常規(guī)的視頻監(jiān)控后臺(tái)呈現(xiàn)效果相似,總體更為傳統(tǒng)一些。

而在二期和三期,我們開始可以把所有的視頻在三維平臺(tái)上進(jìn)行展示。

現(xiàn)在深圳已經(jīng)有很多區(qū)在布局這類實(shí)景三維立體時(shí)空信息平臺(tái)。

有了這樣的平臺(tái),不僅是視頻,其實(shí)還有一些別的數(shù)據(jù)也是可以加進(jìn)去應(yīng)用。

這個(gè)總控系統(tǒng),集成了景區(qū)的監(jiān)控?cái)z像,閘機(jī),商店,wifi等公共設(shè)施,實(shí)時(shí)可視化人流、電瓶車位置。三維實(shí)景給景區(qū)總控和下一步游客的導(dǎo)覽帶來了便利。

下圖是我們?cè)趶V州做第一個(gè)案例,對(duì)歷史建筑進(jìn)行保護(hù)以及城市規(guī)劃。

港科大教授權(quán)龍:三維視覺重新定義人工智能安防

Altizure實(shí)景三維視覺平臺(tái)現(xiàn)在已經(jīng)有180個(gè)國家的實(shí)景三維內(nèi)容和30萬專業(yè)用戶。

港科大教授權(quán)龍:三維視覺重新定義人工智能安防

我們的香港科技大學(xué)計(jì)算機(jī)視覺實(shí)驗(yàn)室和初創(chuàng)公司Altizure 在全球引領(lǐng)視覺三維重建的研究與應(yīng)用。我們的目的并不是為刷榜而刷榜,但在一些關(guān)鍵的三維榜單,我們從去年四月以來一直穩(wěn)居榜首!

港科大教授權(quán)龍:三維視覺重新定義人工智能安防

最后總結(jié)一下,計(jì)算機(jī)視覺中的“識(shí)別”定義了智能安防,但現(xiàn)在的“視覺”和“識(shí)別”仍局限在二維,三維重建是未來計(jì)算機(jī)視覺中最為重要的任務(wù),因此三維重建也將重新定義人工智能以及智能安防。

現(xiàn)在的視覺研究,同質(zhì)化現(xiàn)象非常明顯。

我們?cè)诎耸甏烷_始做人工智能了,今天的現(xiàn)狀,有點(diǎn)像是歷史重演,計(jì)算機(jī)視覺的本質(zhì)跟以往并沒什么差別,只是大家用的硬件工具不一樣。

計(jì)算機(jī)視覺雖然正處于黃金時(shí)期 ,但它的發(fā)展還是非常有局限性的,我認(rèn)為,所謂的通用人工智能和通用計(jì)算機(jī)視覺還遙遙無期。

謝謝大家!

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄