0
本文作者: 劉偉 | 2018-07-02 14:33 | 專題:2018 CCF-GAIR 全球人工智能與機(jī)器人峰會 |
雷鋒網(wǎng)按:2018 全球人工智能與機(jī)器人峰會(CCF-GAIR)在深圳召開,峰會由中國計(jì)算機(jī)學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了寶安區(qū)政府的大力指導(dǎo),是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會,旨在打造國內(nèi)人工智能領(lǐng)域最具實(shí)力的跨界交流合作平臺。
CCF-GAIR 2018 延續(xù)前兩屆的“頂尖”陣容,提供1個主會場和11個專場(仿生機(jī)器人,機(jī)器人行業(yè)應(yīng)用,計(jì)算機(jī)視覺,智能安全,金融科技,智能駕駛,NLP,AI+,AI芯片,IoT,投資人)的豐富平臺,意欲給三界參會者從產(chǎn)學(xué)研多個維度,呈現(xiàn)出更富前瞻性與落地性相結(jié)合的會議內(nèi)容與現(xiàn)場體驗(yàn)。
大會第二天的計(jì)算機(jī)視覺專場,香港科技大學(xué)教授,ICCV 2011主席,IEEE Fellow權(quán)龍教授作為開場嘉賓,發(fā)表題為“計(jì)算機(jī)視覺, 識別與三維重建”的精彩演講,點(diǎn)燃了現(xiàn)場氣氛。
權(quán)龍教授主要從三個方面進(jìn)行闡述,分別是計(jì)算機(jī)視覺的基礎(chǔ)、計(jì)算機(jī)視覺的變遷與發(fā)展,以及計(jì)算機(jī)視覺最新的進(jìn)展。
他談到,當(dāng)下因?yàn)樯疃葘W(xué)習(xí)技術(shù)的發(fā)展,人工智能變得非常火熱,計(jì)算機(jī)視覺作為人工智能的一個領(lǐng)域,也變得異?;馃?。
不過目前計(jì)算機(jī)視覺的研究和應(yīng)用主要集中在“識別”,“識別”只是計(jì)算機(jī)視覺的一部分。如果要去做一些交互和感知,必須先恢復(fù)三維,所以在識別的基礎(chǔ)上,下一個層次必須走向“三維重建”。
針對這個領(lǐng)域,權(quán)龍教授和他的研究團(tuán)隊(duì)已經(jīng)做了諸多的工作并取得了一定的成績,在 4 月份,他們拿下了兩個計(jì)算機(jī)視覺榜單的全球第一。
當(dāng)然,目前在深度學(xué)習(xí)推動下的計(jì)算機(jī)視覺技術(shù)還有很多不足和挑戰(zhàn),需要更多業(yè)內(nèi)研究者不斷去探索,特別是在卷積神經(jīng)網(wǎng)絡(luò)在高維度空間的理論理解與解釋。
以下是權(quán)龍教授的演講全文,雷鋒網(wǎng)做了不改變原意的整理與編輯:
感謝大會主辦方的邀請,今天我想跟大家分享計(jì)算機(jī)視覺中的識別和三維重建問題。
我今天的演講分為三部分:首先講一下計(jì)算機(jī)視覺的基礎(chǔ),然后介紹它的變遷與發(fā)展,最后再談?wù)勊淖钚逻M(jìn)展。
什么是人工智能和計(jì)算機(jī)視覺?人工智能的目的是讓計(jì)算機(jī)去看、去聽和去讀。圖像、語音和文字的理解,這三大部分基本構(gòu)成了我們現(xiàn)在的人工智能。而在人工智能的這些領(lǐng)域中,視覺又是核心。大家知道,視覺占人類所有感官輸入的80%,也是最困難的一部分感知。如果說人工智能是一場革命,那么它將發(fā)軔于計(jì)算機(jī)視覺,而非別的領(lǐng)域。
2012年是非常重要的一年,我在標(biāo)題中稱之為“a year of no significance”。這一年看似平凡,卻發(fā)生了很多事情。2012年,在一個叫CVPR的計(jì)算機(jī)視覺頂級會議上發(fā)生了一件看似重要,但也不那么重要的事情。那就是一個叫ImageNet的比賽,它把圖像識別準(zhǔn)確率從75%提高到了85%,引發(fā)了一系列(人工智能)熱浪。
再把時(shí)間回溯到1998年,當(dāng)年有了卷積神經(jīng)網(wǎng)絡(luò),它是今天所有卷積神經(jīng)網(wǎng)絡(luò)的鼻祖模型。它有幾個特點(diǎn),首先它輸入的圖像比較小,只有32*32pixel;其次它沒有GPU,這正是它計(jì)算力比較弱的原因。
2012年,卷積神經(jīng)網(wǎng)絡(luò)復(fù)活,我們稱之為AlexNet。和上一階段相比,它的內(nèi)部結(jié)構(gòu)基本一模一樣,變化非常小,但輸入的尺寸不一樣。1998年的模型,輸入尺寸為32*32pixel,且只有一個通道。新的模型輸入尺寸已經(jīng)擴(kuò)大到了224*224pixel,而且有三個通道。最關(guān)鍵的是里面有了GPU,它當(dāng)時(shí)訓(xùn)練時(shí)用了兩塊GPU。
從1998年到2012年,中間經(jīng)歷了10多年,卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)還是一樣的,那么它內(nèi)部發(fā)生了哪些變化?有兩點(diǎn)非常重要:一、英偉達(dá)研發(fā)了GPU,GPU最早是為游戲而不是人工智能誕生的;二、華人學(xué)者、斯坦福大學(xué)教授李飛飛創(chuàng)建了ImageNet,她把幾百萬張照片發(fā)到網(wǎng)絡(luò)上并發(fā)動群眾做了標(biāo)注。
6年后的今天又發(fā)生了哪些變化呢?2012年訓(xùn)練AlexNet模型需要使用兩塊GPU,花費(fèi)6天時(shí)間;今天做同樣的事情只需要一塊DGX-2,十幾分鐘就能搞定。
再看看學(xué)術(shù)會議。CVPR以前是一個一般的學(xué)術(shù)會議,只有幾百人參與。今年,我們剛從鹽城湖回來,參會群眾規(guī)模已經(jīng)達(dá)到了6500人,基本實(shí)現(xiàn)了10倍增長。我們有幸將于2022年在新奧爾良組織這個會議。相信到時(shí)候?qū)⒂猩先f人參加,我們需要擔(dān)憂的是哪里能找到可容納這么多人的場地。
什么是計(jì)算機(jī)視覺?計(jì)算機(jī)視覺的本質(zhì)是對圖像進(jìn)行理解?!袄斫狻边@個詞沒有準(zhǔn)確的定義,事實(shí)上計(jì)算機(jī)無法做到“理解”,只能做到認(rèn)知。計(jì)算機(jī)視覺的終極目的就是達(dá)到認(rèn)知。我們研究計(jì)算機(jī)視覺的目的是得到視覺特征,有了視覺特征才能開展一系列的工作。
為什么視覺特征如此重要?在語音識別領(lǐng)域,語音的特征已經(jīng)定義得非常清晰——音素。但如果我們拿來一個圖像,問它最重要的視覺特征是什么,答案并不明確。大家知道圖像包含像素,但像素并不是真正的特征。像素只是一個數(shù)字化的載體,將圖像進(jìn)行了數(shù)字化的表述。計(jì)算機(jī)視覺的終極目標(biāo)就是尋找行之有效的視覺特征。
計(jì)算機(jī)視覺包含兩個基本應(yīng)用——識別和重建。它們的英文單詞都以“re”做前綴,說明這是一個反向的問題。
我們簡單回顧一下計(jì)算機(jī)視覺的發(fā)展歷史。上世紀(jì)70/80年代,計(jì)算機(jī)視覺有了最初的發(fā)展。那個年代,基本所有的計(jì)算機(jī)視覺研究都以Marr的primal sketches為理論依據(jù)。它的可計(jì)算數(shù)學(xué)模型都是以edges為主的邊緣提取。有了edge之后,再把它高層化后的線段元做簡單的統(tǒng)計(jì)分類或者三維重建。Edge在數(shù)學(xué)上是很好定義的,我們定義了很多優(yōu)化準(zhǔn)則后,這個研究方向就到頭了。
90年代到2000年,行業(yè)內(nèi)有一些變化,大家從edge回過頭來研究幾何問題。幾何就是三維重建,一維的edges不適合做計(jì)算。幾何最本質(zhì)的元素是點(diǎn),它是二維的,更內(nèi)在。這推動了很多研究工作以點(diǎn)為基礎(chǔ)展開,對點(diǎn)做描述,也就是feature descriptors。這對推動計(jì)算機(jī)視覺發(fā)展產(chǎn)生了重要作用。
從識別方面來看,有了feature descriptors就可以把很多東西變成矢量的無序集合,然后再去做統(tǒng)計(jì)。當(dāng)時(shí)最成功的是三維重建,所謂成功也只是把一些點(diǎn)從二維變成三維,沒有真正語義上的描述。這是1990-2000年間的發(fā)展。
2012年開始,我稱之為CNN時(shí)代。這時(shí)候視覺領(lǐng)域開始發(fā)生變化,從特征到識別算法基本都被CNN一統(tǒng)。CNN現(xiàn)在已經(jīng)很強(qiáng)大了,基本所有計(jì)算機(jī)視覺論文都會提到它。CNN的好處在于,它是端到端的,比較容易實(shí)現(xiàn)。
給大家講一個趣聞,90年代計(jì)算機(jī)視覺如日中天的時(shí)候,卷積神經(jīng)網(wǎng)絡(luò)還沉浸在痛苦中無人理睬。機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和語音識別領(lǐng)域的人都忽視它。
2012年,AlexNet在重要會議上只能參加一些邊緣比賽,不能進(jìn)入主會場。那個年代,如果你的論文中提到CNN,估計(jì)會直接被拒;但今天你的論文如果不提CNN,就非常難入圍。
今天計(jì)算機(jī)視覺中的識別技術(shù)基本是端到端的,從1998年的LeNet到2012年的AlexNet,再到2016年ResNet。目前ResNet已經(jīng)非常成熟,谷歌給出了開源標(biāo)準(zhǔn)ResNet50,只需要把數(shù)據(jù)丟進(jìn)去訓(xùn)練即可。
今天,如果你能清晰地定義問題,做好數(shù)據(jù)標(biāo)定,這個問題基本就解決了。哪怕找一個高中生把它輸入Net也能得到非常好的結(jié)果。讓計(jì)算機(jī)學(xué)習(xí)圖片之后,再給它展示一張它之前沒見過的圖片,一般它也能識別出來,水平基本與人類一致,甚至高于人類。因?yàn)槿祟愑袝r(shí)會不小心犯錯,但機(jī)器記憶或?qū)W會了之后便不會犯錯。這些成果都是基于深度神經(jīng)網(wǎng)絡(luò)取得的。
但也不能忘記,這種東西有很大的局限,它并不是真的很聰明,只是記住了很多樣本。你也可以說它很蠢,因?yàn)樗静恢雷约涸谧鍪裁?。一切取決于你的標(biāo)準(zhǔn),如果你把一個東西標(biāo)注成cat,它就認(rèn)為這是一只貓,明天你再把它標(biāo)注成dog,它就認(rèn)為這是一條狗。所以它并沒有真正理解,只是在做簡單的統(tǒng)計(jì)分類。人類可以把狼和狗歸為同類,也可以把薩摩耶和白狼區(qū)分,這些都是主觀的,取決于我們?nèi)绾味x問題。我們?nèi)绾味x,機(jī)器就給出什么樣的答案,它本質(zhì)上沒有自己的認(rèn)知。
卷積神經(jīng)網(wǎng)絡(luò)能夠識別圖像只是表象,我們應(yīng)該回歸本質(zhì)——計(jì)算機(jī)視覺。計(jì)算機(jī)視覺是對視覺特征的尋求和探索。CNN本質(zhì)上是重新學(xué)習(xí)和定義了我們以前尋找的視覺特征。以前的視覺特征是手工定義的,維數(shù)不會太高,有幾十、幾百就已經(jīng)比較高了,畢竟人類能力有限。卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的視覺特征維數(shù)更多,動輒上百萬,而且是有結(jié)構(gòu)的。
現(xiàn)在每個人都在研究識別,但識別只是計(jì)算機(jī)視覺的一部分。真正意義上的計(jì)算機(jī)視覺要超越識別,感知三維環(huán)境。我們活在三維空間里,要做到交互和感知,就必須將世界恢復(fù)到三維。所以,在識別的基礎(chǔ)上,計(jì)算機(jī)視覺下一步必須走向三維重建。
三維重建中包含深度、視差和重建三個概念,它們基本等價(jià)。使用哪個詞匯取決你處在哪個群體。
人類有兩只眼睛,通過兩只眼睛才能得到有深度的三維信息。當(dāng)然,通過一只移動的眼睛,也可以獲得有深度的信息。
獲取深度信息的挑戰(zhàn)很大,它本質(zhì)上是一個三角測量問題。第一步需要將兩幅圖像或兩只眼睛感知到的東西進(jìn)行匹配,也就是識別。這里的“識別”和前面有所不同,前面提到的是有標(biāo)注情況下的識別,這里的“識別”是兩幅圖像之間的識別,沒有數(shù)據(jù)庫。它不僅要識別物體,還要識別每一個像素,所以對計(jì)算量要求非常高。
雙目視覺非常重要,哺乳動物都有雙目視覺,而且智商越高,雙目視線重疊的區(qū)域越大。馬的眼睛是往兩邊看的,這并不代表它沒有雙目視覺,只是雙目視線重疊的范圍比較小。魚也是如此。
由此可見,現(xiàn)代三維視覺是由三維重建所定義的。CNN誕生之前,它的主要動力源于幾何,因?yàn)樗亩x相對清晰。
計(jì)算機(jī)視覺中的三維重建包含三大問題:一、位置。假如我給出一張照片,計(jì)算機(jī)視覺要知道這張照片是在什么位置拍的。二、多目。通過多目的視差獲取三維信息,識別每一個像素并進(jìn)行匹配,進(jìn)行三維重建。三、語義識別。完成幾何三維重建后,要對這個三維信息進(jìn)行語義識別,這是重建的最終目的。
2012年之前,計(jì)算機(jī)視覺中的三維視覺已經(jīng)得到了顯著發(fā)展,那么新的深度學(xué)習(xí)對它有哪些啟發(fā)呢?三維視覺本質(zhì)上也是一個“識別”的問題,深度學(xué)習(xí)讓它在識別方面得到了強(qiáng)化。視覺中的特征非常重要,以前的幾何做法一般是用手工特征。CNN的重要之處不在于它能識別一只貓或一條狗,而在于它學(xué)會了很多視覺特征,我們可以拿這些特征做圖像之間的識別和匹配。
識別方面,現(xiàn)在我們面臨比過去更大的挑戰(zhàn),因?yàn)楝F(xiàn)在的數(shù)據(jù)量比以前更多。以前是幾十幅、上百幅,現(xiàn)在動輒幾十萬、上百萬幅。這就涉及到計(jì)算機(jī)規(guī)?;膯栴},規(guī)?;馕吨植际?,這也是一個重要課題。
前面提到雙目和多目視覺,這個領(lǐng)域也有很多發(fā)展。以前是傳統(tǒng)的方法,現(xiàn)在所有stereo方法都可以重新回到卷積神經(jīng)網(wǎng)絡(luò)的框架下。它的卷積不是簡單的在圖像里,而是在更高維的視差空間進(jìn)行的。這個領(lǐng)域發(fā)展得非???。
下面宣傳下我們做的工作。我在科大的團(tuán)隊(duì)創(chuàng)立了一家公司altizure,我認(rèn)為我們的三維重建做的最出色。Altizure是一個公共云平臺,大家可以用手機(jī)或無人機(jī)拍照然后上傳,就可以自動得到一個三維模型。我們的終極目標(biāo)是把世界上的所有東西全部三維復(fù)現(xiàn)。我們生活在三維的環(huán)境里,所以要把所有東西全部恢復(fù)到三維。
今天的世界是數(shù)據(jù)為王,我們通過這個開放平臺收集了很多數(shù)據(jù),并進(jìn)行標(biāo)注。有了這樣一個平臺,今后的算法會越來越強(qiáng)大。
我們研究的領(lǐng)域現(xiàn)在每天都在發(fā)生變化。我們團(tuán)隊(duì)今年4月份在兩個重要榜單上名列第一,一個是三維點(diǎn)云,另一個是場景識別。
深度學(xué)習(xí)浪潮下,計(jì)算機(jī)視覺面臨哪些機(jī)遇和挑戰(zhàn)?UCLA一位做統(tǒng)計(jì)的教授認(rèn)為,現(xiàn)在的深度學(xué)習(xí)跟以前差不多,只是模擬了一個曲線或曲面,只是維度更高一些。另外一個學(xué)者Piekniewski也提出了質(zhì)疑。2012年時(shí)AlexNet有6000個參數(shù),今天我們已經(jīng)可以學(xué)習(xí)比它多1000倍的參數(shù),這是否意味著我們的能力提升了1000倍?其實(shí)不是,我們的改進(jìn)仍然是非常邊緣的。
我的觀點(diǎn)是,毫無疑問,CNN是一個非常強(qiáng)大的工具,但關(guān)于它我們還有很多不清楚的地方。CNN處理的是非常高維的數(shù)據(jù),以前幾十、幾百個維度就已經(jīng)高不可攀了,但今天是幾百萬、幾千萬個維度。高處不勝寒,即便研究數(shù)學(xué)的人也不太清楚中間發(fā)生了什么。這些還需要一段時(shí)間去理解。
再來說說“理解”這個詞,其實(shí)我們也不很清楚什么樣才叫做理解。如果要做到真正理解,就要對世界和環(huán)境進(jìn)行有結(jié)構(gòu)、有邏輯的描述,但我們現(xiàn)在沒有任何結(jié)構(gòu),完全是由數(shù)據(jù)帶動,只有輸入和輸出。
最后簡單總結(jié)一下。早在80年代人工智能就很火,我研究生第一志愿報(bào)的就是人工智能。當(dāng)時(shí)并不理解人工智能是什么,后來才慢慢明白,世上本無人工智能,只有圖像識別、計(jì)算機(jī)視覺、語音識別、自然語言理解等一個個具體的問題。
我們必須肯定這些年來取得的成績,尤其硬件領(lǐng)域的發(fā)展非??捎^。GPU已經(jīng)在手機(jī)、電腦中普及,使得我們擁有非常強(qiáng)大的計(jì)算能力。以前相機(jī)是攝影師才有的,現(xiàn)在人手一臺手機(jī),隨時(shí)隨地可以拍照。甚至還有了無人機(jī),可以從天上拍照。
我們非常榮幸能在計(jì)算機(jī)視覺領(lǐng)域工作,這個領(lǐng)域發(fā)展很快,在中國大地上也很有前景。舉兩個例子:一、曠視在人臉和物的識別方面世界領(lǐng)先,類似的公司在中國還有很多;二、Altizure三維重建視覺平臺在全世界也是獨(dú)一無二的。
從廣義的人工智能來說,我不認(rèn)為它有多大的發(fā)展,但我們也不能否認(rèn)存在真正的進(jìn)步。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章