0
本文作者: camel | 2020-04-03 15:01 |
第二十屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議(NCIG2020)將于6月28~30日在新疆烏魯木齊市召開,大會(huì)將匯聚國(guó)內(nèi)圖像圖形及相關(guān)領(lǐng)域領(lǐng)軍人才,聚焦領(lǐng)域熱點(diǎn)問(wèn)題,多角度全方位洞見未來(lái)發(fā)展趨勢(shì)。北京大學(xué)高文院士確認(rèn)出席大會(huì)并將作題為《數(shù)字視網(wǎng)膜– 城市大腦從云計(jì)算走向端邊云混合的體系架構(gòu)》的特邀報(bào)告。
作為合作媒體,近期,AI 科技評(píng)論有幸與高文院士做了簡(jiǎn)短對(duì)話,包括三個(gè)主題,分別為:
1)對(duì)圖像圖形未來(lái)研究走向的判斷;
2)對(duì)當(dāng)下人工智能專業(yè)的看法;
3)目前在產(chǎn)學(xué)研結(jié)合的路上如何平衡基礎(chǔ)研究和應(yīng)用研究。
針對(duì)圖像圖形研究的未來(lái)走向,高文院士認(rèn)為,我們做圖像視頻研究從一開始就做錯(cuò)了一點(diǎn),即人的眼睛看世界并不是一幀一幀看,而是先對(duì)視覺(jué)信息進(jìn)行特征提取和編碼壓縮,然后送到大腦;而我們目前的相機(jī)、攝像機(jī)卻并不是,這是造成當(dāng)前視覺(jué)數(shù)據(jù)量急劇增大,而又難以檢索的主要原因。他指出,從長(zhǎng)遠(yuǎn)來(lái)看,這種形式必然會(huì)被拋棄。
其次,針對(duì)當(dāng)下廣泛開設(shè)的人工智能專業(yè),高文院士認(rèn)為,社會(huì)有強(qiáng)烈需求,開設(shè)此類專業(yè)可以補(bǔ)充人才空缺;然而人工智能本身是一個(gè)交叉學(xué)科,若想在這個(gè)領(lǐng)域取得先進(jìn)的研究成果,需要首先知道自己的“根”在哪,也即有一個(gè)作為根本的其他學(xué)科的深厚背景,否則將是無(wú)根浮萍,難以成為“大師”。
伴隨著當(dāng)下企業(yè)做人工智能研發(fā)進(jìn)入深水區(qū),高文院士指出,不能天真地認(rèn)為企業(yè)會(huì)做基礎(chǔ)研究,企業(yè)所做研究一定是應(yīng)用研究,一定是為其產(chǎn)品服務(wù)的;所不同的是,這些應(yīng)用研究面向的是未來(lái)五年、十年還是二十年的產(chǎn)品。
以下為對(duì)話內(nèi)容:
問(wèn):圖像圖形作為人工智能的一個(gè)重要的窗口,高老師也是這一領(lǐng)域的領(lǐng)軍泰斗,能否談下圖像圖形未來(lái)的研究走向?
高文:首先我要說(shuō)一下為什么我要做數(shù)字視網(wǎng)膜。現(xiàn)在城市大腦把所有的注意力都放在城市云計(jì)算系統(tǒng)上面。而攝像頭本身的功能就只是純粹做視頻壓縮?;蛘邷?zhǔn)確來(lái)說(shuō)有兩類攝像頭,一類只做壓縮;另外一類除了壓縮外,還會(huì)把人臉、車、車牌號(hào)等目標(biāo)都識(shí)別出來(lái)?;旧暇瓦@兩類攝像頭。
基于這種攝像頭所構(gòu)建的「城市大腦」其實(shí)是有問(wèn)題的,因?yàn)檫@個(gè)系統(tǒng)本身是一個(gè)頭重腳輕的系統(tǒng),它并不是一個(gè)功能搭配合理的系統(tǒng)。
我們來(lái)看看人的識(shí)別系統(tǒng)。人有眼睛,眼睛后面就是視網(wǎng)膜,然后從視網(wǎng)膜到整個(gè)視覺(jué)系統(tǒng)中間的連接,叫做視覺(jué)通路(Visual
passway)。其實(shí)視網(wǎng)膜收集完信息以后,視覺(jué)通道在向大腦傳輸信息時(shí),做了視覺(jué)編碼,這種編碼和我們通常說(shuō)的圖像編碼不一樣,它叫視覺(jué)編碼,視覺(jué)編碼做的事情是特征抽取和特征壓縮。
現(xiàn)在一般的圖像視頻分析里面只做特征抽取,所以和人的系統(tǒng)是不一樣。
為什么我要做數(shù)字視網(wǎng)膜?實(shí)際上是自然界給我們提供了一個(gè)非常好的參照,就是人的視覺(jué)系統(tǒng)。我們就要做一個(gè)類似人的視覺(jué)系統(tǒng),把它數(shù)字化,所以就叫數(shù)字化視網(wǎng)膜。
這個(gè)系統(tǒng)搭配好了以后,首先云端計(jì)算資源不需要消耗那么多,而且整個(gè)系統(tǒng)不管是響應(yīng)速度、識(shí)別率,還是識(shí)別精度,都會(huì)比現(xiàn)在的系統(tǒng)提高很多。所以從系統(tǒng)優(yōu)化的角度,數(shù)字視網(wǎng)膜模型是城市大腦進(jìn)化的一個(gè)比較好的模型。
那么說(shuō)到圖像圖形未來(lái)的研究走向,我覺(jué)得這個(gè)問(wèn)題有點(diǎn)大,我這里僅說(shuō)一點(diǎn)。
圖像和視頻本身是因?yàn)橛辛苏障鄼C(jī)、攝像機(jī)而產(chǎn)生的一個(gè)領(lǐng)域。但是對(duì)于照相機(jī)和攝像機(jī)的數(shù)據(jù),我們?nèi)绾问褂煤蛢?chǔ)存呢?
我們的思路是:攝像頭采集了很多信息,而這些信息的量又太大,所以要壓縮一下;另外傳輸、存儲(chǔ)時(shí)應(yīng)該組織一下,然后在分析的時(shí)候去抽取這些信息。
但實(shí)際上我們一開始就有一件事做錯(cuò)了,被照相機(jī)數(shù)字化圖像的結(jié)果印到了歧路上,當(dāng)然這是沒(méi)有辦法的,存在即合理。因?yàn)槿丝词澜绲臅r(shí)候,不是一幀一幀看的,但現(xiàn)在攝像機(jī)、照相機(jī)是按幀去采樣,最后結(jié)果就產(chǎn)生了超大量的數(shù)據(jù),從而給后續(xù)的數(shù)據(jù)存儲(chǔ)、處理帶來(lái)了很多問(wèn)題。但如果把前面攝像機(jī)和照相機(jī)的機(jī)制給變掉,可能就會(huì)不一樣了,當(dāng)然這個(gè)是開腦洞的一種說(shuō)法了。
但對(duì)于這個(gè)領(lǐng)域的研究者而言,現(xiàn)在還不能把前提推翻。
那么我們?cè)诂F(xiàn)有的前提下,在有了一幀一幀的圖像和視頻的前提下,怎么來(lái)處理這些數(shù)據(jù)呢?現(xiàn)在基本上就是按數(shù)字視網(wǎng)膜這種思路在處理了。
目前這樣的系統(tǒng)還會(huì)繼續(xù)研究,還會(huì)變得越來(lái)越復(fù)雜,還會(huì)花很多投資在這里面。但是從長(zhǎng)遠(yuǎn)來(lái)說(shuō),此前的那種思路可能慢慢地就會(huì)被拋棄掉。當(dāng)然至于多長(zhǎng)時(shí)間就不知道了,這可能十幾年、幾十年,乃至幾百年后才會(huì)從根本解決。
問(wèn):在圖像和視頻領(lǐng)域,與其他學(xué)科存在很多的交叉,包括跟腦、心理學(xué)、數(shù)學(xué)等各個(gè)方面的交叉?,F(xiàn)在人工智能在視覺(jué)領(lǐng)域的發(fā)展雖然看起來(lái)很蓬勃,但是未來(lái)10年后會(huì)走到什么方向上去呢?現(xiàn)在很多的前沿科學(xué)家們也都給出了各種各樣的預(yù)期,但是對(duì)于我們學(xué)者來(lái)說(shuō),我們希望能夠腳踏實(shí)地的去把這些交叉的領(lǐng)域給做起來(lái),那么從您的角度上面來(lái)看,包括您提出來(lái)數(shù)字視網(wǎng)膜,包括現(xiàn)在我們?cè)趫D像圖形跟腦科學(xué)、心理科學(xué)的交叉,基礎(chǔ)研究科學(xué)上可能會(huì)在哪些方面更值得我們?nèi)リP(guān)注或者說(shuō)去突破?
高文:目前為止,人工智能本身并不是一個(gè)完整的學(xué)科?!溉斯ぶ悄軐W(xué)科」本身這個(gè)說(shuō)法是容易誤導(dǎo)人的,因?yàn)槿斯ぶ悄苁且粋€(gè)交叉學(xué)科,涉及到很多基礎(chǔ),包括計(jì)算機(jī)科學(xué)、數(shù)學(xué),另外比如像腦科學(xué)、神經(jīng)科學(xué),電子學(xué)等等,它實(shí)際上是一個(gè)多學(xué)科交叉的領(lǐng)域。
任何一個(gè)經(jīng)過(guò)這些分支領(lǐng)域培訓(xùn)的人,如果他愿意再多一點(diǎn)精力來(lái)學(xué)習(xí)人工智能,他就能夠?qū)W會(huì),并且能夠進(jìn)入人工智能領(lǐng)域去從事研究。
現(xiàn)在教育部批準(zhǔn)成立人工智能專業(yè),是因?yàn)槿斯ぶ悄苓@個(gè)方向比較熱,很多地方、企業(yè)、國(guó)家機(jī)關(guān)需要,所以設(shè)出一個(gè)專業(yè),專門有意識(shí)地培養(yǎng)這方面的人,我認(rèn)為這更多的可能是從滿足社會(huì)需求的角度來(lái)這樣做,我認(rèn)為這是無(wú)可厚非的。
但是如果你要想成為一個(gè)頂級(jí)的人工智能研究學(xué)者,直接學(xué)人工智能是成不了大家的。你要想成大家,還要從剛才說(shuō)的那些具體的學(xué)科學(xué)起。比如說(shuō)你如果想要基于哪個(gè)領(lǐng)域往別的領(lǐng)域去交叉,首先要把自己這個(gè)領(lǐng)域搞深搞透,然后再去做一些交叉的事,這就有可能成為大家。作為一個(gè)“大家”,首先要知道“根”是什么。
所以我認(rèn)為直接進(jìn)到人工智能學(xué)科的學(xué)生,將來(lái)很有可能像前些年的管理學(xué)本科專業(yè)出來(lái)的人一樣,這些人真正去做管理學(xué)的研究往往做不好,因?yàn)楣芾淼幕A(chǔ)不是管理,而是各個(gè)不同的細(xì)分領(lǐng)域。所以從這個(gè)意義上說(shuō),做交叉研究首先要把自己最“根本”的基礎(chǔ)打牢,然后再往其他的領(lǐng)域去交叉,這樣才能把人工智能的研究做好。
所以教育部怎么做我都認(rèn)為是可以的,有社會(huì)需求,教育機(jī)構(gòu)就應(yīng)該做培養(yǎng)人才的這種投入或引導(dǎo),我覺(jué)得都是可以的,沒(méi)什么問(wèn)題,但是做研究就要頭腦清醒一點(diǎn)。
問(wèn):人工智能在理論上還有很多待探索的問(wèn)題,應(yīng)用上也有很多需求,可以說(shuō)是一個(gè)機(jī)遇和危機(jī)并存的研究領(lǐng)域。而現(xiàn)在也有很多產(chǎn)業(yè)介入到人工智能的科學(xué)研究上,可能會(huì)有一定的迷失,到底如何平衡好基礎(chǔ)理論和具體應(yīng)用這兩個(gè)方向的研究?既能夠落地,又能夠在理論上取得突破,其實(shí)現(xiàn)在還有很長(zhǎng)的一段路,具體要怎么走?
高文:企業(yè)一定做的是應(yīng)用研究。有一些企業(yè)做純粹自由探索的基礎(chǔ)研究,可能是那個(gè)企業(yè)資金比較充裕比較靈活,老板愿意投資去做,這是有可能的,但是大多數(shù)企業(yè)其實(shí)還是有他自己的追求目標(biāo)。
這種應(yīng)用研究是分階段,可能是5年以后要變成產(chǎn)品,也可能是10年或者15年、20年要出成果,這就叫應(yīng)用研究。
而真正的基礎(chǔ)研究,到底什么時(shí)候變成產(chǎn)品或者最后到底能不能用上,都不確定。基礎(chǔ)研究就是要探索一些未知,回答的是“為什么”,回答完了,任務(wù)也就完成了,而不需要告訴我們說(shuō)這件事有什么用,或者這件事什么時(shí)候能用。
基礎(chǔ)研究,企業(yè)是不會(huì)真的投入去做;盡管有,那也是極少數(shù)、極個(gè)別的,那么基礎(chǔ)研究應(yīng)該是誰(shuí)做?一定是大學(xué)、國(guó)家研究所去做。因?yàn)樗麄兪怯烧Y助。當(dāng)然以前也有很多私人基金會(huì)做基礎(chǔ)研究,或者是有錢人的孩子自己做點(diǎn)探索。
所有企業(yè)做的研究都不是基礎(chǔ)研究,而就算做應(yīng)用研究,也要看他準(zhǔn)備的是前瞻多少年的應(yīng)用研究,比如像無(wú)人駕駛,就是前瞻了大概10年左右的應(yīng)用研究。我覺(jué)得無(wú)人駕駛在有約束條件下,10年之內(nèi)是有可能在很多地方出現(xiàn)的,都用起來(lái),這是完全可能的。所謂有約束條件,就是說(shuō),不是在任何情況下都會(huì)出現(xiàn),而是在某些條件下它才會(huì)出現(xiàn),才可能被大量用起來(lái)。
很多企業(yè)看到10年之內(nèi)可能會(huì)有市場(chǎng)機(jī)會(huì),就把錢砸進(jìn)去,然后投入一些人去做研究,做開發(fā),這是可以的。但可能他們一開始把話說(shuō)過(guò)頭了,把這個(gè)約束條件全都給忽略了,那做著做著就完全不對(duì)了,可能根本做不出來(lái)。所以現(xiàn)在很多企業(yè)開始往后退,這都是很正常。
所以人工智能的基礎(chǔ)研究應(yīng)該由大學(xué)、研究機(jī)構(gòu)去做。而企業(yè)做的應(yīng)用研究基本上也是設(shè)定了一個(gè)定期的目標(biāo)。
由中國(guó)圖象圖形學(xué)學(xué)會(huì)主辦,新疆大學(xué)承辦的第二十屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議(NCIG 2020)將于2020年6月28-20日在新疆烏魯木齊舉辦。高文院士將作為特邀講者[16],再次為我們帶來(lái)數(shù)字視網(wǎng)膜的最新研究報(bào)告,該會(huì)議將匯聚國(guó)內(nèi)圖像圖形及相關(guān)領(lǐng)域領(lǐng)軍人才,聚焦領(lǐng)域熱點(diǎn)問(wèn)題,多角度全方位洞見未來(lái)發(fā)展趨勢(shì),包含3個(gè)特邀報(bào)告,2個(gè)講習(xí)班,4個(gè)論壇,5個(gè)競(jìng)賽,1個(gè)優(yōu)秀博士論壇,多個(gè)展覽,是國(guó)內(nèi)圖像圖形領(lǐng)域?qū)<覍W(xué)者合作交流的平臺(tái),值得期待!
NCIG 2020 官方網(wǎng)站:http://ncig2020.csig.org.cn
高文院士簡(jiǎn)介
高文,北京大學(xué)博雅講席教授。1982年于哈科大獲得學(xué)士學(xué)位,1985年于哈工大獲得碩士學(xué)位,1988年和1991分別獲得哈工大計(jì)算機(jī)應(yīng)用博士學(xué)位和東京大學(xué)電子工程博士學(xué)位。1991至1996年就職于哈爾濱工業(yè)大學(xué),1996至2006就職于中國(guó)科學(xué)院計(jì)算技術(shù)研究所,2006年2月至今就職于北京大學(xué)。IEEE Fellow、ACM Fellow、中國(guó)工程院院士。他的研究領(lǐng)域?yàn)槎嗝襟w和計(jì)算機(jī)視覺(jué),包括視頻編碼、視頻分析、多媒體檢索、人臉識(shí)別、多模態(tài)接口和虛擬現(xiàn)實(shí)。他最常被引用的工作是基于模型的視頻編碼與基于特征的對(duì)象表達(dá)。他先后出版著作七本,合作發(fā)表300余篇期刊論文、700余篇國(guó)際會(huì)議論文。先后多次獲得國(guó)家科技進(jìn)步獎(jiǎng)、國(guó)家技術(shù)發(fā)明獎(jiǎng)、國(guó)家自然科學(xué)獎(jiǎng)等學(xué)術(shù)獎(jiǎng)勵(lì)。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。