0
本文作者: 恒亮 | 2016-08-12 15:12 | 專題:CCF-GAIR | 全球人工智能與機(jī)器人峰會 |
作為本屆GAIR大會重量級的嘉賓之一,同時也是微軟亞洲研究院常務(wù)副院長,CCF常務(wù)理事,IEEE、IAPR和SPIE等國際一流學(xué)術(shù)組織成員的芮勇博士,在今天下午進(jìn)行的“機(jī)器學(xué)習(xí)大浪下的巨頭們”這一大會議程中,為我們帶來了關(guān)于計(jì)算機(jī)視覺領(lǐng)域的一些最新觀點(diǎn)和思考。
芮勇博士的報告主要分作三個部分:第一部分闡述了計(jì)算機(jī)視覺領(lǐng)域在過去50多年的發(fā)展,并指出在當(dāng)下的2016年我們尚處在一個從感知到認(rèn)知的重要分水嶺階段,并且還沒有完全步入認(rèn)知的層面;第二部分分享了未來計(jì)算機(jī)視覺領(lǐng)域可能的發(fā)展方向;最后告訴我們計(jì)算機(jī)視覺完全從感知走向認(rèn)知的3點(diǎn)關(guān)鍵因素。
在第一部分中,芮勇博士表示,對于只認(rèn)識0和1兩種狀態(tài)的計(jì)算機(jī)而言,計(jì)算機(jī)視覺在過去50年主要經(jīng)歷了以下4個階段:特征提取、圖像標(biāo)注、圖像理解和圖像的深度理解。
1. 特種提取是指從一幅圖像中,找到主要的特征像素并提取出來。例如在一張白紙上寫了一個字,那么“文字”這個像素就是特征像素,是需要提取的。
2. 圖像標(biāo)注這一點(diǎn)也分成兩個小的部分。第一部分是圖像分類,向計(jì)算機(jī)輸入一張圖片,計(jì)算機(jī)要能夠分辨出圖中的內(nèi)容是人還是物體。第二部分是像素級別的分類,計(jì)算機(jī)能夠從一張圖片的像素級別中分辨出哪個像素屬于人,哪個像素屬于物體。
同時,芮勇博士也提到了深度學(xué)習(xí)對于圖像標(biāo)注的重大影響。在2012年引入深度學(xué)習(xí)之前,圖像標(biāo)注的錯誤率高達(dá)28.2%,而自從引入了深度學(xué)習(xí)網(wǎng)絡(luò)分析模型,機(jī)器標(biāo)注圖像的錯誤率已經(jīng)從2012年的16%(已經(jīng)低于2012年之前)降到了2015年的3.5%,而神經(jīng)網(wǎng)絡(luò)分析模型的規(guī)模也增加到152層,這在全世界范圍內(nèi)都是領(lǐng)先的。
3. 圖像理解是指,輸入計(jì)算機(jī)一張圖片,計(jì)算機(jī)要能自動生成一句話的自然語言描述。例如一張合影,計(jì)算機(jī)或許會輸出:這是一張兩個人的合影照片。
4. 圖像的深度理解是指,計(jì)算機(jī)不但能識別出圖中的內(nèi)容,還能知道圖中內(nèi)容的具體情況。還是用合影為例,計(jì)算機(jī)這時能可能會這樣描述:這是奧巴馬和習(xí)近平的合影。芮勇博士表示,這一點(diǎn)目前是完全可以做到的,目前計(jì)算機(jī)涵蓋的認(rèn)知范疇是全球大部分名人和著名景點(diǎn),比如白宮和天安門廣場。
未來可能的發(fā)展方向
在回顧完發(fā)展歷程之后,芮勇博士還從以下幾個角度分享了他對于計(jì)算機(jī)視覺研究下一步發(fā)展的一些想法。
1. 圖片的隱含深意。例如一張大象追奧巴馬的圖片,除了能輸出上文提到的自然語言描述之外,未來計(jì)算機(jī)可能還能理解圖像的內(nèi)涵意義。例如大象和奧巴馬的象征意味,以及美國大選中民主黨與共和黨的相互競爭等。
2. 視頻的理解。例如輸入一段視頻給計(jì)算機(jī),計(jì)算機(jī)同樣可以輸出一段自然語言的描述。芮勇博士表示這其中的難點(diǎn)在于,視頻除了圖像中橫軸縱軸的二維描述之外,還加了一條時間線的三維描述,因此對于數(shù)學(xué)建模和數(shù)據(jù)分析都造成了與圖像識別完全不同的研究方式和難度。
3. 利用圖片聊天。例如輸入一張可愛小狗的圖片,計(jì)算機(jī)可能回復(fù):萌萌噠。
4. 利用圖片講故事。例如將來計(jì)算機(jī)可能根據(jù)輸入的若干圖像,自動生成一個扣人心弦的精彩故事。
3個關(guān)鍵因素
最后芮勇博士為大家揭示了計(jì)算機(jī)視覺完全從感知走向認(rèn)知的3點(diǎn)關(guān)鍵因素。
1. 機(jī)器學(xué)習(xí)算法的進(jìn)步。業(yè)界需要更先進(jìn)的算法和更深度的分析模型來助力計(jì)算機(jī)視覺的進(jìn)一步發(fā)展。
2. 各個垂直領(lǐng)域的科學(xué)家和從業(yè)者合作。除了計(jì)算機(jī)視覺自身領(lǐng)域的發(fā)展之外,將計(jì)算機(jī)視覺與各個垂直領(lǐng)域結(jié)合,在工程和商業(yè)中真正發(fā)揮作用,推動計(jì)算機(jī)詩句的縱身發(fā)展。
3. 高質(zhì)量的海量數(shù)據(jù)。在大數(shù)據(jù)時代,高質(zhì)量和海量的數(shù)據(jù)作為一切研究的基石也至關(guān)重要。
最后芮勇博士總結(jié)說,這三點(diǎn)如果都能做到了,機(jī)器學(xué)習(xí)算法本身的進(jìn)步,研究學(xué)者和垂直領(lǐng)域的專家們越來越多地合作,同時優(yōu)質(zhì)的數(shù)據(jù)集也越來越多,那么我們就能從感知正式走向認(rèn)知。
以下是現(xiàn)場實(shí)錄:
非常高興下午有這個機(jī)會跟大家聊聊計(jì)算機(jī)視覺,我的題目叫《計(jì)算機(jī)視覺從感知到認(rèn)知的長征》。
我想回顧一下計(jì)算機(jī)視覺過去50年的發(fā)展。今年的2016年也是人工智能這個詞被創(chuàng)造出來的第60年,之前其實(shí)沒有這么一個詞,60年中國人叫一個輪回,輪回總是會有大的飛躍,我們看看2016年人工智能有什么大的飛躍?
人工智能從最開始有很多的領(lǐng)域,我本人花的時間最多的是計(jì)算機(jī)視覺,人有各種感官,但人70%的信息是靠人的眼睛來看到的,計(jì)算機(jī)視覺也是人工智能當(dāng)中一個非常重要的方向。
最早大家說能不能可以讓計(jì)算機(jī)可以看到,像人類的眼睛可以看到一樣。過去的50年的發(fā)展,我們可以看到,是從社群到處理到Recognition到理解,就像我們畫一幅畫一樣,從最早的線條,到一定的灰度,到最后的全彩色的,這50年都做了些什么事情?我們可以看一看,我想用這張圖片跟大家分享一下。
人看一張圖片覺得很簡單,我一看覺得這是一個人、這是一張桌子、椅子,人一下就理解了,計(jì)算機(jī)看到的很難,因?yàn)橛?jì)算機(jī)看到的就兩個東西,不是0就是1,讓計(jì)算機(jī)看到圖片里包含什么內(nèi)容非常困難。這50年走過了很多路,從最早的特征提取,比如說這么一幅圖,它的特征有線條、有轉(zhuǎn)角,有色彩,之后第二步比這個更前進(jìn),叫標(biāo)注。這幅圖比如說是一個戶外的場景,里面有人物,比這個更前進(jìn)一步,叫Annotation。比這個再往前走一步,我們對圖片的理解就是Captioning,我如果把這個圖片給計(jì)算機(jī)去看,它能不能生成一段我們?nèi)祟惪吹枚牭枚奈淖?,比如喬治和他的父親在迪士尼樂園在玩一個游戲,這么一句話,這就更難了。比這個再難一點(diǎn),我給計(jì)算機(jī)這個圖片,我問計(jì)算機(jī)幾個問題,比如說這個圖片里面坐在前面那個人穿什么顏色的衣服?計(jì)算機(jī)這時候要知道什么是人,衣服在哪里,它要回答是紅色的衣服,這就更難了。比這個再難一些的就是我們小時候都上過課,叫做看圖認(rèn)字,看圖說話,計(jì)算機(jī)看到一幅圖之后,能不能生成一個故事,這就是這50年我們大家孜孜不倦想做的事情。
我們來回顧一下這50年是怎么走的,第一步是特征提取,計(jì)算機(jī)看到的除了0就是1,當(dāng)然有些像素更加重要,哪些象素作為提取這很重要,比如這張圖,每一個像素的重要性是不一樣的,畫圈的地方是我們想把它作為特征的一些地方。再往下看,第二步我們想給一個圖片進(jìn)行標(biāo)注,進(jìn)行標(biāo)注的話,我們就想知道,比如說圖片里面有兩個人,他們是在戶外的活動,這件事情怎么做?我們來看一下是怎么做的。
這個就是很重要的一個部分,有三個部分,第一個部分是圖片的分類,這個時候我們回答的是什么問題呢?這張圖片里面是不是含有一只小狗。第二個就更難一點(diǎn),計(jì)算機(jī)還要告訴這個小狗在什么位置,把它框出來。第三個更難,每一個象素能不能告訴我這個像素是屬于這個小狗身上的像素還是電視機(jī)上的像素?一個比一個難。過去的這十年,還有很大很大的發(fā)展,我們來看。
第一步,圖象分類,圖象分類在計(jì)算機(jī)視覺里有一個全球性的比賽,叫ImageNet,里面有120萬個訓(xùn)練樣本,有10萬測試圖像,1000個類別,你讓計(jì)算機(jī)看沒有見過的圖片,幫你分出來這是1000類里的哪一類。
2012年之前,深度學(xué)習(xí)沒有引入計(jì)算機(jī)視覺之前,大家看看錯誤率,靠右邊的是2010年的錯誤率28.2%。2012年的時候,深度學(xué)習(xí)第一次被用在圖象識別,錯誤率一下降到16.4%,每年的錯誤率越來越低。2014年有個斯坦福的博士想挑戰(zhàn)一下。我如果告訴你一千類里有兩百來種狗的不同類型你就知道有多難了,我只認(rèn)識四五種狗,但要做到上百種狗都能對,非常困難。斯坦福博士關(guān)在屋子里訓(xùn)練了幾個月,他的錯誤率是5.1%,去年降到了3.5%,第一次超過了人類的錯誤率。
2012年深度學(xué)習(xí)第一次引入計(jì)算機(jī)視覺,當(dāng)時有八層,它的錯誤率降低。再往下走,2014年到了19層,錯誤率繼續(xù)降低,到2015年,我研究院的同事做出了152層的極深網(wǎng)絡(luò)。大家覺得往下做沒什么了不起,其實(shí)想做得深很難,在2015年以前,全球沒有幾個團(tuán)隊(duì)能做到超過20層,因?yàn)槭怯?xùn)練不下去的,所以這是一個非常好的工作。用神經(jīng)網(wǎng)絡(luò),不僅是每一層延到下一層,有的之間還可以轉(zhuǎn)跳。
這是圖片的分類,解決的問題是圖片里面是不是有只小狗。更難的是這只小狗在什么地方,物體的檢測。七八年以前,全球能做到最好的程度也就是這樣,今天通過深度學(xué)習(xí)的方式已經(jīng)可以做到這樣的水平。你看最左邊的女士她只是把胳膊肘露出一點(diǎn),腿露出一點(diǎn)。再往下看,這個大公共汽車后面的司機(jī)我們解釋說這是一個人,現(xiàn)在已經(jīng)達(dá)到這樣的水平,跟人類的視覺水平已經(jīng)不相上下。
比物體檢測更加難的是在圖片的每一個像素,像素是屬于小狗還是屬于屏幕?我們可以看一看今天用深度學(xué)習(xí)的方式,也已經(jīng)可以把像素級的圖像分割做到這樣的水平。
大家可以想一想,如果能做到這樣的水平,今后無論是無人機(jī)還是無人駕駛,很多應(yīng)用都可以做了。
這是我剛才提到的第一個問題,就是對物體的識別,比這個更難的是我們是不是理解了,計(jì)算機(jī)是不是理解了某一個圖片。我們看一看。Beyond遠(yuǎn)遠(yuǎn)超過了計(jì)算機(jī)視覺。如果只是用最近的方式去做搜索,其實(shí)它并沒有理解,比如說你的一個輸入是靠左邊這個人,它就把右邊這幾個從搜索引擎返回,這個并不是理解,這還算不上理解。真正的理解是什么呢?我給計(jì)算機(jī)看到有這么一幅圖片,它能生成一句話,說本和他的爸爸在迪士尼樂園玩。
我如果讓計(jì)算機(jī)看這么一幅圖(一個人打網(wǎng)球的照片),下面我想跟大家做一個小的互動,在這個具體的問題上,我們能不能超過圖靈測試,有兩句話:第一句話叫做一個人在網(wǎng)球場上手拿著一個網(wǎng)球拍。第二句話:有一個人在網(wǎng)球場上打一場比賽。大家覺得這兩句話哪一個是人寫出來的?哪一個是機(jī)器寫出來的。
(大家舉手后顯示比例基本上50%比50%)下面我們看看到底哪個是人寫的哪個是機(jī)器寫的。上面的是機(jī)器寫的,如果在座的諸位是50%的話,已經(jīng)可以通過圖靈測試了。
我們再試一題,上面停了一輛自行車,有兩句話,一句話是小河邊停了一輛自行車,第二句話是水體旁邊有一輛自行車停在。哪句是計(jì)算機(jī)寫的?
(現(xiàn)場大部分人選擇第二句)現(xiàn)在大不部分人認(rèn)為下面一句話是計(jì)算機(jī)寫的。我們來看看,下面是人寫的。我們又一次通過了圖靈測試。
這是給計(jì)算機(jī)看一個圖片,它生成的這么一句話,比那更難一點(diǎn)的是前一陣奧巴馬一家?guī)е『碓L問,我們?nèi)绻層?jì)算機(jī)看到這么一幅圖片,它如果只是告訴我有幾個人在拍照也沒意思,它如果有本事告訴我說,Sasha奧巴馬、米歇爾奧巴馬,彭麗媛,我們大概前50萬名人都能認(rèn)出來是誰,并且我們生成了一句話說,這幾個人在故宮前面拍照,已經(jīng)可以達(dá)到這樣的水平。
再往下看,具體算法可能沒有那么多時間去講。但基本上是從名人到具體的物體,通過各種深度學(xué)習(xí)的方式能生成出這么一個自然語言的話。
我們再往下看,這就是整個的流程,算法等等就不用花時間去看了。已經(jīng)可以讓計(jì)算機(jī)看到一個圖片,講出一句還挺像樣的話,下面還可以往哪里走,我覺得至少四個方向可以走。第一個方向是說在語義的層面上,Go higher,我們能不能想到一些沒講出來,但它能推理出來的意思。第二個我們給它看一段視頻是不是也能講出一段話,Go longer。第三個是它能跟我聊天。第四個我可以問他具體問題,他能回答。
第一個,Go higher,如果我給計(jì)算機(jī)看這么一幅圖片,今天能做到的水平就是這樣,有一群象,前面有一個人,這是我們之前可以做到的水平。今天可以做到的水平,因?yàn)橛袑?shí)體,我們可以說一群象在奧巴馬的旁邊,因?yàn)槲覀兛梢宰R別出這個人是奧巴馬。我們希望做到什么水平?它引申的一些含義,我們?nèi)藖砜吹竭@個可以想到很多引申含義,今年正好是美國總統(tǒng)大選年,民主黨是驢,奧巴馬是民主黨,共和黨是象,它的意思是說奧巴馬被共和黨的一些競選者在追趕,我們今后如果能生成這樣一句話,我們對圖片的理解真是到了一種認(rèn)知的水平,但還沒有做到。
第二個,Go longer,我們給它看視頻,它也能生成一句話,當(dāng)然這里面有很多的算法,具體算法我就不一一介紹,基本上是用一個深度學(xué)習(xí)的網(wǎng)絡(luò),然后目標(biāo)函數(shù)里面由兩種疊加在一起的新的水平。
這是我提的兩個方向,第一個把它的隱身含義講出來,第二個是把視頻也能夠用文字的形式表達(dá)出來。第三個我想提的是,比如說我們今天跟小冰聊天,我們敲一段文字,它也能回一段文字,我們給它上傳一張圖片,它是不是也能跟我們聊呢?今天它也能了。它今天可以做到的水平是,如果我上傳了一張圖片,它會說小眼神太犀利了,這就像人在聊天一樣,已經(jīng)可以做到這樣的水平。比如說你想秀秀六塊腹肌,它會跟你說大叔真牛。不僅僅是文字的聊天,圖片也可以聊天,這都是得益于我們對計(jì)算機(jī)視覺技術(shù)的發(fā)展和深度學(xué)習(xí)的發(fā)展。
第四個方向,稍微花多點(diǎn)時間講講,我覺得這是很有意思的方向,不僅對科研、產(chǎn)業(yè)界來說都很有意思。叫做Visual Question Answering,我問計(jì)算機(jī)一個問題,什么東西在自行車筐里?我們希望它的答案是說狗,但是想做到這一點(diǎn)很難,你首先知道自行車在哪兒,筐在哪兒,筐里有什么東西,都不容易,但今天我們有技術(shù),能夠把這個做到。怎么做到呢?我稍微提一下這個算法。
四個部分,兩個輸入,第一個是你問的問題是什么,你問的問題是說自行車的筐里面是什么,這是一句話,這是第一步。第二步是你同時還給計(jì)算機(jī)看一個圖片,有個Image model,我們用深度學(xué)習(xí)的方式把兩種不同的模式做兩次之后,就知道和這個問題最有關(guān)的部分就在亮的這個部分,這就是和問題發(fā)生關(guān)系的地方。如果知道這個區(qū)域和這個問題發(fā)生關(guān)系就有很大的可能性知道答案。
還有更多的幾個例子要跟大家分享,比如我們讓計(jì)算機(jī)看這幅圖片,問:在一片空曠的海灘上,兩個藍(lán)色的椅子中間那是什么物體?這是它答案的過程,第二層聚焦到傘,一把太陽傘。還有更多的例子,在一片泥濘的土路上,什么東西在拖著馬車?答案是馬在拖著馬車。右邊那個,筐的顏色是什么?答案是紅色的。右下角這個女士戴著兩只紅色牛的角,答案是說紅色的,它知道牛角的顏色是紅色的。這些都是我們今天通過計(jì)算機(jī)視覺的方式達(dá)到問題的回答水平。
剛才回顧過去50年計(jì)算機(jī)視覺發(fā)展的歷程,從最早的特征提取,有直線轉(zhuǎn)角,直到說這是一個戶外的場景,場景里面有人,到說這個圖片里面這個人的名字是什么,到生成一句話來描述這個圖片,到最后我剛才提到的Visual QA,還有很長的路要走,就是我們看到圖能講出一個故事來,這是我們今后要做的事情。
我今天的題目叫《計(jì)算機(jī)視覺從感知到認(rèn)知的長征》,長征大家也知道,最早是從江西的瑞金開始長征的,很具有里程碑的事件就是遵義會議,最后很成功的走到陜甘邊區(qū),今天的計(jì)算機(jī)視覺也是一個長征,但還沒有到達(dá)陜甘邊區(qū),今天2016年我們?nèi)〉昧撕艽蟮某删?,很像遵義會議取得的成就,但今后還有很長的路要走,這就是長征的一部分,怎么樣最后到達(dá)陜北,至少三個方向可以想。第一個是計(jì)算機(jī)學(xué)習(xí)算法的本身。今天“深度學(xué)習(xí)”這個詞很熱。今天因?yàn)橛辛撕玫乃惴ǎ疃葘W(xué)習(xí)算得很成功。
第一塊很重要的能讓我們到達(dá)陜北的就是計(jì)算機(jī)學(xué)習(xí)算法。第二個就是我們需要一些計(jì)算機(jī)的科學(xué)家,我們也需要和一些垂直行業(yè)的朋友們一起來做這件事情,比如我們是和做金融的朋友們,就像上午楊強(qiáng)講的,我們能預(yù)測股票市場。我們?nèi)绻投t(yī)療的朋友來做,可不可以做出更精準(zhǔn)的醫(yī)療,如果和植物所的朋友來做這件事情,是不是可以做出一個用手機(jī)拍照任意的花,或者一個樹,我就知道這個花叫什么名字,樹叫什么名字,最早從哪里來?等等。我想說這個的目的就是除了機(jī)器學(xué)習(xí)的專家之外,還要和很多垂直行業(yè)領(lǐng)域的專家一起合作這件事情。
第三個,右下角這個圈我覺得也一樣重要,我們需要高質(zhì)量的數(shù)據(jù),這三點(diǎn)如果我們都能做到了,機(jī)器學(xué)習(xí)算法本身的進(jìn)步,我們和行業(yè)的專家們的合作和更多的數(shù)據(jù)的獲取,我們就能從瑞金經(jīng)過遵義到達(dá)陜北。
謝謝大家!
主持人:剛剛下面的觀眾提了問題,其實(shí)你最后一頁P(yáng)PT就是最好的答案,它說計(jì)算機(jī)從視覺感知到認(rèn)知還需要哪些條件。但我還有另外一個問題,因?yàn)槟銊倓偨o的都是圖片,如果給的是一段視頻,你會存在什么樣的結(jié)果,如果沒有做的話,你會設(shè)想一下,這里面可能會帶來什么樣的希望和挑戰(zhàn)?
芮勇:你可能沒有很注意聽,我剛才把圖片變成文字之后,我講了四個方向,把視頻放進(jìn)來以后今天也可以做到了,但視頻中確實(shí)很多挑戰(zhàn),因?yàn)樽鰣D片分析的時候,二維的做了,視頻的時候有一個時間軸,所以要一個3D的視頻學(xué)習(xí)的方式,也是可以解決的。謝謝!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。