AIR 015 | 微軟亞洲研究院常務(wù)副院長芮勇：計(jì)算機(jī)視覺從感知到認(rèn)知的長征

本文作者：恒亮

2016-08-12 15:12

導(dǎo)語：微軟亞洲研究院常務(wù)副院長芮勇眼中，計(jì)算機(jī)視覺的發(fā)展史。

作為本屆GAIR大會(huì)重量級的嘉賓之一，同時(shí)也是微軟亞洲研究院常務(wù)副院長，CCF常務(wù)理事，IEEE、IAPR和SPIE等國際一流學(xué)術(shù)組織成員的芮勇博士，在今天下午進(jìn)行的“機(jī)器學(xué)習(xí)大浪下的巨頭們”這一大會(huì)議程中，為我們帶來了關(guān)于計(jì)算機(jī)視覺領(lǐng)域的一些最新觀點(diǎn)和思考。

芮勇博士的報(bào)告主要分作三個(gè)部分：第一部分闡述了計(jì)算機(jī)視覺領(lǐng)域在過去50多年的發(fā)展，并指出在當(dāng)下的2016年我們尚處在一個(gè)從感知到認(rèn)知的重要分水嶺階段，并且還沒有完全步入認(rèn)知的層面；第二部分分享了未來計(jì)算機(jī)視覺領(lǐng)域可能的發(fā)展方向；最后告訴我們計(jì)算機(jī)視覺完全從感知走向認(rèn)知的3點(diǎn)關(guān)鍵因素。

50年的歷史

在第一部分中，芮勇博士表示，對于只認(rèn)識0和1兩種狀態(tài)的計(jì)算機(jī)而言，計(jì)算機(jī)視覺在過去50年主要經(jīng)歷了以下4個(gè)階段：特征提取、圖像標(biāo)注、圖像理解和圖像的深度理解。

1. 特種提取是指從一幅圖像中，找到主要的特征像素并提取出來。例如在一張白紙上寫了一個(gè)字，那么“文字”這個(gè)像素就是特征像素，是需要提取的。

2. 圖像標(biāo)注這一點(diǎn)也分成兩個(gè)小的部分。第一部分是圖像分類，向計(jì)算機(jī)輸入一張圖片，計(jì)算機(jī)要能夠分辨出圖中的內(nèi)容是人還是物體。第二部分是像素級別的分類，計(jì)算機(jī)能夠從一張圖片的像素級別中分辨出哪個(gè)像素屬于人，哪個(gè)像素屬于物體。

同時(shí)，芮勇博士也提到了深度學(xué)習(xí)對于圖像標(biāo)注的重大影響。在2012年引入深度學(xué)習(xí)之前，圖像標(biāo)注的錯(cuò)誤率高達(dá)28.2%，而自從引入了深度學(xué)習(xí)網(wǎng)絡(luò)分析模型，機(jī)器標(biāo)注圖像的錯(cuò)誤率已經(jīng)從2012年的16%（已經(jīng)低于2012年之前）降到了2015年的3.5%，而神經(jīng)網(wǎng)絡(luò)分析模型的規(guī)模也增加到152層，這在全世界范圍內(nèi)都是領(lǐng)先的。

3. 圖像理解是指，輸入計(jì)算機(jī)一張圖片，計(jì)算機(jī)要能自動(dòng)生成一句話的自然語言描述。例如一張合影，計(jì)算機(jī)或許會(huì)輸出：這是一張兩個(gè)人的合影照片。

4. 圖像的深度理解是指，計(jì)算機(jī)不但能識別出圖中的內(nèi)容，還能知道圖中內(nèi)容的具體情況。還是用合影為例，計(jì)算機(jī)這時(shí)能可能會(huì)這樣描述：這是奧巴馬和習(xí)近平的合影。芮勇博士表示，這一點(diǎn)目前是完全可以做到的，目前計(jì)算機(jī)涵蓋的認(rèn)知范疇是全球大部分名人和著名景點(diǎn)，比如白宮和天安門廣場。

未來可能的發(fā)展方向

在回顧完發(fā)展歷程之后，芮勇博士還從以下幾個(gè)角度分享了他對于計(jì)算機(jī)視覺研究下一步發(fā)展的一些想法。

1. 圖片的隱含深意。例如一張大象追奧巴馬的圖片，除了能輸出上文提到的自然語言描述之外，未來計(jì)算機(jī)可能還能理解圖像的內(nèi)涵意義。例如大象和奧巴馬的象征意味，以及美國大選中民主黨與共和黨的相互競爭等。

2. 視頻的理解。例如輸入一段視頻給計(jì)算機(jī)，計(jì)算機(jī)同樣可以輸出一段自然語言的描述。芮勇博士表示這其中的難點(diǎn)在于，視頻除了圖像中橫軸縱軸的二維描述之外，還加了一條時(shí)間線的三維描述，因此對于數(shù)學(xué)建模和數(shù)據(jù)分析都造成了與圖像識別完全不同的研究方式和難度。

3. 利用圖片聊天。例如輸入一張可愛小狗的圖片，計(jì)算機(jī)可能回復(fù)：萌萌噠。

4. 利用圖片講故事。例如將來計(jì)算機(jī)可能根據(jù)輸入的若干圖像，自動(dòng)生成一個(gè)扣人心弦的精彩故事。

3個(gè)關(guān)鍵因素

最后芮勇博士為大家揭示了計(jì)算機(jī)視覺完全從感知走向認(rèn)知的3點(diǎn)關(guān)鍵因素。

1. 機(jī)器學(xué)習(xí)算法的進(jìn)步。業(yè)界需要更先進(jìn)的算法和更深度的分析模型來助力計(jì)算機(jī)視覺的進(jìn)一步發(fā)展。

2. 各個(gè)垂直領(lǐng)域的科學(xué)家和從業(yè)者合作。除了計(jì)算機(jī)視覺自身領(lǐng)域的發(fā)展之外，將計(jì)算機(jī)視覺與各個(gè)垂直領(lǐng)域結(jié)合，在工程和商業(yè)中真正發(fā)揮作用，推動(dòng)計(jì)算機(jī)詩句的縱身發(fā)展。

3. 高質(zhì)量的海量數(shù)據(jù)。在大數(shù)據(jù)時(shí)代，高質(zhì)量和海量的數(shù)據(jù)作為一切研究的基石也至關(guān)重要。

最后芮勇博士總結(jié)說，這三點(diǎn)如果都能做到了，機(jī)器學(xué)習(xí)算法本身的進(jìn)步，研究學(xué)者和垂直領(lǐng)域的專家們越來越多地合作，同時(shí)優(yōu)質(zhì)的數(shù)據(jù)集也越來越多，那么我們就能從感知正式走向認(rèn)知。

以下是現(xiàn)場實(shí)錄：

非常高興下午有這個(gè)機(jī)會(huì)跟大家聊聊計(jì)算機(jī)視覺，我的題目叫《計(jì)算機(jī)視覺從感知到認(rèn)知的長征》。

我想回顧一下計(jì)算機(jī)視覺過去50年的發(fā)展。今年的2016年也是人工智能這個(gè)詞被創(chuàng)造出來的第60年，之前其實(shí)沒有這么一個(gè)詞，60年中國人叫一個(gè)輪回，輪回總是會(huì)有大的飛躍，我們看看2016年人工智能有什么大的飛躍？

人工智能從最開始有很多的領(lǐng)域，我本人花的時(shí)間最多的是計(jì)算機(jī)視覺，人有各種感官，但人70%的信息是靠人的眼睛來看到的，計(jì)算機(jī)視覺也是人工智能當(dāng)中一個(gè)非常重要的方向。

最早大家說能不能可以讓計(jì)算機(jī)可以看到，像人類的眼睛可以看到一樣。過去的50年的發(fā)展，我們可以看到，是從社群到處理到Recognition到理解，就像我們畫一幅畫一樣，從最早的線條，到一定的灰度，到最后的全彩色的，這50年都做了些什么事情？我們可以看一看，我想用這張圖片跟大家分享一下。

人看一張圖片覺得很簡單，我一看覺得這是一個(gè)人、這是一張桌子、椅子，人一下就理解了，計(jì)算機(jī)看到的很難，因?yàn)橛?jì)算機(jī)看到的就兩個(gè)東西，不是0就是1，讓計(jì)算機(jī)看到圖片里包含什么內(nèi)容非常困難。這50年走過了很多路，從最早的特征提取，比如說這么一幅圖，它的特征有線條、有轉(zhuǎn)角，有色彩，之后第二步比這個(gè)更前進(jìn)，叫標(biāo)注。這幅圖比如說是一個(gè)戶外的場景，里面有人物，比這個(gè)更前進(jìn)一步，叫Annotation。比這個(gè)再往前走一步，我們對圖片的理解就是Captioning，我如果把這個(gè)圖片給計(jì)算機(jī)去看，它能不能生成一段我們?nèi)祟惪吹枚牭枚奈淖?，比如喬治和他的父親在迪士尼樂園在玩一個(gè)游戲，這么一句話，這就更難了。比這個(gè)再難一點(diǎn)，我給計(jì)算機(jī)這個(gè)圖片，我問計(jì)算機(jī)幾個(gè)問題，比如說這個(gè)圖片里面坐在前面那個(gè)人穿什么顏色的衣服？計(jì)算機(jī)這時(shí)候要知道什么是人，衣服在哪里，它要回答是紅色的衣服，這就更難了。比這個(gè)再難一些的就是我們小時(shí)候都上過課，叫做看圖認(rèn)字，看圖說話，計(jì)算機(jī)看到一幅圖之后，能不能生成一個(gè)故事，這就是這50年我們大家孜孜不倦想做的事情。

我們來回顧一下這50年是怎么走的，第一步是特征提取，計(jì)算機(jī)看到的除了0就是1，當(dāng)然有些像素更加重要，哪些象素作為提取這很重要，比如這張圖，每一個(gè)像素的重要性是不一樣的，畫圈的地方是我們想把它作為特征的一些地方。再往下看，第二步我們想給一個(gè)圖片進(jìn)行標(biāo)注，進(jìn)行標(biāo)注的話，我們就想知道，比如說圖片里面有兩個(gè)人，他們是在戶外的活動(dòng)，這件事情怎么做？我們來看一下是怎么做的。

這個(gè)就是很重要的一個(gè)部分，有三個(gè)部分，第一個(gè)部分是圖片的分類，這個(gè)時(shí)候我們回答的是什么問題呢？這張圖片里面是不是含有一只小狗。第二個(gè)就更難一點(diǎn)，計(jì)算機(jī)還要告訴這個(gè)小狗在什么位置，把它框出來。第三個(gè)更難，每一個(gè)象素能不能告訴我這個(gè)像素是屬于這個(gè)小狗身上的像素還是電視機(jī)上的像素？一個(gè)比一個(gè)難。過去的這十年，還有很大很大的發(fā)展，我們來看。

第一步，圖象分類，圖象分類在計(jì)算機(jī)視覺里有一個(gè)全球性的比賽，叫ImageNet，里面有120萬個(gè)訓(xùn)練樣本，有10萬測試圖像，1000個(gè)類別，你讓計(jì)算機(jī)看沒有見過的圖片，幫你分出來這是1000類里的哪一類。

2012年之前，深度學(xué)習(xí)沒有引入計(jì)算機(jī)視覺之前，大家看看錯(cuò)誤率，靠右邊的是2010年的錯(cuò)誤率28.2%。2012年的時(shí)候，深度學(xué)習(xí)第一次被用在圖象識別，錯(cuò)誤率一下降到16.4%，每年的錯(cuò)誤率越來越低。2014年有個(gè)斯坦福的博士想挑戰(zhàn)一下。我如果告訴你一千類里有兩百來種狗的不同類型你就知道有多難了，我只認(rèn)識四五種狗，但要做到上百種狗都能對，非常困難。斯坦福博士關(guān)在屋子里訓(xùn)練了幾個(gè)月，他的錯(cuò)誤率是5.1%，去年降到了3.5%，第一次超過了人類的錯(cuò)誤率。

2012年深度學(xué)習(xí)第一次引入計(jì)算機(jī)視覺，當(dāng)時(shí)有八層，它的錯(cuò)誤率降低。再往下走，2014年到了19層，錯(cuò)誤率繼續(xù)降低，到2015年，我研究院的同事做出了152層的極深網(wǎng)絡(luò)。大家覺得往下做沒什么了不起，其實(shí)想做得深很難，在2015年以前，全球沒有幾個(gè)團(tuán)隊(duì)能做到超過20層，因?yàn)槭怯?xùn)練不下去的，所以這是一個(gè)非常好的工作。用神經(jīng)網(wǎng)絡(luò)，不僅是每一層延到下一層，有的之間還可以轉(zhuǎn)跳。

這是圖片的分類，解決的問題是圖片里面是不是有只小狗。更難的是這只小狗在什么地方，物體的檢測。七八年以前，全球能做到最好的程度也就是這樣，今天通過深度學(xué)習(xí)的方式已經(jīng)可以做到這樣的水平。你看最左邊的女士她只是把胳膊肘露出一點(diǎn)，腿露出一點(diǎn)。再往下看，這個(gè)大公共汽車后面的司機(jī)我們解釋說這是一個(gè)人，現(xiàn)在已經(jīng)達(dá)到這樣的水平，跟人類的視覺水平已經(jīng)不相上下。

比物體檢測更加難的是在圖片的每一個(gè)像素，像素是屬于小狗還是屬于屏幕？我們可以看一看今天用深度學(xué)習(xí)的方式，也已經(jīng)可以把像素級的圖像分割做到這樣的水平。

大家可以想一想，如果能做到這樣的水平，今后無論是無人機(jī)還是無人駕駛，很多應(yīng)用都可以做了。

這是我剛才提到的第一個(gè)問題，就是對物體的識別，比這個(gè)更難的是我們是不是理解了，計(jì)算機(jī)是不是理解了某一個(gè)圖片。我們看一看。Beyond遠(yuǎn)遠(yuǎn)超過了計(jì)算機(jī)視覺。如果只是用最近的方式去做搜索，其實(shí)它并沒有理解，比如說你的一個(gè)輸入是靠左邊這個(gè)人，它就把右邊這幾個(gè)從搜索引擎返回，這個(gè)并不是理解，這還算不上理解。真正的理解是什么呢？我給計(jì)算機(jī)看到有這么一幅圖片，它能生成一句話，說本和他的爸爸在迪士尼樂園玩。

我如果讓計(jì)算機(jī)看這么一幅圖（一個(gè)人打網(wǎng)球的照片），下面我想跟大家做一個(gè)小的互動(dòng)，在這個(gè)具體的問題上，我們能不能超過圖靈測試，有兩句話：第一句話叫做一個(gè)人在網(wǎng)球場上手拿著一個(gè)網(wǎng)球拍。第二句話：有一個(gè)人在網(wǎng)球場上打一場比賽。大家覺得這兩句話哪一個(gè)是人寫出來的？哪一個(gè)是機(jī)器寫出來的。

（大家舉手后顯示比例基本上50%比50%）下面我們看看到底哪個(gè)是人寫的哪個(gè)是機(jī)器寫的。上面的是機(jī)器寫的，如果在座的諸位是50%的話，已經(jīng)可以通過圖靈測試了。

我們再試一題，上面停了一輛自行車，有兩句話，一句話是小河邊停了一輛自行車，第二句話是水體旁邊有一輛自行車停在。哪句是計(jì)算機(jī)寫的？

（現(xiàn)場大部分人選擇第二句）現(xiàn)在大不部分人認(rèn)為下面一句話是計(jì)算機(jī)寫的。我們來看看，下面是人寫的。我們又一次通過了圖靈測試。

這是給計(jì)算機(jī)看一個(gè)圖片，它生成的這么一句話，比那更難一點(diǎn)的是前一陣奧巴馬一家?guī)е『碓L問，我們?nèi)绻層?jì)算機(jī)看到這么一幅圖片，它如果只是告訴我有幾個(gè)人在拍照也沒意思，它如果有本事告訴我說，Sasha奧巴馬、米歇爾奧巴馬，彭麗媛，我們大概前50萬名人都能認(rèn)出來是誰，并且我們生成了一句話說，這幾個(gè)人在故宮前面拍照，已經(jīng)可以達(dá)到這樣的水平。

再往下看，具體算法可能沒有那么多時(shí)間去講。但基本上是從名人到具體的物體，通過各種深度學(xué)習(xí)的方式能生成出這么一個(gè)自然語言的話。

我們再往下看，這就是整個(gè)的流程，算法等等就不用花時(shí)間去看了。已經(jīng)可以讓計(jì)算機(jī)看到一個(gè)圖片，講出一句還挺像樣的話，下面還可以往哪里走，我覺得至少四個(gè)方向可以走。第一個(gè)方向是說在語義的層面上，Go higher，我們能不能想到一些沒講出來，但它能推理出來的意思。第二個(gè)我們給它看一段視頻是不是也能講出一段話，Go longer。第三個(gè)是它能跟我聊天。第四個(gè)我可以問他具體問題，他能回答。

第一個(gè)，Go higher，如果我給計(jì)算機(jī)看這么一幅圖片，今天能做到的水平就是這樣，有一群象，前面有一個(gè)人，這是我們之前可以做到的水平。今天可以做到的水平，因?yàn)橛袑?shí)體，我們可以說一群象在奧巴馬的旁邊，因?yàn)槲覀兛梢宰R別出這個(gè)人是奧巴馬。我們希望做到什么水平？它引申的一些含義，我們?nèi)藖砜吹竭@個(gè)可以想到很多引申含義，今年正好是美國總統(tǒng)大選年，民主黨是驢，奧巴馬是民主黨，共和黨是象，它的意思是說奧巴馬被共和黨的一些競選者在追趕，我們今后如果能生成這樣一句話，我們對圖片的理解真是到了一種認(rèn)知的水平，但還沒有做到。

第二個(gè)，Go longer，我們給它看視頻，它也能生成一句話，當(dāng)然這里面有很多的算法，具體算法我就不一一介紹，基本上是用一個(gè)深度學(xué)習(xí)的網(wǎng)絡(luò)，然后目標(biāo)函數(shù)里面由兩種疊加在一起的新的水平。

這是我提的兩個(gè)方向，第一個(gè)把它的隱身含義講出來，第二個(gè)是把視頻也能夠用文字的形式表達(dá)出來。第三個(gè)我想提的是，比如說我們今天跟小冰聊天，我們敲一段文字，它也能回一段文字，我們給它上傳一張圖片，它是不是也能跟我們聊呢？今天它也能了。它今天可以做到的水平是，如果我上傳了一張圖片，它會(huì)說小眼神太犀利了，這就像人在聊天一樣，已經(jīng)可以做到這樣的水平。比如說你想秀秀六塊腹肌，它會(huì)跟你說大叔真牛。不僅僅是文字的聊天，圖片也可以聊天，這都是得益于我們對計(jì)算機(jī)視覺技術(shù)的發(fā)展和深度學(xué)習(xí)的發(fā)展。

第四個(gè)方向，稍微花多點(diǎn)時(shí)間講講，我覺得這是很有意思的方向，不僅對科研、產(chǎn)業(yè)界來說都很有意思。叫做Visual Question Answering，我問計(jì)算機(jī)一個(gè)問題，什么東西在自行車筐里？我們希望它的答案是說狗，但是想做到這一點(diǎn)很難，你首先知道自行車在哪兒，筐在哪兒，筐里有什么東西，都不容易，但今天我們有技術(shù)，能夠把這個(gè)做到。怎么做到呢？我稍微提一下這個(gè)算法。

四個(gè)部分，兩個(gè)輸入，第一個(gè)是你問的問題是什么，你問的問題是說自行車的筐里面是什么，這是一句話，這是第一步。第二步是你同時(shí)還給計(jì)算機(jī)看一個(gè)圖片，有個(gè)Image model，我們用深度學(xué)習(xí)的方式把兩種不同的模式做兩次之后，就知道和這個(gè)問題最有關(guān)的部分就在亮的這個(gè)部分，這就是和問題發(fā)生關(guān)系的地方。如果知道這個(gè)區(qū)域和這個(gè)問題發(fā)生關(guān)系就有很大的可能性知道答案。

還有更多的幾個(gè)例子要跟大家分享，比如我們讓計(jì)算機(jī)看這幅圖片，問：在一片空曠的海灘上，兩個(gè)藍(lán)色的椅子中間那是什么物體？這是它答案的過程，第二層聚焦到傘，一把太陽傘。還有更多的例子，在一片泥濘的土路上，什么東西在拖著馬車？答案是馬在拖著馬車。右邊那個(gè)，筐的顏色是什么？答案是紅色的。右下角這個(gè)女士戴著兩只紅色牛的角，答案是說紅色的，它知道牛角的顏色是紅色的。這些都是我們今天通過計(jì)算機(jī)視覺的方式達(dá)到問題的回答水平。

剛才回顧過去50年計(jì)算機(jī)視覺發(fā)展的歷程，從最早的特征提取，有直線轉(zhuǎn)角，直到說這是一個(gè)戶外的場景，場景里面有人，到說這個(gè)圖片里面這個(gè)人的名字是什么，到生成一句話來描述這個(gè)圖片，到最后我剛才提到的Visual QA，還有很長的路要走，就是我們看到圖能講出一個(gè)故事來，這是我們今后要做的事情。

我今天的題目叫《計(jì)算機(jī)視覺從感知到認(rèn)知的長征》，長征大家也知道，最早是從江西的瑞金開始長征的，很具有里程碑的事件就是遵義會(huì)議，最后很成功的走到陜甘邊區(qū)，今天的計(jì)算機(jī)視覺也是一個(gè)長征，但還沒有到達(dá)陜甘邊區(qū)，今天2016年我們?nèi)〉昧撕艽蟮某删停芟褡窳x會(huì)議取得的成就，但今后還有很長的路要走，這就是長征的一部分，怎么樣最后到達(dá)陜北，至少三個(gè)方向可以想。第一個(gè)是計(jì)算機(jī)學(xué)習(xí)算法的本身。今天“深度學(xué)習(xí)”這個(gè)詞很熱。今天因?yàn)橛辛撕玫乃惴?，深度學(xué)習(xí)算得很成功。

第一塊很重要的能讓我們到達(dá)陜北的就是計(jì)算機(jī)學(xué)習(xí)算法。第二個(gè)就是我們需要一些計(jì)算機(jī)的科學(xué)家，我們也需要和一些垂直行業(yè)的朋友們一起來做這件事情，比如我們是和做金融的朋友們，就像上午楊強(qiáng)講的，我們能預(yù)測股票市場。我們?nèi)绻投t(yī)療的朋友來做，可不可以做出更精準(zhǔn)的醫(yī)療，如果和植物所的朋友來做這件事情，是不是可以做出一個(gè)用手機(jī)拍照任意的花，或者一個(gè)樹，我就知道這個(gè)花叫什么名字，樹叫什么名字，最早從哪里來？等等。我想說這個(gè)的目的就是除了機(jī)器學(xué)習(xí)的專家之外，還要和很多垂直行業(yè)領(lǐng)域的專家一起合作這件事情。

第三個(gè)，右下角這個(gè)圈我覺得也一樣重要，我們需要高質(zhì)量的數(shù)據(jù)，這三點(diǎn)如果我們都能做到了，機(jī)器學(xué)習(xí)算法本身的進(jìn)步，我們和行業(yè)的專家們的合作和更多的數(shù)據(jù)的獲取，我們就能從瑞金經(jīng)過遵義到達(dá)陜北。

謝謝大家！

主持人：剛剛下面的觀眾提了問題，其實(shí)你最后一頁P(yáng)PT就是最好的答案，它說計(jì)算機(jī)從視覺感知到認(rèn)知還需要哪些條件。但我還有另外一個(gè)問題，因?yàn)槟銊倓偨o的都是圖片，如果給的是一段視頻，你會(huì)存在什么樣的結(jié)果，如果沒有做的話，你會(huì)設(shè)想一下，這里面可能會(huì)帶來什么樣的希望和挑戰(zhàn)？

芮勇：你可能沒有很注意聽，我剛才把圖片變成文字之后，我講了四個(gè)方向，把視頻放進(jìn)來以后今天也可以做到了，但視頻中確實(shí)很多挑戰(zhàn)，因?yàn)樽鰣D片分析的時(shí)候，二維的做了，視頻的時(shí)候有一個(gè)時(shí)間軸，所以要一個(gè)3D的視頻學(xué)習(xí)的方式，也是可以解決的。謝謝！

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

相關(guān)文章

專題

CCF-GAIR | 全球人工智能與機(jī)器人峰會(huì)

本專題其他文章

恒亮

編輯

歡迎交流，微信：whl123465

發(fā)私信

當(dāng)月熱門文章