中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

本文作者：楊文

2017-07-16 23:26

專題：GAIR 2017

導(dǎo)語：山世光博士在CCF-GAIR上的分享精華

雷鋒網(wǎng)AI科技評論按：7月7日，全球人工智能和機(jī)器人峰會（CCF-GAIR 2017）在深圳如期舉辦，由CCF中國計(jì)算機(jī)學(xué)會主辦、雷鋒網(wǎng)與香港中文大學(xué)（深圳）承辦的這次大會共聚集了來自全球30多位AI領(lǐng)域科學(xué)家、近300家AI明星企業(yè)。雷鋒網(wǎng)最近將會陸續(xù)放出峰會上的精華內(nèi)容，回饋給長期以來支持雷鋒網(wǎng)的讀者們！

本次帶來中科視拓CTO，中科院計(jì)算所研究員山世光博士在GAIR 2017大會上的分享精華。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

山世光，中科院計(jì)算所研究員、博導(dǎo)，基金委優(yōu)青，CCF青年科學(xué)獎獲得者，現(xiàn)任中科院智能信息處理重點(diǎn)實(shí)驗(yàn)室常務(wù)副主任，中科視拓創(chuàng)始人、董事長兼CTO。他的研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺和機(jī)器學(xué)習(xí)。已在國內(nèi)外刊物和學(xué)術(shù)會議上發(fā)表論文200余篇，其中CCF A類論文60余篇，論文被谷歌學(xué)術(shù)引用10000余次。曾應(yīng)邀擔(dān)任過ICCV，ACCV，ICPR，F(xiàn)G，ICASSP等國際會議的領(lǐng)域主席，現(xiàn)任IEEE，TIP，CVIU，PRL,Neurocomputing，F(xiàn)CS等國際學(xué)術(shù)刊物的編委。研究成果獲2005年度國家科技進(jìn)步二等獎，2015年度國家自然科學(xué)二等獎，CVPR2008 Best Student Poster Award Runner-up獎。

如何看待這次AI熱潮？

谷歌AlphaGo與李世石的世紀(jì)之戰(zhàn)，讓人工智能（AI）這個話題再度火爆起來。山世光博士早在20年前就開始做AI領(lǐng)域中的計(jì)算機(jī)視覺技術(shù)研究，在這次GAIR大會分享中，他結(jié)合自己過去的科研經(jīng)歷和行業(yè)觀察，分別從四個不同的角度分析，給出了他對此次AI熱潮的一些看法：

從方法論角度看：過去幾十年流行的人類專家知識驅(qū)動的AI方法論被數(shù)據(jù)驅(qū)動的AI方法論全面取代。這里的數(shù)據(jù)主要指有監(jiān)督的大數(shù)據(jù)。人類智能的產(chǎn)生是不是也完全基于有監(jiān)督的大數(shù)據(jù)學(xué)習(xí)而來尚不得而知。從這個意義上講，計(jì)算智能和人類智能之間的差異也不得而知。

從學(xué)術(shù)角度來看：雖然有監(jiān)督大數(shù)據(jù)驅(qū)動的方法論在某些領(lǐng)域已經(jīng)構(gòu)建出了超越人類智能的AI，但基于有監(jiān)督大數(shù)據(jù)的深度學(xué)習(xí)是否構(gòu)建機(jī)器智能時代充分且必要的基礎(chǔ)性方法？他個人認(rèn)為至少是不充分的，需要新的方法論。

從算法角度來看：主要得益于兩個方法：一是深度學(xué)習(xí)，二是增強(qiáng)學(xué)習(xí)。增強(qiáng)學(xué)習(xí)被大家所熟知是因?yàn)锳lphaGo在圍棋上戰(zhàn)勝了人類最強(qiáng)的棋手。但實(shí)際上增強(qiáng)學(xué)習(xí)在很多場景下是不能用的，至少目前在視覺和語音處理等任務(wù)中尚未得到有效的應(yīng)用。而深度學(xué)習(xí)可類比人類學(xué)習(xí)方法里的歸納學(xué)習(xí)，卻不適合演繹學(xué)習(xí)。深度學(xué)習(xí)是否可以廣泛應(yīng)用于推理類任務(wù)尚不得而知。

從做計(jì)算機(jī)視覺的角度來講：包括智能視頻監(jiān)控、考勤門禁等在內(nèi)的安防應(yīng)用以及醫(yī)療讀圖、基于視覺的汽車輔助駕駛等都是計(jì)算機(jī)視覺技術(shù)落地的方向，商業(yè)化產(chǎn)品已經(jīng)雨后春筍般涌上市場。

關(guān)于演講主題中的X表示什么意思，山世光博士在接下來的演講中給出了X數(shù)據(jù)的五個含義，分別是：第一，大數(shù)據(jù)；第二，小數(shù)據(jù)；第三，臟數(shù)據(jù)；第四，無監(jiān)督數(shù)據(jù)；第五，是增廣，通過增廣獲得更大的數(shù)據(jù)集。下面的分享實(shí)錄中會有對各個含義的詳細(xì)解讀。

為什么要用X數(shù)據(jù)驅(qū)動？

山世光博士將深度學(xué)習(xí)算法、強(qiáng)大算力、大數(shù)據(jù)比作AI革命背后的“三駕馬車”，而這“三駕馬車“背后的現(xiàn)實(shí)問題是金錢投資，需要非常厲害的牛人做深度學(xué)習(xí)算法、搭建更加強(qiáng)大的計(jì)算力平臺以及收集更多的數(shù)據(jù)。其中數(shù)據(jù)收集和標(biāo)注的成本日趨昂貴，所以他們希望在這方面看看能不能做點(diǎn)什么。

關(guān)于SeetaVision視覺技術(shù)

人臉識別技術(shù)：SeetaVision的多姿態(tài)人臉檢測技術(shù)，是在標(biāo)準(zhǔn)人臉檢測評測集FDDB上最好的方法之一。在100個誤檢的情況下，SeetaVision的檢測率達(dá)到了92%，此外還研發(fā)了檢測加速技術(shù)，從而可以在嵌入式設(shè)備上實(shí)現(xiàn)實(shí)時的多姿態(tài)人臉檢測。第二個人臉核心技術(shù)是面部關(guān)鍵特征點(diǎn)的定位，SeetaVision實(shí)現(xiàn)了81個關(guān)鍵特征點(diǎn)的超實(shí)時檢測與跟蹤。SeetaVison人臉識別具體應(yīng)用包括人證一致性驗(yàn)證，員工考勤與打卡、黑白名單目標(biāo)人檢測等。

手勢識別：SeetaVision可以實(shí)現(xiàn)實(shí)時的手語翻譯，就像語音識別一樣，把1000常用詞形成的手語句子翻譯成自然語言文本。基于此，視拓目前已經(jīng)和美的合作，將其應(yīng)用于智能家居中。

情感計(jì)算：SeetaVision的基本表情識別率超過85%，基于普通攝像頭的心率估計(jì)也非常接近醫(yī)療設(shè)備的檢測結(jié)果。

視頻結(jié)構(gòu)化：面向智能視頻監(jiān)控類應(yīng)用，SeetaVision實(shí)現(xiàn)了嵌入式設(shè)備上的實(shí)時人車跟蹤，準(zhǔn)確度超過85%。

無人機(jī)視覺：針對無人機(jī)地面目標(biāo)檢測任務(wù)，SeetaVision實(shí)現(xiàn)了高清視頻中地面車輛等目標(biāo)的實(shí)時檢測、分類與跟蹤。

山世光博士還表示，中科視拓的終極目標(biāo)是讓AI知人識面看世界，給每個AI裝上智慧的眼睛，讓它看清在跟誰交互，周圍環(huán)境如何，以及正在發(fā)生什么事情。而面對目前市場上已有多家做人臉識別等視覺技術(shù)的創(chuàng)業(yè)公司，如何才能在競爭中脫穎而出，山世光博士表示，將SeetaVision的商業(yè)模式定位為“開源賦能“，走差異化競爭路線，重點(diǎn)關(guān)注與行業(yè)客戶之間的深度合作。

在大會分享的最后，山世光博士對AI未來發(fā)展需要注意哪些問題做了一些總結(jié)，他認(rèn)為：

其一，魯棒性可能是AI和視覺智能一個最致命的問題。其二，AI的成長需要多模態(tài)協(xié)同，不能單靠視覺智能或語音智能等。其三，如何基于小數(shù)據(jù)甚至是零數(shù)據(jù)準(zhǔn)確完成各類視覺任務(wù)，還需要大量的深入研究。

以下是山世光博士在CCF-GAIR 2017的現(xiàn)場實(shí)錄，雷鋒網(wǎng)做了不改動原意的編輯：

我今天報告的題目是《X數(shù)據(jù)驅(qū)動的Seeta平臺與技術(shù)》，可能大家都在想X是什么，這里我們暫時認(rèn)為X就是一個問號。在接下里的報告中，我會從X數(shù)據(jù)入手，來重點(diǎn)介紹一下我們所做的工作。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

其實(shí)我們大家都非常深切的體會到，我們正在邂逅一場前所未有的人工智能技術(shù)革命和應(yīng)用的井噴。在這樣的一個狀態(tài)下，它的背后是有“三駕馬車”或者“三個引擎”，就是深度學(xué)習(xí)算法、強(qiáng)大算力以及大數(shù)據(jù)，這些因素的共同作用才產(chǎn)生了這一輪新的AI熱潮。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

我這次報告的題目為什么叫“X數(shù)據(jù)驅(qū)動”，主要從數(shù)據(jù)角度出發(fā)，來看對AI產(chǎn)業(yè)能做什么事。

這一輪人工智能的熱潮，從方法論的角度來講，主要是源自AI研究范式的變遷。即從人類專家知識驅(qū)動的方法論到數(shù)據(jù)驅(qū)動的方法論的變遷。我們指的數(shù)據(jù)，其實(shí)是特指有監(jiān)督的大數(shù)據(jù)：一方面是數(shù)據(jù)量必須足夠大，另一方面這些數(shù)據(jù)還必須是帶有內(nèi)容標(biāo)簽的。人類智能的本質(zhì)同現(xiàn)在的計(jì)算智能之間的差異，在目前而言還是不得而知。因此我們非常有必要從學(xué)術(shù)角度來探討，數(shù)據(jù)驅(qū)動或者有監(jiān)督的大數(shù)據(jù)驅(qū)動這樣一種方法論，是否會是我們構(gòu)建整個機(jī)器智能時代的基礎(chǔ)設(shè)施。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

當(dāng)然，在目前這種有監(jiān)督大數(shù)據(jù)驅(qū)動的方法論條件下，在某些領(lǐng)域確實(shí)已經(jīng)出現(xiàn)AI超越人類智能的情況。這一輪AI熱潮，從算法角度，主要得益于兩個東西：一是深度學(xué)習(xí)，二是增強(qiáng)學(xué)習(xí)。增強(qiáng)學(xué)習(xí)被大家熟知是因?yàn)锳lphaGo在圍棋上戰(zhàn)勝了人類最強(qiáng)的棋手。實(shí)際上增強(qiáng)學(xué)習(xí)并不是放之四海皆可用的方法，它在很多場景下是不能用的，特別是在視覺和語音等場景下并沒有得到非常有效的應(yīng)用。因?yàn)樗枰狝I能夠自動的判斷對錯，比如說下圍棋或者一個游戲，做得好或者不好，算法是可以自動去判斷好或者不好、對或者錯的。像我們的視覺、聽覺這樣的一些問題，比如說做人臉識別，AI算法本身識別錯了，它是不能夠知道自己識別錯了的，識別對了它自己也不知道，所以很難形成一個迭代的自我增強(qiáng)過程。如果是硬去迭代，很可能會學(xué)偏學(xué)傻，乃至走火入魔。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

所以增強(qiáng)學(xué)習(xí)在這些問題上并沒有得到非常好的應(yīng)用。深度學(xué)習(xí)目前適合解決我稱之為“好數(shù)據(jù)肥沃”的領(lǐng)域，而且通常只對應(yīng)于人類學(xué)習(xí)方法里的歸納學(xué)習(xí)。然而，人類的學(xué)習(xí)除了歸納學(xué)習(xí)之外，還有演繹推理。針對演繹推理，深度學(xué)習(xí)則存在嚴(yán)重短板。舉個演繹推理的例子，比如說《幾何原本》，是歐幾里德從5條公理推演出來的。想用深度學(xué)習(xí)做這類自動推演，目前來看是完全沒有希望的。當(dāng)然，這是一個很極端的例子，但我們在日常生活中是需要大量推理的，深度學(xué)習(xí)在這一點(diǎn)上，目前來看也沒有太多可以有作為的地方。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

李開復(fù)老師在過去一段時間多次提及，在未來10年可能人工智能會取代10種職業(yè)50%的工作。我不知道大家怎么去看，我個人覺得保姆可能還是很難取代的，也許醫(yī)生更有可能會被取代。從我們做計(jì)算機(jī)視覺的角度來講，醫(yī)療讀圖是一個很重要的方向。對于做人臉識別或者圖像識別的人來說，保安則是我們更感興趣的群體，在未來10年，也許不是50%，而是80%的保安，會被一些自動的系統(tǒng)所取代。比如說我們的一個企業(yè)客戶，用我們的人臉識別技術(shù)做單位的門禁和考勤，在1萬個員工的情況下，可以實(shí)現(xiàn)不需要員工卡自動做識別、開門和考勤的系統(tǒng)，我想可能未來真的不需要一個保安坐在那兒了。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

我和我的學(xué)生們在去年8月，基于計(jì)算所在視覺信息處學(xué)習(xí)方面的研究成果做了一個公司，叫做中科視拓，形成了一個產(chǎn)學(xué)研聯(lián)合體，一起開發(fā)SeetaVision技術(shù)。我們的目標(biāo)是讓AI能知人識面看世界，讓每個AI都長上智慧的眼睛，讓它看清它在跟誰交流、了解周圍正在發(fā)生什么事情，以便智能地應(yīng)對這些場景。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

我們主要的底層技術(shù)，就是在機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)理論、方法與技術(shù)?；谶@些機(jī)器學(xué)習(xí)的方法，在人臉識別、情感計(jì)算、視頻結(jié)構(gòu)化和無人機(jī)視覺等方面，我們有自己的一些布局。我們過去的積累包括在這些領(lǐng)域的競賽中，取得一些最好的成績，其中包括人臉識別、手勢識別、行人檢測、圖像搜索等等任務(wù)。我們剛才也提到，業(yè)界已經(jīng)有像商湯、Face++等等有很多前輩公司，比我們早走了多年。我們在商業(yè)模式上也希望不斷探索新的路徑。當(dāng)前階段，我們采取”開源賦能“的差異化做法與一些重點(diǎn)客戶開展了深度合作。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

所謂的開源，是指我們可以給B端客戶提供源碼級的引擎技術(shù)。更進(jìn)一步的是賦能，我們可以提供生成這些引擎的引擎技術(shù)。通俗地講，我們不但賣雞蛋，還賣下蛋的雞，這是完全不同的合作模式。去年8月中科視拓開源了Seetaface人臉識別引擎，它雖然不是業(yè)界最好的人臉技術(shù)，但提供了一個優(yōu)秀的基準(zhǔn)，從而顯著地提升了業(yè)界基準(zhǔn)水平，也為一些公司提供了參照。有很多客戶把Seetaface代碼用到產(chǎn)品中，并進(jìn)而與我們建立了更深度的合作。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

在這里我也展示我們的一些核心技術(shù)：

多視角人臉檢測技術(shù)

在人臉檢測方面實(shí)現(xiàn)多姿態(tài)的檢測，在FDDB上是最好的方法之一。其實(shí)人臉檢測大家都非常熟悉，就是我們把這個畫面有多少個人臉找出來。FDDB也是在這個領(lǐng)域里面被廣泛采用的標(biāo)準(zhǔn)評測，我們在100個誤檢時達(dá)到了接近93%的檢測率。另外，我們還實(shí)現(xiàn)了很多加速的方法，實(shí)現(xiàn)人臉的快速檢測，包括在一些嵌入式設(shè)備上實(shí)現(xiàn)實(shí)時的檢測。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

面部關(guān)鍵點(diǎn)定位技術(shù)

面部關(guān)鍵點(diǎn)定位技術(shù)，是指在檢測到人臉的基礎(chǔ)上，實(shí)現(xiàn)一面部關(guān)鍵點(diǎn)的定位。我們的技術(shù)可以定位80多個面部特征點(diǎn)，當(dāng)然我們也可以定位更多，但數(shù)目并不是關(guān)鍵。我們已實(shí)現(xiàn)超實(shí)時的特征點(diǎn)定位，在相關(guān)的數(shù)據(jù)庫中我們也取得了最好的成績?；谶@些技術(shù)，我們落地了一些人臉識別應(yīng)用，包括1：1的人證比對、網(wǎng)紋身份證照片人臉驗(yàn)證、以及人臉考勤系統(tǒng)等。與簡單人證比對相比，在公安的應(yīng)用場景，身份證查驗(yàn)中心會把照片加一個網(wǎng)紋，再傳回來，而我們則需要首先把網(wǎng)紋去掉，再跟現(xiàn)場人員比較看看是不是這個人。目前我們的算法是可以正確判斷的。在人臉考勤方面，技術(shù)已經(jīng)成功應(yīng)用，可以實(shí)現(xiàn)1萬員工的考勤和門禁，在誤識率約為1%的情況下，可以達(dá)到95%以上的正確識別率。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

情感計(jì)算與心率估計(jì)

此外我們公司還在情緒感知方面有一些積累，可以實(shí)現(xiàn)85%以上的表情識別率。SeetaVision還可以實(shí)現(xiàn)準(zhǔn)確的心律估計(jì)，這里的心律估計(jì)是指通過攝像頭拍攝人臉部視頻來估計(jì)人的心跳次數(shù)。只要攝像條件好，即可準(zhǔn)確估計(jì)。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

手勢識別與視頻結(jié)構(gòu)化分析

我們還有一些手勢識別的技術(shù)，以及手語實(shí)時翻譯技術(shù)。手語識別是指，用手語打一句話，把手語實(shí)時翻譯成文本，我們目前已經(jīng)和美的合作，實(shí)現(xiàn)對一些基本手勢的準(zhǔn)確識別，用于智能家居控制。

此外在視頻結(jié)構(gòu)化分析方面，我們也可以實(shí)現(xiàn)人車的跟蹤，在TX1上做到準(zhǔn)確度85%以上的實(shí)時檢測。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

無人機(jī)視覺技術(shù)

我們還有一個方向是在做無人機(jī)視覺，能夠?qū)崿F(xiàn)地面車輛目標(biāo)檢測，以及地面車輛的實(shí)時跟蹤。左圖是地面車輛目標(biāo)檢測。每個綠框都是我們檢測出來的車輛。我們特意選了一個堵車的場景，在目標(biāo)如此小且密集的情況下，人為識別都是有很多困難的，但我們的算法能夠?qū)崿F(xiàn)接近90%精度的檢測。右邊的視頻是實(shí)現(xiàn)跟蹤，能夠?qū)崿F(xiàn)對地面上車輛的實(shí)時跟蹤。

下面我回到報告的主題上來，即X數(shù)據(jù)驅(qū)動，針對X是什么，我想講幾種不同的場景。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

第一，X=大，就是大數(shù)據(jù)驅(qū)動的視覺引擎的設(shè)計(jì)。現(xiàn)在，無論大公司還是小公司，都是在拼命的收集數(shù)據(jù)，進(jìn)行深度學(xué)習(xí)模型的優(yōu)化和訓(xùn)練。我們在人臉方面有百萬級人數(shù)的億級人臉數(shù)據(jù)，每個人又進(jìn)一步有很多不同的場景和照片。我們在車輛和行人方面也有千萬量級的圖像和視頻，我們對這些數(shù)據(jù)做了大量的標(biāo)注，如：人的頭部、軀干和四肢的標(biāo)注信息。在無人機(jī)視覺方面，我們大概三四個月時間，就積累了百萬量級的無人機(jī)視覺數(shù)據(jù)，可以實(shí)現(xiàn)對車輛目標(biāo)以及車輛類型的檢測和估計(jì)。在大數(shù)據(jù)的條件下，類似于人的熟能生巧和見多識廣，見得多你就可以積累出來非常多的經(jīng)驗(yàn)。

第二，X=小，在很多場景下，我們?nèi)祟惈@得智能的能力并沒有依賴于大量的數(shù)據(jù)學(xué)習(xí)，反而是一些小數(shù)據(jù)。所以在小數(shù)據(jù)的情況下，如何使得我們的算法也能夠有效果。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

最通常的思路是做遷移學(xué)習(xí)，所謂遷移學(xué)習(xí)最簡單的是做Finetune，我們把一個已經(jīng)訓(xùn)練好的模型，再用小量的數(shù)據(jù)做調(diào)整和優(yōu)化，使得它適應(yīng)這些小數(shù)據(jù)所代表的應(yīng)用場景。例如：我們在2015年參加感知年齡估計(jì)的競賽并取得了亞軍。我們采用的算法是首先在人臉識別的數(shù)據(jù)庫里面，利用百萬級的數(shù)據(jù)做訓(xùn)練，再用幾萬量級真實(shí)年齡的數(shù)據(jù)做Finetune，最后在競賽方提供的感知年齡的測試數(shù)據(jù)集上，取得了非常好的效果。

在表情識別方面，我們在2014年參加了一個競賽，因?yàn)闆]有大量的表情數(shù)據(jù)，因此，我們采用人臉識別的數(shù)據(jù)做訓(xùn)練，直接拿人臉識別的特征來做，最后也是取得第一名的成績。可見我們很多的任務(wù)，特別是相關(guān)的任務(wù)，是可以運(yùn)用相關(guān)領(lǐng)域的數(shù)據(jù)來實(shí)現(xiàn)遷移的。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

另外一個例子，比如面部特征點(diǎn)定位，要用到在面部標(biāo)注點(diǎn)的數(shù)據(jù)集?，F(xiàn)在學(xué)術(shù)界或者工業(yè)界可能會有很多不同類型的數(shù)據(jù)，比如一個數(shù)據(jù)集可能是68個點(diǎn)、另外一個數(shù)據(jù)集是74個點(diǎn)，它們之間的定義是不一樣的，如何把它合并起來，使它變大，從而形成更好的算法，也是一個很值得關(guān)注的方向。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

我們的一個博士生就做了這樣的一個算法，利用預(yù)測填補(bǔ)和深度回歸的方式解決問題，其背后也是深度學(xué)習(xí)的方法以及一些適應(yīng)性的調(diào)整。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

另外一個例子，手機(jī)上會有越來越多的攝像頭，這些攝像頭有可能是彩色的、也有可能是黑白的、還有可能是深度的，還有可能是近紅外的。這些攝像頭采集的數(shù)據(jù)，如何實(shí)現(xiàn)共用，這也是一個非常值得研究的話題。比如說在RGB-D數(shù)據(jù)集不足的情況下，如何基于大量的RGB數(shù)據(jù)來完成跨模態(tài)的融合，以實(shí)現(xiàn)更好的結(jié)果。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

首先通過不同模態(tài)的數(shù)據(jù)分別建立深度學(xué)習(xí)的模型，之后再通過共有的網(wǎng)絡(luò)去實(shí)現(xiàn)它們的融合，再反饋回來調(diào)整每個模塊的深度模型，最終可以實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)之間的跨模態(tài)的比對以及融合利用。

這種方式其實(shí)也是在利用小數(shù)據(jù)和大數(shù)據(jù)的關(guān)系，在小數(shù)據(jù)條件下更好地學(xué)習(xí)算法模型。利用這樣的一種方式，我們在去年2016CVPR上發(fā)布的模型，實(shí)現(xiàn)了彩色和深度信息之間的融合，乃至比對。這就是第二個X=小數(shù)據(jù)。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

第三，X=臟，還有很多情況下是臟數(shù)據(jù)。所謂的臟數(shù)據(jù)，比如在百度圖片搜索“成龍”，確實(shí)會反饋很多成龍的照片，但是也會有大量的不是成龍的照片。而我們又不想雇1000個人大量的數(shù)據(jù)把它標(biāo)注出來，干脆就基于有噪聲的數(shù)據(jù)實(shí)現(xiàn)機(jī)器學(xué)習(xí)。所以我們在今年提出具有“自糾錯學(xué)習(xí)”能力的深度學(xué)習(xí)方法，在深度學(xué)習(xí)的過程中，一邊去學(xué)習(xí)算法，一邊去估計(jì)哪些樣本的標(biāo)簽可能是錯誤的，我們把一些可能錯誤的標(biāo)簽修正過來，從而得到更好的算法。利用這種策略，我們發(fā)現(xiàn)，即使加了40%或者60%的錯誤標(biāo)簽，我們的算法也能夠?qū)崿F(xiàn)不錯的深度學(xué)習(xí)效果。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

X=臟，這個臟還可能有另外一層含義，比如說有遮擋的情況。我們也提出了一個算法，在這個任務(wù)里面，我們能夠把面部的遮擋部分、臟的部分補(bǔ)出來，補(bǔ)出來之后再去實(shí)現(xiàn)感知。把這兩個過程迭代起來，形成聯(lián)合的學(xué)習(xí)，這個工作發(fā)表在去年的CVPR上面，也是取得了非常不錯的效果。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

第四，X還可能是無監(jiān)督數(shù)據(jù)。所謂的無監(jiān)督數(shù)據(jù)是指沒有標(biāo)簽可以利用的數(shù)據(jù)。想象一個場景，比如我們手里面有大量東方人的有標(biāo)簽數(shù)據(jù)，但是有標(biāo)簽的黑人數(shù)據(jù)相對較少，而我們可以在網(wǎng)上找到大量的無標(biāo)簽的黑人數(shù)據(jù)，我們?nèi)绾文軌蚶眠@些沒有標(biāo)簽的數(shù)據(jù)進(jìn)行識別，這是一個很重要的問題。因?yàn)橹挥脰|方人的數(shù)據(jù)做訓(xùn)練，去識別黑人效果會非常差，反過來也是一樣，所以我們要進(jìn)行模型的調(diào)整，以實(shí)現(xiàn)從東方人數(shù)據(jù)到無監(jiān)督的黑人數(shù)據(jù)的遷移。我們這方面的工作發(fā)表在ICCV2015上面。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

第五，X還可以是增廣數(shù)據(jù)，即通過對已有少量數(shù)據(jù)進(jìn)行修改的方式，來生成大量數(shù)據(jù)。人類有一種能力叫做舉一反三，比如說給大家一張平面的照片，可能看到這張很帥的照片之后，你就會浮想聯(lián)翩，怎么浮想呢？可能會想這個人從側(cè)面看是什么樣子，他笑起來是什么樣子，他戴上眼鏡會變成什么樣子，我們具備這種能力。我們能不能讓機(jī)器也有這樣的能力，從一張照片增廣出大量數(shù)據(jù)，用于學(xué)習(xí)。這里示例的是我們基于三維模型的方法做數(shù)據(jù)增廣的效果，我們可以生成這位帥哥在不同視角條件下的照片。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

完成這個任務(wù)，另外一種方法是采用這兩年非?；鸬腉AN方法。輸入最左側(cè)的照片，用GAN可以生成不同表情的照片。還可以有更加復(fù)雜的，比如說帶上眼鏡，加上胡子等等。當(dāng)然這個也是有條件的，并不是說每張照片都可以做得這么好，基于GAN生成的人臉圖像是不是能夠用于提升算法，目前還是存疑的。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

總結(jié)一下，X等于什么呢？大數(shù)據(jù)、小數(shù)據(jù)、無監(jiān)督數(shù)據(jù)、臟數(shù)據(jù)、或者通過增廣的方式，實(shí)現(xiàn)更大量數(shù)據(jù)的收集。其實(shí)還有一個非常重要的角度，就是類比人，人在很多時候都是自尋煩惱，當(dāng)然不是自尋煩惱，是自尋數(shù)據(jù)。例如，在我們觀察一個物體的時候，如果從一個角度不能全面觀察，我們會移動來收集不同視角的數(shù)據(jù)，這種主動收集數(shù)據(jù)的能力，是現(xiàn)階段AI系統(tǒng)升級為自主AI系統(tǒng)的必備能力，特別是對自主無人機(jī)和機(jī)器人。

此外，從整個視覺智能的宏觀角度來說，我們現(xiàn)在已經(jīng)非常清晰的看到，魯棒性是視覺智能乃至整個AI的核心問題之一，即如何能夠?qū)崿F(xiàn)萬無一失。其實(shí)，現(xiàn)在像人臉識別的場景下，有些情況下我們已經(jīng)做到萬無一失，但是仍有很多實(shí)際應(yīng)用的場景，例如智能駕駛等領(lǐng)域，我們需要的是百萬無一失，意味著我們需要百萬分之一的錯誤率。在這樣的條件下，才能夠有更加廣泛的應(yīng)用。在這種情況下，是不是僅有大數(shù)據(jù)就足夠，這一點(diǎn)還存有疑問。

中科視拓CTO山世光：如何用X數(shù)據(jù)驅(qū)動AI成長？ | CCF-GAIR 2017

我們類比人類的發(fā)育成長過程，人類具備兩個特性：一是多模態(tài)數(shù)據(jù)協(xié)同；二是基于小樣本的自主學(xué)習(xí)。

多模態(tài)數(shù)據(jù)協(xié)同

人類的多模態(tài)數(shù)據(jù)協(xié)同是指什么呢？對于人來說，除了眼睛之外，我們有很多其它信息來對我們的智力發(fā)育提供幫助，包括語音、姿態(tài)、動作、以及背后有大量的知識庫作支撐。因此，人本身是需要一個多模態(tài)系統(tǒng)協(xié)同工作的魯棒AI，這帶給我們一個思路，AI的成長和發(fā)育也需要多模態(tài)。

基于小樣本的自主學(xué)習(xí)

對人的智能發(fā)育來說，我們生來就有“大腦”，有所謂的智商，我們從一出生的時候，神經(jīng)系統(tǒng)基本上發(fā)育的差不多，到3歲就基本發(fā)育完畢。也就是說，人類作為一種高級生物，經(jīng)過數(shù)百萬年甚至更長的時間進(jìn)化出了這樣的一個”先天腦“模型。假設(shè)我們拿深度學(xué)習(xí)作為一個模型來類比，相當(dāng)于人在出生的時候，祖先已經(jīng)幫我們利用大量數(shù)據(jù)訓(xùn)練出了一個深度學(xué)習(xí)模型。

在后期的成長過程中，其實(shí)是對這個深度模型基于小數(shù)據(jù)的不斷調(diào)整和適應(yīng)性的優(yōu)化。所以說，我們認(rèn)為AI發(fā)育的非常重要的一點(diǎn)，就是如何基于小數(shù)據(jù)甚至是0數(shù)據(jù)完成智能的發(fā)育和后天的學(xué)習(xí)。比如說我跟大家描述一下某個人長成什么樣子，你并沒有見過這個人，你并沒有見過這個人的照片，我們稱為0數(shù)據(jù)，你如何能夠識別這個人，是對AI的一個挑戰(zhàn)。類似這樣的應(yīng)用場景，將來會有非常多的研究空間。

綜上，從人類智能的角度出發(fā)來看AI，AI要想在更多的場景下實(shí)現(xiàn)強(qiáng)大的視覺能力，還需要基于小數(shù)據(jù)乃至0數(shù)據(jù)情況下的自主學(xué)習(xí)能力、以及多模態(tài)的數(shù)據(jù)協(xié)同能力，這兩種能力為AI的發(fā)育提供了可能性，也為AI真正理解世界并服務(wù)人類提供了可能。

我的演講到這里，謝謝大家！

雷鋒網(wǎng)整理編輯

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。