丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊文
發(fā)送

0

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

本文作者: 楊文 2017-07-16 23:26 專題:GAIR 2017
導(dǎo)語(yǔ):山世光博士在CCF-GAIR上的分享精華

雷鋒網(wǎng)AI科技評(píng)論按:7月7日,全球人工智能和機(jī)器人峰會(huì)(CCF-GAIR 2017)在深圳如期舉辦,由CCF中國(guó)計(jì)算機(jī)學(xué)會(huì)主辦、雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的這次大會(huì)共聚集了來(lái)自全球30多位AI領(lǐng)域科學(xué)家、近300家AI明星企業(yè)。雷鋒網(wǎng)最近將會(huì)陸續(xù)放出峰會(huì)上的精華內(nèi)容,回饋給長(zhǎng)期以來(lái)支持雷鋒網(wǎng)的讀者們!

本次帶來(lái)中科視拓CTO,中科院計(jì)算所研究員山世光博士在GAIR 2017大會(huì)上的分享精華。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

山世光,中科院計(jì)算所研究員、博導(dǎo),基金委優(yōu)青,CCF青年科學(xué)獎(jiǎng)獲得者,現(xiàn)任中科院智能信息處理重點(diǎn)實(shí)驗(yàn)室常務(wù)副主任,中科視拓創(chuàng)始人、董事長(zhǎng)兼CTO。他的研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)。已在國(guó)內(nèi)外刊物和學(xué)術(shù)會(huì)議上發(fā)表論文200余篇,其中CCF A類(lèi)論文60余篇,論文被谷歌學(xué)術(shù)引用10000余次。曾應(yīng)邀擔(dān)任過(guò)ICCV,ACCV,ICPR,F(xiàn)G,ICASSP等國(guó)際會(huì)議的領(lǐng)域主席,現(xiàn)任IEEE,TIP,CVIU,PRL,Neurocomputing,F(xiàn)CS等國(guó)際學(xué)術(shù)刊物的編委。研究成果獲2005年度國(guó)家科技進(jìn)步二等獎(jiǎng),2015年度國(guó)家自然科學(xué)二等獎(jiǎng),CVPR2008 Best Student Poster Award Runner-up獎(jiǎng)。

如何看待這次AI熱潮?

谷歌AlphaGo與李世石的世紀(jì)之戰(zhàn),讓人工智能(AI)這個(gè)話題再度火爆起來(lái)。山世光博士早在20年前就開(kāi)始做AI領(lǐng)域中的計(jì)算機(jī)視覺(jué)技術(shù)研究,在這次GAIR大會(huì)分享中,他結(jié)合自己過(guò)去的科研經(jīng)歷和行業(yè)觀察,分別從四個(gè)不同的角度分析,給出了他對(duì)此次AI熱潮的一些看法:

從方法論角度看:過(guò)去幾十年流行的人類(lèi)專家知識(shí)驅(qū)動(dòng)的AI方法論被數(shù)據(jù)驅(qū)動(dòng)的AI方法論全面取代。這里的數(shù)據(jù)主要指有監(jiān)督的大數(shù)據(jù)。人類(lèi)智能的產(chǎn)生是不是也完全基于有監(jiān)督的大數(shù)據(jù)學(xué)習(xí)而來(lái)尚不得而知。從這個(gè)意義上講,計(jì)算智能和人類(lèi)智能之間的差異也不得而知。

從學(xué)術(shù)角度來(lái)看:雖然有監(jiān)督大數(shù)據(jù)驅(qū)動(dòng)的方法論在某些領(lǐng)域已經(jīng)構(gòu)建出了超越人類(lèi)智能的AI,但基于有監(jiān)督大數(shù)據(jù)的深度學(xué)習(xí)是否構(gòu)建機(jī)器智能時(shí)代充分且必要的基礎(chǔ)性方法?他個(gè)人認(rèn)為至少是不充分的,需要新的方法論。

從算法角度來(lái)看:主要得益于兩個(gè)方法:一是深度學(xué)習(xí),二是增強(qiáng)學(xué)習(xí)。增強(qiáng)學(xué)習(xí)被大家所熟知是因?yàn)锳lphaGo在圍棋上戰(zhàn)勝了人類(lèi)最強(qiáng)的棋手。但實(shí)際上增強(qiáng)學(xué)習(xí)在很多場(chǎng)景下是不能用的,至少目前在視覺(jué)和語(yǔ)音處理等任務(wù)中尚未得到有效的應(yīng)用。而深度學(xué)習(xí)可類(lèi)比人類(lèi)學(xué)習(xí)方法里的歸納學(xué)習(xí),卻不適合演繹學(xué)習(xí)。深度學(xué)習(xí)是否可以廣泛應(yīng)用于推理類(lèi)任務(wù)尚不得而知。

從做計(jì)算機(jī)視覺(jué)的角度來(lái)講:包括智能視頻監(jiān)控、考勤門(mén)禁等在內(nèi)的安防應(yīng)用以及醫(yī)療讀圖、基于視覺(jué)的汽車(chē)輔助駕駛等都是計(jì)算機(jī)視覺(jué)技術(shù)落地的方向,商業(yè)化產(chǎn)品已經(jīng)雨后春筍般涌上市場(chǎng)。

關(guān)于演講主題中的X表示什么意思,山世光博士在接下來(lái)的演講中給出了X數(shù)據(jù)的五個(gè)含義,分別是:第一,大數(shù)據(jù);第二,小數(shù)據(jù);第三,臟數(shù)據(jù);第四,無(wú)監(jiān)督數(shù)據(jù);第五,是增廣,通過(guò)增廣獲得更大的數(shù)據(jù)集。下面的分享實(shí)錄中會(huì)有對(duì)各個(gè)含義的詳細(xì)解讀。

為什么要用X數(shù)據(jù)驅(qū)動(dòng)?

山世光博士將深度學(xué)習(xí)算法、強(qiáng)大算力、大數(shù)據(jù)比作AI革命背后的“三駕馬車(chē)”,而這“三駕馬車(chē)“背后的現(xiàn)實(shí)問(wèn)題是金錢(qián)投資,需要非常厲害的牛人做深度學(xué)習(xí)算法、搭建更加強(qiáng)大的計(jì)算力平臺(tái)以及收集更多的數(shù)據(jù)。其中數(shù)據(jù)收集和標(biāo)注的成本日趨昂貴,所以他們希望在這方面看看能不能做點(diǎn)什么。

關(guān)于SeetaVision視覺(jué)技術(shù)

人臉識(shí)別技術(shù)SeetaVision的多姿態(tài)人臉檢測(cè)技術(shù),是在標(biāo)準(zhǔn)人臉檢測(cè)評(píng)測(cè)集FDDB上最好的方法之一。在100個(gè)誤檢的情況下,SeetaVision的檢測(cè)率達(dá)到了92%,此外還研發(fā)了檢測(cè)加速技術(shù),從而可以在嵌入式設(shè)備上實(shí)現(xiàn)實(shí)時(shí)的多姿態(tài)人臉檢測(cè)。第二個(gè)人臉核心技術(shù)是面部關(guān)鍵特征點(diǎn)的定位,SeetaVision實(shí)現(xiàn)了81個(gè)關(guān)鍵特征點(diǎn)的超實(shí)時(shí)檢測(cè)與跟蹤。SeetaVison人臉識(shí)別具體應(yīng)用包括人證一致性驗(yàn)證,員工考勤與打卡、黑白名單目標(biāo)人檢測(cè)等。

手勢(shì)識(shí)別:SeetaVision可以實(shí)現(xiàn)實(shí)時(shí)的手語(yǔ)翻譯,就像語(yǔ)音識(shí)別一樣,把1000常用詞形成的手語(yǔ)句子翻譯成自然語(yǔ)言文本?;诖耍曂啬壳耙呀?jīng)和美的合作,將其應(yīng)用于智能家居中。

情感計(jì)算:SeetaVision的基本表情識(shí)別率超過(guò)85%,基于普通攝像頭的心率估計(jì)也非常接近醫(yī)療設(shè)備的檢測(cè)結(jié)果。

視頻結(jié)構(gòu)化:面向智能視頻監(jiān)控類(lèi)應(yīng)用,SeetaVision實(shí)現(xiàn)了嵌入式設(shè)備上的實(shí)時(shí)人車(chē)跟蹤,準(zhǔn)確度超過(guò)85%。

無(wú)人機(jī)視覺(jué):針對(duì)無(wú)人機(jī)地面目標(biāo)檢測(cè)任務(wù),SeetaVision實(shí)現(xiàn)了高清視頻中地面車(chē)輛等目標(biāo)的實(shí)時(shí)檢測(cè)、分類(lèi)與跟蹤。

山世光博士還表示,中科視拓的終極目標(biāo)是讓AI知人識(shí)面看世界,給每個(gè)AI裝上智慧的眼睛,讓它看清在跟誰(shuí)交互,周?chē)h(huán)境如何,以及正在發(fā)生什么事情。而面對(duì)目前市場(chǎng)上已有多家做人臉識(shí)別等視覺(jué)技術(shù)的創(chuàng)業(yè)公司,如何才能在競(jìng)爭(zhēng)中脫穎而出,山世光博士表示,將SeetaVision的商業(yè)模式定位為“開(kāi)源賦能“,走差異化競(jìng)爭(zhēng)路線,重點(diǎn)關(guān)注與行業(yè)客戶之間的深度合作。

在大會(huì)分享的最后,山世光博士對(duì)AI未來(lái)發(fā)展需要注意哪些問(wèn)題做了一些總結(jié),他認(rèn)為:

其一,魯棒性可能是AI和視覺(jué)智能一個(gè)最致命的問(wèn)題。其二,AI的成長(zhǎng)需要多模態(tài)協(xié)同,不能單靠視覺(jué)智能或語(yǔ)音智能等。其三,如何基于小數(shù)據(jù)甚至是零數(shù)據(jù)準(zhǔn)確完成各類(lèi)視覺(jué)任務(wù),還需要大量的深入研究。

以下是山世光博士在CCF-GAIR 2017的現(xiàn)場(chǎng)實(shí)錄,雷鋒網(wǎng)做了不改動(dòng)原意的編輯:

我今天報(bào)告的題目是《X數(shù)據(jù)驅(qū)動(dòng)的Seeta平臺(tái)與技術(shù)》,可能大家都在想X是什么,這里我們暫時(shí)認(rèn)為X就是一個(gè)問(wèn)號(hào)。在接下里的報(bào)告中,我會(huì)從X數(shù)據(jù)入手,來(lái)重點(diǎn)介紹一下我們所做的工作。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

其實(shí)我們大家都非常深切的體會(huì)到,我們正在邂逅一場(chǎng)前所未有的人工智能技術(shù)革命和應(yīng)用的井噴。在這樣的一個(gè)狀態(tài)下,它的背后是有“三駕馬車(chē)”或者“三個(gè)引擎”,就是深度學(xué)習(xí)算法、強(qiáng)大算力以及大數(shù)據(jù),這些因素的共同作用才產(chǎn)生了這一輪新的AI熱潮。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

我這次報(bào)告的題目為什么叫“X數(shù)據(jù)驅(qū)動(dòng)”,主要從數(shù)據(jù)角度出發(fā),來(lái)看對(duì)AI產(chǎn)業(yè)能做什么事。

這一輪人工智能的熱潮,從方法論的角度來(lái)講,主要是源自AI研究范式的變遷。即從人類(lèi)專家知識(shí)驅(qū)動(dòng)的方法論到數(shù)據(jù)驅(qū)動(dòng)的方法論的變遷。我們指的數(shù)據(jù),其實(shí)是特指有監(jiān)督的大數(shù)據(jù):一方面是數(shù)據(jù)量必須足夠大,另一方面這些數(shù)據(jù)還必須是帶有內(nèi)容標(biāo)簽的。人類(lèi)智能的本質(zhì)同現(xiàn)在的計(jì)算智能之間的差異,在目前而言還是不得而知。因此我們非常有必要從學(xué)術(shù)角度來(lái)探討,數(shù)據(jù)驅(qū)動(dòng)或者有監(jiān)督的大數(shù)據(jù)驅(qū)動(dòng)這樣一種方法論,是否會(huì)是我們構(gòu)建整個(gè)機(jī)器智能時(shí)代的基礎(chǔ)設(shè)施。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

當(dāng)然,在目前這種有監(jiān)督大數(shù)據(jù)驅(qū)動(dòng)的方法論條件下,在某些領(lǐng)域確實(shí)已經(jīng)出現(xiàn)AI超越人類(lèi)智能的情況。這一輪AI熱潮,從算法角度,主要得益于兩個(gè)東西:一是深度學(xué)習(xí),二是增強(qiáng)學(xué)習(xí)。增強(qiáng)學(xué)習(xí)被大家熟知是因?yàn)锳lphaGo在圍棋上戰(zhàn)勝了人類(lèi)最強(qiáng)的棋手。實(shí)際上增強(qiáng)學(xué)習(xí)并不是放之四海皆可用的方法,它在很多場(chǎng)景下是不能用的,特別是在視覺(jué)和語(yǔ)音等場(chǎng)景下并沒(méi)有得到非常有效的應(yīng)用。因?yàn)樗枰狝I能夠自動(dòng)的判斷對(duì)錯(cuò),比如說(shuō)下圍棋或者一個(gè)游戲,做得好或者不好,算法是可以自動(dòng)去判斷好或者不好、對(duì)或者錯(cuò)的。像我們的視覺(jué)、聽(tīng)覺(jué)這樣的一些問(wèn)題,比如說(shuō)做人臉識(shí)別,AI算法本身識(shí)別錯(cuò)了,它是不能夠知道自己識(shí)別錯(cuò)了的,識(shí)別對(duì)了它自己也不知道,所以很難形成一個(gè)迭代的自我增強(qiáng)過(guò)程。如果是硬去迭代,很可能會(huì)學(xué)偏學(xué)傻,乃至走火入魔。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

所以增強(qiáng)學(xué)習(xí)在這些問(wèn)題上并沒(méi)有得到非常好的應(yīng)用。深度學(xué)習(xí)目前適合解決我稱之為“好數(shù)據(jù)肥沃”的領(lǐng)域,而且通常只對(duì)應(yīng)于人類(lèi)學(xué)習(xí)方法里的歸納學(xué)習(xí)。然而,人類(lèi)的學(xué)習(xí)除了歸納學(xué)習(xí)之外,還有演繹推理。針對(duì)演繹推理,深度學(xué)習(xí)則存在嚴(yán)重短板。舉個(gè)演繹推理的例子,比如說(shuō)《幾何原本》,是歐幾里德從5條公理推演出來(lái)的。想用深度學(xué)習(xí)做這類(lèi)自動(dòng)推演,目前來(lái)看是完全沒(méi)有希望的。當(dāng)然,這是一個(gè)很極端的例子,但我們?cè)谌粘I钪惺切枰罅客评淼?,深度學(xué)習(xí)在這一點(diǎn)上,目前來(lái)看也沒(méi)有太多可以有作為的地方。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

李開(kāi)復(fù)老師在過(guò)去一段時(shí)間多次提及,在未來(lái)10年可能人工智能會(huì)取代10種職業(yè)50%的工作。我不知道大家怎么去看,我個(gè)人覺(jué)得保姆可能還是很難取代的,也許醫(yī)生更有可能會(huì)被取代。從我們做計(jì)算機(jī)視覺(jué)的角度來(lái)講,醫(yī)療讀圖是一個(gè)很重要的方向。對(duì)于做人臉識(shí)別或者圖像識(shí)別的人來(lái)說(shuō),保安則是我們更感興趣的群體,在未來(lái)10年,也許不是50%,而是80%的保安,會(huì)被一些自動(dòng)的系統(tǒng)所取代。比如說(shuō)我們的一個(gè)企業(yè)客戶,用我們的人臉識(shí)別技術(shù)做單位的門(mén)禁和考勤,在1萬(wàn)個(gè)員工的情況下,可以實(shí)現(xiàn)不需要員工卡自動(dòng)做識(shí)別、開(kāi)門(mén)和考勤的系統(tǒng),我想可能未來(lái)真的不需要一個(gè)保安坐在那兒了。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

我和我的學(xué)生們?cè)谌ツ?月,基于計(jì)算所在視覺(jué)信息處學(xué)習(xí)方面的研究成果做了一個(gè)公司,叫做中科視拓,形成了一個(gè)產(chǎn)學(xué)研聯(lián)合體,一起開(kāi)發(fā)SeetaVision技術(shù)。我們的目標(biāo)是讓AI能知人識(shí)面看世界,讓每個(gè)AI都長(zhǎng)上智慧的眼睛,讓它看清它在跟誰(shuí)交流、了解周?chē)诎l(fā)生什么事情,以便智能地應(yīng)對(duì)這些場(chǎng)景。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

我們主要的底層技術(shù),就是在機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)理論、方法與技術(shù)?;谶@些機(jī)器學(xué)習(xí)的方法,在人臉識(shí)別、情感計(jì)算、視頻結(jié)構(gòu)化和無(wú)人機(jī)視覺(jué)等方面,我們有自己的一些布局。我們過(guò)去的積累包括在這些領(lǐng)域的競(jìng)賽中,取得一些最好的成績(jī),其中包括人臉識(shí)別、手勢(shì)識(shí)別、行人檢測(cè)、圖像搜索等等任務(wù)。我們剛才也提到,業(yè)界已經(jīng)有像商湯、Face++等等有很多前輩公司,比我們?cè)缱吡硕嗄辍N覀冊(cè)谏虡I(yè)模式上也希望不斷探索新的路徑。當(dāng)前階段,我們采取”開(kāi)源賦能“的差異化做法與一些重點(diǎn)客戶開(kāi)展了深度合作。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

所謂的開(kāi)源,是指我們可以給B端客戶提供源碼級(jí)的引擎技術(shù)。更進(jìn)一步的是賦能,我們可以提供生成這些引擎的引擎技術(shù)。通俗地講,我們不但賣(mài)雞蛋,還賣(mài)下蛋的雞,這是完全不同的合作模式。去年8月中科視拓開(kāi)源了Seetaface人臉識(shí)別引擎,它雖然不是業(yè)界最好的人臉技術(shù),但提供了一個(gè)優(yōu)秀的基準(zhǔn),從而顯著地提升了業(yè)界基準(zhǔn)水平,也為一些公司提供了參照。有很多客戶把Seetaface代碼用到產(chǎn)品中,并進(jìn)而與我們建立了更深度的合作。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

在這里我也展示我們的一些核心技術(shù):

多視角人臉檢測(cè)技術(shù)

在人臉檢測(cè)方面實(shí)現(xiàn)多姿態(tài)的檢測(cè),在FDDB上是最好的方法之一。其實(shí)人臉檢測(cè)大家都非常熟悉,就是我們把這個(gè)畫(huà)面有多少個(gè)人臉找出來(lái)。FDDB也是在這個(gè)領(lǐng)域里面被廣泛采用的標(biāo)準(zhǔn)評(píng)測(cè),我們?cè)?00個(gè)誤檢時(shí)達(dá)到了接近93%的檢測(cè)率。另外,我們還實(shí)現(xiàn)了很多加速的方法,實(shí)現(xiàn)人臉的快速檢測(cè),包括在一些嵌入式設(shè)備上實(shí)現(xiàn)實(shí)時(shí)的檢測(cè)。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

面部關(guān)鍵點(diǎn)定位技術(shù)

面部關(guān)鍵點(diǎn)定位技術(shù),是指在檢測(cè)到人臉的基礎(chǔ)上,實(shí)現(xiàn)一面部關(guān)鍵點(diǎn)的定位。我們的技術(shù)可以定位80多個(gè)面部特征點(diǎn),當(dāng)然我們也可以定位更多,但數(shù)目并不是關(guān)鍵。我們已實(shí)現(xiàn)超實(shí)時(shí)的特征點(diǎn)定位,在相關(guān)的數(shù)據(jù)庫(kù)中我們也取得了最好的成績(jī)。基于這些技術(shù),我們落地了一些人臉識(shí)別應(yīng)用,包括1:1的人證比對(duì)、網(wǎng)紋身份證照片人臉驗(yàn)證、以及人臉考勤系統(tǒng)等。與簡(jiǎn)單人證比對(duì)相比,在公安的應(yīng)用場(chǎng)景,身份證查驗(yàn)中心會(huì)把照片加一個(gè)網(wǎng)紋,再傳回來(lái),而我們則需要首先把網(wǎng)紋去掉,再跟現(xiàn)場(chǎng)人員比較看看是不是這個(gè)人。目前我們的算法是可以正確判斷的。在人臉考勤方面,技術(shù)已經(jīng)成功應(yīng)用,可以實(shí)現(xiàn)1萬(wàn)員工的考勤和門(mén)禁,在誤識(shí)率約為1%的情況下,可以達(dá)到95%以上的正確識(shí)別率。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

情感計(jì)算與心率估計(jì)

此外我們公司還在情緒感知方面有一些積累,可以實(shí)現(xiàn)85%以上的表情識(shí)別率。SeetaVision還可以實(shí)現(xiàn)準(zhǔn)確的心律估計(jì),這里的心律估計(jì)是指通過(guò)攝像頭拍攝人臉部視頻來(lái)估計(jì)人的心跳次數(shù)。只要攝像條件好,即可準(zhǔn)確估計(jì)。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

手勢(shì)識(shí)別與視頻結(jié)構(gòu)化分析

我們還有一些手勢(shì)識(shí)別的技術(shù),以及手語(yǔ)實(shí)時(shí)翻譯技術(shù)。手語(yǔ)識(shí)別是指,用手語(yǔ)打一句話,把手語(yǔ)實(shí)時(shí)翻譯成文本,我們目前已經(jīng)和美的合作,實(shí)現(xiàn)對(duì)一些基本手勢(shì)的準(zhǔn)確識(shí)別,用于智能家居控制。

此外在視頻結(jié)構(gòu)化分析方面,我們也可以實(shí)現(xiàn)人車(chē)的跟蹤,在TX1上做到準(zhǔn)確度85%以上的實(shí)時(shí)檢測(cè)。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

無(wú)人機(jī)視覺(jué)技術(shù)

我們還有一個(gè)方向是在做無(wú)人機(jī)視覺(jué),能夠?qū)崿F(xiàn)地面車(chē)輛目標(biāo)檢測(cè),以及地面車(chē)輛的實(shí)時(shí)跟蹤。左圖是地面車(chē)輛目標(biāo)檢測(cè)。每個(gè)綠框都是我們檢測(cè)出來(lái)的車(chē)輛。我們特意選了一個(gè)堵車(chē)的場(chǎng)景,在目標(biāo)如此小且密集的情況下,人為識(shí)別都是有很多困難的,但我們的算法能夠?qū)崿F(xiàn)接近90%精度的檢測(cè)。右邊的視頻是實(shí)現(xiàn)跟蹤,能夠?qū)崿F(xiàn)對(duì)地面上車(chē)輛的實(shí)時(shí)跟蹤。

下面我回到報(bào)告的主題上來(lái),即X數(shù)據(jù)驅(qū)動(dòng),針對(duì)X是什么,我想講幾種不同的場(chǎng)景。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

第一,X=大,就是大數(shù)據(jù)驅(qū)動(dòng)的視覺(jué)引擎的設(shè)計(jì)。現(xiàn)在,無(wú)論大公司還是小公司,都是在拼命的收集數(shù)據(jù),進(jìn)行深度學(xué)習(xí)模型的優(yōu)化和訓(xùn)練。我們?cè)谌四樂(lè)矫嬗邪偃f(wàn)級(jí)人數(shù)的億級(jí)人臉數(shù)據(jù),每個(gè)人又進(jìn)一步有很多不同的場(chǎng)景和照片。我們?cè)谲?chē)輛和行人方面也有千萬(wàn)量級(jí)的圖像和視頻,我們對(duì)這些數(shù)據(jù)做了大量的標(biāo)注,如:人的頭部、軀干和四肢的標(biāo)注信息。在無(wú)人機(jī)視覺(jué)方面,我們大概三四個(gè)月時(shí)間,就積累了百萬(wàn)量級(jí)的無(wú)人機(jī)視覺(jué)數(shù)據(jù),可以實(shí)現(xiàn)對(duì)車(chē)輛目標(biāo)以及車(chē)輛類(lèi)型的檢測(cè)和估計(jì)。在大數(shù)據(jù)的條件下,類(lèi)似于人的熟能生巧和見(jiàn)多識(shí)廣,見(jiàn)得多你就可以積累出來(lái)非常多的經(jīng)驗(yàn)。

第二,X=小,在很多場(chǎng)景下,我們?nèi)祟?lèi)獲得智能的能力并沒(méi)有依賴于大量的數(shù)據(jù)學(xué)習(xí),反而是一些小數(shù)據(jù)。所以在小數(shù)據(jù)的情況下,如何使得我們的算法也能夠有效果。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

最通常的思路是做遷移學(xué)習(xí),所謂遷移學(xué)習(xí)最簡(jiǎn)單的是做Finetune,我們把一個(gè)已經(jīng)訓(xùn)練好的模型,再用小量的數(shù)據(jù)做調(diào)整和優(yōu)化,使得它適應(yīng)這些小數(shù)據(jù)所代表的應(yīng)用場(chǎng)景。例如:我們?cè)?015年參加感知年齡估計(jì)的競(jìng)賽并取得了亞軍。我們采用的算法是首先在人臉識(shí)別的數(shù)據(jù)庫(kù)里面,利用百萬(wàn)級(jí)的數(shù)據(jù)做訓(xùn)練,再用幾萬(wàn)量級(jí)真實(shí)年齡的數(shù)據(jù)做Finetune,最后在競(jìng)賽方提供的感知年齡的測(cè)試數(shù)據(jù)集上,取得了非常好的效果。

在表情識(shí)別方面,我們?cè)?014年參加了一個(gè)競(jìng)賽,因?yàn)闆](méi)有大量的表情數(shù)據(jù),因此,我們采用人臉識(shí)別的數(shù)據(jù)做訓(xùn)練,直接拿人臉識(shí)別的特征來(lái)做,最后也是取得第一名的成績(jī)??梢?jiàn)我們很多的任務(wù),特別是相關(guān)的任務(wù),是可以運(yùn)用相關(guān)領(lǐng)域的數(shù)據(jù)來(lái)實(shí)現(xiàn)遷移的。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

另外一個(gè)例子,比如面部特征點(diǎn)定位,要用到在面部標(biāo)注點(diǎn)的數(shù)據(jù)集?,F(xiàn)在學(xué)術(shù)界或者工業(yè)界可能會(huì)有很多不同類(lèi)型的數(shù)據(jù),比如一個(gè)數(shù)據(jù)集可能是68個(gè)點(diǎn)、另外一個(gè)數(shù)據(jù)集是74個(gè)點(diǎn),它們之間的定義是不一樣的,如何把它合并起來(lái),使它變大,從而形成更好的算法,也是一個(gè)很值得關(guān)注的方向。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

我們的一個(gè)博士生就做了這樣的一個(gè)算法,利用預(yù)測(cè)填補(bǔ)和深度回歸的方式解決問(wèn)題,其背后也是深度學(xué)習(xí)的方法以及一些適應(yīng)性的調(diào)整。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

另外一個(gè)例子,手機(jī)上會(huì)有越來(lái)越多的攝像頭,這些攝像頭有可能是彩色的、也有可能是黑白的、還有可能是深度的,還有可能是近紅外的。這些攝像頭采集的數(shù)據(jù),如何實(shí)現(xiàn)共用,這也是一個(gè)非常值得研究的話題。比如說(shuō)在RGB-D數(shù)據(jù)集不足的情況下,如何基于大量的RGB數(shù)據(jù)來(lái)完成跨模態(tài)的融合,以實(shí)現(xiàn)更好的結(jié)果。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

首先通過(guò)不同模態(tài)的數(shù)據(jù)分別建立深度學(xué)習(xí)的模型,之后再通過(guò)共有的網(wǎng)絡(luò)去實(shí)現(xiàn)它們的融合,再反饋回來(lái)調(diào)整每個(gè)模塊的深度模型,最終可以實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)之間的跨模態(tài)的比對(duì)以及融合利用。

這種方式其實(shí)也是在利用小數(shù)據(jù)和大數(shù)據(jù)的關(guān)系,在小數(shù)據(jù)條件下更好地學(xué)習(xí)算法模型。利用這樣的一種方式,我們?cè)谌ツ?016CVPR上發(fā)布的模型,實(shí)現(xiàn)了彩色和深度信息之間的融合,乃至比對(duì)。這就是第二個(gè)X=小數(shù)據(jù)。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

第三,X=臟,還有很多情況下是臟數(shù)據(jù)。所謂的臟數(shù)據(jù),比如在百度圖片搜索“成龍”,確實(shí)會(huì)反饋很多成龍的照片,但是也會(huì)有大量的不是成龍的照片。而我們又不想雇1000個(gè)人大量的數(shù)據(jù)把它標(biāo)注出來(lái),干脆就基于有噪聲的數(shù)據(jù)實(shí)現(xiàn)機(jī)器學(xué)習(xí)。所以我們?cè)诮衲晏岢鼍哂小白约m錯(cuò)學(xué)習(xí)”能力的深度學(xué)習(xí)方法,在深度學(xué)習(xí)的過(guò)程中,一邊去學(xué)習(xí)算法,一邊去估計(jì)哪些樣本的標(biāo)簽可能是錯(cuò)誤的,我們把一些可能錯(cuò)誤的標(biāo)簽修正過(guò)來(lái),從而得到更好的算法。利用這種策略,我們發(fā)現(xiàn),即使加了40%或者60%的錯(cuò)誤標(biāo)簽,我們的算法也能夠?qū)崿F(xiàn)不錯(cuò)的深度學(xué)習(xí)效果。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

X=臟,這個(gè)臟還可能有另外一層含義,比如說(shuō)有遮擋的情況。我們也提出了一個(gè)算法,在這個(gè)任務(wù)里面,我們能夠把面部的遮擋部分、臟的部分補(bǔ)出來(lái),補(bǔ)出來(lái)之后再去實(shí)現(xiàn)感知。把這兩個(gè)過(guò)程迭代起來(lái),形成聯(lián)合的學(xué)習(xí),這個(gè)工作發(fā)表在去年的CVPR上面,也是取得了非常不錯(cuò)的效果。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

第四,X還可能是無(wú)監(jiān)督數(shù)據(jù)。所謂的無(wú)監(jiān)督數(shù)據(jù)是指沒(méi)有標(biāo)簽可以利用的數(shù)據(jù)。想象一個(gè)場(chǎng)景,比如我們手里面有大量東方人的有標(biāo)簽數(shù)據(jù),但是有標(biāo)簽的黑人數(shù)據(jù)相對(duì)較少,而我們可以在網(wǎng)上找到大量的無(wú)標(biāo)簽的黑人數(shù)據(jù),我們?nèi)绾文軌蚶眠@些沒(méi)有標(biāo)簽的數(shù)據(jù)進(jìn)行識(shí)別,這是一個(gè)很重要的問(wèn)題。因?yàn)橹挥脰|方人的數(shù)據(jù)做訓(xùn)練,去識(shí)別黑人效果會(huì)非常差,反過(guò)來(lái)也是一樣,所以我們要進(jìn)行模型的調(diào)整,以實(shí)現(xiàn)從東方人數(shù)據(jù)到無(wú)監(jiān)督的黑人數(shù)據(jù)的遷移。我們這方面的工作發(fā)表在ICCV2015上面。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

第五,X還可以是增廣數(shù)據(jù),即通過(guò)對(duì)已有少量數(shù)據(jù)進(jìn)行修改的方式,來(lái)生成大量數(shù)據(jù)。人類(lèi)有一種能力叫做舉一反三,比如說(shuō)給大家一張平面的照片,可能看到這張很帥的照片之后,你就會(huì)浮想聯(lián)翩,怎么浮想呢?可能會(huì)想這個(gè)人從側(cè)面看是什么樣子,他笑起來(lái)是什么樣子,他戴上眼鏡會(huì)變成什么樣子,我們具備這種能力。我們能不能讓機(jī)器也有這樣的能力,從一張照片增廣出大量數(shù)據(jù),用于學(xué)習(xí)。這里示例的是我們基于三維模型的方法做數(shù)據(jù)增廣的效果,我們可以生成這位帥哥在不同視角條件下的照片。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

完成這個(gè)任務(wù),另外一種方法是采用這兩年非?;鸬腉AN方法。輸入最左側(cè)的照片,用GAN可以生成不同表情的照片。還可以有更加復(fù)雜的,比如說(shuō)帶上眼鏡,加上胡子等等。當(dāng)然這個(gè)也是有條件的,并不是說(shuō)每張照片都可以做得這么好,基于GAN生成的人臉圖像是不是能夠用于提升算法,目前還是存疑的。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

總結(jié)一下,X等于什么呢?大數(shù)據(jù)、小數(shù)據(jù)、無(wú)監(jiān)督數(shù)據(jù)、臟數(shù)據(jù)、或者通過(guò)增廣的方式,實(shí)現(xiàn)更大量數(shù)據(jù)的收集。其實(shí)還有一個(gè)非常重要的角度,就是類(lèi)比人,人在很多時(shí)候都是自尋煩惱,當(dāng)然不是自尋煩惱,是自尋數(shù)據(jù)。例如,在我們觀察一個(gè)物體的時(shí)候,如果從一個(gè)角度不能全面觀察,我們會(huì)移動(dòng)來(lái)收集不同視角的數(shù)據(jù),這種主動(dòng)收集數(shù)據(jù)的能力,是現(xiàn)階段AI系統(tǒng)升級(jí)為自主AI系統(tǒng)的必備能力,特別是對(duì)自主無(wú)人機(jī)和機(jī)器人。

此外,從整個(gè)視覺(jué)智能的宏觀角度來(lái)說(shuō),我們現(xiàn)在已經(jīng)非常清晰的看到,魯棒性是視覺(jué)智能乃至整個(gè)AI的核心問(wèn)題之一,即如何能夠?qū)崿F(xiàn)萬(wàn)無(wú)一失。其實(shí),現(xiàn)在像人臉識(shí)別的場(chǎng)景下,有些情況下我們已經(jīng)做到萬(wàn)無(wú)一失,但是仍有很多實(shí)際應(yīng)用的場(chǎng)景,例如智能駕駛等領(lǐng)域,我們需要的是百萬(wàn)無(wú)一失,意味著我們需要百萬(wàn)分之一的錯(cuò)誤率。在這樣的條件下,才能夠有更加廣泛的應(yīng)用。在這種情況下,是不是僅有大數(shù)據(jù)就足夠,這一點(diǎn)還存有疑問(wèn)。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

我們類(lèi)比人類(lèi)的發(fā)育成長(zhǎng)過(guò)程,人類(lèi)具備兩個(gè)特性:一是多模態(tài)數(shù)據(jù)協(xié)同;二是基于小樣本的自主學(xué)習(xí)。

多模態(tài)數(shù)據(jù)協(xié)同

人類(lèi)的多模態(tài)數(shù)據(jù)協(xié)同是指什么呢?對(duì)于人來(lái)說(shuō),除了眼睛之外,我們有很多其它信息來(lái)對(duì)我們的智力發(fā)育提供幫助,包括語(yǔ)音、姿態(tài)、動(dòng)作、以及背后有大量的知識(shí)庫(kù)作支撐。因此,人本身是需要一個(gè)多模態(tài)系統(tǒng)協(xié)同工作的魯棒AI,這帶給我們一個(gè)思路,AI的成長(zhǎng)和發(fā)育也需要多模態(tài)。

基于小樣本的自主學(xué)習(xí)

對(duì)人的智能發(fā)育來(lái)說(shuō),我們生來(lái)就有“大腦”,有所謂的智商,我們從一出生的時(shí)候,神經(jīng)系統(tǒng)基本上發(fā)育的差不多,到3歲就基本發(fā)育完畢。也就是說(shuō),人類(lèi)作為一種高級(jí)生物,經(jīng)過(guò)數(shù)百萬(wàn)年甚至更長(zhǎng)的時(shí)間進(jìn)化出了這樣的一個(gè)”先天腦“模型。假設(shè)我們拿深度學(xué)習(xí)作為一個(gè)模型來(lái)類(lèi)比,相當(dāng)于人在出生的時(shí)候,祖先已經(jīng)幫我們利用大量數(shù)據(jù)訓(xùn)練出了一個(gè)深度學(xué)習(xí)模型。

在后期的成長(zhǎng)過(guò)程中,其實(shí)是對(duì)這個(gè)深度模型基于小數(shù)據(jù)的不斷調(diào)整和適應(yīng)性的優(yōu)化。所以說(shuō),我們認(rèn)為AI發(fā)育的非常重要的一點(diǎn),就是如何基于小數(shù)據(jù)甚至是0數(shù)據(jù)完成智能的發(fā)育和后天的學(xué)習(xí)。比如說(shuō)我跟大家描述一下某個(gè)人長(zhǎng)成什么樣子,你并沒(méi)有見(jiàn)過(guò)這個(gè)人,你并沒(méi)有見(jiàn)過(guò)這個(gè)人的照片,我們稱為0數(shù)據(jù),你如何能夠識(shí)別這個(gè)人,是對(duì)AI的一個(gè)挑戰(zhàn)。類(lèi)似這樣的應(yīng)用場(chǎng)景,將來(lái)會(huì)有非常多的研究空間。

綜上,從人類(lèi)智能的角度出發(fā)來(lái)看AI,AI要想在更多的場(chǎng)景下實(shí)現(xiàn)強(qiáng)大的視覺(jué)能力,還需要基于小數(shù)據(jù)乃至0數(shù)據(jù)情況下的自主學(xué)習(xí)能力、以及多模態(tài)的數(shù)據(jù)協(xié)同能力,這兩種能力為AI的發(fā)育提供了可能性,也為AI真正理解世界并服務(wù)人類(lèi)提供了可能。

我的演講到這里,謝謝大家!

雷鋒網(wǎng)整理編輯


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動(dòng)AI成長(zhǎng)? | CCF-GAIR 2017

分享:
相關(guān)文章

編輯&記者

AI科技評(píng)論員,微信:yeohandwin
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)