1
本文作者: AI慕課學(xué)院 | 2017-12-08 16:49 |
【雷鋒網(wǎng)】AI慕課學(xué)院按:計(jì)算機(jī)視覺(jué)是一門(mén)研究如何使機(jī)器“看”的科學(xué),掌握解決具體計(jì)算機(jī)視覺(jué)任務(wù)的方法則會(huì)幫助我們解決大規(guī)模系統(tǒng)的復(fù)雜問(wèn)題,其應(yīng)用相當(dāng)廣泛,包括并不限于:圖像分類(lèi),人臉識(shí)別;車(chē)輛檢測(cè),行人檢測(cè);語(yǔ)義分割,實(shí)例分割;目標(biāo)跟蹤,視頻分割;圖像生成,視頻生成。
為了讓大家更好的理解計(jì)算機(jī)視覺(jué)在人工智能領(lǐng)域的強(qiáng)大應(yīng)用,12月7日晚,上海交通大學(xué)盧憲凱博士受【雷鋒網(wǎng)】AI慕課學(xué)院邀請(qǐng),開(kāi)展了一場(chǎng)主題為《計(jì)算機(jī)視覺(jué)概述和深度學(xué)習(xí)簡(jiǎn)介》的公開(kāi)課,盧博士在公開(kāi)課中給大家介紹了計(jì)算機(jī)視覺(jué)的定義、研究方法和應(yīng)用舉例,重點(diǎn)介紹深度學(xué)習(xí)發(fā)展歷史,常見(jiàn)深度學(xué)習(xí)網(wǎng)絡(luò)介紹和開(kāi)發(fā)平臺(tái),幫助計(jì)算機(jī)視覺(jué)入門(mén)者和從業(yè)者進(jìn)行有效的基礎(chǔ)夯實(shí)和系統(tǒng)梳理。
今天,小編就來(lái)帶大家一起來(lái)回顧本節(jié)課程中盧博士的精彩分享內(nèi)容。
首先先講一下計(jì)算機(jī)視覺(jué)的定義,計(jì)算機(jī)視覺(jué)指的是從圖像和視頻中提出數(shù)值或符號(hào)信息的一個(gè)計(jì)算。形象點(diǎn)說(shuō)的話就是計(jì)算機(jī)視覺(jué)是讓計(jì)算機(jī)具備像人一樣的眼睛去看到圖像,并且理解圖像。
在這里舉了一個(gè)特別簡(jiǎn)單的例子,就是微軟亞洲研究院之前開(kāi)發(fā)了一個(gè)系統(tǒng)叫how-old.net,當(dāng)你在這個(gè)系統(tǒng)輸入一張圖片進(jìn)去,一個(gè)成年人一個(gè)小孩的圖片都可以,它就會(huì)給你檢測(cè)出這個(gè)人的性別以及年齡,像左邊這個(gè)圖,輸入的是林志穎和郭德綱的,我們看到它的結(jié)果還是比較可靠的,雖然因?yàn)榱种痉f比較特殊(這個(gè)大家都知道的)。
再看右邊這張圖,其實(shí)就是蠻準(zhǔn)的,它首先檢測(cè)到了有兩個(gè)人臉,一個(gè)小女孩的,一個(gè)baby的臉,它首先判斷出他們的性別,還把他們的年齡判斷出來(lái),還是挺準(zhǔn)的。所以舉例子就是想說(shuō)計(jì)算機(jī)視覺(jué)它和人理解外面的世界是有點(diǎn)像的,就是要看到圖像,而且能夠理解它。
從人類(lèi)的視覺(jué)來(lái)看的話,我們看到一幅圖片,首先是經(jīng)過(guò)眼睛來(lái)看到圖片,然后經(jīng)過(guò)大腦來(lái)理解圖片,比如說(shuō)看到左邊這個(gè)圖像的話,大腦中會(huì)出現(xiàn)它的一個(gè)解釋?zhuān)哼@可能是一個(gè)花園,可能是春天的花園,里面有橋有水有樹(shù),有花,是一個(gè)綠色的背景等等。
對(duì)于計(jì)算機(jī)來(lái)說(shuō),它首先會(huì)通過(guò)一個(gè)相機(jī)或者一個(gè)攝像頭,獲取這張圖片,會(huì)用計(jì)算機(jī)它自己的一些算法來(lái)看圖片,并用預(yù)算法來(lái)理解,它也想能夠從圖片中讀出:這是一個(gè)花園,這是一個(gè)春天這些有橋有水之類(lèi)的信息。
計(jì)算機(jī)視覺(jué)就是最核心的這一步就是要理解它,理解的過(guò)程就是:
第一步先提供給它數(shù)據(jù),數(shù)據(jù)的話其實(shí)有靜態(tài)的圖片,也有一些視頻。
第二步就是要設(shè)計(jì)算法,靠人的大腦那樣去理解它,過(guò)程中需要機(jī)器學(xué)習(xí)的算法,或者是最近非常熱的深度學(xué)習(xí)的方法。
計(jì)算機(jī)視覺(jué)歸根結(jié)底的話,其實(shí)就是在做一個(gè)回歸或者分類(lèi)的問(wèn)題,所以后面講到的大部分的關(guān)于計(jì)算機(jī)視覺(jué)的任務(wù),都可以用一個(gè)回歸或者一個(gè)分類(lèi)的問(wèn)題來(lái)對(duì)它進(jìn)行建模。這就是關(guān)于計(jì)算機(jī)視覺(jué)的一個(gè)核心的定義。
計(jì)算機(jī)視覺(jué)其實(shí)無(wú)論是在學(xué)術(shù)界還是在日常生活中,抑或在工業(yè)界都已經(jīng)有了非常非常多的關(guān)注,大家都在研究、應(yīng)用。
因?yàn)檫@節(jié)公開(kāi)課只是第一節(jié)課,所以給大家是從一個(gè)更廣泛的一個(gè)面上來(lái)講,它在日常生活中的一些應(yīng)用,包括在學(xué)術(shù)上的一些研究。
第一個(gè)計(jì)算機(jī)視覺(jué)非常重要的應(yīng)用就是圖像識(shí)別或者叫圖像分類(lèi)。大家知道最近谷歌有一個(gè)學(xué)術(shù)的大牛加入,就是李飛飛教授,李飛飛教授他們組織了一個(gè)叫IM GENET的分類(lèi)比賽,比賽已經(jīng)持續(xù)了很多年,主要是要求進(jìn)行一千多類(lèi)的生活中常見(jiàn)目標(biāo)的分類(lèi),包括人、背包、交通信號(hào)燈、游泳、動(dòng)物、火柴、打網(wǎng)球等等。
比賽就是要設(shè)計(jì)一種計(jì)算機(jī)視覺(jué)的算法,能夠不斷的提升在IM GENET數(shù)據(jù)集上分類(lèi)的精度。當(dāng)然大家后來(lái)也看到一些新聞,是說(shuō)現(xiàn)在基于深度學(xué)習(xí)的方法,在數(shù)據(jù)集上其實(shí)已經(jīng)能夠超越人類(lèi)了。所以數(shù)據(jù)集是非常有意義的,它推動(dòng)了計(jì)算機(jī)視覺(jué)的發(fā)展,也讓大家更理解到了計(jì)算機(jī)視覺(jué)識(shí)別其實(shí)對(duì)我們生活將是非常重要的一個(gè)改變。
圖像識(shí)別是計(jì)算機(jī)視覺(jué)里面的基石。在后續(xù)的課程中也會(huì)著重的講一下圖像識(shí)別:到底計(jì)算機(jī)是怎么能夠區(qū)分人、書(shū)包、交通信號(hào)燈這些信息,是怎么判斷出人在游泳之類(lèi)的東西。
除了圖像識(shí)別任務(wù)的話,計(jì)算機(jī)視覺(jué)里面還有一個(gè)是任務(wù)就是精細(xì)的識(shí)別,就是說(shuō)除了廣義上常見(jiàn)的識(shí)別書(shū)包或者海報(bào)、建筑這種,其實(shí)在工業(yè)界的應(yīng)用就是特定目標(biāo)的識(shí)別,比如說(shuō)車(chē)牌的識(shí)別,其實(shí)就已經(jīng)被應(yīng)用起來(lái)了,就是在高速公路上過(guò)ETC的車(chē)道的話,你不需要經(jīng)過(guò)個(gè)人工收費(fèi)口,它就會(huì)拍你的車(chē)牌,把你的車(chē)牌的信息識(shí)別出來(lái),就對(duì)應(yīng)著它的收費(fèi)情況。
還有一個(gè)就是個(gè)人臉識(shí)別,包括之前支付寶的人臉支付等等應(yīng)用也說(shuō)明了,其實(shí)計(jì)算機(jī)視覺(jué)已經(jīng)非常廣泛的應(yīng)用到了日常的生活中,像右邊圖的話就非常有意思,它屬于人臉識(shí)別精細(xì)的一種識(shí)別,就是它不僅要識(shí)別出它的屬性,比如說(shuō)人的年齡大約是多少?
像奧巴馬這張圖的話,它就是不僅要識(shí)別出它是奧巴馬本人,它要知道奧巴馬的年齡,它的性別,它有沒(méi)有戴眼鏡,它的嘴唇是什么樣的,還有表情的識(shí)別,就是它的情緒是什么樣的,因?yàn)楸砬樽R(shí)別也是一個(gè)非常關(guān)鍵的,對(duì)于這種文化體育類(lèi)娛樂(lè)休閑產(chǎn)品來(lái)說(shuō),能夠更好地識(shí)別交互,特別是人機(jī)交互過(guò)程中的話,人的表情是非常重要的,最后的三個(gè)參數(shù)就是表示要對(duì)它進(jìn)行一定的校正的話,需要的參數(shù)。
通過(guò)這兩個(gè)例子也說(shuō)明就是說(shuō)計(jì)算機(jī)視覺(jué)里面的第一個(gè)就是圖像識(shí)別這塊的話,現(xiàn)在已經(jīng)大家都在向更專(zhuān)業(yè)的方向在做,而且它已經(jīng)廣泛的運(yùn)用到了生活中的方方面面。
講完第一個(gè)任務(wù)之后,在講計(jì)算機(jī)視覺(jué)里面的第二個(gè)任務(wù)就是目標(biāo)檢測(cè),目標(biāo)檢測(cè)是一個(gè)非常非常有趣的一個(gè)工作,特別對(duì)于學(xué)術(shù)界來(lái)說(shuō)是一個(gè)非常非常有趣的一個(gè)方向,因?yàn)樗且粋€(gè)非常有用,但是又比較難做的事情。
目標(biāo)檢測(cè)任務(wù)的話,簡(jiǎn)單來(lái)說(shuō)就是給定左邊這樣一幅圖像,需要把感興趣的前景目標(biāo)(所謂的前景目標(biāo)就是除了對(duì)信息沒(méi)有特別幫助的一些,剩下的都作為前景,比如說(shuō)在這幅圖里面的話,有兩只狗,有棵圣誕樹(shù)等等)。
目標(biāo)檢測(cè)本質(zhì)上是在做這樣一件事情:就是要把所有的感興趣的前景目標(biāo)給它檢測(cè)出來(lái),把它的類(lèi)別貼上標(biāo)簽,就是像右邊圖就表示做了一次檢測(cè)之后的結(jié)果,會(huì)檢測(cè)到兩只狗一只貓,并打上標(biāo)簽,標(biāo)明有兩個(gè)狗,有一個(gè)貓。
目標(biāo)檢測(cè)的話,它其實(shí)是對(duì)剛才講的圖像識(shí)別的一個(gè)進(jìn)一步的發(fā)展,要知道圖片里面有哪些類(lèi)別,還要知道它的位置,所以它做的是兩個(gè)任務(wù),相當(dāng)于既要把目標(biāo)找到,還要把類(lèi)別給識(shí)別出來(lái),目標(biāo)檢測(cè)雖然難,但是它的功能強(qiáng)大了非常多。
舉一個(gè)例子現(xiàn)在在安防領(lǐng)域還有城市市政這塊非常有用的例子,就是行人檢測(cè)與車(chē)輛檢測(cè),比如說(shuō)在一個(gè)智能攝像頭的終端,需要把攝像頭里面看到的所有的行人給它檢測(cè)出來(lái),檢測(cè)出來(lái)有什么用?
如果這里面的行人的人流非常大的話,就可以迅速的把攝像頭里面的人群給它估計(jì)出來(lái),對(duì)于將來(lái)可能發(fā)生一定的異常事件的話是起到一個(gè)預(yù)警作用。
右邊的圖也非常簡(jiǎn)單,就是說(shuō)如果能及時(shí)的把道路里面的車(chē)輛的給檢測(cè)出來(lái),就可以統(tǒng)計(jì)它的個(gè)數(shù),就可以實(shí)時(shí)地估計(jì)出它的車(chē)流密度,這樣的話對(duì)于疏解城市的交通也是非常有幫助的。
像上面兩個(gè)例子都只是在目標(biāo)檢測(cè)里面兩個(gè)非常細(xì)化的子任務(wù),而且也已經(jīng)在整個(gè)的日常生活中得到了應(yīng)用,都已經(jīng)默默的在為生活的方便提供幫助。
再講的就是第三個(gè)任務(wù)就是分割。分割是計(jì)算機(jī)視覺(jué)里面也是一個(gè)非常難的任務(wù),分兩種分割,一種是圖像的語(yǔ)義分割,一種是個(gè)體的分割。
像左邊圖講的就是圖像的語(yǔ)義分割,語(yǔ)義分割做的事情就是給了你一張圖片之后,想把整個(gè)圖片割成一塊一塊獨(dú)立的個(gè)體,像這個(gè)圖片里面貓是一個(gè)前景,它踩在了一個(gè)草地上,背景里面是有藍(lán)天還有樹(shù)木,所以就想把它們整體的分割出來(lái),像第二個(gè)圖里面是有牛在草地上,背景有天空也有樹(shù)木,所以就需要把構(gòu)成圖的不同的類(lèi)別給它更精細(xì)地分別出來(lái)。
因?yàn)槠鋵?shí)人很多時(shí)候比如說(shuō)要解釋圖的話,到哪個(gè)地方是前景,哪些地方是背景,還要知道目標(biāo)是什么?這就是語(yǔ)義分割要做的一件事情。
還有一種比語(yǔ)義分割更難一點(diǎn)的一種任務(wù),現(xiàn)在也開(kāi)始非常受到關(guān)注,就是個(gè)體的分割,它比語(yǔ)義分割要更難一點(diǎn),其實(shí)就相當(dāng)于在檢測(cè)任務(wù)上加上了分割,就是說(shuō)不僅要把所有的目標(biāo)給它分出來(lái),比如這里不僅要把狗給分出來(lái),還要區(qū)分某個(gè)狗在哪個(gè)位置,就是把它的位置信息給它標(biāo)定出來(lái)。
因此,計(jì)算機(jī)視覺(jué)剛才介紹的這三個(gè)任務(wù)識(shí)別檢測(cè)和分割,它們是一點(diǎn)一點(diǎn)在增加難度。就相當(dāng)于視覺(jué)識(shí)別是基礎(chǔ)中的基礎(chǔ),檢測(cè)是識(shí)別加定位,個(gè)體分割的話就是檢測(cè)加分割,其實(shí)這樣做的目的就是由易到難,逐漸的去靠近人在理解圖像的過(guò)程中的能力。
對(duì)人類(lèi)來(lái)說(shuō)可能是很容易的一件事情,但是對(duì)計(jì)算機(jī)視覺(jué)來(lái)說(shuō),由于給它看到的就只是一些像素,如何能夠讓它去理解,這個(gè)過(guò)程就像可能教嬰兒去學(xué)習(xí)一樣,肯定是一個(gè)由簡(jiǎn)到難的一個(gè)過(guò)程。因此像個(gè)體分割任務(wù)的話,也是這幾年隨著微軟亞洲研究院、Facebook等在這方面做了出色的工作,才得到了廣泛的關(guān)注。
講完了計(jì)算機(jī)視覺(jué)里面的三大基本任務(wù)之后,其實(shí)計(jì)算機(jī)視覺(jué)還取得了許多非常有用的一些任務(wù),這些任務(wù)的話也有非常廣泛的應(yīng)用,其中一個(gè)就是視覺(jué)目標(biāo)跟蹤。
視覺(jué)目標(biāo)跟蹤可以這樣描述:就是給你一段視頻,這段視頻往往就是一個(gè)相機(jī)或者是攝像頭拍攝的一段視頻,視頻它會(huì)第一幀告訴你,你感興趣的目標(biāo)是什么,然后我就只提供圖中這樣一些信息,需要實(shí)時(shí)的在此后的把感興趣的目標(biāo)位置給找出來(lái)。
這樣一個(gè)任務(wù)的話就是一個(gè)非常有用的,比如說(shuō)擴(kuò)展到多目標(biāo)跟蹤里面,這是一個(gè)候機(jī)大廳或者一個(gè)商場(chǎng)里面,把每一個(gè)人都實(shí)時(shí)的跟蹤上,這樣會(huì)建立每一個(gè)人的軌跡,同時(shí)就可以對(duì)一些異常行為進(jìn)行檢測(cè),比如說(shuō)某個(gè)人突然和另一個(gè)發(fā)生了這種交互或者其他,那就可能認(rèn)為它們兩個(gè)人有可能在打架或者是故意丟棄一個(gè)包之類(lèi)的。這些任務(wù)的話,就可以通過(guò)給視覺(jué)目標(biāo)跟蹤來(lái)對(duì)它進(jìn)行建模。
另外一方面就是對(duì)于車(chē)輛的跟蹤,因?yàn)橄裼疫厛D講的就是有一輛無(wú)人駕駛的車(chē)輛,它里面有一個(gè)前置攝像頭,需要拍到前面的幾輛車(chē),把它實(shí)時(shí)的跟蹤住,并且計(jì)算出當(dāng)前車(chē)與前車(chē)之間的距離,這也是視覺(jué)目標(biāo)跟蹤的一個(gè)應(yīng)用。
另外還有一個(gè)demo給大家看看,就是關(guān)于用深度學(xué)習(xí)來(lái)做目標(biāo)跟蹤的一個(gè)例子。小編在這里就直接奉上此次公開(kāi)課視頻:計(jì)算機(jī)視覺(jué)概述和深度學(xué)習(xí)簡(jiǎn)介(單擊此段紅字)
看完盧博士的公開(kāi)課,干貨滿滿,小編光是筆記就做了好幾頁(yè),更是按耐不住想要加入盧博士的計(jì)算機(jī)視覺(jué)學(xué)習(xí)大軍了?。≡谶@里也給大家預(yù)告一波:
為幫助對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域感興趣同學(xué)快速高效入門(mén),盧憲凱、晏軼超博士團(tuán)隊(duì)即將會(huì)1.1號(hào)在【雷鋒網(wǎng)】AI慕課學(xué)院推出《計(jì)算機(jī)視覺(jué)基礎(chǔ)入門(mén)課程(從算法到實(shí)戰(zhàn)應(yīng)用)》,課程深度結(jié)合理論+案例實(shí)訓(xùn),手把手教實(shí)戰(zhàn),直通計(jì)算機(jī)視覺(jué)的本質(zhì)及其應(yīng)用。
目前課程早鳥(niǎo)優(yōu)惠活動(dòng)火熱進(jìn)行中??!
了解更多計(jì)算機(jī)視覺(jué)算法與實(shí)戰(zhàn)課程信息,可以添加慕慕微信(aimooc-xm),備注“CV”,即可加入“計(jì)算機(jī)視覺(jué)基礎(chǔ)”課程咨詢?nèi)骸?/span>
相關(guān)文章:
紐約大學(xué)教授談MR/AR/VR發(fā)展趨勢(shì),將與機(jī)器人、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)多種技術(shù)融合
計(jì)算機(jī)視覺(jué)中,有哪些比較好的目標(biāo)跟蹤算法?(上)
計(jì)算機(jī)視覺(jué)中,有哪些比較好的目標(biāo)跟蹤算法?(下)
七步帶你認(rèn)識(shí)計(jì)算機(jī)視覺(jué)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。