0
本文作者: camel | 2019-11-07 23:46 | 專題:CNCC 2019 |
雷鋒網(wǎng) AI 科技評(píng)論按:10 月 17 日至 19 日,由 CCF 主辦、蘇州工業(yè)園區(qū)管委會(huì)、蘇州大學(xué)承辦的 CNCC 2019在蘇州成功召開。今年大會(huì)以「智能+引領(lǐng)社會(huì)發(fā)展」為主題,選址蘇州金雞湖國(guó)際會(huì)議中心召開。雷鋒網(wǎng)AI 科技評(píng)論作為戰(zhàn)略合作媒體對(duì)會(huì)議進(jìn)行了全程跟蹤報(bào)道。
在《CNCC爆款技術(shù)論壇,申省梅、陳熙霖主持,西湖李子青、阿里王剛多視角講解CV賦能智慧城市》一文中,雷鋒網(wǎng) AI 科技評(píng)論提到,由澎思科技承辦的「計(jì)算機(jī)視覺技術(shù)賦能智慧城市」技術(shù)論壇盡管在大會(huì)第三天舉辦,仍然人滿為患,成為今年 CNCC 的爆款技術(shù)論壇之一。
澎思科技首席科學(xué)家、新加坡研究院院長(zhǎng)申省梅作為該技術(shù)論壇的主席兼演講嘉賓,帶來(lái)了主題為《視頻圖像智能化助力智慧安防建設(shè)》的演講,她認(rèn)為當(dāng)前由于巨量攝像頭的存在并不斷生產(chǎn)出海量的監(jiān)控視頻,如果想要更好地利用、存儲(chǔ)和檢索視頻圖像,必須把視頻圖像智能化,將視頻結(jié)構(gòu)化和智能壓縮,只有這樣才能做到事前預(yù)警、事中處置、事后分析。
個(gè)人簡(jiǎn)介:申省梅,澎思科技(PENSEES)首席科學(xué)家、新加坡研究院院長(zhǎng),前松下新加坡研究院副院長(zhǎng)。作為計(jì)算機(jī)視覺與深度學(xué)習(xí)領(lǐng)域頂級(jí)科學(xué)家,領(lǐng)導(dǎo)超40人的算法研究團(tuán)隊(duì),獲得十余項(xiàng)計(jì)算機(jī)視覺領(lǐng)域國(guó)際頂級(jí)競(jìng)賽冠軍,累計(jì)專利300余項(xiàng),致力于監(jiān)控與安全、智慧城市、自動(dòng)駕駛、智能機(jī)器人以及AI 工廠自動(dòng)化解決方案等領(lǐng)域的相關(guān)技術(shù)的開發(fā)部署和落地。曾聯(lián)合新加坡國(guó)立大學(xué)LV組參加PASCAL VOC(視覺物體分類)連續(xù)三年獲獎(jiǎng),在美國(guó)國(guó)家技術(shù)標(biāo)準(zhǔn)局(NIST)主辦的非受限條件下人臉識(shí)別競(jìng)賽IJB-A獲得了人臉驗(yàn)證 (verification)與人臉辨認(rèn)(identification)的雙項(xiàng)冠軍,在微軟百萬(wàn)名人識(shí)別競(jìng)賽MS-Cele-1M人臉挑戰(zhàn)賽獲雙項(xiàng)冠軍。
以下為申省梅演講全文,AI 科技評(píng)論進(jìn)行了不改變?cè)獾木庉嫛?/strong>
申省梅:
視頻圖像是從攝像頭而來(lái),就像我們的眼睛,我們看到了東西,但如果我們沒有大腦來(lái)分析,圖像就等于是沒有意義的東西。
智慧城市包含著方方面面,從最近的落地來(lái)看,智慧安防、智慧交通、智慧社區(qū)遠(yuǎn)遠(yuǎn)走在了前面。那視頻圖像智能化能如何助力于智慧安防建設(shè)?
縱觀整個(gè)安防行業(yè)的發(fā)展歷程,AI的發(fā)揮空間還有很多。我相信大家也熟悉整個(gè)安防行業(yè)的發(fā)展,在座年輕人可能不太清楚,最早監(jiān)控用的都是模擬攝像頭,在中國(guó)模擬攝像頭可能都不見了,但在其它國(guó)家還在大量地被使用。下一個(gè)階段,當(dāng)數(shù)字相機(jī)出現(xiàn)以后,就出現(xiàn)了DVR;接著網(wǎng)絡(luò)監(jiān)控階段出現(xiàn)了,那時(shí)候我們就叫NVR+網(wǎng)絡(luò)軟件數(shù)字相機(jī);今天我們看到的高清攝像頭、以及智能監(jiān)控已經(jīng)出現(xiàn)在各個(gè)應(yīng)用場(chǎng)景中了。
據(jù)英偉達(dá)預(yù)測(cè),到2020年全世界會(huì)有10億個(gè)視頻攝像頭在使用,另一個(gè)統(tǒng)計(jì)說(shuō)中國(guó)現(xiàn)在已經(jīng)有1.76億個(gè)攝像頭,3年之后可能會(huì)有6億攝像頭,也就是說(shuō)平均兩個(gè)人一個(gè)攝像頭。
對(duì)大量的視頻,盡管我們有壓縮手段(視頻流),但怎樣存儲(chǔ)、怎樣觀看越來(lái)越成為一個(gè)難題?假如我們想從大量視頻當(dāng)中快速地偵破一個(gè)事件,或檢索一件事都變得非常困難。那是不是可以用人工智能來(lái)幫忙解決這個(gè)問(wèn)題,做到事前預(yù)警、事中處置、事后分析呢?
數(shù)據(jù)壓縮,事實(shí)上是一種不做內(nèi)容分析的壓縮,包括MPEG1/2、H.264、H.265,甚至現(xiàn)在的H.266,以及中國(guó)的壓縮標(biāo)準(zhǔn)AVS2/3。即使有這樣的壓縮,但現(xiàn)在攝像頭的像素越來(lái)越高,攝像頭的數(shù)目越來(lái)越多,即使有5G的出現(xiàn),有云端的存儲(chǔ),我們最后的DVR、NVR(即使是云端的存儲(chǔ))也都是一種物理的存儲(chǔ)。這不像我們大腦,從來(lái)沒有一個(gè)人說(shuō)“我們的大腦放不下東西了,我的記憶力滿了”這樣的話。因此我們就問(wèn),什么時(shí)候人工智能能做到代替物理的存儲(chǔ)?物理存儲(chǔ)是一個(gè)空間,它是有局限性的。目前的一種做法就是視頻圖像智能化。
對(duì)視頻圖像智能化我們要做好幾件事,都是基于圖像的分析理解。
第一,視頻圖像的恢復(fù)增強(qiáng),即在恢復(fù)過(guò)程中如何提高圖像質(zhì)量。
第二,視頻圖像的目標(biāo)檢測(cè)、跟蹤、識(shí)別。這個(gè)我們可以做到事前預(yù)警、事中處置。
第三,視頻結(jié)構(gòu)化,它包括人臉屬性、行人屬性、車輛屬性、非機(jī)動(dòng)車屬性、以及各種物體的屬性,每一個(gè)東西都有它的ID(都有它的屬性),這些結(jié)構(gòu)化的信息就會(huì)使事后檢索分析變得更為方便。
第四,在智能化的時(shí)代,我們除了普通的圖片和視頻壓縮以外,能不能在視頻內(nèi)容理解的基礎(chǔ)上做智能壓縮。目前我們也在做智能壓縮,也在做視頻摘要,這會(huì)讓我們進(jìn)一步節(jié)省存儲(chǔ)的空間和傳輸?shù)膸挕?/p>
剛才講到圖像壓縮會(huì)造成圖像模糊,其實(shí)還有很多方面都會(huì)造成圖像的質(zhì)量下降,比如設(shè)備用的不正當(dāng),例如你用了高清的攝像頭,但你的lens用的不匹配,或者我們拍攝的時(shí)候,環(huán)境條件(比如燈光或天氣)不太好。李子青老師講過(guò)光線對(duì)人臉造成非常大的影響,這幾個(gè)問(wèn)題都會(huì)讓我們看到視頻圖像恢復(fù)增強(qiáng)是非常重要的一關(guān)。
分享一下我們最近的成果,對(duì)非常小的臉用的是“深度超分辨率技術(shù)”。傳統(tǒng)的人臉識(shí)別在40×40以下就不行了;用上深度學(xué)習(xí)后可能會(huì)提高到30×30。
而我們的工作可以做到12×14(這是一個(gè)很小的臉),中間的結(jié)果是我們用深度學(xué)習(xí)的超分辨率方法恢復(fù)了他的人臉識(shí)別,我們?cè)谌四樧R(shí)別的庫(kù)上檢測(cè)發(fā)現(xiàn),用了深度超分辨率以后,我們的人臉識(shí)別性能從0.75提高到0.97。
當(dāng)然還有其他各種各樣的模糊問(wèn)題,我們也都在做,例如運(yùn)動(dòng)模糊、defocus的模糊等,我們希望將來(lái)能夠用單一的模塊覆蓋不同的模糊。
其次是背光、低光的處理。這里有兩個(gè)圖,右邊這張圖很黑,什么都看不清,當(dāng)我們用低光處理后(如左圖),內(nèi)容就可以看到了。第二張圖是做人臉識(shí)別的時(shí)候,如果你背后光線非常亮,你站在那邊拍照,常常會(huì)出現(xiàn)臉部漆黑一片。我們用了背光處理,背光處理有不同的方法——傳統(tǒng)的、深度學(xué)習(xí)的方法,在不同的硬件上、不同的場(chǎng)景下,我們會(huì)選擇不同的算法。
圖像增強(qiáng)也包括去抖動(dòng),比如刮風(fēng)時(shí)抖動(dòng)引起來(lái)的圖像模糊,以及去霧、去云、去雨的處理。
澎思科技的人臉識(shí)別和行人識(shí)別、車輛識(shí)別,以及非車輛(自行車、摩托車等)的識(shí)別都是我們的關(guān)鍵產(chǎn)品,在技術(shù)上面,我們要求是非常高的。
這是過(guò)去我?guī)ьI(lǐng)的團(tuán)隊(duì)取得的成績(jī),關(guān)于人臉識(shí)別,取得了NIST獎(jiǎng),以及微軟百萬(wàn)名人臉識(shí)別挑戰(zhàn)賽的冠軍。目標(biāo)跟蹤、行人檢測(cè)、行人再識(shí)別也分別打破了世界記錄。此外在PASCAL VOC(ImageNet前身),我們當(dāng)時(shí)連著3年參加比賽,并且連續(xù)3年拿到冠軍。交通異常檢測(cè)、自動(dòng)駕駛、以及智能機(jī)器人,我們都有參加比賽拿到過(guò)冠軍,計(jì)算機(jī)視覺其實(shí)面特別廣,它也用在智能機(jī)器人,自動(dòng)駕駛方面。
我們最近在做跨攝像機(jī)的行人再識(shí)別ReID。在不同的攝像頭里,有時(shí)候有人臉出現(xiàn)、有時(shí)候沒有人臉出現(xiàn),通過(guò)ReID的技術(shù),即使在看不到人臉的情況下,我們?nèi)钥梢酝ㄟ^(guò)行人的身體特征去判斷這個(gè)人是誰(shuí)。
這是我們做的一些測(cè)試,黃色框中這個(gè)人根本連臉都看不到,他出現(xiàn)在不同的角落,但我們通過(guò)他身體的特征,會(huì)知道這是同一個(gè)人,ID是55,另外一個(gè)人是ID25。
7、8月份左右,我們?cè)谛腥嗽僮R(shí)別三大數(shù)據(jù)集Market1501、DukeMTMC-reID、CUHK03,視頻行人再識(shí)別三大數(shù)據(jù)集PRID-2011,iLIDS-VID,MARS,以及行人屬性上都打破了世界記錄。
人臉識(shí)別,澎思更專注于動(dòng)態(tài)捕捉下的人臉識(shí)別。監(jiān)控相機(jī)沒有辦法約束條件,人臉的姿態(tài)、燈光的變化各種各樣,還有模糊的情況。在這方面,最近澎思的模型在IJB-B和IJB-C下刷新了記錄。我們的客戶也拿我們的模型去跟友商做了比對(duì),可以看出性能遠(yuǎn)遠(yuǎn)超過(guò)友商的性能。
李子青老師剛剛提到的ICCV的人臉識(shí)別比賽,我們?cè)贗CCV LFR挑戰(zhàn)賽的輕量級(jí)圖像識(shí)別、大型圖像識(shí)別和輕量級(jí)視頻圖像識(shí)別三項(xiàng)競(jìng)賽中成績(jī)第一,一個(gè)競(jìng)賽成績(jī)第二。
視頻結(jié)構(gòu)化剛才也講到了。當(dāng)你事后想要從視頻中檢索一件事的時(shí)候,可以用視頻的屬性來(lái)檢索。
這是公安的需求。原來(lái)公安想要從一天的視頻中找到想要的東西,要用肉眼來(lái)看視頻,找一個(gè)東西,確定一件事是什么時(shí)候發(fā)生的,至少要把整個(gè)錄像看完才行;然而將視頻結(jié)構(gòu)化以后,幾秒鐘就可以找到想要的東西。
澎思科技的視頻結(jié)構(gòu)化屬性與目標(biāo)參考了國(guó)標(biāo),比如對(duì)行人結(jié)構(gòu)來(lái)講,我們支持27大項(xiàng)、128小項(xiàng),這是屬于業(yè)界第一的。9月份,澎思在行人屬性三個(gè)數(shù)據(jù)庫(kù)上也刷新了世界記錄。
當(dāng)然,在做的過(guò)程中也有很多困難,比如數(shù)據(jù)采集、以及數(shù)據(jù)長(zhǎng)尾問(wèn)題。長(zhǎng)尾問(wèn)題我們用了各種方法來(lái)解決,甚至用一些傳統(tǒng)的圖像處理方法,比如雨傘我們可以生成不同顏色的,其中也用了一些很inpainting的技術(shù),也用了GAN來(lái)生產(chǎn),比如最下面這個(gè)人臉的數(shù)據(jù)庫(kù)不平衡,這個(gè)文章已經(jīng)發(fā)表。
澎思也可以做到實(shí)時(shí)結(jié)構(gòu)化預(yù)覽、綜合檢索,以及以圖搜圖,甚至以圖搜視頻。
在人臉屬性上,除了性別、年齡以外,澎思的算法還包括有沒有戴口罩、有沒有眼鏡等,共支持其它40多個(gè)不同的屬性描述。
結(jié)構(gòu)化也包括人、車一些行為的異常檢測(cè)。異常包括交通的異常、打架、搶劫、聚集、事故、抽煙等。2018年我們也在CVPR上的AI CITY CHALLENGE拿到了冠軍。
最后一個(gè)內(nèi)容,講一下視頻內(nèi)容的智能壓縮,視頻摘要。魯繼文老師提到深度強(qiáng)化學(xué)習(xí)怎么來(lái)幫助我們的例子,在這個(gè)問(wèn)題上,我們知道很難用強(qiáng)化學(xué)習(xí)來(lái)做視頻摘要和內(nèi)容壓縮,因?yàn)槟悴恢酪曨l中哪一個(gè)行為是最關(guān)鍵、最重要的。
所以,一個(gè)策略就是在不同的情況下要有不同的考量,不僅僅是從一幀上去考量,它是在時(shí)空域上的一個(gè)分析,所以我們采用時(shí)空域的特征,并且做到關(guān)鍵內(nèi)容的保留、壓縮和摘要,根據(jù)不同的情況,有的時(shí)候可以做到10倍、100倍、甚至1000倍的壓縮。我們?cè)趬嚎s的過(guò)程中屬性同時(shí)會(huì)被記載下來(lái),當(dāng)將壓縮后的這一段視頻存下來(lái)以后,會(huì)不斷地將重要的場(chǎng)景和行為存下來(lái),而且對(duì)它的屬性都有描述。
視頻圖像智能化,事實(shí)上還取決于圖像質(zhì)量的好壞,而圖像質(zhì)量的好壞又取決于整個(gè)軟硬件系統(tǒng)的構(gòu)成。比如說(shuō)拍攝距離是多少、相機(jī)的像素是多少、鏡頭怎么選擇、傳輸?shù)姆绞绞窃趺礃拥?、視頻圖像壓縮的方式等,這些都會(huì)影響到圖像質(zhì)量的好壞。所以我們說(shuō)完美體現(xiàn)技術(shù)的優(yōu)勢(shì)還在于一個(gè)很SMART的解決方案,以及系統(tǒng)人員的培訓(xùn)。
在AI產(chǎn)業(yè)圖譜中的技術(shù)層,澎思科技一直走在前面。我們的立場(chǎng)是堅(jiān)持應(yīng)用驅(qū)動(dòng)的解決方案,商業(yè)驅(qū)動(dòng)的算法研究,用最有效的算法和最經(jīng)濟(jì)的軟硬體來(lái)解決客戶的剛需。
因此我的結(jié)論就是,視頻圖像的智能化非常重要。現(xiàn)在很多人都在用深度學(xué)習(xí),如果是視頻圖像數(shù)據(jù),就一定要進(jìn)行結(jié)構(gòu)化分析,這是一個(gè)前提。這個(gè)方面包括了很多技術(shù),如果把這些技術(shù)都用好,我們就可以實(shí)現(xiàn)事前預(yù)警、事中處置、事后檢索分析。我個(gè)人更想追求的一個(gè)方向是節(jié)省存儲(chǔ)空間、傳輸帶寬、智能化的方式。這個(gè)方面我相信接下來(lái)大家會(huì)往這個(gè)方面多考慮,我們會(huì)有更好的發(fā)揮空間,謝謝大家。
雷鋒網(wǎng)報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章