0
本文作者: 奕欣 | 2018-01-10 17:03 |
雷鋒網(wǎng) AI 科技評(píng)論消息,1 月 8 日,全球權(quán)威機(jī)器視覺算法排行榜 KITTI,阿里巴巴 iDST奪得行人檢測(cè)單項(xiàng)冠軍。與此同時(shí),在知名的行人再識(shí)別數(shù)據(jù)集 Market1501 中,iDST 的首位命中率也提升至 96.17%,位居世界第一。
iDST獲得KITTI行人檢測(cè)項(xiàng)目冠軍
iDST在KITTI行人檢測(cè)項(xiàng)目的數(shù)據(jù)圖示
KITTI 算法評(píng)測(cè)平臺(tái)由德國(guó)卡爾斯魯厄理工學(xué)院和芝加哥豐田技術(shù)研究所聯(lián)合建立,是目前國(guó)際上最大的自動(dòng)駕駛場(chǎng)景下的計(jì)算機(jī)視覺算法評(píng)測(cè)數(shù)據(jù)集,用于評(píng)測(cè)目標(biāo)(機(jī)動(dòng)車、非機(jī)動(dòng)車、行人等)檢測(cè)、目標(biāo)跟蹤、路面分割等計(jì)算機(jī)視覺技術(shù)在車載環(huán)境下的性能。
Market1501 數(shù)據(jù)集的圖像在清華大學(xué)的一個(gè)超市門口進(jìn)行采集,由 5 個(gè)高清攝像頭與 1 個(gè)低像素?cái)z像頭進(jìn)行拍攝。目前該數(shù)據(jù)集包括 1501 個(gè)個(gè)體,涵蓋 19732 張 gallery 圖片和 12936 張訓(xùn)練圖像組成。所有的標(biāo)注框由 DPM 檢測(cè)器生成。
實(shí)際上在今年 5 月,阿里 iDST 就已經(jīng)將車輛檢測(cè)的準(zhǔn)確率提升至 90.46%,長(zhǎng)踞榜單第一名。而在同一難度級(jí)別的最新數(shù)據(jù),阿里 iDST 如今已經(jīng)刷新至 90.55%。
據(jù)雷鋒網(wǎng) AI 科技評(píng)論了解,車輛檢測(cè)背后的技術(shù)基于區(qū)域融合決策和上下文相關(guān)的多任務(wù)深度神經(jīng)網(wǎng)絡(luò),用于復(fù)雜場(chǎng)景下的車輛檢測(cè)任務(wù),重點(diǎn)解決其中多視角,多姿態(tài)以及車輛遮擋等問題。而在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)上,利用反卷積操作提高了小目標(biāo)的召回率,同時(shí)拼接了多層特征以融合低層的局部信息和高層的語義信息,提高了邊框定位的準(zhǔn)確率。在訓(xùn)練過程中,還借鑒了 GAN(生成對(duì)抗網(wǎng)絡(luò))中的對(duì)抗訓(xùn)練模式。團(tuán)隊(duì)在計(jì)算機(jī)視覺國(guó)際頂級(jí)期刊和會(huì)議 TIP、ACM MM 等已發(fā)表多篇論文,分享了他們的研究成果。
行人檢測(cè)技術(shù)示意
行人再識(shí)別技術(shù)示意
行人的識(shí)別與檢測(cè)與車輛檢測(cè)雖然同為計(jì)算機(jī)視覺的研究?jī)?nèi)容,但兩者各自的難點(diǎn)與挑戰(zhàn)又有些不同。行人檢測(cè)要求機(jī)器能夠從圖像或者視頻中判斷是否有行人,行人在哪里;行人再識(shí)別則要求機(jī)器能夠識(shí)別出特定人員在不同攝像頭下出現(xiàn)的所有圖像。
阿里巴巴 iDST 副院長(zhǎng)、IEEE Fellow 華先勝表示,目前大部分?jǐn)z像頭所拍攝的圖像看不清人臉,需要通過行人的整體和局部特征進(jìn)行識(shí)別。但在實(shí)際情況中,包括遮擋、光照、拍攝角度、拍攝距離、人物姿態(tài)等因素的干擾,還有攝像頭設(shè)備的不同,都會(huì)給行人的識(shí)別與檢測(cè)帶來困難。
據(jù)介紹,阿里巴巴 iDST 團(tuán)隊(duì)在行人檢測(cè)技術(shù)方面,提出了基于目標(biāo)尺寸分級(jí)的級(jí)聯(lián)網(wǎng)絡(luò),并充分發(fā)揮感興趣區(qū)域的上下文信息,提升網(wǎng)絡(luò)特征提取的能力,以解決行人檢測(cè)問題中存在的目標(biāo)尺寸浮動(dòng)大、遮擋、形變且定位不準(zhǔn)等問題;與此同時(shí),在目標(biāo)定位方面采用交叉熵正則約束來優(yōu)化邊框定位準(zhǔn)確度。
而在行人再識(shí)別方面,團(tuán)隊(duì)不僅利用最新的深度學(xué)習(xí)技術(shù)提取行人的全局特征,還提出了超分辨率模塊和深度注意力網(wǎng)絡(luò)來獲得頭部、軀干、四肢、攜帶物等局部細(xì)節(jié)特征,并提出了融合粗粒度全局特征和細(xì)粒度局部特征的新方法,進(jìn)一步提高了跨攝像頭場(chǎng)景下行人表征的一致性和行人再識(shí)別的準(zhǔn)確性。
行人檢測(cè)與行人識(shí)別這兩項(xiàng)技術(shù)有著豐富的應(yīng)用場(chǎng)景,包括景區(qū)商場(chǎng)的人流預(yù)測(cè)、人群個(gè)性化分析、行人交通安全、無人駕駛、尋找丟失老人兒童等應(yīng)用等等。目前上述技術(shù)已經(jīng)全部集成到阿里云 ET 城市大腦當(dāng)中,并已落地。
華先勝表示,「正如 60 年代的登月計(jì)劃帶來了通訊技術(shù)、生物工程技術(shù)大爆發(fā)一樣,城市大腦已經(jīng)成為世界頂尖的科技創(chuàng)新的平臺(tái),前所未有的難題倒逼科學(xué)家們創(chuàng)造前所未有的技術(shù)」。
據(jù)雷鋒網(wǎng) AI 科技評(píng)論了解,阿里云 ET 城市大腦已經(jīng)在杭州、蘇州、衢州、烏鎮(zhèn)等地落地。借助機(jī)器視覺算法,杭州城市大腦可以做到準(zhǔn)確偵測(cè)、發(fā)現(xiàn)交通事故,日均事件報(bào)警 500 次以上,準(zhǔn)確率達(dá) 92%。
頭圖 via 云棲社區(qū)
現(xiàn)在關(guān)注“雷鋒網(wǎng)”微信公眾號(hào)(leiphone-sz),回復(fù)關(guān)鍵詞【2018】,隨機(jī)抽送價(jià)值 3999 元的參會(huì)門票 3 張
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。