0
本文作者: 楊鯉萍 | 2019-12-03 10:46 |
雷鋒網(wǎng) AI 開發(fā)者按:近日,Lifelong Robotic Vision 挑戰(zhàn)賽在澳門 IROS 2019 大會上成功舉辦。本次競賽吸引到共 150 個(gè)參賽隊(duì),實(shí)際提交 40 個(gè)有效成績。
多位機(jī)器人領(lǐng)域大咖來到現(xiàn)場進(jìn)行特邀報(bào)告和圓桌討論,包括:意大利技術(shù)研究院科學(xué)主任 Giorgio Metta 教授、漢堡大學(xué)張建偉教授、浙江大學(xué)章國鋒教授等知名學(xué)者,演講主題從 Lifelong Learning 算法到 SLAM 均有涉獵;同時(shí),決賽入圍團(tuán)隊(duì)——??低?、新加坡南洋理工大學(xué)、香港中文大學(xué)等也在現(xiàn)場向大家分享了賽事算法報(bào)告,雷鋒網(wǎng) AI 開發(fā)者將賽事內(nèi)容及冠軍方案整理如下。
IEEE 智能機(jī)器人與系統(tǒng)國際會議(IROS)是智能機(jī)器人與自動(dòng)化領(lǐng)域的兩個(gè)頂級國際會議之一,而 IROS 2019 則是 IROS 成功舉辦的第 32 屆會議,由全球最大的非營利性專業(yè)技術(shù)學(xué)會 IEEE、IEEE 機(jī)器人與自動(dòng)化學(xué)會、IEEE 工業(yè)電子學(xué)會、日本機(jī)器人學(xué)會、儀器與控制工程師學(xué)會以及新技術(shù)基金會聯(lián)合贊助。
大會期間,約 4000 名來自世界各地的機(jī)器人、自動(dòng)化系統(tǒng)及人工智能等領(lǐng)域的領(lǐng)軍人物、頂尖研究團(tuán)隊(duì)代表及企業(yè)界人士齊聚澳門,共同探索智能機(jī)器人與系統(tǒng)領(lǐng)域的前沿科技,并分享并討論相關(guān)領(lǐng)域的最新進(jìn)展。
IROS 2019 包括了主題演講、技術(shù)報(bào)告、研討會、競賽、論壇和展覽等多個(gè)部分。其中,終生機(jī)器視覺數(shù)據(jù)集全球挑戰(zhàn)賽則屬于 IROS 2019 競賽環(huán)節(jié),其中 Lifelong/Continual Learning for Object Recognition 是其中一個(gè) Channel 的比賽。
本次挑戰(zhàn)賽將目光聚焦于機(jī)器視覺前沿領(lǐng)域,旨在通過比賽探索,賦予 AI 終生學(xué)習(xí)能力。其中,終生學(xué)習(xí)能力于人類而言,則是持續(xù)從環(huán)境和經(jīng)驗(yàn)中學(xué)習(xí)知識和技能;于機(jī)器人而言,則是以適應(yīng)變化的環(huán)境和任務(wù)終生學(xué)習(xí)能力 ;而于計(jì)算機(jī)視覺,則需要從預(yù)先建好的數(shù)據(jù)集中一次性學(xué)習(xí)。三者關(guān)系如下圖所示:
一、機(jī)器人視覺面臨的挑戰(zhàn)
近年來,計(jì)算機(jī)視覺領(lǐng)域發(fā)展迅速,與此同時(shí)大規(guī)模數(shù)據(jù)集如 ImageNet、COCO 等的進(jìn)展使得基于深度學(xué)習(xí)的計(jì)算機(jī)視覺技術(shù)在精準(zhǔn)度和實(shí)用性能方面得到顯著提高。
目前基于大量數(shù)據(jù)集的物體檢測,分割和識別的計(jì)算機(jī)視覺應(yīng)用也在人臉識別、智能家居、輔助工業(yè)制造等領(lǐng)域做出了突出貢獻(xiàn)。然而機(jī)器人視覺對于視覺算法的開發(fā)和落地提出了新的挑戰(zhàn)。
通常情況下,基于深度學(xué)習(xí)的計(jì)算機(jī)視覺算法需要數(shù)據(jù)符合獨(dú)立同分布 (i.i.d) 的假設(shè),也意味著需要訓(xùn)練數(shù)據(jù)的任務(wù)單一化、樣本分布同質(zhì)化、難度統(tǒng)一化。
但是在機(jī)器人真實(shí)應(yīng)用場景中,隨著時(shí)間推移,通常呈現(xiàn)出任務(wù)多樣性、樣本分布差異大、難度多變性等特征。因此在機(jī)器人視覺應(yīng)用場景中,智能體需要采取連續(xù)/終生學(xué)習(xí) (continual/lifelong leanring) 的策略去使用環(huán)境等因素的改變。
二、終身學(xué)習(xí)突破關(guān)鍵
目前,終生學(xué)習(xí)主要面臨兩大挑戰(zhàn):
第一是災(zāi)難性遺忘 (catastropic forgetting),由此誕生了著名的穩(wěn)定性-可塑性定理 (stability-plasticity dilemma)。該定理指出,一個(gè)完備穩(wěn)定的模型可以保證系統(tǒng)學(xué)習(xí)到的舊知識不被忘記,但無法學(xué)習(xí)新知識;而一個(gè)完全可塑的模型可以充分適應(yīng)新的知識領(lǐng)域,但是會忘卻舊的知識。
基于深度學(xué)習(xí)的 Lifelong/Continual Learning 算法對比
第二是概念漂移 (concept drift),主要是智能體所接觸到數(shù)據(jù)類型不同于傳統(tǒng)的靜態(tài)數(shù)據(jù) (static data),而是一種體量大、實(shí)時(shí)性強(qiáng)的流數(shù)據(jù) (data stream)。常見的動(dòng)態(tài)流數(shù)據(jù)則是不獨(dú)立同分布的,隨著時(shí)間的推移,智能體需要漸進(jìn)地適應(yīng)不同分布的流式數(shù)據(jù)。
不同類型的概念漂移(圖片來源于 Block-based and Online Ensembles for Concept-drifting Data Streams, 2015. Ph.D. Thesis from Dariusz Brzeziński)
第三則是模型能夠自適應(yīng)地改變其復(fù)雜度,由于機(jī)器人獲取的數(shù)據(jù)在動(dòng)態(tài)變化,無法提前獲取所有的外界數(shù)據(jù)信號 (例如機(jī)器人每天接觸感知的人、物體和周圍環(huán)境都在變化),所以最終運(yùn)用的模型必須具備復(fù)雜度自適應(yīng)可變的特點(diǎn)。加之概念漂移的問題,我們常常需要增加模型的復(fù)雜度來處理不同分布的數(shù)據(jù)。
一、數(shù)據(jù)集采集
OpenLORIS-Object 數(shù)據(jù)集由若干個(gè)地面機(jī)器人模擬人類視覺采集而成,采集地點(diǎn)為平時(shí)活動(dòng)的辦公室和家庭環(huán)境,攝影部分由 Intel RealSense D435i 和 T265 組成。
在不同光照、遮擋、物體大小、相機(jī)-對象距離/角度、雜亂程度,以及不同的場景信息下,機(jī)器人主動(dòng)記錄目標(biāo)對象的視頻。數(shù)據(jù)集記錄了機(jī)器人在拍攝過程中通常會面臨的不同環(huán)境挑戰(zhàn),比如:
光照 在實(shí)際應(yīng)用中,照明會隨時(shí)間變化很大,例如晝夜差異。我們的數(shù)據(jù)集主要是從正常的日光收集的,包括弱光,正常光和強(qiáng)光,每個(gè)占每個(gè)場景下物體的 10%。隨著燈光變?nèi)?,分類任?wù)變得更具挑戰(zhàn)性。
遮擋 當(dāng)一個(gè)對象的一部分被一個(gè)或多個(gè)對象隱藏,或者在視場中僅顯示該對象的一部分時(shí)會產(chǎn)生遮擋現(xiàn)象。由于可能隱藏了對象的獨(dú)特特征,因此遮擋使分類任務(wù)更具挑戰(zhàn)性。
物體大小 小物體或者細(xì)長的物體,如干電池或膠棒,會使分類任務(wù)更具挑戰(zhàn)性。
相機(jī)-對象角度/距離 攝像機(jī)的角度會影響從對象檢測到的屬性,距離會影響目標(biāo)物體的大小。
雜亂程度 是指在考慮的對象附近存在其他對象。同時(shí)存在多個(gè)對象可能會干擾分類任務(wù)。
場景信息 環(huán)境信息是學(xué)習(xí)過程中的另一個(gè)因素,例如在廚房的場景下可以提高刀、炊具等物體的識別能力。先前的大多數(shù)研究都忽略了場景信息對于上下文識別的重要性。
技術(shù)細(xì)節(jié)和數(shù)據(jù)集可參考:
Qi She et al.,「OpenLORIS-Object: A Dataset and Benchmark towards Lifelong Object Recognition」, https://arxiv.org/abs/1911.06487
二、數(shù)據(jù)集描述
為了使物體分類任務(wù)與日常生活場景相結(jié)合,數(shù)據(jù)在多個(gè)生活場景下采集,比如客廳、廚房、臥室等,物體的放置也考慮日常生活場景,被放置在桌面、地面、墻面、床上等。
已發(fā)布的的數(shù)據(jù)集由 69 種物體組成,包含 7 個(gè)場景下的 19 類日常必需品。每種物體被記錄為 17 秒(每秒 30 幀)的視頻(即共 500 幀 RGB-D 圖像),由 4 個(gè)環(huán)境影響因素(包含光照,遮擋程度,目標(biāo)對象的像素大小,雜亂程度),每個(gè)因素由 3 種等級控制分類任務(wù)的實(shí)現(xiàn)難度。見下圖(基于環(huán)境影響因素,每種物體共有 12 個(gè)子類):
每個(gè)等級下的每種物體對應(yīng)了 260 個(gè)樣本。即:對于每種物體,總共有 3120 個(gè)樣本。因此數(shù)據(jù)集共包含了:260(樣本數(shù)/種物體實(shí)例) * 69(物體實(shí)例) * 4(環(huán)境影響因素/個(gè)等級) * 3(難度等級)=215,280 個(gè)樣本。
數(shù)據(jù)集概況及下載地址:
https://lifelong-robotic-vision.github.io/dataset/Data_Object-Recognition
三、數(shù)據(jù)集的可視化
執(zhí)行物體分類任務(wù)時(shí)呈現(xiàn)時(shí)序一致性可提供圖像信息在時(shí)間上的平滑度,從而簡化目標(biāo)識別的過程,改善分類準(zhǔn)確性,更好地解決半監(jiān)督(或無監(jiān)督)場景。下圖為隨機(jī)選取的數(shù)據(jù)樣本:
示例中的每列圖片為目標(biāo)對象所處的不同雜亂環(huán)境(從第一行到第三行分別展示簡單,正常和復(fù)雜的雜亂場景),遮擋程度(0%,25%,50%),像素大?。?lt;30*30,30*30?200*200,>200*200),以及光照程度(弱光,正常光,強(qiáng)光)。
比賽中,參賽選手不僅要考慮連續(xù)學(xué)習(xí)情境下物體識別的準(zhǔn)確度,更要兼顧模型的大小、模型對數(shù)據(jù)量的依賴性、模型部署中的預(yù)測速度等性能。
除此之外,參賽選手還需對更具有挑戰(zhàn)性的測試集進(jìn)行采集,包括:更多物體姿態(tài)角度、光照環(huán)境和更加復(fù)雜的背景信息。具體的模型評分標(biāo)準(zhǔn)如下所示:
在決賽的數(shù)據(jù)集中,測試集有 21520 個(gè)樣本,驗(yàn)證集有 21520 個(gè)樣本,訓(xùn)練集有 172200 個(gè)樣本,賽方根據(jù)不同的影響因素隨機(jī)打亂數(shù)據(jù)集。
數(shù)據(jù)集被分為 12 個(gè)批次,每個(gè)批次的樣本來自一個(gè)子類,總共有 12 個(gè)子類,即:4(環(huán)境影響因素/等級) * 3(難度等級),包含 7 個(gè)生活場景下的 69 種物體。下圖為每個(gè)批次下不同影響因素的概覽:
來自海康威視的 HIKVISION 團(tuán)隊(duì)榮獲 Lifelong Robotic Vision Competition 冠軍,該方案采取知識蒸餾 (knowledge distillation) 和網(wǎng)絡(luò)擴(kuò)展 (network expand) 的方式來緩解災(zāi)難性遺忘。
該方法會計(jì)算對于每一次增量任務(wù)與先前學(xué)習(xí)任務(wù)的領(lǐng)域差異 (domain gap) 來判斷任務(wù)相似性,對于相似性大的任務(wù)采用知識蒸餾方案在學(xué)習(xí)新任務(wù)的同時(shí)記住舊任務(wù)的特征,相似小的任務(wù)采用網(wǎng)絡(luò)結(jié)構(gòu)擴(kuò)充來學(xué)習(xí)新任務(wù)。其方案模型如下圖所示:
基于知識蒸餾與網(wǎng)絡(luò)擴(kuò)展方案
來自 University of Bologna 的 unibo 團(tuán)隊(duì)提出了隱層結(jié)構(gòu)回放 (latent rehearsal) 模型,該模型獲得綜合評分第二名的成績。
不同于其他方案針對原數(shù)據(jù)樣本進(jìn)行重采樣,該方法對舊樣本的隱層信息進(jìn)行重采樣。實(shí)驗(yàn)證明該方案可以在確保高準(zhǔn)確率的同時(shí),減少內(nèi)存使用和計(jì)算量。目前該方案可以部署在移動(dòng)端設(shè)備進(jìn)行訓(xùn)練。
基于隱層結(jié)構(gòu)回放模型方案
此外,來自韓國電子通信研究院 (ETRI) 的 HYDRA-DI-ETRI 團(tuán)隊(duì)提出了選擇性特征學(xué)習(xí) (selective feature learning) 方案去減少噪聲物體對目標(biāo)物體的干擾。該隊(duì)伍在口頭報(bào)告中得到最高分。
由于在真實(shí)的機(jī)器人視覺識別任務(wù)中,目標(biāo)物體的周圍環(huán)境趨向于雜亂無規(guī)律,存在較多的噪聲物體,這可能會對識別的準(zhǔn)確率產(chǎn)生影響。該團(tuán)隊(duì)采用 Single Shot MultiBox Detector (SSD) 去對選擇出第一個(gè)任務(wù)的數(shù)據(jù)集中的目標(biāo)物體,后再進(jìn)行連續(xù)的物體識別任務(wù)。
基于選擇性特征學(xué)習(xí)方案
為了進(jìn)一步推廣 Lifelong Robotic Vision 項(xiàng)目,吸引更多的學(xué)術(shù)工業(yè)界的研究開發(fā)人員,英特爾中國研究院作為主辦方之一 在 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020 舉辦了「Continual Learning in Computer Vision Workshop」。
該 workshop(研討會)主要探究計(jì)算機(jī)視覺問題中的 Continul Learning 的能力。在計(jì)算機(jī)視覺系統(tǒng)中,如何在多個(gè)連續(xù)任務(wù)中保證算法的穩(wěn)定性,如何有效的克服神經(jīng)網(wǎng)絡(luò)中災(zāi)難性遺忘的問題,如何進(jìn)行知識在不同任務(wù)中的遷移,以及如何在硬件受限情況下優(yōu)化 Continual Learning 的綜合表現(xiàn)。
研討會主要分為研討會文章收錄,現(xiàn)場專家報(bào)告,Continual learning in Computer Vision 挑戰(zhàn)賽。目前確認(rèn) 9 位專家會在現(xiàn)場進(jìn)行口頭報(bào)告討論 Continual Learning 在計(jì)算機(jī)視覺中的研究前景以及潛力,包括:Google Deepmind 研究科學(xué)家 Razvan Pascanu、Facebook AI Research 研究科學(xué)家 Marc’Aurelio Ranzato、INRIA 研究總監(jiān) Cordelia Schmid等。
研討會主要關(guān)注 Continual Learning 的話題,目前已開放公眾提交平臺,錄用的文章將加入 CVPR 2020 workshop 的文集,
更多提交詳情可查看:
https://cmt3.research.microsoft.com/CONTVISION2020
Lifelong Robotic Vision Github 詳情:
雷鋒網(wǎng) AI 開發(fā)者
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。