IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

本文作者：楊鯉萍

2019-12-03 10:46

導(dǎo)語：賽事內(nèi)容及冠軍算法報(bào)告

雷鋒網(wǎng) AI 開發(fā)者按：近日，Lifelong Robotic Vision 挑戰(zhàn)賽在澳門 IROS 2019 大會(huì)上成功舉辦。本次競(jìng)賽吸引到共 150 個(gè)參賽隊(duì)，實(shí)際提交 40 個(gè)有效成績(jī)。

多位機(jī)器人領(lǐng)域大咖來到現(xiàn)場(chǎng)進(jìn)行特邀報(bào)告和圓桌討論，包括：意大利技術(shù)研究院科學(xué)主任 Giorgio Metta 教授、漢堡大學(xué)張建偉教授、浙江大學(xué)章國(guó)鋒教授等知名學(xué)者，演講主題從 Lifelong Learning 算法到 SLAM 均有涉獵；同時(shí)，決賽入圍團(tuán)隊(duì)——?？低?、新加坡南洋理工大學(xué)、香港中文大學(xué)等也在現(xiàn)場(chǎng)向大家分享了賽事算法報(bào)告，雷鋒網(wǎng) AI 開發(fā)者將賽事內(nèi)容及冠軍方案整理如下。

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

大賽背景

IEEE 智能機(jī)器人與系統(tǒng)國(guó)際會(huì)議（IROS）是智能機(jī)器人與自動(dòng)化領(lǐng)域的兩個(gè)頂級(jí)國(guó)際會(huì)議之一，而 IROS 2019 則是 IROS 成功舉辦的第 32 屆會(huì)議，由全球最大的非營(yíng)利性專業(yè)技術(shù)學(xué)會(huì) IEEE、IEEE 機(jī)器人與自動(dòng)化學(xué)會(huì)、IEEE 工業(yè)電子學(xué)會(huì)、日本機(jī)器人學(xué)會(huì)、儀器與控制工程師學(xué)會(huì)以及新技術(shù)基金會(huì)聯(lián)合贊助。

大會(huì)期間，約 4000 名來自世界各地的機(jī)器人、自動(dòng)化系統(tǒng)及人工智能等領(lǐng)域的領(lǐng)軍人物、頂尖研究團(tuán)隊(duì)代表及企業(yè)界人士齊聚澳門，共同探索智能機(jī)器人與系統(tǒng)領(lǐng)域的前沿科技，并分享并討論相關(guān)領(lǐng)域的最新進(jìn)展。

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

IROS 2019 包括了主題演講、技術(shù)報(bào)告、研討會(huì)、競(jìng)賽、論壇和展覽等多個(gè)部分。其中，終生機(jī)器視覺數(shù)據(jù)集全球挑戰(zhàn)賽則屬于 IROS 2019 競(jìng)賽環(huán)節(jié)，其中 Lifelong/Continual Learning for Object Recognition 是其中一個(gè) Channel 的比賽。

解讀 Lifelong/Continual Learning

本次挑戰(zhàn)賽將目光聚焦于機(jī)器視覺前沿領(lǐng)域，旨在通過比賽探索，賦予 AI 終生學(xué)習(xí)能力。其中，終生學(xué)習(xí)能力于人類而言，則是持續(xù)從環(huán)境和經(jīng)驗(yàn)中學(xué)習(xí)知識(shí)和技能；于機(jī)器人而言，則是以適應(yīng)變化的環(huán)境和任務(wù)終生學(xué)習(xí)能力；而于計(jì)算機(jī)視覺，則需要從預(yù)先建好的數(shù)據(jù)集中一次性學(xué)習(xí)。三者關(guān)系如下圖所示：

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

一、機(jī)器人視覺面臨的挑戰(zhàn)

近年來，計(jì)算機(jī)視覺領(lǐng)域發(fā)展迅速，與此同時(shí)大規(guī)模數(shù)據(jù)集如 ImageNet、COCO 等的進(jìn)展使得基于深度學(xué)習(xí)的計(jì)算機(jī)視覺技術(shù)在精準(zhǔn)度和實(shí)用性能方面得到顯著提高。

目前基于大量數(shù)據(jù)集的物體檢測(cè)，分割和識(shí)別的計(jì)算機(jī)視覺應(yīng)用也在人臉識(shí)別、智能家居、輔助工業(yè)制造等領(lǐng)域做出了突出貢獻(xiàn)。然而機(jī)器人視覺對(duì)于視覺算法的開發(fā)和落地提出了新的挑戰(zhàn)。

通常情況下，基于深度學(xué)習(xí)的計(jì)算機(jī)視覺算法需要數(shù)據(jù)符合獨(dú)立同分布 (i.i.d) 的假設(shè)，也意味著需要訓(xùn)練數(shù)據(jù)的任務(wù)單一化、樣本分布同質(zhì)化、難度統(tǒng)一化。

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

但是在機(jī)器人真實(shí)應(yīng)用場(chǎng)景中，隨著時(shí)間推移，通常呈現(xiàn)出任務(wù)多樣性、樣本分布差異大、難度多變性等特征。因此在機(jī)器人視覺應(yīng)用場(chǎng)景中，智能體需要采取連續(xù)/終生學(xué)習(xí) (continual/lifelong leanring) 的策略去使用環(huán)境等因素的改變。

二、終身學(xué)習(xí)突破關(guān)鍵

目前，終生學(xué)習(xí)主要面臨兩大挑戰(zhàn)：

第一是災(zāi)難性遺忘 (catastropic forgetting)，由此誕生了著名的穩(wěn)定性-可塑性定理 (stability-plasticity dilemma)。該定理指出，一個(gè)完備穩(wěn)定的模型可以保證系統(tǒng)學(xué)習(xí)到的舊知識(shí)不被忘記，但無法學(xué)習(xí)新知識(shí)；而一個(gè)完全可塑的模型可以充分適應(yīng)新的知識(shí)領(lǐng)域，但是會(huì)忘卻舊的知識(shí)。

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

基于深度學(xué)習(xí)的 Lifelong/Continual Learning 算法對(duì)比

第二是概念漂移 (concept drift)，主要是智能體所接觸到數(shù)據(jù)類型不同于傳統(tǒng)的靜態(tài)數(shù)據(jù) (static data)，而是一種體量大、實(shí)時(shí)性強(qiáng)的流數(shù)據(jù) (data stream)。常見的動(dòng)態(tài)流數(shù)據(jù)則是不獨(dú)立同分布的，隨著時(shí)間的推移，智能體需要漸進(jìn)地適應(yīng)不同分布的流式數(shù)據(jù)。

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

不同類型的概念漂移（圖片來源于 Block-based and Online Ensembles for Concept-drifting Data Streams, 2015. Ph.D. Thesis from Dariusz Brzeziński）

第三則是模型能夠自適應(yīng)地改變其復(fù)雜度，由于機(jī)器人獲取的數(shù)據(jù)在動(dòng)態(tài)變化，無法提前獲取所有的外界數(shù)據(jù)信號(hào) (例如機(jī)器人每天接觸感知的人、物體和周圍環(huán)境都在變化)，所以最終運(yùn)用的模型必須具備復(fù)雜度自適應(yīng)可變的特點(diǎn)。加之概念漂移的問題，我們常常需要增加模型的復(fù)雜度來處理不同分布的數(shù)據(jù)。

數(shù)據(jù)集

一、數(shù)據(jù)集采集

OpenLORIS-Object 數(shù)據(jù)集由若干個(gè)地面機(jī)器人模擬人類視覺采集而成，采集地點(diǎn)為平時(shí)活動(dòng)的辦公室和家庭環(huán)境，攝影部分由 Intel RealSense D435i 和 T265 組成。

在不同光照、遮擋、物體大小、相機(jī)-對(duì)象距離/角度、雜亂程度，以及不同的場(chǎng)景信息下，機(jī)器人主動(dòng)記錄目標(biāo)對(duì)象的視頻。數(shù)據(jù)集記錄了機(jī)器人在拍攝過程中通常會(huì)面臨的不同環(huán)境挑戰(zhàn)，比如：

光照在實(shí)際應(yīng)用中，照明會(huì)隨時(shí)間變化很大，例如晝夜差異。我們的數(shù)據(jù)集主要是從正常的日光收集的，包括弱光，正常光和強(qiáng)光，每個(gè)占每個(gè)場(chǎng)景下物體的 10％。隨著燈光變?nèi)?，分類任?wù)變得更具挑戰(zhàn)性。
遮擋當(dāng)一個(gè)對(duì)象的一部分被一個(gè)或多個(gè)對(duì)象隱藏，或者在視場(chǎng)中僅顯示該對(duì)象的一部分時(shí)會(huì)產(chǎn)生遮擋現(xiàn)象。由于可能隱藏了對(duì)象的獨(dú)特特征，因此遮擋使分類任務(wù)更具挑戰(zhàn)性。
物體大小 小物體或者細(xì)長(zhǎng)的物體，如干電池或膠棒，會(huì)使分類任務(wù)更具挑戰(zhàn)性。
相機(jī)-對(duì)象角度/距離 攝像機(jī)的角度會(huì)影響從對(duì)象檢測(cè)到的屬性，距離會(huì)影響目標(biāo)物體的大小。
雜亂程度 是指在考慮的對(duì)象附近存在其他對(duì)象。同時(shí)存在多個(gè)對(duì)象可能會(huì)干擾分類任務(wù)。
場(chǎng)景信息 環(huán)境信息是學(xué)習(xí)過程中的另一個(gè)因素，例如在廚房的場(chǎng)景下可以提高刀、炊具等物體的識(shí)別能力。先前的大多數(shù)研究都忽略了場(chǎng)景信息對(duì)于上下文識(shí)別的重要性。

技術(shù)細(xì)節(jié)和數(shù)據(jù)集可參考：
Qi She et al.,「OpenLORIS-Object: A Dataset and Benchmark towards Lifelong Object Recognition」, https://arxiv.org/abs/1911.06487

二、數(shù)據(jù)集描述

為了使物體分類任務(wù)與日常生活場(chǎng)景相結(jié)合，數(shù)據(jù)在多個(gè)生活場(chǎng)景下采集，比如客廳、廚房、臥室等，物體的放置也考慮日常生活場(chǎng)景，被放置在桌面、地面、墻面、床上等。

已發(fā)布的的數(shù)據(jù)集由 69 種物體組成，包含 7 個(gè)場(chǎng)景下的 19 類日常必需品。每種物體被記錄為 17 秒（每秒 30 幀）的視頻（即共 500 幀 RGB-D 圖像），由 4 個(gè)環(huán)境影響因素（包含光照，遮擋程度，目標(biāo)對(duì)象的像素大小，雜亂程度），每個(gè)因素由 3 種等級(jí)控制分類任務(wù)的實(shí)現(xiàn)難度。見下圖（基于環(huán)境影響因素，每種物體共有 12 個(gè)子類）：

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

每個(gè)等級(jí)下的每種物體對(duì)應(yīng)了 260 個(gè)樣本。即：對(duì)于每種物體，總共有 3120 個(gè)樣本。因此數(shù)據(jù)集共包含了：260(樣本數(shù)/種物體實(shí)例) * 69(物體實(shí)例) * 4(環(huán)境影響因素/個(gè)等級(jí)) * 3(難度等級(jí))=215,280 個(gè)樣本。

數(shù)據(jù)集概況及下載地址：
https://lifelong-robotic-vision.github.io/dataset/Data_Object-Recognition

三、數(shù)據(jù)集的可視化

執(zhí)行物體分類任務(wù)時(shí)呈現(xiàn)時(shí)序一致性可提供圖像信息在時(shí)間上的平滑度，從而簡(jiǎn)化目標(biāo)識(shí)別的過程，改善分類準(zhǔn)確性，更好地解決半監(jiān)督（或無監(jiān)督）場(chǎng)景。下圖為隨機(jī)選取的數(shù)據(jù)樣本：

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

示例中的每列圖片為目標(biāo)對(duì)象所處的不同雜亂環(huán)境（從第一行到第三行分別展示簡(jiǎn)單，正常和復(fù)雜的雜亂場(chǎng)景），遮擋程度（0%，25%，50%），像素大?。?lt;30*30，30*30?200*200，>200*200），以及光照程度（弱光，正常光，強(qiáng)光）。

比賽評(píng)比標(biāo)準(zhǔn)

比賽中，參賽選手不僅要考慮連續(xù)學(xué)習(xí)情境下物體識(shí)別的準(zhǔn)確度，更要兼顧模型的大小、模型對(duì)數(shù)據(jù)量的依賴性、模型部署中的預(yù)測(cè)速度等性能。

除此之外，參賽選手還需對(duì)更具有挑戰(zhàn)性的測(cè)試集進(jìn)行采集，包括：更多物體姿態(tài)角度、光照環(huán)境和更加復(fù)雜的背景信息。具體的模型評(píng)分標(biāo)準(zhǔn)如下所示：

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

在決賽的數(shù)據(jù)集中，測(cè)試集有 21520 個(gè)樣本，驗(yàn)證集有 21520 個(gè)樣本，訓(xùn)練集有 172200 個(gè)樣本，賽方根據(jù)不同的影響因素隨機(jī)打亂數(shù)據(jù)集。

數(shù)據(jù)集被分為 12 個(gè)批次，每個(gè)批次的樣本來自一個(gè)子類，總共有 12 個(gè)子類，即：4(環(huán)境影響因素/等級(jí)) * 3(難度等級(jí))，包含 7 個(gè)生活場(chǎng)景下的 69 種物體。下圖為每個(gè)批次下不同影響因素的概覽：

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

Lifelong Object Recognition 優(yōu)勝方案模型展示

來自?？低暤?HIKVISION 團(tuán)隊(duì)榮獲 Lifelong Robotic Vision Competition 冠軍，該方案采取知識(shí)蒸餾 (knowledge distillation) 和網(wǎng)絡(luò)擴(kuò)展 (network expand) 的方式來緩解災(zāi)難性遺忘。

該方法會(huì)計(jì)算對(duì)于每一次增量任務(wù)與先前學(xué)習(xí)任務(wù)的領(lǐng)域差異 (domain gap) 來判斷任務(wù)相似性，對(duì)于相似性大的任務(wù)采用知識(shí)蒸餾方案在學(xué)習(xí)新任務(wù)的同時(shí)記住舊任務(wù)的特征，相似小的任務(wù)采用網(wǎng)絡(luò)結(jié)構(gòu)擴(kuò)充來學(xué)習(xí)新任務(wù)。其方案模型如下圖所示：

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

基于知識(shí)蒸餾與網(wǎng)絡(luò)擴(kuò)展方案

來自 University of Bologna 的 unibo 團(tuán)隊(duì)提出了隱層結(jié)構(gòu)回放 (latent rehearsal) 模型，該模型獲得綜合評(píng)分第二名的成績(jī)。

不同于其他方案針對(duì)原數(shù)據(jù)樣本進(jìn)行重采樣，該方法對(duì)舊樣本的隱層信息進(jìn)行重采樣。實(shí)驗(yàn)證明該方案可以在確保高準(zhǔn)確率的同時(shí)，減少內(nèi)存使用和計(jì)算量。目前該方案可以部署在移動(dòng)端設(shè)備進(jìn)行訓(xùn)練。

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

基于隱層結(jié)構(gòu)回放模型方案

此外，來自韓國(guó)電子通信研究院 (ETRI) 的 HYDRA-DI-ETRI 團(tuán)隊(duì)提出了選擇性特征學(xué)習(xí) (selective feature learning) 方案去減少噪聲物體對(duì)目標(biāo)物體的干擾。該隊(duì)伍在口頭報(bào)告中得到最高分。

由于在真實(shí)的機(jī)器人視覺識(shí)別任務(wù)中，目標(biāo)物體的周圍環(huán)境趨向于雜亂無規(guī)律，存在較多的噪聲物體，這可能會(huì)對(duì)識(shí)別的準(zhǔn)確率產(chǎn)生影響。該團(tuán)隊(duì)采用 Single Shot MultiBox Detector (SSD) 去對(duì)選擇出第一個(gè)任務(wù)的數(shù)據(jù)集中的目標(biāo)物體，后再進(jìn)行連續(xù)的物體識(shí)別任務(wù)。

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

基于選擇性特征學(xué)習(xí)方案

AI 計(jì)算機(jī)視覺的持續(xù)學(xué)習(xí)探討

為了進(jìn)一步推廣 Lifelong Robotic Vision 項(xiàng)目，吸引更多的學(xué)術(shù)工業(yè)界的研究開發(fā)人員，英特爾中國(guó)研究院作為主辦方之一在 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020 舉辦了「Continual Learning in Computer Vision Workshop」。

該 workshop（研討會(huì)）主要探究計(jì)算機(jī)視覺問題中的 Continul Learning 的能力。在計(jì)算機(jī)視覺系統(tǒng)中，如何在多個(gè)連續(xù)任務(wù)中保證算法的穩(wěn)定性，如何有效的克服神經(jīng)網(wǎng)絡(luò)中災(zāi)難性遺忘的問題，如何進(jìn)行知識(shí)在不同任務(wù)中的遷移，以及如何在硬件受限情況下優(yōu)化 Continual Learning 的綜合表現(xiàn)。

IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽：賦予 AI 終生學(xué)習(xí)能力（附冠軍算法模型）

研討會(huì)主要分為研討會(huì)文章收錄，現(xiàn)場(chǎng)專家報(bào)告，Continual learning in Computer Vision 挑戰(zhàn)賽。目前確認(rèn) 9 位專家會(huì)在現(xiàn)場(chǎng)進(jìn)行口頭報(bào)告討論 Continual Learning 在計(jì)算機(jī)視覺中的研究前景以及潛力，包括：Google Deepmind 研究科學(xué)家 Razvan Pascanu、Facebook AI Research 研究科學(xué)家 Marc’Aurelio Ranzato、INRIA 研究總監(jiān) Cordelia Schmid等。

研討會(huì)主要關(guān)注 Continual Learning 的話題，目前已開放公眾提交平臺(tái)，錄用的文章將加入 CVPR 2020 workshop 的文集，

更多提交詳情可查看：
https://cmt3.research.microsoft.com/CONTVISION2020
Lifelong Robotic Vision Github 詳情：
https://lifelong-robotic-vision.github.io/

雷鋒網(wǎng) AI 開發(fā)者

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

4人收藏

楊鯉萍

編輯

發(fā)私信

當(dāng)月熱門文章