0
雷鋒網(wǎng)按:國際計(jì)算機(jī)視覺與模式識(shí)別頂級(jí)會(huì)議CVPR 2017于 7 月 21 日—7 月 26 日在美國夏威夷召開。雷鋒網(wǎng)記者團(tuán)也特赴夏威夷為大家?guī)硪皇謭?bào)道。在會(huì)上,許多杰出的青年學(xué)者都將介紹自己的研究和論文,雷鋒網(wǎng)也會(huì)對(duì)部分內(nèi)容作介紹。
Angela Dai 是斯坦福大學(xué)的一名博士生,在 CVPR 上有一個(gè) Spotlight talk,主要介紹 ScanNet,一個(gè)擁有標(biāo)注過 3D 室內(nèi)場(chǎng)景重構(gòu)信息的大規(guī)模 RGB-D 數(shù)據(jù)集。
她最初的想法是,推動(dòng)數(shù)據(jù)匱乏的機(jī)器學(xué)習(xí)算法的發(fā)展,特別是在 3D 數(shù)據(jù)上。3D 數(shù)據(jù)包含更多信息,比如比如大小和物體之間的距離。但 3D 數(shù)據(jù)更難獲取,為其添加標(biāo)注也更難,現(xiàn)在 3D 數(shù)據(jù)并不多。
Angela希望用 ScanNet 建立一個(gè)可擴(kuò)展數(shù)據(jù)采集框架。他們首先需要收集 3D 重建數(shù)據(jù),然后用有效的方式對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,以便收集更多數(shù)據(jù)。目前團(tuán)隊(duì)已經(jīng)收集約 1500 個(gè) RGB-D 的視頻序列,通過 iPad 應(yīng)用加深度傳感器而收集的。然后視頻會(huì)被上傳到服務(wù)器,并被自動(dòng)重建。然后,視頻會(huì)被給到亞馬遜 Mechanical Turk,將標(biāo)注工作眾包出去。
數(shù)據(jù)標(biāo)注是在一個(gè)給定的 3D 場(chǎng)景中,繪制出物體,例如,繪制一個(gè)椅子、桌子或者計(jì)算機(jī),從而了解什么是什么,以及所在位置。每個(gè)圖像通常需要 5 個(gè)人來標(biāo)注。所得數(shù)據(jù)可以在做物體分類這樣的訓(xùn)練任務(wù)時(shí),作為標(biāo)準(zhǔn)參考。
ScanNet 數(shù)據(jù)集可以幫助直接在 3D 數(shù)據(jù)上訓(xùn)練算法。例如,如果有一個(gè)機(jī)器人在房間移動(dòng),它需要識(shí)別房間里有什么對(duì)象,而且不僅需要識(shí)別遠(yuǎn)處有一個(gè)物體,還要確定這個(gè)物體是什么。
Angela 和團(tuán)隊(duì)還在現(xiàn)實(shí)數(shù)據(jù)上做了幾個(gè)場(chǎng)景理解的基準(zhǔn)測(cè)試。因?yàn)楝F(xiàn)在已有的大型 3D 數(shù)據(jù)集都是合成的,這與現(xiàn)實(shí)世界收集的 3D 數(shù)據(jù)有很大不同。
通常情況下,如果你通過合成數(shù)據(jù)庫來訓(xùn)練算法,當(dāng)算法用于真實(shí)數(shù)據(jù)時(shí)效果不會(huì)太好,因?yàn)橛?jì)算機(jī)并沒有學(xué)習(xí)到現(xiàn)實(shí)世界的數(shù)據(jù)特征?,F(xiàn)實(shí)中有很多噪音,很難觀察到一個(gè)對(duì)象的全部特征?;鶞?zhǔn)測(cè)試表明,計(jì)算機(jī)在真實(shí)數(shù)據(jù)中的訓(xùn)練效果,比在合成數(shù)據(jù)中的訓(xùn)練效果要好得多。真實(shí)數(shù)據(jù)以后會(huì)有更大的需求。
Angela 以前一直在研究 3D 重建,開發(fā)實(shí)時(shí)的 3D 重建系統(tǒng),但她后來發(fā)現(xiàn)很難運(yùn)用于實(shí)踐中,因?yàn)槿鄙賹?duì)于場(chǎng)景的語義理解。在一個(gè)場(chǎng)景中,人們會(huì)希望知道物體在哪個(gè)位置,到底是什么物體,這樣還可以有虛擬助手或聊天機(jī)器人一樣的東西,幫助做場(chǎng)景的交互。這也是她開發(fā)新的數(shù)據(jù)集的原因。
另外,除了眾包標(biāo)注任務(wù),他們也希望能眾包場(chǎng)景重建任務(wù)。除此之外,在語義理解方面還要做很多工作。但他們現(xiàn)在的任務(wù)是,解決物體識(shí)別。3D 場(chǎng)景數(shù)據(jù)未來還會(huì)有更多有趣的應(yīng)用。
Angela 還很感興趣于將真實(shí)世界的數(shù)據(jù)與合成的 CAD 模型相結(jié)合,相關(guān)聯(lián)起來。這么做的一個(gè)好處是,合成數(shù)據(jù)比較容易獲得而且易于操作,如果合成數(shù)據(jù)與真實(shí)數(shù)據(jù)建立了聯(lián)系,那就可以讓在模型上訓(xùn)練的系統(tǒng),更容易遷移到真實(shí)數(shù)據(jù)上。
當(dāng)然,更重要的任務(wù)是給 3D 數(shù)據(jù)賦予語義解釋,這有利于使機(jī)器人更好地理解世界。
關(guān)于ScanNet的論文,在這里下載。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。