0
本文作者: 楊文 | 2017-08-24 13:41 |
8月12日下午,由雷鋒網(wǎng)主辦的“GAIR大講堂CVPR 上海交大專場(chǎng)”在上海交通大學(xué)正式開幕。作為雷鋒網(wǎng)旗下高端學(xué)術(shù)分享品牌,「GAIR大講堂」的使命是通過(guò)舉辦高頻次的線下校園學(xué)術(shù)分享活動(dòng),實(shí)現(xiàn)學(xué)術(shù)專家、AI業(yè)者與學(xué)校同學(xué)們之間的深度交流。本次活動(dòng),雷鋒網(wǎng)特地邀請(qǐng)5位CVPR 2017前方論文講者來(lái)講解各自的論文,同時(shí)分享CVPR 的參會(huì)心得。活動(dòng)現(xiàn)場(chǎng)當(dāng)天還有三位上海交通大學(xué)的教授前來(lái)助陣,他們分別是電子信息與電氣工程學(xué)院(下稱“電院”)副院長(zhǎng)楊小康教授、電院特別研究員,博士生導(dǎo)師倪冰冰老師以及電院副研究員徐奕老師,他們紛紛前來(lái)為同學(xué)們的學(xué)術(shù)熱情點(diǎn)贊加油。AI科技評(píng)論作為此次活動(dòng)的合作媒體,亦全程到現(xiàn)場(chǎng)參與報(bào)道。
五位學(xué)術(shù)青年分別是:
MIT EECS系三年級(jí)博士生 吳佳俊
阿里巴巴人工智能實(shí)驗(yàn)室資深算法工程師 汪洋
上海交通大學(xué)研究生 楊蕊
上海交通大學(xué)研究生 林天威
上海交通大學(xué)博士生 王敏思
本次活動(dòng)主要以CVPR 2017入選論文為主題分享,也有部分嘉賓準(zhǔn)備了一些在別的國(guó)際學(xué)術(shù)會(huì)議中入選的論文做講解分享。下面就讓AI科技評(píng)論記者帶大家看看他們都做了哪些內(nèi)容分享。
活動(dòng)開始,首先是上海交通大學(xué)電子信息與電氣工程學(xué)院副院長(zhǎng)楊小康教授做致辭。楊小康教授先是對(duì)GAIR大講堂走進(jìn)高校系列活動(dòng)表達(dá)了非常高的贊許和肯定。當(dāng)談到CVPR時(shí),他說(shuō)道:CVPR目前不光是在CS領(lǐng)域比較火,而是在整個(gè)學(xué)術(shù)界的影響力都非常大,論文要入選CVPR會(huì)議,非常難。針對(duì)目前AI全球蔓延的火熱趨勢(shì),楊小康教授告誡同學(xué)們,除了認(rèn)真做好學(xué)術(shù),抓住這一時(shí)代機(jī)遇外,還要擋得住外界誘惑,冷靜思考。
吳佳俊分享了一篇作者并非他本人但內(nèi)容非常有意思的論文, A Point Set Generation Network for 3D Object Reconstruction from a Single Image(用于從單張圖像中重建三維物體的點(diǎn)云生成網(wǎng)絡(luò))
深度神經(jīng)網(wǎng)絡(luò)非?;穑巧疃壬窠?jīng)網(wǎng)絡(luò)很多時(shí)候是做卷積神經(jīng)網(wǎng)絡(luò),怎么用深度神經(jīng)網(wǎng)絡(luò)從單張圖片中恢復(fù)重建三維物體,是個(gè)難題。圖像是像素,在圖片上可以做到400*800,800*600,三維卻很難超過(guò)128*128*128。吳佳俊先從利用單張圖片重建三維物體的難點(diǎn)講起,再到現(xiàn)存的一些方法的弊端?,F(xiàn)存的大多數(shù)方法都采取常規(guī)的三位數(shù)據(jù)表示,例如三位體素或圖像集合。而在這篇CVPR文章里,作者提出了一種新思路,試圖從單張圖像中直接生成三維點(diǎn)云坐標(biāo),并進(jìn)行三維重建。三維點(diǎn)云具有非常高的靈活性,在物體的細(xì)節(jié)上表現(xiàn)很好,在細(xì)節(jié)表現(xiàn)上只需要增加點(diǎn)云的數(shù)量即可。論文作者針對(duì)問(wèn)題設(shè)計(jì)了相應(yīng)的神經(jīng)網(wǎng)絡(luò)架構(gòu),損失函數(shù)和學(xué)習(xí)范式。實(shí)驗(yàn)結(jié)果也證明了所提出的方法的良好性能。論文下載地址:https://arxiv.org/pdf/1612.00603.pdf
汪洋代表Ali AI Lab分享了一篇阿里人工智能實(shí)驗(yàn)室入選的論文:Contextual Attention-based Memory Networks for Scene Labeling(上下文注意力機(jī)制記憶網(wǎng)絡(luò)在場(chǎng)景標(biāo)記中的應(yīng)用)
場(chǎng)景標(biāo)注需要解決的問(wèn)題是預(yù)測(cè)圖像每個(gè)像素所屬的類別,實(shí)際上它可視為一個(gè)序列到序列的預(yù)測(cè)任務(wù)。因此,如何充分利用相關(guān)上下文信息是提高標(biāo)注效果的關(guān)鍵所在。阿里人工智能實(shí)驗(yàn)室入選的這篇CVPR論文提出了一種Episodic CAMN方法,并在該方法的基礎(chǔ)上定義了一種由全卷積神經(jīng)網(wǎng)絡(luò)(Fully Connected Network,F(xiàn)CN)和帶有反饋連接的注意力機(jī)制記憶網(wǎng)絡(luò)(Attention-based Memory Network with Feedback Connections)構(gòu)成的統(tǒng)一框架來(lái)實(shí)現(xiàn)上下文信息的選擇和調(diào)整。在PASCAL Context,SIFT Flow和PASCAL VOC 2011等場(chǎng)景標(biāo)注數(shù)據(jù)集上進(jìn)行一系列評(píng)測(cè),取得了不錯(cuò)的效果。
楊蕊同學(xué)分享的是今年她作為第一作者入選CVPR 2017的論文:Video Segmentation via Multiple Granularity Analysis(基于多粒度分析的視頻分割),她在活動(dòng)上介紹自己很多靈感都是來(lái)源于吳佳俊同學(xué)發(fā)表的論文,并且針對(duì)論文內(nèi)容的細(xì)節(jié)問(wèn)題,兩人還做了一定的探討。
楊蕊從視頻目標(biāo)分割的定義開始講解,視頻目標(biāo)分割是講視頻中的目標(biāo)物體在每一幀中從背景中沿物體輪廓進(jìn)行像素級(jí)別分割,采用一個(gè)多粒度框架可以通過(guò)從粗到細(xì)的方式對(duì)視頻進(jìn)行精準(zhǔn)分割。本質(zhì)是圖像分割與視頻跟蹤任務(wù)的結(jié)合。視頻分割可以被理解為一個(gè)時(shí)序上的超像素打標(biāo)過(guò)程,在精準(zhǔn)的視頻跟蹤技術(shù)的幫助下,時(shí)空上的多實(shí)例學(xué)習(xí)算法可以將超像素進(jìn)行二分類,并緊接著用圖割的方式在像素級(jí)別進(jìn)行細(xì)化,最終實(shí)現(xiàn)準(zhǔn)確的分割。同時(shí)她也講了視頻目標(biāo)分割傳統(tǒng)方法,以及新方法遇到的挑戰(zhàn),比如視頻模糊,有遮擋,形變,和光照等因素影響。
林天威分享的是一篇投稿在ACM Multimedia 2017的論文:Single Shot Temporal Action Detection(基于時(shí)序卷積網(wǎng)絡(luò)的視頻動(dòng)作檢測(cè)方法),并且利用該論文中提到的方法獲得CVPR舉辦的ActivityNet Challenge 2017兩項(xiàng)冠軍。
林天威首先對(duì)視頻分類和圖像分類做了一個(gè)大致的對(duì)比。圖像中分類的目的是給圖片標(biāo)簽,不僅要給出目標(biāo)種類,還要給出目標(biāo)位置。而視頻分類要給一段短的視頻片段進(jìn)行動(dòng)作分析,也就是時(shí)序動(dòng)作檢測(cè)問(wèn)題。實(shí)際中一個(gè)視頻通常很長(zhǎng),論文中研究的動(dòng)作只是一個(gè)很小的片段,一個(gè)小片段也可能會(huì)包含很多動(dòng)作片段,因此希望能檢測(cè)出不僅包含動(dòng)作的種類,也包含動(dòng)作的開始和結(jié)束時(shí)間。評(píng)估的過(guò)程中不僅要看預(yù)測(cè)的動(dòng)作種類是否正確,還要比較預(yù)測(cè)動(dòng)作片段與真實(shí)片段之間的重疊比例。只有重疊比例高于一定的預(yù)值,才認(rèn)為這個(gè)預(yù)測(cè)是正確的。
總結(jié)來(lái)說(shuō),時(shí)序行為檢測(cè)是要在視頻序列中確定動(dòng)作發(fā)生的時(shí)間區(qū)間(包括開始時(shí)間與結(jié)束時(shí)間)以及動(dòng)作的類別。與其關(guān)系緊密的一個(gè)領(lǐng)域是基于圖像的物體檢測(cè)(object detection),物體檢測(cè)是檢測(cè)物體在圖像中的位置,包括長(zhǎng)和寬兩個(gè)維度,而時(shí)序行為檢測(cè)則只需要確定時(shí)間維度上動(dòng)作的位置。
王敏思分享是他今年投稿在CVPR 2017上的論文:Recurrent Modeling of Interaction Context for Collective Activity Recognition(對(duì)人體之間的交互進(jìn)行遞歸建模來(lái)進(jìn)行群體行為識(shí)別)
王敏思對(duì)群體行為進(jìn)行了一個(gè)通俗定義,需要大于等于兩個(gè)人共同完成的行為模式稱為群體行為。群體行為識(shí)別是為了判斷場(chǎng)景中整個(gè)人群的行為。群體行為通常包括多個(gè)層次的互動(dòng)信息(Interaction Context),包括單個(gè)人的運(yùn)動(dòng)信息,局部群組內(nèi)人與人的互動(dòng)信息,以及局部組群與組群之間的互動(dòng)信息。針對(duì)此現(xiàn)象,論文提出了一個(gè)基于多層次遞歸神經(jīng)網(wǎng)絡(luò)的群體行為識(shí)別算法,該算法在每個(gè)層次的互動(dòng)信息建模中,使用LSTM節(jié)點(diǎn),低級(jí)層次的信息會(huì)聚后作為高級(jí)層次的信息節(jié)點(diǎn)輸入,主要分為person-level,group-level, scene-level三個(gè)不同層次的LSTM。最終通過(guò)多層次的LSTM結(jié)構(gòu),實(shí)現(xiàn)跨層次的群體行為識(shí)別。該方法在群體行為數(shù)據(jù)庫(kù)Collective-Activity獲得了目前很好的識(shí)別精度。
活動(dòng)時(shí)間雖安排在暑假,且又趕上周末,但來(lái)現(xiàn)場(chǎng)聽論文分享的同學(xué)依然不少。很多都是從附近高校,比如上海理工,復(fù)旦大學(xué)專程趕過(guò)來(lái)。也有一些知名互聯(lián)網(wǎng)公司的技術(shù)人員利用周末時(shí)間趕來(lái)學(xué)習(xí)。現(xiàn)場(chǎng)的提問(wèn)環(huán)節(jié)也得到了大家的熱烈響應(yīng)。
GAIR大講堂走進(jìn)高校系列活動(dòng)還會(huì)繼續(xù)舉辦,下一站哈工大深圳專場(chǎng)將于8月26日下午在哈工大深研院舉辦。AI科技評(píng)論記者也會(huì)繼續(xù)為大家報(bào)道嘉賓分享的干貨,以及活動(dòng)現(xiàn)場(chǎng)的一些情況。如果你恰巧就在活動(dòng)的舉辦地城市或附近,不妨親自來(lái)聽一場(chǎng),相信你一定會(huì)從中有所收獲。目前“GAIR大講堂-CVPR哈工大深圳專場(chǎng)”活動(dòng)已經(jīng)開啟報(bào)名,歡迎大家報(bào)名參加。
活動(dòng)地址:http://www.ozgbdpf.cn/activity/view/id/3
本場(chǎng)活動(dòng)直播回放地址:http://www.mooc.ai/course/151/lesson/list
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。