0
本文作者: 楊文 | 2017-08-29 23:36 |
雷鋒網(wǎng)AI科技評論按:8月26日下午,由雷鋒網(wǎng)主辦的“GAIR大講堂CVPR 哈工大深圳專場”在哈爾濱工業(yè)大學深圳校區(qū)正式開幕。作為雷鋒網(wǎng)旗下高端學術分享品牌,「GAIR大講堂」的使命是通過舉辦高頻次的線下校園學術分享活動,實現(xiàn)學術專家、AI業(yè)者與學校同學們之間的深度交流。CVPR哈工大深圳專場是GAIR大講堂在8月份的第三場也是最后一場線下學術分享活動。本活動在哈工大深圳計算機學院王軒院長和何震宇老師的支持下,雷鋒網(wǎng)特地邀請了5位CVPR 2017前方論文講者來講解各自的論文,同時分享CVPR 的參會心得。AI科技評論作為GAIR大講堂活動的獨家合作媒體,全程參與了現(xiàn)場報道。
活動現(xiàn)場
活動現(xiàn)場座無虛席
同學踴躍提問
活動承辦方哈工大(深圳)研究生院計算機學院王軒院長致辭
分享嘉賓介紹
哈爾濱工業(yè)大學計算機學院教授、博士生導師 左旺孟
碼隆科技首席科學家 黃偉林
碼隆科技聯(lián)合創(chuàng)始人兼CTO Matt Scott
清華大學博士 陳曉智
浙江大學工學博士 李琛
嘉賓分享環(huán)節(jié)
第一位分享嘉賓是左旺孟教授,左旺孟老師是IEEE會員,中國計算機學會會員,國際期刊《ISRN Signal Processing》編委。主要從事圖像增強與復原、稀疏表達和深度學習等方面的研究。在ACM CSUR、IEEE TIP等重要國際期刊和CVPR、ICCV、ICPR、ICIP等重要國際會議上發(fā)表學術論文40余篇。他分享的論文題目是:Deep learning models for image restoration and depth enhancement (面向圖像復原和深度圖增強的深度學習模型)
論文分為四部分:圖像還原與圖像去噪;用深度學習卷積神經網(wǎng)絡去噪之前圖像進行圖像還原;用于深度圖像增強的動態(tài)引導學習;論文總結。
圖像增強和復原是底層視覺的一個重要內容。近年來,以卷積神經網(wǎng)絡為代表的深度學習模型在圖像超分辨與去噪領域獲得了巨大的成功。然而,如何將其推廣應用至更多的底層視覺視覺問題,是近年來關注的一個重要方向。左旺孟老師的分享就是圍繞這一問題,介紹他們在今年CVPR上的兩個工作:
一、設計了一種新的去噪CNN網(wǎng)絡,并結合半二次分裂方法將其推廣應用于廣義的圖像復原問題的求解;
二、針對有引導圖的深度圖增強問題,設計了一種特殊的深度網(wǎng)絡結構并利用任務驅動策略學習動態(tài)引導與增強模型。
實驗結果
接下來是來自碼隆科技的兩位科學家,黃偉林博士和Matt Scott 。
左:黃偉林博士;右:Matt Scott
黃偉林博士來自牛津大學 Visual Geometry Group(VGG),是首位從該實驗室回國工作的研究員。博士后期間師從 Andrew Zisserman和 AlisonNoble。研究方向主要集中在場景文本識別,場景分類和醫(yī)學視頻分析等領域。同時,他還擔任計算機視覺 / 人工智能領域主要會議的 PC member 或者 Reviewer,包括: ICCV、 CVPR、 ECCV、 AAAI 等。黃偉林博士曾任中國科學院助理教授。
Matt Scott 擁有十年微軟研發(fā)經驗,曾任微軟亞洲研究院高級研發(fā)主管。 Matt 多年均為微軟績效排名前 1%的杰出員工與管理者,擁有國際頂級學術會議論文 13 篇,超過 40 個中美專利技術, 18 個微軟技術商業(yè)轉化成果。其熟悉研發(fā)領域包括軟件工程、視覺計算,機器學習,尤其擅長把最前沿計算機科學成果轉化為服務大眾的互聯(lián)網(wǎng)產品。
他們分享的主題為: CVPR WebVision 挑戰(zhàn)賽分享與展望
分享內容: CVPR 期間,WebVision 大規(guī)模視覺理解全球挑戰(zhàn)賽宣布賽果,碼隆科技團隊在全球超過 100 支參賽隊伍中脫穎而出,榮獲冠軍。
WebVision 競賽的主要挑戰(zhàn)是數(shù)據(jù)來源于網(wǎng)絡抓取,未經過任何人工標注, 因此含有大量的錯誤類別標簽。 碼隆算法團隊利用課程學習(Curriculum Learning)的思路,設計更加高效的訓練策略, 有效地抑制錯誤標簽和數(shù)據(jù)不平衡的負面作用。在演講中,碼隆科技黃博士將分享了競賽的算法思路和方法方面的相關經驗,以及針對現(xiàn)實場景中非人工標注數(shù)據(jù)的訓練和學習技術的探索。除此之外,Matt 還重點介紹 ImageNet 與 Webvision 兩大學術比賽之間的區(qū)別,深入介紹了WebVision 比賽的主要挑戰(zhàn),以及由WebVision 比賽引發(fā)的對智能視覺現(xiàn)實場景應用的探索。希望帶領廣大同學們更深入的了解和認識 WebVision 挑戰(zhàn)賽。
第四位分享嘉賓是清華大學博士陳曉智,分享主題為: Multi-View 3D Object Detection Network for Autonomous Driving (面向自動駕駛的多視角三維物體檢測網(wǎng)絡)
陳曉智博士畢業(yè)于清華大學電子工程系。他的研究興趣為深度學習及其在三維感知中的應用。他曾在多倫多大學、百度自動駕駛事業(yè)部進行訪問和實習,曾獲清華大學優(yōu)秀博士論文、博士生國家獎學金。
陳曉智博士從四個方面解讀這篇論文。
分享內容:三維物體檢測是自動駕駛感知系統(tǒng)的關鍵問題。本文提出了一種多視角三維物體檢測網(wǎng)絡(MV3D),通過融合激光點云和 RGB 圖像來實現(xiàn)物體的三維定位與檢測。該模型將三維點云編碼成多視角的表示,通過三維似物性網(wǎng)絡來提取三維候選區(qū)域,并設計了一種深度融合網(wǎng)絡來學習物體的多模態(tài)特征。該方法在 KITTI 評測集上取了領先的三維物體檢測性能。
實驗結果圖:
第五位分享嘉賓是浙江大學工學博士李琛,分享主題是主題: Biological Human Skin Color Model: from Theory toApplications (膚色生物學模型:從原理到應用)
李琛于 2017 年 6 月獲得浙江大學工學博士學位,師從周昆教授和微軟亞洲研究院 Steve Lin 博士。他的研究方向為三維重建、計算攝影學、觀建模等計算機視覺、計算機圖形學的交叉領域。 2012 年至 2016 年期間曾在微軟亞洲研究院網(wǎng)絡圖形組實習。
他的分享內容主要分為以下六部分:
分享內容:人臉一直以來都是圖像和視頻中的最重要的呈現(xiàn)內容。目前市面上也有很多人臉識別APP。
因此,針對人臉的圖像處理技術變得十分重要,并獲得越來越廣泛的學術和工業(yè)界關注。由于人類生理結構的相似性,使得人臉具有更多區(qū)別于一般物體的特征和約束可以被利用——膚色就是其中之一。李琛博士和團隊其他人在CVPR 2017 發(fā)表的兩篇論文《Radiometric Calibration from Faces in Images》和《Specular Highlight Removal in Facial Images》,正是利用人臉膚色的生物學模型作為先驗知識,與當今主流算法相比較,在高光分離、相機響應函數(shù)校準,這兩個傳統(tǒng)圖像處理的重要問題上,效果獲得顯著提升。
內容分享結束后,幾位嘉賓還同時分享了他們在學術界與工業(yè)界做研究的工作經驗。在最后的問答環(huán)節(jié)中,現(xiàn)場同學們就學習、招聘、工作等方面遇到的問題請教了幾位嘉賓,他們都耐心給出了解答,廣大在場的同學們都收獲良多。以上就是GAIR大講堂CVPR哈工大(深圳)專場 5位嘉賓分享的全部內容。AI科技評論為大家整理了本次活動現(xiàn)場PPT(可關注AI科技評論公眾號,后臺回復“哈工大PPT”即可獲取下載地址和密碼。)
活動結束后嘉賓合影
本場活動回放地址:http://www.mooc.ai/course/151/lesson/list
雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。