0
本文作者: debbie | 2017-07-22 19:49 | 專題:CVPR 2017 |
2017 年 7 月 11 日,專注于計算機視覺和深度學習的國內人工智能企業(yè)商湯科技完成 4.1 億美元融資的消息引爆業(yè)內。本次融資創(chuàng)下了全球人工智能公司單輪融資的最高紀錄。作為一家專注于計算機視覺和深度學習的新銳公司,在即將到來的世界頂級計算機視覺會議CVPR(7月21日-26日,美國夏威夷)上,商湯科技也將帶來一系列的技術Demo、Presentation、PartyTime等活動。在本屆CVPR 2017 大會上,商湯科技及香港中大-商湯科技聯(lián)合實驗室共有23篇論文被接收。錄取論文中不乏新奇有趣的題目,詳細內容歡迎到會場和作者深度交流。
圖像質量差異識別難點示意圖
在人臉識別、人體再識別任務中,輸入的數(shù)據通常是每張人臉或每個人體的多張圖像構成的序列?,F(xiàn)有的方法利用卷積神經網絡對一個序列中的所有圖像分別提取特征,再將特征進行簡單的平均或池化,作為該序列的最終特征用于之后的識別。但實際應用場景中一個序列中的圖像可能在許多方面存在著較大差異,例如光照、清晰度、角度等,如示例圖。由于在融合序列的特征時沒有考慮到這些差異,上述方法在實際應用場景用會受這些因素的影響從而無法達到理想的效果。本論文提出了一種新的序列匹配方法,充分考慮了序列內圖像的差異性,并利用深度學習的方法對這種差異性進行無監(jiān)督的學習,再根據學習到的質量差異性對序列中的圖像特征進行融合,最終得到具有較高判別力的序列特征,解決光照模糊等一系列實際應用中的問題。
以自然語言描述來進行人的檢索
大規(guī)模圖像庫檢索有非常大的行業(yè)意義,通常提取圖像屬性特征再通過屬性檢索來找到目標。但是常用場景比如嫌疑犯描述都是通過自然語言描述(人類能理解的語言)。本論文提出了使用自然語言描述進行人的大庫檢索,如上圖所示,自然語言描述為“這位婦女穿著一件長而亮的橙色長袍,腰上系著一條白色腰帶。她把頭發(fā)挽成一個發(fā)髻或馬尾辮?!边@樣的描述要比用屬性來的豐富的多。這個系統(tǒng)定位人體圖像顯著視覺區(qū)域,同時把有意義的文本描述短語賦予顯著的視覺區(qū)域。通過學習圖像-語言關系,系統(tǒng)可以準確得到自然語言查詢和相似度得分,從而大大提成查詢準確率和效率。
結合人類視覺注意力 - Residual Attention Network for Image Classification
首次成功將極深卷積神經網絡與人類視覺注意力機制進行有效的結合
視覺注意力機制是人類視覺所特有的大腦信號處理機制。人類視覺通過快速掃描全局圖像獲得需要關注的目標區(qū)域,而后重點獲取所需要關注的目標信息,抑制其他無用信息。人類視覺注意力機制極大的提高了視覺信息處理的效率與準確性。注意力機制已經在自然語言處理中取得了重大成功。但在計算機視覺任務中,如何將視覺注意力機制有效的嵌入到神經網絡結構并提升網絡性能成為亟待解決的問題。
Residual Attention Network,在圖像分類問題上,首次成功將極深卷積神經網絡與人類視覺注意力機制進行有效的結合,并取得了遠超之前網絡結構的準確度與參數(shù)效率。僅用與ResNet-50的相當?shù)膮?shù)量和計算量就得到了遠超過了ResNet-152的分類性能。今年ImageNet檢測冠軍團隊已經在LOC任務重使用了本文的機制。 模型、參數(shù)等都可以參考網站
CVPR 2017 會議期間商湯將聯(lián)合香港中文大學聯(lián)合實驗室共同主辦一場SenseTime PartyTime活動。該活動旨在為計算機視覺領域的研究人員和學生提供交流機會,并且會有業(yè)內大咖分享最新研究成果。
活動時間: 7月24日下午12:00-16:00pm
活動地點:THE MODERN HONOLULU, Honolulu, Hawaii
商湯科技及香港中大-商湯科技聯(lián)合實驗室共有23篇論文被接收,附上CVPR2017上Session時間
1) Multi-Context Attention for Human Pose Estimation - Saturday, July 22, 2017,09:00–10:30
2) Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation - Saturday, July 22, 2017,09:00–10:30
3) Accurate Single Stage Detector Using Recurrent Rolling Convolution - Saturday, July 22, 2017,10:30–12:30
4) Mimicking Very Efficient Network for Object Detection - Saturday, July 22, 2017,10:30–12:30
5) Object Detection in Videos with Tubelet Proposal Networks - Saturday, July 22, 2017,10:30–12:30
6) Spindle Net: Person Re-identification with Human Body Region Guided Feature Decomposition and Fusion.- Saturday, July 22, 2017,10:30–12:30
7) Discover and Learn New Objects from Documentaries - Saturday, July 22, 2017,13:30–15:00
8) Learning object interactions and descriptions for Semantic Image Segmentation - Saturday, July 22, 2017,13:30–15:00
9) Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification Saturday, July 22, 2017- 15:00–17:00
10) Scale-Aware Face Detection - Saturday, July 22, 2017,15:00–17:00
11) Interpretable Structure-Evolving LSTM - Sunday, July 23, 2017,08:30–10:00
12) Detecting Visual Relationships with Deep Relational Networks - Sunday, July 23, 2017,13:00–14:30
13) Joint Detection and Identification Feature Learning for Person Search - Sunday, July 23, 2017,13:00–14:30
14) Learning Cross-Modal Deep Representations for Robust Pedestrian Detection - Sunday, July 23, 2017,14:30–16:30
15) PolyNet: A Pursuit of Structural Diversity in Very Deep Networks - Sunday, July 23, 2017,14:30–16:30
16) Pyramid Scene Parsing Network - Sunday, July 23, 2017,14:30–16:30
17) Person Search with Natural Language Description - Monday, July 24, 2017,10:00–12:00
18) Quality Aware Network for Set to Set Recognition - Monday, July 24, 10:00–12:00
19) UntrimmedNets for Weakly Supervised Action Recognition and Detection - Tuesday, July 25, 2017,10:00–12:00
20) Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade - Tuesday, July 25, 2017,13:00–14:30
21) Residual Attention Network for Image Classification - Tuesday, July 25, 13:00–14:30
22) ViP-CNN: A Visual Phrase Reasoning Convolutional Neural Network for Visual Relationship Detection - Tuesday, July 25, 2017,1430–1630
23) Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing - Tuesday, July 25, 2017,14:30–16:30
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章