看過 CVPR 2018 workshop 后，發(fā)現(xiàn)有一個我不認識的 Lady Gaga

本文作者：汪思穎

編輯：郭奕欣

2018-02-27 11:18

專題：CVPR 2018

導語：比賽這么多，有想?yún)⒓拥膯幔?

雷鋒網(wǎng) AI 研習社按，當?shù)貢r間 6.18-22 日，CVPR 2018 將在美國鹽湖城舉辦。目前距離大會開幕還有四個月，隨著春節(jié)期間大會主辦方公布接收論文名單，引來大家對 CVPR 的討論狂潮（詳情可參見 CVPR 2018 收錄論文名單全公布，默默看各路大神公布喜訊）。除了對接收論文的討論和學習，其實還有一個議程也不容大家錯過，那就是 workshop 上各式各樣的比賽了。

從大會官網(wǎng)上可以看到，今年的 workshop 涉及到多個議題，比如偽裝人臉識別、低功耗圖像識別、圖像壓縮、系統(tǒng)魯棒性分析、自動駕駛、嵌入式視覺等等多個方面，而針對這些議題，也涌現(xiàn)出許多有意思的比賽。這些 workshop 上的比賽，或是有多個大公司贊助，或是極具新意，或是極具實用價值，雷鋒網(wǎng) AI 研習社在篩選之后，為大家介紹如下幾個比賽。

看過 CVPR 2018 workshop 后，發(fā)現(xiàn)有一個我不認識的 Lady Gaga

以下是兩個極有新意的比賽，在偽裝人臉識別比賽和大規(guī)模地標識別競賽上，主辦方都提供全新的大規(guī)模公開數(shù)據(jù)集，大家可以利用系統(tǒng)識別偽裝后的明星，識別景點。

偽裝人臉識別比賽

在「First International Workshop on Disguised Faces in the Wild 」workshop上，來自馬里蘭大學、IBM 和印度國際信息學院（IIIT）的幾位主辦方推出偽裝人臉檢測比賽。

隨著近年來深度學習的進步，自動人臉識別能力得到了顯著提升。然而，在不受約束的環(huán)境中，面對不是很配合的用戶，想要進行精準的人臉識別仍然極具挑戰(zhàn)。

目前對姿勢、表情、光照、老化程度和低分辨率等幾個因素的研究頗多，但「偽裝」仍然是人臉識別中一個很難解決的問題。

如下圖所示，偽裝包括有意和無意的改變面容來混淆自己的身份，或者模仿別人的身份。你能猜出下面誰是Lady Gaga，誰是 Neil Patrick Haris 嗎？

看過 CVPR 2018 workshop 后，發(fā)現(xiàn)有一個我不認識的 Lady Gaga

偽裝在什么樣的環(huán)境下都有可能發(fā)生，因此對這種問題的識別會更加困難。此外，由于沒有可用的數(shù)據(jù)集，人們并沒有對真實場景下的偽裝進行全面研究。

針對現(xiàn)狀，在此次研討會上，主辦方舉辦了這場偽裝人臉識別競賽，參賽者將被要求展示他們在自然環(huán)境數(shù)據(jù)庫中對偽裝后的人臉的識別情況。優(yōu)秀的算法組將被受邀提交論文，選中的論文會在 workshop 上進行演示。此外，沒有參加比賽的相關研究人員也可以提交論文。

喬裝人臉數(shù)據(jù)集（Disguised Face Dataset）

主辦方準備了一個喬裝人臉數(shù)據(jù)集（Disguised Face Dataset），包含了 1.1 萬多張涵蓋 1000 種主題的各種經(jīng)過不同偽裝的圖片。主題文件夾由喬裝過后的藝人的圖片組成，此外主辦方還提供從 Faster RCNN 中生成的臉部文件。

數(shù)據(jù)集地址：http://iab-rubric.org/databases/DFW_Data.zip

比賽主要包括如下幾個方向：

在偽裝的情況下識別人臉
通過偽裝冒充其他身份
檢測各種不同的偽裝方法
檢測化妝之后的人臉
識別遮掩之后的人臉

關于該比賽的詳細信息，可以參見：

http://iab-rubric.org/DFW/dfw.html

大規(guī)模地標識別競賽（Large-Scale Landmark Recognition: A Challenge）

看過 CVPR 2018 workshop 后，發(fā)現(xiàn)有一個我不認識的 Lady Gaga

當你在瀏覽旅游之后的照片時，有沒有問過自己：我在中國訪問過的這座寺廟叫什么名字? 我在法國看到的這個紀念碑是誰建造的? 想不起來沒關系，地標識別系統(tǒng)能幫到你。地標識別技術可以直接通過圖片像素預測地標標簽，從而幫助人們更好地理解和分類自己的照片。

如今，地標識別研究面臨一大障礙——缺乏大型的帶標注的數(shù)據(jù)集。

在這次競賽中，主辦方公開了迄今為止最大的全球性數(shù)據(jù)集，以促進解決這個問題。此次比賽在 Kaggle 平臺上舉辦，極具挑戰(zhàn)性。

此次共分為兩個賽事：

地標識別

Kagglers 需要建立模型，在測試集中識別出正確的地標 (如果圖中有地標)。

許多 Kagglers 對諸如 ImageNet LSVRC 大規(guī)模視覺識別挑戰(zhàn)賽很熟悉，ILSVRC 的目標是識別一千種常規(guī)的對象類別。地標識別與這有些許不同：它包含了更大的類 (這次比賽中有一萬五千個類)，并且每個類的訓練樣例的數(shù)量可能不是很大。地標識別本身也極具挑戰(zhàn)。

這一挑戰(zhàn)與地標檢索挑戰(zhàn)賽同時進行，兩個比賽的測試集相同，以鼓勵參賽者兩個都參加。

地標檢索

圖像檢索是計算機視覺中的一個基礎問題：給定一個圖像，你能否在大型數(shù)據(jù)庫中找到類似的圖像? 這個問題對于含有地標的圖像來說非常重要，因為人們大都喜歡以特定的地標作為背景拍照。

在這場競爭中，主辦方會為參賽者提供查詢的圖像，并且，對于每個給定的圖像，都希望參賽者能檢索出數(shù)據(jù)庫中包含相同地標的所有圖像 (如果存在的話)。

主辦方也鼓勵參賽者使用識別比賽中的訓練數(shù)據(jù)來訓練檢索賽中的模型，這可能也會有用。但是請注意：這兩個挑戰(zhàn)賽的訓練/檢索集中沒有共同的地標。

比賽提供的全新數(shù)據(jù)集是世界上最大的圖像檢索研究數(shù)據(jù)集，由一百多萬張圖片組成，包含一萬五千個獨特的地標。主辦方表示，希望這一數(shù)據(jù)集將加速對這類研究的進展。

地標識別比賽地址：https://www.kaggle.com/c/landmark-recognition-challenge

地標檢索比賽地址：https://www.kaggle.com/c/landmark-retrieval-challenge

除了以上兩個代表性的極具新意的比賽，會上也有很多較為傳統(tǒng)的比賽，例如 LPIRC。

低功耗圖像識別挑戰(zhàn)賽（Low-Power Image Recognition Challenge）

該比賽為 IEEE 主辦，今年是第四屆。比賽贊助方包括 IEEE Rebooting Computing、谷歌和 Facebook。

舉辦該比賽的背景如下：目前，許多移動系統(tǒng) (智能手機、電子設備、自動機器人) 都具有拍照功能，這些系統(tǒng)都需要使用電池，因此降低能耗極其重要。

這一競賽旨在發(fā)掘出兼顧圖像識別和節(jié)約能耗的最佳技術。參賽選手的方案將會根據(jù)兩個維度來評估：一是高識別率，二是低功耗。

圖像識別涉及到許多任務。這一挑戰(zhàn)集中于對象檢測，這是許多識別方法的基本路徑。

下面有兩個例子，舉例說明了此次任務。

在第一個例子中，有兩個物體：一只鳥和一只青蛙。

看過 CVPR 2018 workshop 后，發(fā)現(xiàn)有一個我不認識的 Lady Gaga

在第二個例子中，有若干物體：汽車、人、摩托車和頭盔。

看過 CVPR 2018 workshop 后，發(fā)現(xiàn)有一個我不認識的 Lady Gaga

LPIRC 的訓練和驗證數(shù)據(jù)來自于 ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽。測試數(shù)據(jù)是專門針對此次比賽準備的。

比賽分為三個不同挑戰(zhàn)：

Track 1：參賽隊伍在 CVPR 2018 之前，將他們的模型提交為 TfLite 格式，這里重點關注模型在確定計算平臺上的準確率和執(zhí)行時間。

Track 2：參賽隊伍在 CVPR 2018 前提交程序，主辦方將會在英偉達 TX2 上執(zhí)行程序，衡量準確率和能耗。

Track 3：與 2017 年的一樣，參賽者在現(xiàn)場用他們寫好的程序比賽，這里對硬件和軟件都沒有限制。（注意：不能使用英偉達 TX2）

關于比賽的更多信息，接下來會陸續(xù)公布，大家可以關注：

https://rebootingcomputing.ieee.org/lpirc

除了這些或極具新意，或傳統(tǒng)的比賽，也有比賽既涉及到由來已久的賽事，又專注于未來的實用性價值，例如下面要介紹的魯棒性視覺挑戰(zhàn)賽。

魯棒性視覺挑戰(zhàn)賽（Robust Vision Challenge）

過去十年間，帶標注的大數(shù)據(jù)集日益增多，如 Middlebury、PASCAL VOC、ImageNet、MS COCO、KITTI、Cityscapes，這些數(shù)據(jù)集的出現(xiàn)使得計算機視覺和機器學習取得巨大進步。

有了公共排行榜，大家只需要比較多種方法的結果，就很容易追蹤到這一領域的最先進技術。雖然目前在每個數(shù)據(jù)集上都取得了穩(wěn)定的進展，但許多都只限于特定領域。例如，KITTI 專注于真實世界的城市駕駛場景，而 Middlebury 考慮的是室內場景。

因此，在一個數(shù)據(jù)集上頂尖的方法通常在另一個數(shù)據(jù)集上表現(xiàn)很差，或者需要對模型參數(shù)進行大量修改。

這個 workshop 的目標是促進視覺系統(tǒng)的發(fā)展，找到能在各種具有不同特征的數(shù)據(jù)集上均表現(xiàn)良好的穩(wěn)健系統(tǒng)。

為了實現(xiàn)這一目標，主辦方推出 Robust Vision Challenge 挑戰(zhàn)賽，通過一系列具有不同特征的、極具挑戰(zhàn)性的基準（例如室內 VS 室外，真實 VS 合成，晴朗 VS 惡劣天氣，不同的傳感器），測試系統(tǒng)在若干個任務 (如：重建、語義/實例分割、單一圖像深度預測) 上的性能。此外，主辦方也鼓勵大家提交的系統(tǒng)中包括新的算法、目前正在審核的技術和已經(jīng)發(fā)表的方法。

看過 CVPR 2018 workshop 后，發(fā)現(xiàn)有一個我不認識的 Lady Gaga

如上圖所示，主辦方為這 6 個挑戰(zhàn)中的冠軍和亞軍提供獎項，并邀請他們在這次的 workshop 上展示其方法，參加 workshop 晚宴。此外，主辦方還計劃在 TPAMI 論文上發(fā)表優(yōu)勝者方案。

而從大的方向上來看，也有諸多比賽關注城市現(xiàn)狀，旨在利用計算機技術，找出針對于交通問題、城市發(fā)展問題的更好的應對方法，例如下面將要介紹的兩項比賽：

英偉達 AI 城市挑戰(zhàn)賽（NVIDIA AI CITY CHALLENGE）

英偉達在 CVPR 2018 上舉辦了一場英偉達 AI 城市挑戰(zhàn)賽。他們表示，到 2020 年將有 10 億臺相機。交通運輸是相機最大的細分市場之一，因為它可以從這些相機捕捉到的數(shù)據(jù)中受益。在交通、信號系統(tǒng)、運輸系統(tǒng)、基礎設施中，分析從這些攝像頭中獲得的信息，有助于交通系統(tǒng)更安全、更智能。

然而，目前因為一些原因，他們還沒能利用到這些潛在的信息。首先是數(shù)據(jù)質量很糟糕，此外缺乏數(shù)據(jù)標簽，最后缺乏能夠將數(shù)據(jù)轉化為有用信息的高質量模型，另外還需要支持從端到云分析的平臺來加速模型的開發(fā)和部署。

而此次的 NVIDIA AI City Challenge workshop 將特別關注這些問題，例如分析交通流量特征（如車速），大力開展使用無人監(jiān)督的方法來檢測車輛相撞、停車引起的異?，F(xiàn)象等等。

雖然目前計算機視覺，特別是深度學習已經(jīng)在大規(guī)模的實際部署上有所貢獻，這將有助于使城市變得更聰明、更安全，但英偉達希望征求大家更多的點子。

為了減少對監(jiān)督式方法的依賴，而更多的關注于遷移學習、非監(jiān)督和半監(jiān)督的方法，他們在這次 workshop 上組織此次競賽，優(yōu)秀成果將在 workshop 上進行展示。

參賽者可以在以下三個挑戰(zhàn)中選擇參加一個或多個，想獲得獎品的參賽隊伍需要提交代碼，以便于主辦方驗證。

Track 1: 交通流量分析（Traffic Flow Analysis）

參賽隊伍需要提交預估車速。測試集是 27 個 1 分鐘的視頻。

Track 2:異常檢測（Anomaly Detection）

參賽隊伍將提交檢測到的前一百個異常情況，這可能是由于汽車相撞或車輛停滯造成的。異常情況不包括正常的交通堵塞。

Track 3: 多場景車輛檢測和鑒定（Multi-camera Vehicle Detection and Reidentification）

參賽隊伍需要在 15 個視頻中，識別出在 4 個不同地點中均至少出現(xiàn)過一次的車輛。

而他們?yōu)閰①愡x手提供的獎品也很英偉達：

Track 1 中，冠軍和亞軍獎品是 Jetson TX2；

Track 2 中，冠軍獎勵是 Titan Xp1，亞軍獎勵是 Jetson TX2；

Track 3 中，冠軍獎勵是 Tesla V100，亞軍獎勵是 Jetson TX2。

比賽詳細信息：https://www.aicitychallenge.org/

DeepGlobe 衛(wèi)星圖像理解挑戰(zhàn)

據(jù)主辦方介紹，與傳統(tǒng)圖像相比，衛(wèi)星圖像非常強大，它包含更多的結構化、一致的數(shù)據(jù)。盡管計算機視覺社群目前已經(jīng)在利用深度學習，基于日常圖像數(shù)據(jù)集，完成了一些極具挑戰(zhàn)的任務，但衛(wèi)星圖像最近才獲得關注，基于衛(wèi)星圖像可以對地圖和人口進行分析。

這個 workshop 旨在將不同研究人員聚集與此，以推進衛(wèi)星圖像分析頂尖技術的進展。

為了讓更多人關注這些技術，主辦方推出 DeepGlobe 衛(wèi)星圖像理解挑戰(zhàn)（DeepGlobe Satellite Image Understanding Challenge），該挑戰(zhàn)賽基于三種不同的衛(wèi)星圖像理解任務。

為這次競賽準備的數(shù)據(jù)集可以作為未來分析研究衛(wèi)星圖像的參考基準。此外，由于挑戰(zhàn)任務將涉及到實拍圖片（in the wild）中的經(jīng)典計算機視覺問題，這些數(shù)據(jù)集極具價值，有可能成為產(chǎn)生健壯視覺算法的溫床，而不僅僅只是局限在遙感技術的范圍。

DeepGlobe 包含如下三種挑戰(zhàn):

道路提?。╮oad extraction）

在災區(qū)，特別是發(fā)展中國家，地圖和可獲得的信息對于危機應對至關重要。這項挑戰(zhàn)是從衛(wèi)星圖像中自動提取道路和街道網(wǎng)絡。這是一個二元分割問題，需要檢測每一區(qū)域所有道路的像素。對這項競賽的評估將基于道路像素的準確度。

看過 CVPR 2018 workshop 后，發(fā)現(xiàn)有一個我不認識的 Lady Gaga

建筑物探測（building detection）

人口動態(tài)建模對災害響應和恢復具有重要意義，而對建筑物和城市區(qū)域的檢測是實現(xiàn)建模的關鍵。這項挑戰(zhàn)的目的是從衛(wèi)星圖像中自動探測建筑物。這一問題也是二元分割問題，需要找出每個區(qū)域所有不同建筑的位置。評估是基于檢測到的建筑邊緣與地面實況的重疊情況。

看過 CVPR 2018 workshop 后，發(fā)現(xiàn)有一個我不認識的 Lady Gaga

土地分類（land cover classification）

對地表自動分類和切割對可持續(xù)發(fā)展、農(nóng)耕和城市規(guī)劃具有重要意義。這一挑戰(zhàn)是個多類分割任務，需要探測城市、耕地、牧場、森林、水源、荒地和未知區(qū)域。評估是基于類別標簽的準確性。

看過 CVPR 2018 workshop 后，發(fā)現(xiàn)有一個我不認識的 Lady Gaga

參賽者可提交一個或多個挑戰(zhàn)的結果。主辦方呼吁大家提交的結果包括新的技術、正在審查的方法和已經(jīng)出版的方法。每項挑戰(zhàn)的前三名都將獲得獎勵，獲勝者將會在 DeepGlobe CVPR 2018 workshop 上進行口頭陳述，每一挑戰(zhàn)的前五名將受邀請進行海報展示。主辦方還將在 workshop 上發(fā)表一些選定的論文。

當然了，上面介紹的那些比賽并不是全部，大家可以點擊：http://cvpr2018.thecvf.com/program/workshops，查看更多 workshop 比賽信息，看看是否有你感興趣的主題。

（完）雷鋒網(wǎng) AI 研習社編譯整理

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉載。詳情見轉載須知。