奪冠Google AI地標識別大賽，極鏈科技Video++將受邀出席2018CVPR

本文作者：木子

2018-06-01 19:07

導語：由Google主辦的2018 Google地標識別挑戰(zhàn)賽于近日揭曉，來自Video++AI團隊的參賽者以大比分優(yōu)勢獲得第1名。

經(jīng)過近3個月的激烈角逐，由Google主辦的2018 Google地標識別挑戰(zhàn)賽于近日揭曉，來自Video++AI團隊的參賽者以大比分優(yōu)勢獲得第1名。這是中國AI團隊在此類國際大賽中第一次奪冠。

作為本次挑戰(zhàn)賽的獲勝者，Video++將受邀在美國舉辦的CVPR會議上發(fā)表技術研討，該會議是全球計算機視覺領域的頂級會議，在會議業(yè)界和學界都享負盛名。

今年3月，Google推出了目前世界上最大的人造和自然地標識別數(shù)據(jù)Google-Landmarks。數(shù)據(jù)集中包含了200萬張圖片，囊括了全球30000處的獨特地標，量級是普通的數(shù)據(jù)集的30倍，數(shù)據(jù)達到前所未有的龐大體量。

奪冠Google AI地標識別大賽，極鏈科技Video++將受邀出席2018CVPR

Google-Landmarks地標的地理分布

Google以此為契機推出了2018Google地標識別挑戰(zhàn)賽，用于號召全球范圍內計算機視覺領域的科學精英共同參與，以突破該數(shù)據(jù)目前缺乏大型標注數(shù)據(jù)集的難題。

地標識別挑戰(zhàn)賽全程在Google旗下Kaggle平臺進行報名與提交，該平臺目前在全球范圍內擁有近100萬的數(shù)據(jù)科學家用戶，是全球最具權威的數(shù)據(jù)科學競賽平臺。

參賽機制需要參賽者在給定查詢圖像后，在數(shù)據(jù)庫中識別出包含查詢地標的所有圖像，這對于上百萬級的數(shù)據(jù)體量與無關信息過多的圖像內容而言，挑戰(zhàn)難度難以想象。

除此之外，由于檢測對象是地標的原因，它的識別相對其他對象的同類操作之間也存在顯著差異。例如，就算在大型帶標注的數(shù)據(jù)集里，那些不太熱門的地標，一般情況下是不存在訓練數(shù)據(jù)的；另外，地標通常是不可移動的剛性對象，此時圖像的捕獲條件，如遮擋、角度、天氣、光線等，都會對識別結果產生影響。

盡管如此，地標識別挑戰(zhàn)賽仍舊吸引了來自全球的483支團隊、653名選手參賽，賽程先后歷時近3個月，參賽者都是世界各地計算機視覺領域具有豐富經(jīng)驗的優(yōu)質個人與團隊。Video++的AI團隊最終以總比分0.304位列榜單第1名，超越了很多知名AI團隊；第二名和第三名的得分分別為0.290和0.289。

奪冠Google AI地標識別大賽，極鏈科技Video++將受邀出席2018CVPR

Google地標識別挑戰(zhàn)賽榜單排名

作為本次Google地標識別挑戰(zhàn)賽的冠軍，Video++的參賽AI團隊也分享了他們的獲勝方案：

本次比賽訓練數(shù)據(jù)集接近120萬張，近1.5萬個類別，但是每個類別的圖片數(shù)目差距較大，大多數(shù)分類的圖片數(shù)目很少，甚至超過2000類圖片數(shù)目少于5張。對數(shù)據(jù)集進行分析，總結數(shù)據(jù)集分類有以下幾個難點：

（1）類別圖片數(shù)量不均，數(shù)量最多的可達到5萬多張，數(shù)量最少的只有1張；

（2）由于數(shù)據(jù)集未經(jīng)過人工清洗，訓練集中存在較多的干擾圖像；

（3）對不同類別聚類可發(fā)現(xiàn)，同一個landmark可能會出現(xiàn)在多個分類，不同的landmark可能非常相似；

（4）訓練集中有較多非建筑物類別，如河流、山等，這樣屬于同一種場景的不同類別難以分辨。

奪冠Google AI地標識別大賽，極鏈科技Video++將受邀出席2018CVPR

本次識別比賽奪冠采用的方法大致如下：

針對訓練集中的干擾圖像，使用Babenko等人構建的landmark數(shù)據(jù)集訓練ResNet+RMac，得到用于retrieval的基礎特征描述模型，并用該模型的全局特征描述子做類內相似度，清理掉與該分類無關的圖像；針對數(shù)量不均，對每個類中的圖像構造相似度連接圖，設定相似度閾值0.65，構造多個類內關聯(lián)簇，用于訓練和微調；對圖片數(shù)目較少的圖像做復制、裁剪、翻轉、選裝等操作增加樣本數(shù)量。

分類網(wǎng)絡的訓練，直接訓練15k類，基礎網(wǎng)絡選用VGG、ResNet50、ResNet101、ResNext、Inception-V3、Inception-Resnet-V2，驗證集準確率為96-99%。

對于圖片數(shù)量較少的分類，通過retrieval基礎特征描述模型提取全局描述，并做聚類，聚類成250類，將250類與原有圖片數(shù)目高于20的類組成6558類新訓練集訓練分類；對小于20的分類在15k類分類器后修改全連接，微調網(wǎng)絡，只訓練小于20張圖片的8648類。

Retrieval對分類也有很大作用，在Babenko等人構建的landmark數(shù)據(jù)集訓練了R-MAC、DIR、GeM，基礎網(wǎng)絡為VGG、ResNet50。并用我們清理過的訓練集微調，整合各模型輸出的描述特征，以及DIR PCA前特征，根據(jù)各模型檢索效果設置權重拼接特征，并做L2+PCA，降低維度至4096。

Retriveal輸出特征比較方式我們有兩種，一種是直接將test圖像在清理后的數(shù)據(jù)集中檢索到相似度最高的那張圖片所在分類記為最后的類別，一種是記錄top-k（k=100/200），并對k張圖像做每個分類做數(shù)量統(tǒng)計和相似度均值，數(shù)量多且平均相似度高的類別記為最后的類別。

Retrieval的特征描述同樣也可用于分類，我們直接在4096維特征后增加分類器，分類14951、6558、8648，得到多個預測結果并同以上結果進行不同方式的投票或weighted average融合。

最后，由于此次比賽使用的evaluation方式為GAP@1而不是單純的Top-1 accuracy，訓練時不論在驗證集上取得多高的accuracy（曾經(jīng)到過0.99+）都不能確保最后在leaderboard上的分數(shù)得到質的飛越。舉個例子，如果你對5張圖片進行預測，結果為第1,2,3,5正確第4錯誤，那么傳統(tǒng)意義上你得了0.8分：4張正確的得4分除以總數(shù)5張，但用GAP@1來計算的話你對第5張的正確預測只獲得0.8分，這個0.8來自于你前5張對了4張，所以最后的得分為（1+1+1+0+0.8）除以5結果為0.76。換句話說，排序越靠前的預測對最后得分的占比權重越高。對此我們在最后一個月內所有的提交都采取了以下的recursive stack方式。我們將先前幾次分數(shù)最高的提交進行了融合：只保留可信度大于0.95且所有模型都預測一致的圖片，而這個大約只有200張圖的提交居然得分就超過了0.11，也就是說測試集內真正用來算分的圖片總數(shù)應該小于2000張（實際情況可能更少）。至此，我們接下去所有微調的模型都不對這200張圖進行預測并且對訓練集中對于它們的label進行一定比例的減少。在比賽最后兩周我們的safe list里大約有500張圖，public leaderboard的分數(shù)大概0.29左右。這時我們再次運用檢索比賽中效果最好的模型對這500張圖在測試集中進行檢索，取可信度大于0.95的match并給它們標上相同的label。

另外，Video++的參賽AI團隊還表示他們在此次挑戰(zhàn)賽中運用到的算法將用于Video++的產品中。

此次參與到Google挑戰(zhàn)賽，與全球科學技術大咖同場競技，是Video++深耕AI技術的一次成果展示。經(jīng)過多年的經(jīng)驗累積與技術沉淀，Video++在場景識別與檢索上已取得豐碩成果，并成功實現(xiàn)AI+文娛的商業(yè)化規(guī)模應用，成為國內這一領域的領導者。而此次在Google挑戰(zhàn)賽中勇奪桂冠，彰顯了Video++在計算機視覺領域的領先實力。未來，Video++還將加速技術創(chuàng)新，擁抱科技力量，持續(xù)把AI技術滲透到大文娛產業(yè)的各個場景，力爭成為享譽海內外的AI+文娛的產業(yè)風向標。

雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

3人收藏

木子

編輯

掃描關注作者微信

發(fā)私信

當月熱門文章

奪冠Google AI地標識別大賽，極鏈科技Video++將受邀出席2018CVPR

奪冠Google AI地標識別大賽，極鏈科技Video++將受邀出席2018CVPR