谷歌AI:推進(jìn)實(shí)例級(jí)別識(shí)別 (ILR)研究

本文作者： AI研習(xí)社-譯站

2020-10-14 11:11

導(dǎo)語(yǔ)：實(shí)例級(jí)識(shí)別（ILR）是識(shí)別一個(gè)物體的特定實(shí)例而不是簡(jiǎn)單識(shí)別出所屬類別的計(jì)算機(jī)視覺(jué)任務(wù)。

字幕組雙語(yǔ)原文：推進(jìn)實(shí)例級(jí)別識(shí)別 (ILR)研究

英語(yǔ)原文：Advancing Instance-Level Recognition Research

本文由Cam Askew and André Araujo，Software Engineers， Google Research發(fā)布。

實(shí)例級(jí)識(shí)別（ILR）是識(shí)別一個(gè)物體的特定實(shí)例而不是簡(jiǎn)單識(shí)別出所屬類別的計(jì)算機(jī)視覺(jué)任務(wù)。例如，我們不會(huì)把一張圖像標(biāo)注為“后印象派繪畫”，我們真正感興趣的就是實(shí)例級(jí)別的標(biāo)簽，例如“文森特梵高的羅納河上的星空”或者“法國(guó)巴黎的凱旋門”而不是簡(jiǎn)單的拱門。實(shí)例級(jí)識(shí)別的難題存在很多領(lǐng)域，例如地標(biāo)，藝術(shù)品，商品，或者標(biāo)志（logo），而且實(shí)例級(jí)識(shí)別在很多領(lǐng)域多有很多的應(yīng)用，例如視覺(jué)搜索軟件，個(gè)人相冊(cè)識(shí)別，購(gòu)物和其他更多的應(yīng)用。在過(guò)去的幾年中，谷歌在實(shí)例級(jí)識(shí)別的研究中做出了重大的貢獻(xiàn)，例如Google 地標(biāo)數(shù)據(jù)集和谷歌地標(biāo)數(shù)據(jù)集V2和DELF與檢測(cè)到檢索的新模型。

谷歌AI:推進(jìn)實(shí)例級(jí)別識(shí)別 (ILR)研究

三種圖像識(shí)別問(wèn)題，這三種問(wèn)題對(duì)于來(lái)自藝術(shù)品，地標(biāo)和商品域有不同的標(biāo)簽粒度的層級(jí)（基本的，細(xì)粒度，實(shí)例級(jí)別）。我們主要聚焦于實(shí)例級(jí)的識(shí)別。

今天，我們強(qiáng)調(diào)在ECCV20的實(shí)例級(jí)識(shí)別研討會(huì)上的一些結(jié)果。這個(gè)研討會(huì)聚集了在這個(gè)領(lǐng)域的專家和愛(ài)好者，這學(xué)多新鮮有意思的討論中，包含了我們的ECCV20的論文“DEep Local and Global features” (DELG)，這是一個(gè)目前最先進(jìn)的實(shí)例級(jí)識(shí)別圖像特征模型，還包含了一個(gè)DELG支持的開(kāi)源代碼和其他的實(shí)例級(jí)識(shí)別技術(shù)。在這個(gè)研討會(huì)上也提出了一個(gè)基于GLDV2的兩個(gè)新的地標(biāo)挑戰(zhàn)賽（在識(shí)別與檢索任務(wù)中）。未來(lái)ILR挑戰(zhàn)賽也會(huì)擴(kuò)展到其他的領(lǐng)域：藝術(shù)品識(shí)別，商品檢索。這個(gè)研討會(huì)的長(zhǎng)期目標(biāo)是去促進(jìn)這個(gè)領(lǐng)域的進(jìn)步，并且通過(guò)整合來(lái)自不同領(lǐng)域的研究團(tuán)隊(duì)來(lái)追求最先進(jìn)的模型，在很多不同的領(lǐng)域中的任務(wù)到目前為止已經(jīng)獲得了很好的解決。

DELG: DEep Local and Global Features（深度局部與全局特征）

高效的圖像表達(dá)是實(shí)例級(jí)圖像識(shí)別的主要內(nèi)容。通常局部與全局兩種類型的表達(dá)是必要的。一個(gè)全局圖像特征的總結(jié)會(huì)得到一個(gè)緊湊的表達(dá)，但是會(huì)丟失關(guān)于視覺(jué)元素空間組織的信息，這些信息往往是樣本獨(dú)特的個(gè)性化特征。另一方面，局部特征會(huì)包含關(guān)于特定圖像區(qū)域的描述與幾何信息。他們對(duì)于匹配圖像中描繪相同的物體是非常有用的。

現(xiàn)在，大多數(shù)依賴于這兩種類型的特征的系統(tǒng)都需要使用不同的模型單獨(dú)的應(yīng)用他們中的每一個(gè)，這就會(huì)導(dǎo)致大量的冗余計(jì)算與低效。為了解決這個(gè)問(wèn)題，我們提出了DELG，這是一種局部與全局特征統(tǒng)一的模型。

DELG模型應(yīng)用了一個(gè)全卷積網(wǎng)絡(luò)，這個(gè)全卷積網(wǎng)絡(luò)包含兩個(gè)頭，一個(gè)處理全局特征，另一個(gè)處理局部特征。全局特征使用深度網(wǎng)絡(luò)的局部池化特征圖，高效的整合輸入圖像的顯著特征，使得這個(gè)網(wǎng)絡(luò)對(duì)于輸入圖像的改變更加魯棒。在注意力機(jī)制的幫助下，局部特征分支使用交互特征層來(lái)檢測(cè)圖像的顯著性區(qū)域，并且以一種可區(qū)分的方式產(chǎn)生xainggaun位置內(nèi)容的描述符。

谷歌AI:推進(jìn)實(shí)例級(jí)別識(shí)別 (ILR)研究

我們提出的DELG模型（左），全局模型在基于檢索的系統(tǒng)中的第一個(gè)stage中使用可以高效選擇最相似的圖像（底部），局部特征在重新排列的結(jié)果中使用（上邊，右邊），提升系統(tǒng)的準(zhǔn)確性。

由于系統(tǒng)能夠提取全局與局部的特征，新型的設(shè)計(jì)允許高效的推理。首先這樣一個(gè)統(tǒng)一的模型可以進(jìn)行端到端的訓(xùn)練并且在實(shí)例級(jí)識(shí)別中得到最先進(jìn)的結(jié)果。當(dāng)與之前的全局特征對(duì)比時(shí)，我們的方法超出之前的模型7.5%MAP，并且對(duì)于局部特征的重排過(guò)程，基于DELG的方法可以超出之前7%?？傊?，DELG在GLDV2上實(shí)現(xiàn)了61.2%的AP，除了2019年挑戰(zhàn)賽上的兩種方法外，超出了所有的其他方法。所有的頂級(jí)的結(jié)果都使用了復(fù)雜的模型融合策略，我們只采用了單一模型。

Tensorflow 2 Open-Source Codebase（tensorflow2開(kāi)源代碼庫(kù)）

為了促進(jìn)研究的可復(fù)現(xiàn)性，我們發(fā)布了一個(gè)經(jīng)過(guò)改進(jìn)的開(kāi)源代碼庫(kù)，其中包含了DELG和其他的實(shí)例級(jí)識(shí)別的技術(shù)，例如DELF和檢測(cè)到檢索。我們的代碼應(yīng)用最新的Tensorflow2，并且出了圖像檢索與匹配功能之外我們也開(kāi)發(fā)了模型的訓(xùn)練與推理功能。我們邀請(qǐng)社區(qū)使用并且對(duì)代碼庫(kù)作出貢獻(xiàn)以便在實(shí)際里識(shí)別領(lǐng)域能夠發(fā)展出更強(qiáng)大的基礎(chǔ)。

新的實(shí)例級(jí)分割挑戰(zhàn)賽

聚焦于地表識(shí)別中，谷歌地標(biāo)數(shù)據(jù)集v2是在實(shí)例識(shí)級(jí)別中可用的最大的shoji，其中包含500萬(wàn)張圖像，包括了大概20萬(wàn)類。通過(guò)使用GLDv2訓(xùn)練地標(biāo)檢索模型，與之前數(shù)據(jù)集上訓(xùn)練模型的結(jié)果相比我們已經(jīng)得到6%的MAP提升。最近，我們也已經(jīng)發(fā)起了新的瀏覽器接口來(lái)可視化GLDv2數(shù)據(jù)集。

今年，在地標(biāo)域上我們也發(fā)起了兩個(gè)新的挑戰(zhàn)賽，一個(gè)聚焦于識(shí)別另一個(gè)聚焦于檢索。這些競(jìng)賽的特點(diǎn)是一種新收集的數(shù)據(jù)集與一種新的評(píng)估方法：參賽者不必上傳一個(gè)計(jì)算好預(yù)測(cè)值的csv文件，而是提交一個(gè)模型和代碼，這些模型和代碼可以直接在Kaggle服務(wù)器上運(yùn)行。來(lái)計(jì)算預(yù)測(cè)值與競(jìng)賽的排名。這種環(huán)境的計(jì)算限制強(qiáng)調(diào)高效性與實(shí)用性的解決方案。

這項(xiàng)挑戰(zhàn)賽吸引了超過(guò)1200支隊(duì)伍，同比去年增長(zhǎng)3倍，并且參賽者基于我們的DELG實(shí)現(xiàn)了很大的提升。在識(shí)別任務(wù)中，最高的得分實(shí)現(xiàn)了大約43%的AP，在檢索任務(wù)中，獲勝的隊(duì)伍實(shí)習(xí)拿了59%的MAP的提升。后者的實(shí)現(xiàn)通過(guò)多個(gè)高效模型的混合，池化方法，訓(xùn)練策略（細(xì)節(jié)問(wèn)題可以參考：Kaggle競(jìng)賽官網(wǎng)）

除了地標(biāo)識(shí)別與檢索挑戰(zhàn)賽，我們的學(xué)術(shù)和工業(yè)界的合作者也討論他們?cè)谄渌挠蛑械母?jìng)賽與基準(zhǔn)上的成果。在藝術(shù)品識(shí)別中的大規(guī)模研究基準(zhǔn)尚在構(gòu)建中，這個(gè)數(shù)據(jù)集使用 The Met’s Open Access image collection，并和一個(gè)由不同光度與集合變換的照片組成的新測(cè)試集。類似的一個(gè)新的商品檢索競(jìng)賽將會(huì)包含個(gè)還總具有挑戰(zhàn)性的方面，包含大量的商品，長(zhǎng)尾類別分布，物體的外觀以及全局環(huán)境的變化。更多的關(guān)于ILR研討會(huì)的包括幻燈片和視頻錄像等信息可以在官網(wǎng)上查看。

基于這些研究，開(kāi)源代碼，數(shù)據(jù)與挑戰(zhàn)賽，我們希望能夠促進(jìn)實(shí)例級(jí)識(shí)別的成功，并且使得來(lái)自不同社區(qū)的研究者和機(jī)器學(xué)習(xí)愛(ài)好者能夠開(kāi)發(fā)能夠泛化于不同域的方法。

致謝

這個(gè)項(xiàng)目主要的谷歌貢獻(xiàn)者是André Araujo, Cam Askew, Bingyi Cao, Jack Sim and Tobias Weyand。我們也要感謝ILR研討會(huì)的聯(lián)合組織者Ondrej Chum, Torsten Sattler, Giorgos Tolias (Czech Technical University), Bohyung Han (Seoul National University), Guangxing Han (Columbia University), Xu Zhang (Amazon), collaborators on the artworks dataset Nanne van Noord, Sarah Ibrahimi (University of Amsterdam), Noa Garcia (Osaka University)，也要感謝來(lái)自the Metropolitan Museum of Art的合作者Jennie Choi, Maria Kessler and Spencer Kiser。對(duì)于開(kāi)源代碼庫(kù)，我們要感謝下列開(kāi)發(fā)者的幫助：Dan Anghel, Barbara Fusinska, Arun Mukundan, Yuewei Na and Jaeyoun Kim。我們也要感謝Cukierski, Phil Culliton, Maggie Demkin對(duì)Kaggle競(jìng)賽的支持。此外我們也要感謝 Ralph Keller and Boris Bluntschli對(duì)我們收集數(shù)據(jù)的幫助。

雷鋒字幕組是一個(gè)由AI愛(ài)好者組成的翻譯團(tuán)隊(duì)，匯聚五五多位志愿者的力量，分享最新的海外AI資訊，交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)轉(zhuǎn)變與技術(shù)創(chuàng)新的見(jiàn)解。

團(tuán)隊(duì)成員有大數(shù)據(jù)專家，算法工程師，圖像處理工程師，產(chǎn)品經(jīng)理，產(chǎn)品運(yùn)營(yíng)，IT咨詢?nèi)?，在校師生；志愿者們?lái)自IBM，AVL，Adobe，阿里，百度等知名企業(yè)，北大，清華，港大，中科院，南卡羅萊納大學(xué)，早稻田大學(xué)等海內(nèi)外高校研究所。

如果，你也是位熱愛(ài)分享的AI愛(ài)好者。歡迎與雷鋒字幕組一起，學(xué)習(xí)新知，分享成長(zhǎng)。

谷歌AI:推進(jìn)實(shí)例級(jí)別識(shí)別 (ILR)研究