0
本文作者: AI研習社-譯站 | 2020-10-14 11:11 |
字幕組雙語原文:推進實例級別識別 (ILR)研究
英語原文:Advancing Instance-Level Recognition Research
本文由Cam Askew and André Araujo,Software Engineers, Google Research發(fā)布。
實例級識別(ILR)是識別一個物體的特定實例而不是簡單識別出所屬類別的計算機視覺任務。例如,我們不會把一張圖像標注為“后印象派繪畫”,我們真正感興趣的就是實例級別的標簽,例如“文森特梵高的羅納河上的星空”或者“法國巴黎的凱旋門”而不是簡單的拱門。 實例級識別的難題存在很多領域,例如地標,藝術品,商品,或者標志(logo),而且實例級識別在很多領域多有很多的應用,例如視覺搜索軟件,個人相冊識別,購物和其他更多的應用。在過去的幾年中,谷歌在實例級識別的研究中做出了重大的貢獻,例如Google 地標數(shù)據(jù)集和谷歌地標數(shù)據(jù)集V2和DELF與檢測到檢索的新模型。
三種圖像識別問題,這三種問題對于來自藝術品,地標和商品域有不同的標簽粒度的層級(基本的,細粒度,實例級別)。我們主要聚焦于實例級的識別。
今天,我們強調(diào)在ECCV20的實例級識別研討會上的一些結果。這個研討會聚集了在這個領域的專家和愛好者,這學多新鮮有意思的討論中,包含了我們的ECCV20的論文“DEep Local and Global features” (DELG),這是一個目前最先進的實例級識別圖像特征模型,還包含了一個DELG支持的開源代碼和其他的實例級識別技術。在這個研討會上也提出了一個基于GLDV2的兩個新的地標挑戰(zhàn)賽(在識別與檢索任務中)。未來ILR挑戰(zhàn)賽也會擴展到其他的領域:藝術品識別,商品檢索。這個研討會的長期目標是去促進這個領域的進步,并且通過整合來自不同領域的研究團隊來追求最先進的模型,在很多不同的領域中的任務到目前為止已經(jīng)獲得了很好的解決。
DELG: DEep Local and Global Features(深度局部與全局特征)
高效的圖像表達是實例級圖像識別的主要內(nèi)容。通常局部與全局兩種類型的表達是必要的。一個全局圖像特征的總結會得到一個緊湊的表達,但是會丟失關于視覺元素空間組織的信息,這些信息往往是樣本獨特的個性化特征。另一方面, 局部特征會包含關于特定圖像區(qū)域的描述與幾何信息。他們對于匹配圖像中描繪相同的物體是非常有用的。
現(xiàn)在,大多數(shù)依賴于這兩種類型的特征的系統(tǒng)都需要使用不同的模型單獨的應用他們中的每一個,這就會導致大量的冗余計算與低效。為了解決這個問題,我們提出了DELG,這是一種局部與全局特征統(tǒng)一的模型。
DELG模型應用了一個全卷積網(wǎng)絡,這個全卷積網(wǎng)絡包含兩個頭,一個處理全局特征,另一個處理局部特征。全局特征使用深度網(wǎng)絡的局部池化特征圖,高效的整合輸入圖像的顯著特征,使得這個網(wǎng)絡對于輸入圖像的改變更加魯棒。在注意力機制的幫助下,局部特征分支使用交互特征層來檢測圖像的顯著性區(qū)域,并且以一種可區(qū)分的方式產(chǎn)生xainggaun位置內(nèi)容的描述符。
我們提出的DELG模型(左),全局模型在基于檢索的系統(tǒng)中的第一個stage中使用可以高效選擇最相似的圖像(底部),局部特征在重新排列的結果中使用(上邊,右邊),提升系統(tǒng)的準確性。
由于系統(tǒng)能夠提取全局與局部的特征,新型的設計允許高效的推理。首先這樣一個統(tǒng)一的模型可以進行端到端的訓練并且在實例級識別中得到最先進的結果。當與之前的全局特征對比時,我們的方法超出之前的模型7.5%MAP,并且對于局部特征的重排過程,基于DELG的方法可以超出之前7%??傊?,DELG在GLDV2上實現(xiàn)了61.2%的AP,除了2019年挑戰(zhàn)賽上的兩種方法外,超出了所有的其他方法。所有的頂級的結果都使用了復雜的模型融合策略,我們只采用了單一模型。
為了促進研究的可復現(xiàn)性,我們發(fā)布了一個經(jīng)過改進的開源代碼庫,其中包含了DELG和其他的實例級識別的技術,例如DELF和檢測到檢索。我們的代碼應用最新的Tensorflow2,并且出了圖像檢索與匹配功能之外我們也開發(fā)了模型的訓練與推理功能。我們邀請社區(qū)使用并且對代碼庫作出貢獻以便在實際里識別領域能夠發(fā)展出更強大的基礎。
聚焦于地表識別中,谷歌地標數(shù)據(jù)集v2是在實例識級別中可用的最大的shoji,其中包含500萬張圖像,包括了大概20萬類。通過使用GLDv2訓練地標檢索模型,與之前數(shù)據(jù)集上訓練模型的結果相比我們已經(jīng)得到6%的MAP提升。最近,我們也已經(jīng)發(fā)起了新的瀏覽器接口來可視化GLDv2數(shù)據(jù)集。
今年,在地標域上我們也發(fā)起了兩個新的挑戰(zhàn)賽,一個聚焦于識別另一個聚焦于檢索。這些競賽的特點是一種新收集的數(shù)據(jù)集與一種新的評估方法:參賽者不必上傳一個計算好預測值的csv文件,而是提交一個模型和代碼,這些模型和代碼可以直接在Kaggle服務器上運行。來計算預測值與競賽的排名。這種環(huán)境的計算限制強調(diào)高效性與實用性的解決方案。
這項挑戰(zhàn)賽吸引了超過1200支隊伍,同比去年增長3倍,并且參賽者基于我們的DELG實現(xiàn)了很大的提升。在識別任務中,最高的得分實現(xiàn)了大約43%的AP,在檢索任務中,獲勝的隊伍實習拿了59%的MAP的提升。后者的實現(xiàn)通過多個高效模型的混合,池化方法,訓練策略(細節(jié)問題可以參考:Kaggle競賽官網(wǎng))
除了地標識別與檢索挑戰(zhàn)賽,我們的學術和工業(yè)界的合作者也討論他們在其他的域中的競賽與基準上的成果。在藝術品識別中的大規(guī)模研究基準尚在構建中,這個數(shù)據(jù)集使用 The Met’s Open Access image collection,并和一個由不同光度與集合變換的照片組成的新測試集。類似的一個新的商品檢索競賽將會包含個還總具有挑戰(zhàn)性的方面,包含大量的商品,長尾類別分布,物體的外觀以及全局環(huán)境的變化。更多的關于ILR研討會的包括幻燈片和視頻錄像等信息可以在官網(wǎng)上查看。
基于這些研究,開源代碼,數(shù)據(jù)與挑戰(zhàn)賽,我們希望能夠促進實例級識別的成功,并且使得來自不同社區(qū)的研究者和機器學習愛好者能夠開發(fā)能夠泛化于不同域的方法。
這個項目主要的谷歌貢獻者是André Araujo, Cam Askew, Bingyi Cao, Jack Sim and Tobias Weyand。我們也要感謝ILR研討會的聯(lián)合組織者Ondrej Chum, Torsten Sattler, Giorgos Tolias (Czech Technical University), Bohyung Han (Seoul National University), Guangxing Han (Columbia University), Xu Zhang (Amazon), collaborators on the artworks dataset Nanne van Noord, Sarah Ibrahimi (University of Amsterdam), Noa Garcia (Osaka University),也要感謝來自the Metropolitan Museum of Art的合作者Jennie Choi, Maria Kessler and Spencer Kiser。對于開源代碼庫,我們要感謝下列開發(fā)者的幫助:Dan Anghel, Barbara Fusinska, Arun Mukundan, Yuewei Na and Jaeyoun Kim。我們也要感謝Cukierski, Phil Culliton, Maggie Demkin對Kaggle競賽的支持。此外我們也要感謝 Ralph Keller and Boris Bluntschli對我們收集數(shù)據(jù)的幫助。
雷鋒字幕組是一個由AI愛好者組成的翻譯團隊,匯聚五五多位志愿者的力量,分享最新的海外AI資訊,交流關于人工智能技術領域的行業(yè)轉(zhuǎn)變與技術創(chuàng)新的見解。
團隊成員有大數(shù)據(jù)專家,算法工程師,圖像處理工程師,產(chǎn)品經(jīng)理,產(chǎn)品運營,IT咨詢?nèi)?,在校師生;志愿者們來自IBM,AVL,Adobe,阿里,百度等知名企業(yè),北大,清華,港大,中科院,南卡羅萊納大學,早稻田大學等海內(nèi)外高校研究所。
如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。