0
本文作者: skura | 2020-03-06 14:17 |
近日,Google AI 宣布發(fā)布 Open Images V6,和 V5 版本相比,它極大地?cái)U(kuò)展了 Open Images 數(shù)據(jù)集的注釋,增加了大量新的視覺關(guān)系(例如,「狗抓飛盤」)、人類動(dòng)作注釋(例如,「女人跳躍」)和水平圖像標(biāo)簽(例如,「paisley」)。
值得注意的是,該版本還添加了本地化敘述,這是一種全新的多模態(tài)注釋形式,由同步的語音、文本和鼠標(biāo)跟蹤所描述的對(duì)象組成。在 OpenImagesV6 中,這些本地化的敘述可用于 500k 圖像。此外,為了便于與之前的工作進(jìn)行比較,Google 還為 COCO 數(shù)據(jù)集的全部 123k 圖像發(fā)布了本地化的敘述注釋。
Open Images V6 網(wǎng)址:https://g.co/dataset/openimages
COCO 數(shù)據(jù)集網(wǎng)址:http://cocodataset.org/
Open Images V5 中的注釋模式:水平圖像標(biāo)簽、邊界框、實(shí)例分段和視覺關(guān)系。圖片來源:1969 年 D.Miller 的 Camaro RS/SS、anita kluska 的 the house、Ari Helminen 的 Cat Cafe Shinjuku calico、Andrea Sartorati 的 Radiofiera-Villa Cordellina Lombardi、Montecchio Maggiore(VI)-agosto 2010。
從很多方面來講,Open Images 是最大的帶注釋圖像數(shù)據(jù)集,用來訓(xùn)練用于計(jì)算機(jī)視覺任務(wù)的最新深度卷積神經(jīng)網(wǎng)絡(luò)。
視頻網(wǎng)址:https://youtu.be/mZqHVUstmIQ
本地化敘述的例子。圖片來源:Kasia 的 Spring is here
本地化敘述
本地化敘述背后的動(dòng)機(jī)之一是研究、利用視覺和語言之間的聯(lián)系,通常是通過圖像字幕加上人的文本描述完成。然而,圖像字幕的局限性之一是缺乏視覺基礎(chǔ),即我們不知道文本描述的是圖像中的哪一塊。為了減輕這一問題,以前的一些數(shù)據(jù)集對(duì)文本描述中出現(xiàn)的名詞畫了一個(gè)后驗(yàn)框。相反,在本地化的敘述中,文本描述的每個(gè)詞都是有對(duì)應(yīng)位置的。
圖像內(nèi)容和字幕之間的不同層次的對(duì)應(yīng)。從左到右:整個(gè)圖像的標(biāo)題(COCO);矩形框的名詞(Flickr30k 實(shí)體);鼠標(biāo)跟蹤段的每個(gè)單詞(本地化敘述)。圖片來源:COCO,F(xiàn)lickr30k Entities,和 Rama 的 Sapa。
本地化的敘述是由注釋者生成的,他們提供圖像的口頭描述,同時(shí)將鼠標(biāo)懸停在所描述的區(qū)域上。語音注釋是其方法的核心,它直接將描述與其所引用的圖像區(qū)域連接起來。為了使描述更易于訪問,注釋者將自動(dòng)語音轉(zhuǎn)錄結(jié)果與手動(dòng)轉(zhuǎn)錄結(jié)果對(duì)齊。這恢復(fù)了描述的時(shí)間戳,確保語音、文本和鼠標(biāo)跟蹤這三種模式正確且同步。
手動(dòng)和自動(dòng)轉(zhuǎn)錄的對(duì)齊,圖像是基于 Freepik 的原創(chuàng)作品設(shè)計(jì)的。
在說話的同時(shí)進(jìn)行指示是非常直觀的,為研究人們描述圖像創(chuàng)造了更多方法。例如,我們觀察到,在表示對(duì)象的空間范圍時(shí)有不同風(fēng)格的線條——環(huán)繞、劃滿線條、下劃線等等——對(duì)這些風(fēng)格的研究可以為新用戶界面的設(shè)計(jì)帶來有價(jià)值的見解。
鼠標(biāo)跟蹤與圖像下面的單詞對(duì)應(yīng)的區(qū)域。圖片來源:Via Guglielmo Marconi,Elliott Brown 的 Positano-Hotel Le Agavi-boat,vivek jena的air frame,以及弗吉尼亞州立公園的 CL P1050512。
這些本地化的敘述所代表的額外數(shù)據(jù)量到底有多大?據(jù)了解,鼠標(biāo)軌跡的總長(zhǎng)度約為 6400 公里,如果不停地朗讀,所有的敘述將需要約 1.5 年的時(shí)間讀完!
新的視覺關(guān)系、人類行為和水平圖像注釋
除了本地化的敘述之外,在 OpenImagesV6 中,Google 將視覺關(guān)系注釋的類型增加了一個(gè)數(shù)量級(jí)(高達(dá) 1.4k),例如添加了「男人滑滑板」、「男人和女人牽著手」和「狗抓飛盤」等。
圖片來源:IMG 作者 James Buck,DSC 作者 Quentin Meulepas,dsc06464 作者 sally9258。
自從計(jì)算機(jī)視覺誕生以來,圖像中的人就一直是其研究的核心領(lǐng)域之一,理解這些人在做什么對(duì)許多應(yīng)用來說至關(guān)重要。因此,Open Images V6 還包含了 250 萬個(gè)人類執(zhí)行獨(dú)立動(dòng)作的注釋,比如跳躍、微笑或躺下。
圖片來源:Boo Ph 的 DSCs1341(2),Johannes Gardner 的 Richard Wagner Spile 2015。
最后,Google 還添加了 2350 萬個(gè)新的人工驗(yàn)證的水平圖像標(biāo)簽,有接近 20000 個(gè)類別,大小超過 59.9M。
Open Images 挑戰(zhàn)賽
在去年 5 月發(fā)布的第 5 版 Open Images V5 中包含 9M 圖像,并有 36M 的水平圖像標(biāo)簽、15.8M 的邊界框、2.8M 的分段實(shí)例和 391k 的視覺關(guān)系。
與數(shù)據(jù)集本身一樣,2019 年 Google舉辦了 Open Images 挑戰(zhàn)賽,比賽分為目標(biāo)檢測(cè)、實(shí)例分割和視覺關(guān)系檢測(cè)三個(gè)賽道,對(duì)這三個(gè)方向技術(shù)的最新進(jìn)展起到了積極的推動(dòng)作用。
大賽介紹
目標(biāo)檢測(cè)賽道
目標(biāo)檢測(cè)賽道要求預(yù)測(cè)對(duì)象實(shí)例周圍的邊界框。
訓(xùn)練集包含 12.2M 的邊界框,跨越 500 個(gè)類別,覆蓋 170 萬張圖片。為了確保準(zhǔn)確性和一致性,這些邊界框大部分是由專業(yè)注釋員手工繪制的。數(shù)據(jù)集圖像非常多樣化,通常包含多個(gè)對(duì)象的復(fù)雜場(chǎng)景——平均每張圖像有 7 個(gè)對(duì)象。
示例圖片:Rhys A 的作品 Mark Paul Gosselaar 彈吉他
比賽網(wǎng)址:https://www.kaggle.com/c/open-images-2019-object-detection
實(shí)例分割賽道
實(shí)例分割賽道要求提供對(duì)象的分段掩碼。
訓(xùn)練集包含 300 個(gè)類別中 2.1M 分段實(shí)例掩碼;驗(yàn)證集包含額外的 23k 掩碼。訓(xùn)練集掩碼是由最先進(jìn)的交互式分割過程產(chǎn)生的,在這個(gè)過程中,專業(yè)的人類注釋者迭代地校正分割神經(jīng)網(wǎng)絡(luò)的輸出。為保證質(zhì)量,驗(yàn)證和測(cè)試集掩碼是手動(dòng)注釋的。
訓(xùn)練組注釋示例。左圖:Gary Stevens 1995 年拍攝的無錫科技園;右圖:Ari Helminen 拍攝的咖啡館的貓咪
比賽網(wǎng)址:https://www.kaggle.com/c/open-images-2019-instance-segmentation
視覺關(guān)系檢測(cè)賽道
視覺關(guān)系檢測(cè)賽道要求檢測(cè)對(duì)象對(duì)以及連接它們的關(guān)系。
訓(xùn)練集包含 329 個(gè)關(guān)系(三對(duì)三)和 375k 訓(xùn)練樣本。這些關(guān)系既包括人與物的關(guān)系(例如「女人彈吉他」、「男人拿麥克風(fēng)」),也包括物與物的關(guān)系(例如「桌子上的啤酒」、「車?yán)锏墓贰梗€包括物與物的屬性關(guān)系(例如「手提包是皮革做的」和「長(zhǎng)凳是木制的」)。
彈吉他的人
比賽網(wǎng)址:https://www.kaggle.com/c/open-images-2019-visual-relationship
大賽獎(jiǎng)金
挑戰(zhàn)賽的總獎(jiǎng)金為 75,000 美元,在三個(gè)賽道之間平均分配。其中:
第一名:$ 7,000
第二名:$ 6,000
第三名:$ 5,000
第四名:$ 4,000
第五名-:$ 3000
Open Images V6 是改進(jìn)圖像分類、目標(biāo)檢測(cè)、視覺關(guān)系檢測(cè)和實(shí)例分割的統(tǒng)一標(biāo)注的一個(gè)重要的定性和定量步驟,它采用了一種新穎的方法將視覺和語言與局部敘述聯(lián)系起來。Google 希望 Open Images V6 將進(jìn)一步促進(jìn)場(chǎng)景理解的研究進(jìn)展。
via:https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html
https://www.kaggle.com/c/open-images-2019-object-detection
https://storage.googleapis.com/openimages/web/challenge2019.html#instance_segmentation
https://www.kaggle.com/c/open-images-2019-visual-relationship
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。