0
本文作者: 楊鯉萍 | 2019-08-27 09:59 |
雷鋒網(wǎng) AI 開發(fā)者按:隨著深度學(xué)習(xí)的進(jìn)一步發(fā)展,我們對數(shù)據(jù)集的依賴也越來越強(qiáng)。就在最近,F(xiàn)AIR 開放了 LVIS,一個大規(guī)模細(xì)粒度詞匯集標(biāo)記數(shù)據(jù)集,該數(shù)據(jù)集針對超過 1000 類物體進(jìn)行了約 200 萬個高質(zhì)量的實(shí)例分割標(biāo)注,包含 164k 大小的圖像。FAIR 發(fā)布了相關(guān)文章對該成果做了詳細(xì)解析,雷鋒網(wǎng) AI 開發(fā)者將重點(diǎn)內(nèi)容其整理編譯如下。
計(jì)算機(jī)視覺的核心目標(biāo)是賦予算法智能描述圖像的能力;目標(biāo)檢測是規(guī)范的圖像描述任務(wù),這在應(yīng)用程序中實(shí)用性很強(qiáng),并且可以直接在現(xiàn)有設(shè)置中進(jìn)行基準(zhǔn)測試。而物體檢測器的精確度已經(jīng)得到了顯著提高,并且已經(jīng)開發(fā)出新功能,例如:圖像分割和 3D 表示。
從少數(shù)例子中有效地學(xué)習(xí)是機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺中一個重要的開放性問題,從科學(xué)和實(shí)踐的角度來看,這個機(jī)會是非常令人振奮的。但要開放這個領(lǐng)域進(jìn)行實(shí)證研究,需要一個合適的、高質(zhì)量的數(shù)據(jù)集和基準(zhǔn)。我們的目標(biāo)就是通過設(shè)計(jì)和收集 LVIS,一個用于大規(guī)模詞匯量對實(shí)例分割研究基準(zhǔn)數(shù)據(jù)集來實(shí)現(xiàn)這一新的研究方向,并在最終完成 164k 大小的包含 1000 類物體的約 200 萬個高質(zhì)量的實(shí)力分割標(biāo)注圖像數(shù)據(jù)集。
圖 1 示例注釋。我們提供了一個新的數(shù)據(jù)集lvis,用于在 1000+ 類別圖像中基準(zhǔn)化大型詞匯實(shí)例分割,以及找出具有挑戰(zhàn)性的稀有對象長尾分布
我們的標(biāo)注流程從一組圖像開始,這些圖像在未知標(biāo)記類別的情況下所收集。我們讓注標(biāo)器完成迭代對象定位過程,并找出圖像中自然存在的長尾分布,來代替機(jī)器學(xué)習(xí)算法對自動化數(shù)據(jù)標(biāo)記過程。
我們設(shè)計(jì)了一個眾包標(biāo)注流程,可以收集大型數(shù)據(jù)集,同時(shí)還可以生成高質(zhì)量的標(biāo)注。標(biāo)注質(zhì)量對于未來的研究非常重要,因?yàn)橄鄬Υ植诘臉?biāo)注,例如 COCO 數(shù)據(jù)集,它會限制算法對于標(biāo)注預(yù)測質(zhì)量的提高。與 COCO 和 ADE20K 相比,我們的數(shù)據(jù)標(biāo)注具有更大的重疊面積和更好的邊界連續(xù)性。
為了構(gòu)建這個數(shù)據(jù)集,我們采用了評估優(yōu)先的設(shè)計(jì)原則。該原則指出,我們應(yīng)該首先確定如何執(zhí)行定量評估,然后再設(shè)計(jì)和構(gòu)建數(shù)據(jù)集收集流程,以滿足評估所需數(shù)據(jù)的需求。我們選擇類似與 COCO 風(fēng)格的實(shí)例分段評測基準(zhǔn),并且使用了相同風(fēng)格的平均精度(AP)度量標(biāo)準(zhǔn)。
雖然 COCO 的任務(wù)和指標(biāo)連續(xù)性降低了數(shù)據(jù)集設(shè)計(jì)難度,但這個任務(wù)選擇中依舊存在著直接的技術(shù)挑戰(zhàn):當(dāng)一個物體可以合理地用多個類別標(biāo)記時(shí),我們?nèi)绾喂降卦u估檢測器性能?當(dāng)使用來自 1000 多個類別的 164k 標(biāo)注圖像時(shí),我們?nèi)绾问箻?biāo)注工作量變得可行?
解決這些挑戰(zhàn)的基本設(shè)計(jì)選擇是構(gòu)建聯(lián)合數(shù)據(jù)集:由大量較小的組成數(shù)據(jù)集聯(lián)合形成的單個數(shù)據(jù)集,每個數(shù)據(jù)集看起來與單個類別的傳統(tǒng)目標(biāo)檢測數(shù)據(jù)集完全相同。每個小數(shù)據(jù)集為單個類別提供詳盡標(biāo)注的基本保證,即該類別的所有實(shí)例都被標(biāo)注。多個組成數(shù)據(jù)集可以重疊,因此圖像中的單個對象可以用多個類別標(biāo)記。此外,由于詳盡的標(biāo)注保證僅存在于每個小數(shù)據(jù)集中,因此我們不需要對整個聯(lián)合數(shù)據(jù)集的所有類別進(jìn)行詳盡地標(biāo)注,這將大大減少標(biāo)注工作量。至關(guān)重要的是,在測試時(shí)每個圖像相對于組成數(shù)據(jù)集的子集衡量標(biāo)準(zhǔn)是算法未知的,因此它必須進(jìn)行預(yù)測,使得所有類別都將被評估。
目前,我們已經(jīng)標(biāo)注了兩次的圖像 val 子集。我們也標(biāo)注了額外的 77k 圖像(在 train,val 和 test 之間劃分),占最終數(shù)據(jù)集的~50%;我們將其稱為 LVIS v0.5。第一個基于 v0.5 的 LVIS 挑戰(zhàn)賽將在 ICC 2019 年的 COCO 研討會上舉行。
相關(guān)數(shù)據(jù)集
數(shù)據(jù)集塑造了研究人員研究的技術(shù)問題,因此也是科學(xué)發(fā)現(xiàn)的途徑。我們目前在圖像識別方面的成功很大程度上歸功于 MNIST(http://yann.lecun.com/exdb/mnist/ )、BSDS、Caltech 101、PASCAL VOC、ImageNet 和 COCO 等先驅(qū)數(shù)據(jù)集。這些數(shù)據(jù)集支持開發(fā)檢測邊緣、執(zhí)行大規(guī)模圖像分類以及通過邊界框和分割蒙版定位對象的算法。它們還被用于發(fā)現(xiàn)重要的方法,如卷積網(wǎng)絡(luò)、殘余網(wǎng)絡(luò)和批量標(biāo)準(zhǔn)化 。LVIS 的靈感來自這些以及其他相關(guān)數(shù)據(jù)集,包括關(guān)注街景(Cityscapes 和 Mapillary)和行人(Caltech Pedestrians)的數(shù)據(jù)集。
圖 2 lvis示例注釋(為了清晰起見,每個圖像對應(yīng)一個類別);更多信息請參閱http://www.lvisdataset.org/explore
我們遵循評估優(yōu)先設(shè)計(jì)原則:在任何數(shù)據(jù)收集之前,我們精確定義了將執(zhí)行的任務(wù)以及如何評估的標(biāo)準(zhǔn)。這個原則很重要,因?yàn)樵谠u估大型詞匯數(shù)據(jù)集上的檢測器時(shí)會出現(xiàn)技術(shù)挑戰(zhàn),而這些問題在數(shù)據(jù)類別很少時(shí)不會發(fā)生。我們必須首先解決這些問題,因?yàn)樗鼈儗?shù)據(jù)集的結(jié)構(gòu)有深遠(yuǎn)的影響,我們將在下面討論。
任務(wù)和評估準(zhǔn)則
任務(wù)和指標(biāo)。我們的數(shù)據(jù)集基準(zhǔn)是實(shí)例分割任務(wù),即給定一組固定的已知類別,然后設(shè)計(jì)一種算法。當(dāng)出現(xiàn)之前沒有的圖像時(shí),該算法將為圖像中出現(xiàn)的每個類別中的每個實(shí)例輸出一個標(biāo)注以及類別標(biāo)簽與置信度分?jǐn)?shù)。而給定算法在一組圖像上的輸出,我們使用 COCO 數(shù)據(jù)集中的定義和實(shí)現(xiàn)計(jì)算標(biāo)注平均精度(AP)。
評估挑戰(zhàn)。像 PASCAL VOC 和 COCO 這樣的數(shù)據(jù)集使用手動選擇的成對不相交類別,例如:當(dāng)標(biāo)注汽車時(shí),如果檢測到的目標(biāo)是盆栽植物或沙發(fā),則不會出現(xiàn)錯誤。但增加類別數(shù)量時(shí),則不可避免會出現(xiàn)其他類型的成對關(guān)系,例如:部分視覺概念的重疊、父子分類關(guān)系的界定、同義詞識別等。如果這些關(guān)系沒有得到妥善解決,那么評估標(biāo)準(zhǔn)將是不公平的。
例如:大多數(shù)玩具不是鹿,大多數(shù)鹿不是玩具,但是玩具鹿卻既是玩具也是鹿。如果檢測器輸出鹿的同時(shí)物體僅標(biāo)記為玩具,則目標(biāo)檢測算法為錯誤的標(biāo)記;如果汽車僅被標(biāo)記為 vehicle,而算法輸出 car,則也是錯誤的標(biāo)注。因此,提供公平的基準(zhǔn)對于準(zhǔn)確反映算法性能非常重要。
圖 3 從左到右的類別關(guān)系:部分視覺概念的重疊、父子分類關(guān)系、等效(同義詞)關(guān)系;這意味著單個對象可能具有多個有效標(biāo)簽;目標(biāo)探測器的公平評估必須考慮到多個有效標(biāo)簽的問題
當(dāng) GT 標(biāo)注缺少目標(biāo)的一個或多個真實(shí)標(biāo)簽時(shí),則會出現(xiàn)這些問題。如果算法恰好預(yù)測了其中一個正確但不完整的標(biāo)簽,將得到錯誤的結(jié)果。而現(xiàn)在,如果所有目標(biāo)都是詳盡且正確地標(biāo)記了所有類別,那么問題就可以解決了。
聯(lián)合數(shù)據(jù)集
解決問題的關(guān)鍵在于:評估標(biāo)準(zhǔn)不要求我們詳盡地標(biāo)注所有圖像與所有類別。相反,對于每個類別 c,必須存在整個數(shù)據(jù)集 D 的兩個不相交的子集,存在圖像的正例集 Pc?D,使得 Pc 中的所有 c 的類別都被標(biāo)注;存在圖像負(fù)例集 Nc?D,使得在這些圖像中的任何一個中都不包含 c 的實(shí)例。給定類別 c 的這兩個子集,Pc∪Nc 可用于執(zhí)行 c 的標(biāo)準(zhǔn) COCO 樣式 AP 評估。評估 oracle 僅在圖像子集上的類別 c 上判斷算法,其中 c 已被詳盡地標(biāo)注;如果檢測器報(bào)告圖像上的類別 c 的檢測結(jié)果 i 不屬于 Pc∪Nc,則不評估檢測。通過將每類別集合匯集到單個數(shù)據(jù)集中,D =∪c(Pc∪Nc),最后我們得出聯(lián)合數(shù)據(jù)集的概念。
聯(lián)合數(shù)據(jù)集是通過多個小數(shù)據(jù)集聯(lián)合構(gòu)建大規(guī)模的完整數(shù)據(jù)集,而每一個子數(shù)據(jù)集則聚焦于某個單一類別的傳統(tǒng)數(shù)據(jù)集。在標(biāo)注過程中,每一個小數(shù)據(jù)集將集中標(biāo)注某一個特定的類別,并將圖中某個特定類別的所有信息進(jìn)行標(biāo)注;這一方法也有助于大大減少工作量。
最后,我們發(fā)現(xiàn)一些未公開測試標(biāo)注的正集和負(fù)集數(shù)據(jù)集,所以算法沒有關(guān)于在這些圖像中評估的輔助信息;因此,算法需要對每個測試圖像中的所有類別進(jìn)行最佳預(yù)測。
評估細(xì)節(jié)
挑戰(zhàn)評估服務(wù)器將僅返回整體 AP,而不是每類別 AP,這是因?yàn)椋?/p>
避免露出測試集中存在的類別信息;
鑒于長尾類別很少,所以在某些情況下評估的例子則更少,這使得 AP 類別不穩(wěn)定;
通過對大量類別求平均,整體類別平均 AP 具有較低的方差,使其成為排序算法的穩(wěn)健度量。
非窮舉標(biāo)注(Non-Exhaustive Annotations)。我們收集了一個圖像級別的布爾標(biāo)簽 eci,指示圖像 i∈Pc 是否在類別 c 中被詳盡地標(biāo)注。在大多數(shù)情況下(91%),此標(biāo)志為 true,表示標(biāo)注確實(shí)是詳盡的。在其余情況下,圖像中至少有一個未標(biāo)注的實(shí)例。缺少標(biāo)注通常發(fā)生在「crowds」類別中,其中存在大量實(shí)例所以我們難以進(jìn)行描繪。在評估期間,我們不計(jì)算在該標(biāo)簽設(shè)置為 false 的圖像上的類別 c 的誤報(bào)。我們測量對這些圖像的記憶:期望檢測器預(yù)測標(biāo)記實(shí)例的準(zhǔn)確分割標(biāo)注。
層次結(jié)構(gòu)。在評估期間,我們將所有類別視為相同;我們對層次關(guān)系沒有做任何特殊處理。為了得到最佳表現(xiàn),對于每個檢測到的物體 o,檢測器應(yīng)輸出最具體的正確類別以及所有更一般的類別,例如:獨(dú)木舟應(yīng)標(biāo)記為獨(dú)木舟和船。
同義詞。將同義詞分成不同類別的聯(lián)合數(shù)據(jù)集是有效的,但是不必要分得很細(xì)致;我們避免使用 WordNet 將同義詞拆分為單獨(dú)的類別。具體而言,在 LVIS 中每個類別 c 都是一個 WordNet 同義詞,即由一組同義詞和定義指定的詞義。
數(shù)據(jù)集的標(biāo)注主要分為了六個階段,包括目標(biāo)定位、窮盡標(biāo)記、實(shí)例分割、驗(yàn)證、窮盡標(biāo)注驗(yàn)證以及負(fù)例集標(biāo)注。
圖 4 數(shù)據(jù)集標(biāo)注流程的六個階段
第 1 階段的目標(biāo)定位是一個迭代過程,其中每個圖像被訪問可變次數(shù)。在第一次訪問時(shí),要求標(biāo)注器用一個點(diǎn)標(biāo)記一個對象,并使用自動完成文本輸入將其命名為類別 c∈V;在每次后續(xù)訪問時(shí),顯示所有先前發(fā)現(xiàn)的對象,并且要求標(biāo)注器標(biāo)記先前未標(biāo)記的類別的對象,或者如果不能發(fā)現(xiàn) V 中的更多類別則跳過圖像;當(dāng)圖像被跳過 3 次時(shí),將不再訪問該圖像??偨Y(jié)階段 1 的輸出:對于詞匯表中的每個類別,我們有一組(可能是空的)圖像,其中每個圖像都標(biāo)記了該類別的一個目標(biāo);這一步驟為每個類別 c 定義了初始正集 Pc。
階段 2 的窮盡標(biāo)記目標(biāo)則是:驗(yàn)證階段 1 標(biāo)注和用點(diǎn)標(biāo)記每個圖像 i∈Pc 中的所有 c 實(shí)例。在這個階段,來自階段 1 的(i,c)對被發(fā)送到了 5 個標(biāo)注器中;首先,它們顯示了類別 c 的定義,并驗(yàn)證它是否描述了點(diǎn)標(biāo)記的目標(biāo);如果匹配,則要求標(biāo)注器標(biāo)記同一類別的所有其他實(shí)例;反之,則終止第二步。因此,從第 2 階段開始,我們?yōu)槊總€圖像提供詳盡的實(shí)例標(biāo)注。
在第 3 階段的實(shí)例分割中,我們的目標(biāo)是:驗(yàn)證第 2 階段中每個標(biāo)記對象的類別,以及將每個標(biāo)記對象從點(diǎn)標(biāo)注升級到完整分段標(biāo)注。為此,將圖像 i 和標(biāo)記對象實(shí)例 o 的每對(i,o)呈現(xiàn)給一個標(biāo)注器,該標(biāo)注器被要求驗(yàn)證 o 的類別標(biāo)簽是否正確,并為它繪制詳細(xì)的分割標(biāo)注。從第 3 階段開始,我們?yōu)槊總€圖像和被發(fā)現(xiàn)的實(shí)例對分配一個分割標(biāo)注。
第 4 階段驗(yàn)證時(shí),我們的目標(biāo)是驗(yàn)證第 3 階段的分段標(biāo)注質(zhì)量。我們將每個分段顯示為最多 5 個標(biāo)注器,并要求它們使用量規(guī)對其質(zhì)量進(jìn)行評級。如果兩個或多個標(biāo)注器不通過,那么我們將該實(shí)例重新排隊(duì)以進(jìn)行階段 3 分段;如果 4 個標(biāo)注者同意它是高質(zhì)量的,我們接受該分割標(biāo)注。我們在第 3 和第 4 階段之間迭代共四次,每次只重新標(biāo)注被拒絕的實(shí)例。總結(jié)第 4 階段的輸出(在第 3 階段來回迭代之后):我們有超過 99%的所有標(biāo)記對象的高質(zhì)量分割標(biāo)注。
第 5 階段是窮盡標(biāo)注驗(yàn)證,它將確定最終的正例集。我們通過詢問標(biāo)注器是否在 i 中存在類別 c 的任何未分段實(shí)例來執(zhí)行此操作。我們要求至少 4 個標(biāo)注器同意標(biāo)注是詳盡的,而只要有兩個人不通過,我們就會將詳盡的標(biāo)注標(biāo)記 eci 標(biāo)記為 false。
在最后階段的負(fù)例集標(biāo)注,它將為詞匯表中的每個類別 c 收集負(fù)集 Nc。我們通過隨機(jī)采樣圖像 i∈D\ Pc 來做到這一點(diǎn),其中 D 是數(shù)據(jù)集中的所有圖像。對于每個采樣圖像 i,如果圖像 i 中出現(xiàn)類別 c,我們最多詢問 5 個標(biāo)注器,其中任何一個標(biāo)注器顯示不通過,我們則拒絕該圖像。否則將其添加到 Nc。我們采樣過程將持續(xù)到負(fù)例集 Nc 達(dá)到數(shù)據(jù)集中圖像的 1%的目標(biāo)大小。從階段 6 開始,對于每個類別 c∈V,我們具有負(fù)例集 Nc,使得該類別不出現(xiàn)在 Nc 中的任何圖像中。
詞匯建構(gòu)
我們使用迭代過程構(gòu)建詞匯表 V,該過程從大型超級詞匯表開始,并使用目標(biāo)定位過程(階段 1)將其縮小。我們將從 WordNet 中選擇的 8.8k 同義詞進(jìn)行明確詞匯的刪除(例如:專有名詞),然后找到了高度具體的常用名詞交集。
這產(chǎn)生了一個窮盡的具體組合,因此能得到一些視覺上的入門級同義詞;然后,我們將目標(biāo)定位應(yīng)用于具有針對這些超級詞匯表自動完成的 10k COCO 圖像。這將減少詞匯量,然后我們再次重復(fù)這一過程,最后,我們執(zhí)行次要的手動編輯,得到了包含 1723 個同義詞的詞匯表,這也是可以出現(xiàn)在 LVIS 中的類別數(shù)量的上限。
通過使用 LVIS,我們能夠?qū)⒑芏鄨D像中對于某一類別圖像進(jìn)行完整的標(biāo)注,包括一些小的、被遮蓋的、難以辨認(rèn)的,都能夠通過這一方法實(shí)現(xiàn)標(biāo)注。
圖 5 LVIS 上標(biāo)注得到的分類數(shù)據(jù)展示(1)
在 LVIS 的網(wǎng)站上,我們可以看到大量的標(biāo)注結(jié)果,包括一些小工具(剪刀、桶),小配飾(太陽鏡、腰帶),餐盤里的黃瓜,甚至是披薩上的菠蘿粒,都能夠完整的標(biāo)注出來。
圖 6 LVIS 上標(biāo)注得到的分類數(shù)據(jù)展示(2)
正如 FAIR 自己所說:LVIS 是一個新的數(shù)據(jù)集,旨在首次對實(shí)例分割算法進(jìn)行嚴(yán)格的研究,它可以識別不同對象類別的大量詞匯(> 1000)。雖然 LVIS 強(qiáng)調(diào)從少數(shù)例子中學(xué)習(xí),但數(shù)據(jù)集并不小;它將跨越 164k 圖像并標(biāo)記~2 百萬個對象實(shí)例。每個對象實(shí)例都使用高質(zhì)量的蒙版進(jìn)行分割,該蒙版超過了相關(guān)數(shù)據(jù)集的標(biāo)注質(zhì)量。
原文鏈接:
https://arxiv.org/pdf/1908.03195.pdf
LVIS 網(wǎng)站:
雷鋒網(wǎng) AI 開發(fā)者 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。