ICCV 2019 論文解讀：用圖神經(jīng)網(wǎng)絡(luò)改善視頻的多標(biāo)簽分類(lèi)

本文作者： camel

2019-11-29 11:12

專(zhuān)題：ICCV 2019

導(dǎo)語(yǔ)：更懂車(chē)，更懂人~

語(yǔ)音播放文章內(nèi)容

由深聲科技提供技術(shù)支持

本文由汽車(chē)之家王磊向雷鋒網(wǎng)AI科技評(píng)論投稿，未經(jīng)允許禁止轉(zhuǎn)載。

作者 | 王磊

本文介紹了汽車(chē)之家團(tuán)隊(duì)在ICCV 2019一篇關(guān)于視頻理解論文相關(guān)的工作。針對(duì)視頻多標(biāo)簽分類(lèi)的問(wèn)題，論文提出了將視頻多標(biāo)簽之間相關(guān)性特征加入到網(wǎng)絡(luò)之中，結(jié)果證明該方法可以顯著的提高視頻多標(biāo)簽分類(lèi)效果。

一、背景介紹

隨著視頻應(yīng)用的不斷普及，視頻內(nèi)容理解與分析成為計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)熱門(mén)研究方向。2017年，Google開(kāi)源了其大規(guī)模視頻內(nèi)容數(shù)據(jù)集Youtube8M，鼓勵(lì)研究者通過(guò)該數(shù)據(jù)集利用深度學(xué)習(xí)技術(shù)進(jìn)行視頻理解的研究。

最新的Youtube-8M數(shù)據(jù)集包括兩部分，第一部分為video-level（視頻層級(jí)）的標(biāo)注，該部分總計(jì)包含610萬(wàn)個(gè)已標(biāo)注的視頻，3862個(gè)分類(lèi)，平均每個(gè)視頻標(biāo)注了3個(gè)標(biāo)簽；第二部分為segment-level（視頻片段標(biāo)注），該部分挑選了1000個(gè)分類(lèi)，對(duì)視頻中隨機(jī)抽取的5秒片段進(jìn)行標(biāo)注，該部分總共有23.7萬(wàn)個(gè)標(biāo)注數(shù)據(jù)；值得注意的是，segment-level的數(shù)據(jù)標(biāo)注僅標(biāo)注了抽取的5秒視頻片段是否屬于某一特定標(biāo)簽，并沒(méi)有標(biāo)識(shí)該視頻片段的所有標(biāo)簽。

二、標(biāo)簽相關(guān)性

近年來(lái)，視頻理解成為計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)熱點(diǎn)方向。相比較圖像內(nèi)容，視頻內(nèi)容更為復(fù)雜多樣，因此對(duì)于視頻內(nèi)容而言，單個(gè)標(biāo)簽很難完整的表征視頻的內(nèi)容，對(duì)于視頻內(nèi)容理解分析大多為多標(biāo)簽的分類(lèi)問(wèn)題。

在視頻標(biāo)簽中，很多標(biāo)簽之間會(huì)有一定的相關(guān)性并成對(duì)出現(xiàn)；如圖一所示（標(biāo)簽從Youtube8M數(shù)據(jù)集中選?。?，當(dāng)寶馬（BMW）、發(fā)動(dòng)機(jī)（Engine）的標(biāo)簽出現(xiàn)時(shí)，汽車(chē)（Car）的標(biāo)簽大概率也會(huì)出現(xiàn)；但是當(dāng)汽車(chē)的標(biāo)簽出現(xiàn)時(shí)，寶馬標(biāo)簽出現(xiàn)的可能性則非常低。

ICCV 2019 論文解讀：用圖神經(jīng)網(wǎng)絡(luò)改善視頻的多標(biāo)簽分類(lèi)

圖1.標(biāo)簽有向圖示例

通過(guò)對(duì)Youtube8M數(shù)據(jù)集的部分標(biāo)簽數(shù)據(jù)進(jìn)行分析，可以得到一個(gè)圖來(lái)表征各個(gè)標(biāo)簽之間的關(guān)系，如圖二所示。圖二中每個(gè)不同顏色的節(jié)點(diǎn)代表一個(gè)獨(dú)立的標(biāo)簽類(lèi)別，不同節(jié)點(diǎn)之間的連線(xiàn)代表著兩個(gè)節(jié)點(diǎn)之間是否有相關(guān)性，節(jié)點(diǎn)之間連線(xiàn)上的數(shù)值則代表了不同的標(biāo)簽之間聯(lián)系的緊密程度，數(shù)值越大，則聯(lián)系越高；沒(méi)有聯(lián)系的節(jié)點(diǎn)之間則不會(huì)有線(xiàn)連接。

通過(guò)對(duì)視頻的多標(biāo)簽之間的相關(guān)性進(jìn)行建模分析，并通過(guò)圖神經(jīng)網(wǎng)絡(luò)將標(biāo)簽類(lèi)別映射為對(duì)應(yīng)類(lèi)別分類(lèi)器加入到最終的視頻多標(biāo)簽分類(lèi)網(wǎng)絡(luò)之中，可以提升整體模型的學(xué)習(xí)分類(lèi)能力。

ICCV 2019 論文解讀：用圖神經(jīng)網(wǎng)絡(luò)改善視頻的多標(biāo)簽分類(lèi)

圖2.標(biāo)簽相關(guān)性Wighted-Graph表示

三、圖卷積神經(jīng)網(wǎng)絡(luò)

如何有效獲取目標(biāo)標(biāo)簽之間的相關(guān)性？如何利用這些標(biāo)簽相關(guān)性提升網(wǎng)絡(luò)的特征學(xué)習(xí)以及分類(lèi)表現(xiàn)？這是視頻多標(biāo)簽分類(lèi)的兩個(gè)重要問(wèn)題。由于圖的特點(diǎn)可以很好的表征各個(gè)標(biāo)簽之間的相互依賴(lài)性，因此我們選擇基于圖神經(jīng)網(wǎng)絡(luò)進(jìn)行建模學(xué)習(xí)，并用于最終視頻分類(lèi)網(wǎng)絡(luò)中。一個(gè)圖神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖三所示：

ICCV 2019 論文解讀：用圖神經(jīng)網(wǎng)絡(luò)改善視頻的多標(biāo)簽分類(lèi) 圖3.圖神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)

Input輸入有兩個(gè)，一個(gè)為特征描述矩陣H（n*d），另一個(gè)為相關(guān)系數(shù)矩陣A（n*n），其中n為節(jié)點(diǎn)個(gè)數(shù)，即所有標(biāo)簽的個(gè)數(shù)，d為特征的維度，特征維度根據(jù)采用的CNN結(jié)構(gòu)決定。

相關(guān)系數(shù)矩陣是GCN網(wǎng)絡(luò)中表征標(biāo)簽關(guān)系的一個(gè)矩陣，因此如何構(gòu)建相關(guān)系數(shù)矩陣 A 就成了GCN 模型中一個(gè)非常重要的問(wèn)題。由于Youtube8M數(shù)據(jù)集有超過(guò)600萬(wàn)的video-level的視頻標(biāo)注數(shù)據(jù)，因此我們可以通過(guò)挖掘標(biāo)簽在數(shù)據(jù)集中的共現(xiàn)情況來(lái)初始化相關(guān)系數(shù)矩陣A。 ${N}_{i}$ 為標(biāo)簽i在數(shù)據(jù)中出現(xiàn)的次數(shù)， ${M}_{ij}$ 為標(biāo)簽i和標(biāo)簽j兩個(gè)標(biāo)簽一起出現(xiàn)的概率，兩者相除便可以得到不同標(biāo)簽之間的條件概率矩陣P。

ICCV 2019 論文解讀：用圖神經(jīng)網(wǎng)絡(luò)改善視頻的多標(biāo)簽分類(lèi)

考慮到標(biāo)注數(shù)據(jù)中可能存在不準(zhǔn)確的情況以及標(biāo)簽在訓(xùn)練和測(cè)試集中共現(xiàn)的次數(shù)可能會(huì)相差比較大，因此我們?cè)O(shè)置了一個(gè)閾值剔除相關(guān)性比較弱的噪聲的影響。對(duì)于上面得到的矩陣P，只有其值大于某特定值（論文中為0.5）的時(shí)候才會(huì)考慮，否則矩陣中這兩個(gè)標(biāo)簽的相關(guān)度會(huì)設(shè)置為0,因此優(yōu)化后的條件概率矩陣如下所示：

ICCV 2019 論文解讀：用圖神經(jīng)網(wǎng)絡(luò)改善視頻的多標(biāo)簽分類(lèi)

Hidden Layer用來(lái)學(xué)習(xí)節(jié)點(diǎn)之間的相關(guān)信息并更新節(jié)點(diǎn)表示，每一個(gè)Hidden Layer都可以用一個(gè)非線(xiàn)性函數(shù)表示：

ICCV 2019 論文解讀：用圖神經(jīng)網(wǎng)絡(luò)改善視頻的多標(biāo)簽分類(lèi)

Hidden Layer可以有多層，堆疊多個(gè) GCN 層來(lái)對(duì)節(jié)點(diǎn)之間交織的復(fù)雜關(guān)系進(jìn)行建模。在本論文中Hidden Layer為兩層，通過(guò)訓(xùn)練學(xué)習(xí)便可以得到優(yōu)化后的表征標(biāo)簽相關(guān)性的矩陣Output，并用于幫助視頻標(biāo)簽分類(lèi)。

四、整體網(wǎng)絡(luò)

最終的完整網(wǎng)絡(luò)結(jié)構(gòu)如圖四所示，我們使用InceptionV3來(lái)提取輸入視頻的特征；NeXtVLAD網(wǎng)絡(luò)是第二屆Youtube8M比賽單模型冠軍網(wǎng)絡(luò)，該網(wǎng)絡(luò)可以很好的視頻的多維度特征進(jìn)行聚合，并且在降低特征維度的同時(shí)還能很好的保證模型性能；在網(wǎng)絡(luò)的下半部分，我們用一個(gè)雙層的GCN網(wǎng)絡(luò)來(lái)幫助進(jìn)行最后的視頻標(biāo)簽分類(lèi)。最終的對(duì)比實(shí)驗(yàn)中，加入GCN后的視頻多標(biāo)簽分類(lèi)網(wǎng)絡(luò)MAP（Mean-Average-Precision）提高了接近一個(gè)百分點(diǎn)，GCN網(wǎng)絡(luò)的加入顯著性顯著的提高了視頻多標(biāo)簽的分類(lèi)能力；也證明了對(duì)于多標(biāo)簽分類(lèi)任務(wù)，通過(guò)研究多標(biāo)簽之間的相關(guān)依賴(lài)關(guān)系提升網(wǎng)絡(luò)分類(lèi)能力是一個(gè)很好的方向。

ICCV 2019 論文解讀：用圖神經(jīng)網(wǎng)絡(luò)改善視頻的多標(biāo)簽分類(lèi)

圖四.整體網(wǎng)絡(luò)結(jié)構(gòu)

五、結(jié)論

視頻理解與分析是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)熱門(mén)問(wèn)題，針對(duì)視頻的特征提取以及特征聚合全世界的研究已經(jīng)做了大量的工作。本文提出了從多標(biāo)簽相關(guān)性的視角來(lái)提升視頻的多標(biāo)簽分類(lèi)能力并進(jìn)行了有效的實(shí)驗(yàn)驗(yàn)證。通過(guò)對(duì)視頻的圖像特征、時(shí)序特征、標(biāo)簽相關(guān)性特征進(jìn)行融合的分類(lèi)網(wǎng)絡(luò)可以很好的增強(qiáng)神經(jīng)網(wǎng)絡(luò)的視頻理解能力。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。