0
本文作者: 我在思考中 | 2021-11-15 10:23 |
近日,國際NLP領(lǐng)域頂級(jí)會(huì)議EMNLP 2021拉開帷幕。云從科技與上海交通大學(xué)聯(lián)合研究團(tuán)隊(duì)的《Relation-aware Network:探索視頻片段定位任務(wù)中的多種層面關(guān)系》成功入選會(huì)議論文,并于大會(huì)進(jìn)行線上宣講。
EMNLP(Conference on Empirical Methods in Natural Language Processing)是計(jì)算語言學(xué)和自然語言處理領(lǐng)域的頂級(jí)國際會(huì)議之一,由國際語言學(xué)會(huì)(ACL)旗下SIGDAT組織。EMNLP論文入選標(biāo)準(zhǔn)十分嚴(yán)格,今年論文錄取率僅23.3%,相比去年略有下降。EMNLP學(xué)術(shù)會(huì)議上展示的研究成果,被認(rèn)為代表著自然語言處理領(lǐng)域的前沿水平與未來發(fā)展方向。
本次入選論文,圍繞“基于語言查詢的視頻片段定位”這一視覺-文本的跨模態(tài)任務(wù),將NLP與視覺技術(shù)結(jié)合,技術(shù)讓機(jī)器同時(shí)具備“理解文字”和“看懂視頻”的能力:能夠更精準(zhǔn)地讀懂文字,并理解視頻內(nèi)容,在整段視頻中找出與給定文字相對(duì)應(yīng)的視頻片段。該項(xiàng)成果在多個(gè)數(shù)據(jù)集上,都取得了優(yōu)于過去研究的表現(xiàn)。
這一成果在技術(shù)研究與實(shí)踐領(lǐng)域都具有十分重要的意義:
在技術(shù)上讓機(jī)器實(shí)現(xiàn)“多感官進(jìn)化”:如今視覺、聽覺等單點(diǎn)AI技術(shù),將越來越難以滿足多樣的應(yīng)用需求。該項(xiàng)技術(shù)旨在讓機(jī)器向完成“跨模態(tài)任務(wù)”進(jìn)化:讓機(jī)器能夠同時(shí)掌握視覺、文字等多種模態(tài)的信息,做到像人類一樣看懂、聽懂、讀懂,擁有全面的能力。近年來在學(xué)界,跨模態(tài)任務(wù)已成為一大研究熱點(diǎn),為AI領(lǐng)域注入新的活力。
突破單點(diǎn)技術(shù),擴(kuò)大跨模態(tài)應(yīng)用場(chǎng)景:在實(shí)戰(zhàn)場(chǎng)景中,隨著高清攝像頭的普及以及網(wǎng)絡(luò)媒體的快速發(fā)展,各式各樣的視頻呈海量增長(zhǎng)態(tài)勢(shì),自動(dòng)化視頻處理AI技術(shù)也迎來巨大的需求。本項(xiàng)成果基于語言查詢的視頻片段定位技術(shù),能夠有效解決治理、出行等多領(lǐng)域的難點(diǎn)問題,例如公共場(chǎng)合下的安全監(jiān)控、社交媒體視頻內(nèi)容的審核等等,突破以往的單點(diǎn)技術(shù)應(yīng)用瓶頸,帶來數(shù)量級(jí)的效率提升。
NLP等決策技術(shù)被認(rèn)為是AI領(lǐng)域下一個(gè)技術(shù)突破口,使機(jī)器擁有理解、思考、分析決策的能力,為人機(jī)交互、行業(yè)應(yīng)用等帶來顛覆式改變。云從科技、上海交通大學(xué)提出Relation-aware Network,探索視頻片段定位任務(wù)中的多種層面關(guān)系。
基于語言查詢的視頻片段定位任務(wù)(Temporal Language Grounding):該任務(wù)是給定一個(gè)視頻和一段描述語句,通過融合視覺和語言兩種模態(tài)的信息,在視頻中定位出語言所描述內(nèi)容的視頻片段。隨著高清攝像頭的普及以及網(wǎng)絡(luò)媒體的快速發(fā)展,每天都會(huì)出現(xiàn)大量各式各樣的視頻,自動(dòng)化的視頻處理技術(shù)就被廣泛應(yīng)用在公共場(chǎng)合下的安全監(jiān)控、社交媒體上視頻內(nèi)容的審核中,作為視覺-文本的跨模態(tài)任務(wù),基于語言查詢的視頻片段定位也受到了越來越多的關(guān)注。
一方面,已有的視頻片段定位方法通常只考慮了視頻片段和整個(gè)句子的關(guān)系,而忽略了視頻片段和句子中每個(gè)詞語這種更加細(xì)致的關(guān)系,這樣就不能全面地交互視覺和語言的信息,云從和上交聯(lián)合團(tuán)隊(duì)的研究者們提出了一種coarse-and-fine的交互方式,從粗粒度和細(xì)粒度的角度同時(shí)考慮了視頻片段-句子層面和關(guān)系和視頻片段-詞語層面的關(guān)系。
另一方面,現(xiàn)有的工作往往忽視了不同視頻片段之間的關(guān)系,或者僅僅采用了幾層卷積網(wǎng)絡(luò)的堆疊,存在計(jì)算量大、有噪聲影響等缺點(diǎn),本文的研究者們提出了一種稀疏連接的圖網(wǎng)絡(luò),僅僅考慮了起始或者終止時(shí)間相同的視頻片段,高效地建模了不同視頻片段之間的關(guān)系,幫助模型更好地區(qū)分視覺上相似的視頻片段。
代碼地址:https://github.com/Huntersxsx/RaNet
RaNet一共包含5個(gè)部分:(1)多模態(tài)的特征編碼模塊;(2)候選視頻片段的生成模塊;(3)候選視頻片段和查詢語句的交互模塊;(4)不同視頻片段的關(guān)系構(gòu)建模塊;(5)結(jié)果選擇模塊。
特征編碼模塊中,研究者們采用了在時(shí)序動(dòng)作檢測(cè)(Temporal Action Localization)中表現(xiàn)優(yōu)異的GC-NeXt來獲取視頻序列中的時(shí)序信息,使用雙向的LSTM來獲取語言信息的長(zhǎng)時(shí)間依賴。
候選視頻片段生成模塊中,研究者們借鑒了之前工作2D-TAN的方式,構(gòu)建了一個(gè)二維的時(shí)序網(wǎng)格圖,每一個(gè)小網(wǎng)格都代表一個(gè)候選視頻片段,其特征是由起始時(shí)間幀的特征和終止時(shí)間幀的特征串聯(lián)而得。
視覺語言交互模塊中,研究者們同時(shí)構(gòu)建了視頻片段-句子層面的關(guān)系和視頻片段-單詞層面的關(guān)系。對(duì)于視頻片段和句子的關(guān)系,研究者們之間對(duì)語言特征進(jìn)行max-pooling,然后和視頻片段特征進(jìn)行點(diǎn)乘。對(duì)于視頻片段和單詞的關(guān)系,研究者們通過語言特征和視頻片段特征首先構(gòu)建出一個(gè)注意力權(quán)重矩陣,然后再與視頻片段特征交互,動(dòng)態(tài)地生成query-aware的視頻片段表征。這種粗粒度和細(xì)粒度結(jié)合的方式能夠充分地交互視覺和語言兩種模態(tài)之間的信息。
視頻片段關(guān)系構(gòu)建模塊中,研究者們將每個(gè)候選視頻片段視作圖的點(diǎn),將這些視頻片段之間的關(guān)系視作圖的邊,構(gòu)建了視頻片段關(guān)系的圖網(wǎng)絡(luò)模型??紤]到重疊比較高的視頻片段關(guān)聯(lián)性更強(qiáng),研究者們?cè)跇?gòu)建圖時(shí)僅考慮了和當(dāng)前候選視頻片段具有相同起始時(shí)間或者終止時(shí)間的視頻片段,在網(wǎng)格圖中就是一種十字架的形式。這樣構(gòu)建圖的方式不僅可以減少不相關(guān)視頻片段帶來的噪聲影響,還能有效提高模型的效率。
結(jié)果選擇模塊中,研究者們采用一個(gè)卷積層和sigmoid激活層為每個(gè)候選視頻片段進(jìn)行打分,根據(jù)得分從大到小排序,選擇top-1或者top-5作為最終的預(yù)測(cè)視頻片段。
最后,研究者們使用了alignment loss對(duì)模型進(jìn)行了訓(xùn)練:
研究者們通過大量的實(shí)驗(yàn)驗(yàn)證了RaNet對(duì)于基于語言查詢的視頻片段定位任務(wù)的有效性。
本文在3個(gè)常見數(shù)據(jù)集TACoS、Charades-STA、ActivityNet Captions上,采用了Rank n@m評(píng)價(jià)指標(biāo),與以往的工作進(jìn)行了對(duì)比,在3個(gè)數(shù)據(jù)集上基本都取得了SOTA的表現(xiàn)。
為了突顯出模型中每個(gè)模塊的重要性,研究者們做了消融實(shí)驗(yàn),從結(jié)果來看,同時(shí)考慮視頻片段和句子的關(guān)系,以及視頻片段和單詞的關(guān)系,比單獨(dú)考慮這兩者帶來的收益要多。當(dāng)同時(shí)構(gòu)建不同視頻片段之間的關(guān)系時(shí),模型能夠更加精準(zhǔn)地對(duì)視頻片段進(jìn)行定位。
研究者們還與之前SOTA模型2D-TAN比較了在不同IoU上的相對(duì)提升率,可以發(fā)現(xiàn),在越高的IoU上,本文的RaNet提升得更加明顯。
研究者們比較了Pooling、Sampling、Addition、Concatenation這四種不同的視頻片段特征的生成方式,實(shí)驗(yàn)發(fā)現(xiàn)更加關(guān)注邊界特征的Concatenation操作表現(xiàn)更好。
不同word embeddings的影響:
為了探尋不同的詞向量編碼對(duì)實(shí)驗(yàn)結(jié)果對(duì)的影響,研究者們還比較了不同word embeddings的表現(xiàn),發(fā)現(xiàn)越強(qiáng)的語言表征更有益于模型精準(zhǔn)地定位視頻片段。
研究者們還展示了模型在TACoS數(shù)據(jù)集上的參數(shù)量和FLOPs,并和之前的2D-TAN模型進(jìn)行了對(duì)比,由于在構(gòu)建視頻片段關(guān)系的模塊中本文采用的是稀疏連接的圖網(wǎng)絡(luò)模型,所以參數(shù)量大大減小,效率得到了提升。
最后,研究者們還通過可視化的例子展現(xiàn)了模型的能力。
針對(duì)基于語言查詢的視頻片段定位這個(gè)任務(wù),云從-上交的聯(lián)合研究團(tuán)隊(duì)提出了,將視頻片段定位類比為自然語言處理中的多項(xiàng)選擇閱讀理解,同時(shí)建模了視頻片段-句子層面和視頻片段-單詞層面的關(guān)系,并且提出了一種稀疏連接的圖網(wǎng)絡(luò)高效地建模了不同視頻片段之間的關(guān)系,在公開數(shù)據(jù)集上取得了SOTA表現(xiàn)。
更多的技術(shù)細(xì)節(jié)請(qǐng)參考[RaNet: arxiv paper](https://arxiv.org/abs/2110.05717)。
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。