丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet

本文作者: 我在思考中 2021-11-15 10:23
導(dǎo)語:讓機(jī)器實(shí)現(xiàn)多感官同步進(jìn)化,做到像人類一樣同時(shí)看懂、聽懂、讀懂。
EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet


讓機(jī)器實(shí)現(xiàn)多感官同步進(jìn)化,做到像人類一樣同時(shí)看懂、聽懂、讀懂。

近日,國際NLP領(lǐng)域頂級(jí)會(huì)議EMNLP 2021拉開帷幕。云從科技與上海交通大學(xué)聯(lián)合研究團(tuán)隊(duì)的《Relation-aware Network:探索視頻片段定位任務(wù)中的多種層面關(guān)系》成功入選會(huì)議論文,并于大會(huì)進(jìn)行線上宣講。

EMNLP(Conference on Empirical Methods in Natural Language Processing)是計(jì)算語言學(xué)和自然語言處理領(lǐng)域的頂級(jí)國際會(huì)議之一,由國際語言學(xué)會(huì)(ACL)旗下SIGDAT組織。EMNLP論文入選標(biāo)準(zhǔn)十分嚴(yán)格,今年論文錄取率僅23.3%,相比去年略有下降。EMNLP學(xué)術(shù)會(huì)議上展示的研究成果,被認(rèn)為代表著自然語言處理領(lǐng)域的前沿水平與未來發(fā)展方向。

本次入選論文,圍繞“基于語言查詢的視頻片段定位”這一視覺-文本的跨模態(tài)任務(wù),將NLP與視覺技術(shù)結(jié)合,技術(shù)讓機(jī)器同時(shí)具備“理解文字”和“看懂視頻”的能力:能夠更精準(zhǔn)地讀懂文字,并理解視頻內(nèi)容,在整段視頻中找出與給定文字相對(duì)應(yīng)的視頻片段。該項(xiàng)成果在多個(gè)數(shù)據(jù)集上,都取得了優(yōu)于過去研究的表現(xiàn)。

這一成果在技術(shù)研究與實(shí)踐領(lǐng)域都具有十分重要的意義:

在技術(shù)上讓機(jī)器實(shí)現(xiàn)“多感官進(jìn)化”:如今視覺、聽覺等單點(diǎn)AI技術(shù),將越來越難以滿足多樣的應(yīng)用需求。該項(xiàng)技術(shù)旨在讓機(jī)器向完成“跨模態(tài)任務(wù)”進(jìn)化:讓機(jī)器能夠同時(shí)掌握視覺、文字等多種模態(tài)的信息,做到像人類一樣看懂、聽懂、讀懂,擁有全面的能力。近年來在學(xué)界,跨模態(tài)任務(wù)已成為一大研究熱點(diǎn),為AI領(lǐng)域注入新的活力。

突破單點(diǎn)技術(shù),擴(kuò)大跨模態(tài)應(yīng)用場(chǎng)景:在實(shí)戰(zhàn)場(chǎng)景中,隨著高清攝像頭的普及以及網(wǎng)絡(luò)媒體的快速發(fā)展,各式各樣的視頻呈海量增長(zhǎng)態(tài)勢(shì),自動(dòng)化視頻處理AI技術(shù)也迎來巨大的需求。本項(xiàng)成果基于語言查詢的視頻片段定位技術(shù),能夠有效解決治理、出行等多領(lǐng)域的難點(diǎn)問題,例如公共場(chǎng)合下的安全監(jiān)控、社交媒體視頻內(nèi)容的審核等等,突破以往的單點(diǎn)技術(shù)應(yīng)用瓶頸,帶來數(shù)量級(jí)的效率提升。

NLP等決策技術(shù)被認(rèn)為是AI領(lǐng)域下一個(gè)技術(shù)突破口,使機(jī)器擁有理解、思考、分析決策的能力,為人機(jī)交互、行業(yè)應(yīng)用等帶來顛覆式改變。云從科技、上海交通大學(xué)提出Relation-aware Network,探索視頻片段定位任務(wù)中的多種層面關(guān)系。



1

簡(jiǎn)介

基于語言查詢的視頻片段定位任務(wù)(Temporal Language Grounding):該任務(wù)是給定一個(gè)視頻和一段描述語句,通過融合視覺和語言兩種模態(tài)的信息,在視頻中定位出語言所描述內(nèi)容的視頻片段。隨著高清攝像頭的普及以及網(wǎng)絡(luò)媒體的快速發(fā)展,每天都會(huì)出現(xiàn)大量各式各樣的視頻,自動(dòng)化的視頻處理技術(shù)就被廣泛應(yīng)用在公共場(chǎng)合下的安全監(jiān)控、社交媒體上視頻內(nèi)容的審核中,作為視覺-文本的跨模態(tài)任務(wù),基于語言查詢的視頻片段定位也受到了越來越多的關(guān)注。

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet

一方面,已有的視頻片段定位方法通常只考慮了視頻片段和整個(gè)句子的關(guān)系,而忽略了視頻片段和句子中每個(gè)詞語這種更加細(xì)致的關(guān)系,這樣就不能全面地交互視覺和語言的信息,云從和上交聯(lián)合團(tuán)隊(duì)的研究者們提出了一種coarse-and-fine的交互方式,從粗粒度和細(xì)粒度的角度同時(shí)考慮了視頻片段-句子層面和關(guān)系和視頻片段-詞語層面的關(guān)系。

另一方面,現(xiàn)有的工作往往忽視了不同視頻片段之間的關(guān)系,或者僅僅采用了幾層卷積網(wǎng)絡(luò)的堆疊,存在計(jì)算量大、有噪聲影響等缺點(diǎn),本文的研究者們提出了一種稀疏連接的圖網(wǎng)絡(luò),僅僅考慮了起始或者終止時(shí)間相同的視頻片段,高效地建模了不同視頻片段之間的關(guān)系,幫助模型更好地區(qū)分視覺上相似的視頻片段。



2

方法
EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet
論文地址:https://arxiv.org/abs/2110.05717

代碼地址:https://github.com/Huntersxsx/RaNet

研究者們認(rèn)為,基于語言查詢的視頻片段定位任務(wù)(Temporal Language Grounding),在某種程度上和自然語言理解中的多項(xiàng)選擇閱讀理解任務(wù)(Multi-choice Reading Comprehension)類似,可以把給定的視頻、查詢語言以及候選的視頻片段分別類比為閱讀理解中的文章、問題和候選答案。在將問題轉(zhuǎn)化為閱讀理解任務(wù)之后,研究者們提出了RaNet來解決該問題。

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet

RaNet一共包含5個(gè)部分:(1)多模態(tài)的特征編碼模塊;(2)候選視頻片段的生成模塊;(3)候選視頻片段和查詢語句的交互模塊;(4)不同視頻片段的關(guān)系構(gòu)建模塊;(5)結(jié)果選擇模塊。

  • 特征編碼模塊中,研究者們采用了在時(shí)序動(dòng)作檢測(cè)(Temporal Action Localization)中表現(xiàn)優(yōu)異的GC-NeXt來獲取視頻序列中的時(shí)序信息,使用雙向的LSTM來獲取語言信息的長(zhǎng)時(shí)間依賴。

  • 候選視頻片段生成模塊中,研究者們借鑒了之前工作2D-TAN的方式,構(gòu)建了一個(gè)二維的時(shí)序網(wǎng)格圖,每一個(gè)小網(wǎng)格都代表一個(gè)候選視頻片段,其特征是由起始時(shí)間幀的特征和終止時(shí)間幀的特征串聯(lián)而得。

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet

  • 視覺語言交互模塊中,研究者們同時(shí)構(gòu)建了視頻片段-句子層面的關(guān)系和視頻片段-單詞層面的關(guān)系。對(duì)于視頻片段和句子的關(guān)系,研究者們之間對(duì)語言特征進(jìn)行max-pooling,然后和視頻片段特征進(jìn)行點(diǎn)乘。對(duì)于視頻片段和單詞的關(guān)系,研究者們通過語言特征和視頻片段特征首先構(gòu)建出一個(gè)注意力權(quán)重矩陣,然后再與視頻片段特征交互,動(dòng)態(tài)地生成query-aware的視頻片段表征。這種粗粒度和細(xì)粒度結(jié)合的方式能夠充分地交互視覺和語言兩種模態(tài)之間的信息。

  • 視頻片段關(guān)系構(gòu)建模塊中,研究者們將每個(gè)候選視頻片段視作圖的點(diǎn),將這些視頻片段之間的關(guān)系視作圖的邊,構(gòu)建了視頻片段關(guān)系的圖網(wǎng)絡(luò)模型??紤]到重疊比較高的視頻片段關(guān)聯(lián)性更強(qiáng),研究者們?cè)跇?gòu)建圖時(shí)僅考慮了和當(dāng)前候選視頻片段具有相同起始時(shí)間或者終止時(shí)間的視頻片段,在網(wǎng)格圖中就是一種十字架的形式。這樣構(gòu)建圖的方式不僅可以減少不相關(guān)視頻片段帶來的噪聲影響,還能有效提高模型的效率。

  • 結(jié)果選擇模塊中,研究者們采用一個(gè)卷積層和sigmoid激活層為每個(gè)候選視頻片段進(jìn)行打分,根據(jù)得分從大到小排序,選擇top-1或者top-5作為最終的預(yù)測(cè)視頻片段。

最后,研究者們使用了alignment loss對(duì)模型進(jìn)行了訓(xùn)練:

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet



3

實(shí)驗(yàn)結(jié)果

研究者們通過大量的實(shí)驗(yàn)驗(yàn)證了RaNet對(duì)于基于語言查詢的視頻片段定位任務(wù)的有效性。

1.與SOTA模型的比較

本文在3個(gè)常見數(shù)據(jù)集TACoS、Charades-STA、ActivityNet Captions上,采用了Rank n@m評(píng)價(jià)指標(biāo),與以往的工作進(jìn)行了對(duì)比,在3個(gè)數(shù)據(jù)集上基本都取得了SOTA的表現(xiàn)。

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet

2.模型中每個(gè)模塊帶來的效益

為了突顯出模型中每個(gè)模塊的重要性,研究者們做了消融實(shí)驗(yàn),從結(jié)果來看,同時(shí)考慮視頻片段和句子的關(guān)系,以及視頻片段和單詞的關(guān)系,比單獨(dú)考慮這兩者帶來的收益要多。當(dāng)同時(shí)構(gòu)建不同視頻片段之間的關(guān)系時(shí),模型能夠更加精準(zhǔn)地對(duì)視頻片段進(jìn)行定位。

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet

3.在不同IoUs上帶來的提升

研究者們還與之前SOTA模型2D-TAN比較了在不同IoU上的相對(duì)提升率,可以發(fā)現(xiàn),在越高的IoU上,本文的RaNet提升得更加明顯。

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet

4.視頻片段特征的不同生成方式的影響

研究者們比較了Pooling、Sampling、Addition、Concatenation這四種不同的視頻片段特征的生成方式,實(shí)驗(yàn)發(fā)現(xiàn)更加關(guān)注邊界特征的Concatenation操作表現(xiàn)更好。

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet

不同word embeddings的影響:

為了探尋不同的詞向量編碼對(duì)實(shí)驗(yàn)結(jié)果對(duì)的影響,研究者們還比較了不同word embeddings的表現(xiàn),發(fā)現(xiàn)越強(qiáng)的語言表征更有益于模型精準(zhǔn)地定位視頻片段。

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet

5.模型的效率

研究者們還展示了模型在TACoS數(shù)據(jù)集上的參數(shù)量和FLOPs,并和之前的2D-TAN模型進(jìn)行了對(duì)比,由于在構(gòu)建視頻片段關(guān)系的模塊中本文采用的是稀疏連接的圖網(wǎng)絡(luò)模型,所以參數(shù)量大大減小,效率得到了提升。

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet

6.可視化結(jié)果

最后,研究者們還通過可視化的例子展現(xiàn)了模型的能力。

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet



4

結(jié)論

針對(duì)基于語言查詢的視頻片段定位這個(gè)任務(wù),云從-上交的聯(lián)合研究團(tuán)隊(duì)提出了,將視頻片段定位類比為自然語言處理中的多項(xiàng)選擇閱讀理解,同時(shí)建模了視頻片段-句子層面和視頻片段-單詞層面的關(guān)系,并且提出了一種稀疏連接的圖網(wǎng)絡(luò)高效地建模了不同視頻片段之間的關(guān)系,在公開數(shù)據(jù)集上取得了SOTA表現(xiàn)。

更多的技術(shù)細(xì)節(jié)請(qǐng)參考[RaNet: arxiv paper](https://arxiv.org/abs/2110.05717)。

參考文獻(xiàn)
[1] Songyang Zhang, Houwen Peng, Jianlong Fu, and Jiebo Luo. 2020b. Learning 2d temporal adjacent networks for moment localization with natural language.  In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 12870–12877.
[2] Mengmeng Xu, Chen Zhao, David S. Rojas, Ali Thabet, and Bernard Ghanem. 2020. G-tad: Sub-graph localization for temporal action detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
[3] Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Yunchao Wei, and Wenyu Liu. 2019. Ccnet: Criss-cross attention for semantic segmentation. In
2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 603–612.

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet

雷鋒網(wǎng)


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

EMNLP 2021 | 云從科技&上海交大的跨模態(tài)技術(shù)成果:探索多層關(guān)系的RaNet

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說