如何在MSR-VTT競賽蟬聯(lián)冠軍？人民大學(xué)金琴老師分享奪冠經(jīng)驗(yàn) | ACMMM 2017

本文作者：岑大師

2017-11-03 15:11

導(dǎo)語：MSR video to language（MSR-VTT）賽題自2016年來已連續(xù)舉辦兩屆，其任務(wù)為自動(dòng)地為短視頻生成自然語言視頻內(nèi)容描述。

雷鋒網(wǎng)消息：上周在加州山景城舉辦的ACMMM 2017大會(huì)上，來自中國的研究者表現(xiàn)出色，不僅拿到了今年ACMMM的最佳論文，還在MSR Video to Language Challenge（MSR-VTT）、Social Media Prediction (SMP)等多項(xiàng)競賽中取得第一。值得一提的是，來自人民大學(xué)的衛(wèi)冕冠軍金琴團(tuán)隊(duì)是在去年舉行的第一屆MSR-VTT奪得冠軍后，今年再度取得了主觀人工評(píng)測和客觀性能評(píng)測的雙冠軍。

關(guān)于競賽

MSR Video to Language Challenge （MSR-VTT）是由微軟主辦的視頻標(biāo)注競賽。自2016年來已連續(xù)舉辦兩屆，其任務(wù)為自動(dòng)地為短視頻生成自然語言視頻內(nèi)容描述，今年共有全球57支隊(duì)伍注冊參加。

今年的MSR-VTT挑戰(zhàn)賽要求參賽者根據(jù)所提供的MSR-VTT數(shù)據(jù)集和利用其它數(shù)據(jù)，識(shí)別廣泛的對(duì)象、場景和事件，并開發(fā)從視頻到自然語言的系統(tǒng)。比賽要求系統(tǒng)為每個(gè)測試視頻生成至少一個(gè)句子，評(píng)測階段則分為兩部分，在客觀評(píng)測部分將會(huì)通過BLEU@4, METEOR, ROUGE-L及CIDEr等多個(gè)常用標(biāo)準(zhǔn)來進(jìn)行計(jì)算評(píng)估，在主觀評(píng)測部分將與預(yù)先由人類生成的“答案”進(jìn)行比較，從語法、正確性、相關(guān)性、對(duì)盲人的幫助（額外加分項(xiàng)）等四方面進(jìn)行評(píng)分。

如何在MSR-VTT競賽蟬聯(lián)冠軍？人民大學(xué)金琴老師分享奪冠經(jīng)驗(yàn) | ACMMM 2017

這對(duì)于人類來說是小事一樁的任務(wù)，但在計(jì)算機(jī)視覺領(lǐng)域，視頻標(biāo)注需要在視頻信息和文本信息兩種不同形式的信息之間進(jìn)行“翻譯”，對(duì)計(jì)算機(jī)來說算是不小的挑戰(zhàn)。在團(tuán)隊(duì)發(fā)表的論文“Knowing yourself: improving video caption via in-depth recap”中，金琴老師對(duì)VTT任務(wù)的現(xiàn)狀進(jìn)行了完整的回顧和分析，并創(chuàng)新地提出了基于隱含主題指導(dǎo)的視頻內(nèi)容描述生成模型，并根據(jù)視頻的不同分類，通過融合（Ensemble）和排序（Reranking）等方法綜合描述模型，在MSR-VTT數(shù)據(jù)集上取得了優(yōu)秀的效果，并對(duì)模型的通用泛化能力和“距離人類水準(zhǔn)的距離”進(jìn)行了分析，為今后該任務(wù)的發(fā)展和需要解決的重點(diǎn)問題提供了方向，該論文也獲得了Best Grand Challenge Paper Award。

如何在MSR-VTT競賽蟬聯(lián)冠軍？人民大學(xué)金琴老師分享奪冠經(jīng)驗(yàn) | ACMMM 2017

在大會(huì)結(jié)束后，雷鋒網(wǎng)也聯(lián)系了金琴老師就本次奪冠的經(jīng)驗(yàn)進(jìn)行了分享。

雷鋒網(wǎng)（以下用Q代表）：恭喜你們蟬聯(lián)ACMMM MSR Video to Language Grand Challenge的冠軍，有什么感想可以分享一下呢？

金琴（以下用A代表）：謝謝！感謝ACM Multimedia和MSR組織這樣的公共挑戰(zhàn)賽，為促進(jìn)Video to Language的研究提供了很好的數(shù)據(jù)和評(píng)測平臺(tái)。很開心我們蟬聯(lián)該項(xiàng)Grand Challenge的冠軍，一份耕耘一份收獲，這是對(duì)我們團(tuán)隊(duì)扎實(shí)做研究的獎(jiǎng)勵(lì)。我希望大家繼續(xù)保持對(duì)研究的激情和嚴(yán)謹(jǐn)，持續(xù)做出更好的研究發(fā)現(xiàn)。

Q：可以介紹奪冠團(tuán)隊(duì)中的幾位成員以及大家的工作情況嗎？

A: 這次參賽隊(duì)伍主要成員包括陳師哲和陳佳。陳師哲是我的博士生，現(xiàn)在剛進(jìn)入博士三年級(jí)。陳佳目前在卡內(nèi)基梅隆大學(xué)Alex Hauptmann教授課題組做博士后，我們有多年的合作。

Q：今年的比賽任務(wù)和去年相比有什么不同，存在哪些難點(diǎn)？

A: 今年延用了去年的訓(xùn)練數(shù)據(jù)集，但是測試數(shù)據(jù)集是重新采集的，比去年的測試集更大。在去年的任務(wù)中，訓(xùn)練集和測試集中有些視頻片段是節(jié)選自同一個(gè)長視頻，而今年新的測試集和訓(xùn)練集完全沒有任何交集，類似于跨數(shù)據(jù)集去驗(yàn)證caption系統(tǒng)了，因此對(duì)模型generalization的要求更高。

Q：針對(duì)上述不同，您的團(tuán)隊(duì)今年做了哪些針對(duì)性的調(diào)整？解決問題的具體步驟是什么樣的呢？

A: 我們主要從三個(gè)方面提高模型的泛化能力：第一個(gè)是訓(xùn)練數(shù)據(jù)的擴(kuò)充。模型見過的訓(xùn)練數(shù)據(jù)越多，性能也會(huì)隨之提升。但由于video caption數(shù)據(jù)的標(biāo)注代價(jià)很高，現(xiàn)在并沒有很大規(guī)模的video caption數(shù)據(jù)集，我們只補(bǔ)充了msvd和trecvid兩個(gè)數(shù)據(jù)集，視頻數(shù)量大約是原有訓(xùn)練數(shù)據(jù)的三分之一。第二個(gè)是新模型的提出（topic-guided caption model）?；ヂ?lián)網(wǎng)上視頻涵蓋了各種各樣不同的主題內(nèi)容，這種主題的多樣性會(huì)影響視頻內(nèi)容描述的生成。一方面不同主題下視頻中不同模態(tài)的貢獻(xiàn)度不一樣，例如音樂類視頻中音頻信號(hào)比較關(guān)鍵而在運(yùn)動(dòng)類視頻中視覺動(dòng)作更為重要，另一方面在不同主題下使用的詞匯和表達(dá)方式會(huì)不一樣，因此不能用同一模型刻畫出句子的多樣性。因此，我們提出了基于隱含主題指導(dǎo)的caption模型，隱含主題是因?yàn)閿?shù)據(jù)集中并沒有視頻的主題信息，需要自動(dòng)地去挖掘視頻主題，這個(gè)模型可以生成主題相關(guān)的更加準(zhǔn)確更加細(xì)節(jié)的視頻描述，同時(shí)泛化性能也大大提高。最后一個(gè)改進(jìn)是對(duì)不同模型的融合，我們發(fā)現(xiàn)并沒有一個(gè)one king to rule them all的模型，不同模型在不同視頻上還是有互補(bǔ)性的，因此我們利用wisdom of the crowd，提出了主題敏感的ensembling和reranking方法來融合不同模型，提高整體系統(tǒng)的穩(wěn)定性和效果。

Q：在參賽中你們還遇到了什么問題，如何解決的？

A: 在現(xiàn)有的caption相關(guān)論文中大家往往使用的不是同一個(gè)數(shù)據(jù)集或者相同特征，因此沒有在同樣的一個(gè)大數(shù)據(jù)集上，不同caption模型以及不同特征的公平比較。對(duì)于caption而言，到底是更強(qiáng)的特征還是更強(qiáng)的模型更重要，沒有答案。所以我們嘗試了現(xiàn)有的很多模型，在一個(gè)公平的比較方式上衡量不同模型性能，然后我們發(fā)現(xiàn)很多模型在特征變強(qiáng)了以后提升就小了，甚至有些沒有提升。這也對(duì)現(xiàn)有研究提出了一個(gè)挑戰(zhàn)，就是要在一個(gè)更強(qiáng)的baseline上去改進(jìn)模型，像模型和特征的一個(gè)互相博弈過程。

Q：目前該領(lǐng)域中最厲害的方法與人類有多大的差距？下一步的有哪些研究重點(diǎn)？

A:在msrvtt數(shù)據(jù)集上我們試著回答了一下這個(gè)問題。我們用人工的描述ground truth估計(jì)了人類的caption平均性能。在caption任務(wù)的幾個(gè)客觀評(píng)價(jià)指標(biāo)上，我們的系統(tǒng)和人類平均水平基本持平，有些指標(biāo)上高于人類，有些指標(biāo)上與人類相差不多。但這并不意味著我們攻克這個(gè)任務(wù)了。一方面，現(xiàn)有的評(píng)價(jià)指標(biāo)還不能很好衡量句子的質(zhì)量，說一句general但沒有太多信息量的話評(píng)測會(huì)高，另一個(gè)重要方面就是模型的泛化性能和人的差距較大。因此，下一步會(huì)針對(duì)提高caption模型的泛化能力、表達(dá)能力（生成更細(xì)節(jié)更生動(dòng)的描述）等方面進(jìn)行研究突破。

Q：你們團(tuán)隊(duì)在大會(huì)第一天的Audio/Visual Emotion Challenge and Workshop（AVEC 2017）中也奪得了Affect Sub-Challenge的冠軍，你們在這兩個(gè)比賽中使用了哪些相同的方法和技巧嗎？

A: 這是兩個(gè)很不同的任務(wù)，每個(gè)任務(wù)要做到好的performance都必須針對(duì)任務(wù)提出好的解決方法。但有一些基本的模型還是可以通用的，例如時(shí)序模型LSTM在兩個(gè)任務(wù)中都很重要，另外有些思路兩個(gè)任務(wù)都可以互相借鑒，比如多任務(wù)學(xué)習(xí)等。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

岑大師

發(fā)私信

當(dāng)月熱門文章

如何在MSR-VTT競賽蟬聯(lián)冠軍？人民大學(xué)金琴老師分享奪冠經(jīng)驗(yàn) | ACMMM 2017

關(guān)于競賽

如何在MSR-VTT競賽蟬聯(lián)冠軍？人民大學(xué)金琴老師分享奪冠經(jīng)驗(yàn) | ACMMM 2017