0
本文作者: 叢末 | 2019-12-29 20:10 |
作者王瑞澤在本文中介紹了復(fù)旦大學(xué)研究團(tuán)隊(duì)在 AAAI 2020上錄用的一篇關(guān)于多模態(tài)文本生成工作: 《Storytelling from an Image Stream Using Scene Graphs》,利用場(chǎng)景圖針對(duì)圖像序列進(jìn)行故事生成。
該文章認(rèn)為將圖像轉(zhuǎn)為圖結(jié)構(gòu)的表示方法(如場(chǎng)景圖),然后通過(guò)圖網(wǎng)絡(luò)在圖像內(nèi)和跨圖像兩個(gè)層面上進(jìn)行關(guān)系推理,有助于表示圖像,并最終有利于描述圖像。實(shí)驗(yàn)結(jié)果證明該方法可以顯著的提高故事生成的質(zhì)量。
對(duì)于大多數(shù)人,觀察一組圖像然后寫(xiě)一個(gè)語(yǔ)義通順的故事是很簡(jiǎn)單的事情。盡管近年來(lái)深度神經(jīng)網(wǎng)絡(luò)的研究取得了令人鼓舞的成果,但對(duì)于機(jī)器來(lái)說(shuō),這仍然是一件困難的事情。
近年來(lái),視覺(jué)敘事(visual storytelling)越來(lái)越受到計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理(NLP)領(lǐng)域的關(guān)注。不同于圖像標(biāo)注(image captioning)旨在為單個(gè)圖像生成文字描述,視覺(jué)敘事任務(wù)則更具挑戰(zhàn)性,它進(jìn)一步研究了機(jī)器如何理解一個(gè)圖像序列,并生成連貫故事的能力。
目前的視覺(jué)敘事方法都采用了編碼器-解碼器結(jié)構(gòu),使用通過(guò)一個(gè)基于CNN的模型提取視覺(jué)特征,使用基于RNN的模型進(jìn)行文本生成。其中有些方法引入了強(qiáng)化學(xué)習(xí)和對(duì)抗學(xué)習(xí)等方法,來(lái)產(chǎn)生更加通順、有表現(xiàn)性的故事。但是僅使用CNN提取到的特征來(lái)表示所有的視覺(jué)信息,這不大符合直覺(jué)而且損害了模型的可解釋性和推理能力。
回想一下人是如何看圖寫(xiě)故事的呢?人會(huì)先分辨出圖像上面有什么物體,推理他們的關(guān)系,接下來(lái)把一個(gè)圖像抽象成一個(gè)場(chǎng)景,然后依次看觀察圖像,推理圖像間的關(guān)系。對(duì)于視覺(jué)敘事這個(gè)任務(wù),本文認(rèn)為也可以采用類似方法。
本文認(rèn)為把圖像轉(zhuǎn)為一種圖結(jié)構(gòu)的表示(如場(chǎng)景圖),隨后在圖像內(nèi)(within-image)和跨圖像(cross-image)這兩個(gè)層面上建模視覺(jué)關(guān)系,將會(huì)有助于表示圖像,并最終對(duì)描述圖片有所幫助。
圖1:一個(gè)基于場(chǎng)景圖的視覺(jué)敘事例子.
圖2:提出的模型概述.
本文提出了一種基于圖網(wǎng)絡(luò)的模型SGVST (如圖2所示),它可以在圖像內(nèi)和跨圖像這兩個(gè)層面上建模視覺(jué)關(guān)系。
簡(jiǎn)單來(lái)說(shuō),首先將圖像In通過(guò)Scene Graph Parser轉(zhuǎn)化為場(chǎng)景圖Gn=(Vn, En)。場(chǎng)景圖包含了檢測(cè)到的物體Vn={vn,1,…,vn,k},以及物體之間的視覺(jué)關(guān)系En。
如圖2所示,一個(gè)男人抱著一個(gè)孩子,那么男人和孩子就可以作為圖中的節(jié)點(diǎn),他們的視覺(jué)關(guān)系作為邊。接著將場(chǎng)景圖通過(guò)Multi-modal Graph ConvNet:在圖像內(nèi)的層面,使用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)來(lái)對(duì)場(chǎng)景圖中的節(jié)點(diǎn)特征進(jìn)行增強(qiáng)。在跨圖像層面,為了建模圖像之間的交互,使用時(shí)序卷積神經(jīng)網(wǎng)絡(luò)(TCN)來(lái)沿著時(shí)間維度進(jìn)行卷積,進(jìn)一步優(yōu)化圖像的特征表示。最后得到了集合了圖像內(nèi)關(guān)系和跨圖像關(guān)系的relation aware的特征,輸入到層次化解碼器(Hierarchical Decoder)中來(lái)生成故事。
圖3:層次化解碼器概述.
表1:在VIST數(shù)據(jù)集上的不同模型性能比較. *代表直接優(yōu)化RL獎(jiǎng)勵(lì),比如CIDEr分?jǐn)?shù), + 代表通過(guò)交叉熵?fù)p失(MLE)優(yōu)化.
表1顯示了不同模型在七個(gè)自動(dòng)評(píng)價(jià)指標(biāo)上的性能。結(jié)果顯示作者提出的SGVST模型幾乎在所有指標(biāo)上都優(yōu)于其他用MLE和RL優(yōu)化的模型具有更好的性能,SGVST的BLEU-1、BLEU-4和METEOR得分比其他基于MLE優(yōu)化的最佳方法分別提高了3.2%、2.5%和1.4%,這被認(rèn)為是在VIST數(shù)據(jù)集上的顯著進(jìn)步。這直接說(shuō)明將圖像轉(zhuǎn)換為基于圖的語(yǔ)義表示(如場(chǎng)景圖),有利于圖像的表示和高質(zhì)量的故事生成。
本文還進(jìn)行了消融實(shí)驗(yàn),和提出模型的5個(gè)變種模型進(jìn)行了比較,來(lái)驗(yàn)證模型每個(gè)模塊部分的重要性。從表1中可以看在不使用GCN和TCN的時(shí)候,模型性能有一個(gè)很大的下降。這說(shuō)明圖網(wǎng)絡(luò)在該模型中是最為重要的,因?yàn)樗梢越o模型帶來(lái)了推理視覺(jué)關(guān)系的能力。
2. 定性分析
圖4:不同模型定性分析的例子.
圖4展示了3種不同模型生成的故事和真實(shí)故事的樣例。第一行是輸入的一個(gè)圖像序列。第二行是生成出的場(chǎng)景圖。第三行是不同模型生成的故事??梢钥闯鯯GVST生成的故事更通順,而且信息更豐富、更有表現(xiàn)力。
圖5:每種顏色代表了相對(duì)應(yīng)模型產(chǎn)生的故事,被評(píng)價(jià)人員認(rèn)為更加像人寫(xiě)的、更有表現(xiàn)力所占的比例?;疑摹盩ie”代表了打平.
表2:人工評(píng)估結(jié)果。在AMT上的評(píng)估人員根據(jù)對(duì)每個(gè)問(wèn)題的同意程度來(lái)評(píng)價(jià)故事的質(zhì)量,評(píng)分范圍為1-5.
為了更好地評(píng)價(jià)生成的故事的質(zhì)量,作者通過(guò)Amazon Mechanical Turk(AMT)進(jìn)行了兩種人工評(píng)價(jià)。(1)圖5是不同模型兩兩比較的一個(gè)實(shí)驗(yàn)結(jié)果,給評(píng)價(jià)人員2個(gè)生成出的故事,然后讓他來(lái)選擇哪一個(gè)寫(xiě)的更好。(2)表2是在6個(gè)指標(biāo)上進(jìn)行的人工評(píng)估實(shí)驗(yàn)結(jié)果??梢钥闯霰疚奶岢龅哪P秃推渌P拖啾扔兄薮蟮膬?yōu)勢(shì),而且和人類相比,也取得了有競(jìng)爭(zhēng)力的表現(xiàn)。
1. 將圖像轉(zhuǎn)為圖結(jié)構(gòu)的語(yǔ)義表示(如場(chǎng)景圖),可以更好的表示圖像,有利于高質(zhì)量的故事生成。
2. 本文提出了一個(gè)基于圖網(wǎng)絡(luò)的模型,可以將圖像轉(zhuǎn)為場(chǎng)景圖,然后在圖像內(nèi)和跨圖像兩個(gè)層面上進(jìn)行關(guān)系推理。
3. 實(shí)驗(yàn)結(jié)果表明,本文提出的模型取得了優(yōu)秀的表現(xiàn),并且能產(chǎn)生信息更加豐富、語(yǔ)言更加連貫的故事。
4. 場(chǎng)景圖生成的質(zhì)量限制了本文模型的性能,如果能有更好的場(chǎng)景圖生成方法,本文模型的性能還能取得進(jìn)一步提高。
雷鋒網(wǎng) AI 科技評(píng)論報(bào)道 雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。