0
本文作者: 楊曉凡 | 2018-10-26 09:37 |
雷鋒網(wǎng) AI 科技評(píng)論按:多媒體信息處理領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議 ACM MM 2018(ACM International Conference on Multimedia)于 2018 年 10 月 22 日至 26 日在韓國(guó)首爾舉行。
本次會(huì)議共收到 757 篇論文投稿,接收論文 209 篇,接收率為 27.61%;其中口頭報(bào)告論文 64 篇,比例為 8.45%。投稿最多的領(lǐng)域是「理解-多媒體與視覺」、「理解-深度學(xué)習(xí)多媒體處理」、「理解-多模態(tài)分析與描述」、「互動(dòng)-多媒體搜索與推薦」,投稿數(shù)量分別為 210 篇、167 篇、86 篇、79 篇。
10 月 24 日下午,大會(huì)現(xiàn)場(chǎng)公布了最佳論文獲獎(jiǎng)名單,雷鋒網(wǎng) AI 科技評(píng)論摘錄如下
最佳論文一篇
Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training
超越敘事描述:通過(guò)多對(duì)抗訓(xùn)練,從圖像生成詩(shī)歌
最佳學(xué)生論文一篇
Understanding Humans in Crowded Scenes: Deep Nested Adversarial Learning and A New Benchmark for Multi-Human Parsing
理解密集場(chǎng)景中的人:深度內(nèi)嵌對(duì)抗學(xué)習(xí)以及一個(gè)新的多人解析 benchmark
最佳 Demo 論文兩篇
AniDance: Real-Time Dance Motion Synthesize to Song
AniDance:從舞蹈動(dòng)作實(shí)時(shí)生成音樂(lè)
Meet AR-bot: Meeting Anywhere, Anytime with Movable Spatial AR Robot
來(lái)見見 AR-bot:與可以在不同空間移動(dòng)的 AR 機(jī)器人見面,隨時(shí)隨地
最佳開源軟件比賽論文兩篇
Vivid: Virtual Environment for Visual Deep Learning
Vivid:用于視覺深度學(xué)習(xí)的虛擬環(huán)境
A General-Purpose Distributed Programming System using Data-Parallel Streams
一個(gè)使用數(shù)據(jù)并行流的通用分布式變成系統(tǒng)
ACM TOMM 期刊最佳論文一篇
Learning from Collective Intelligence: Feature Learning using Social Image and Tags
從集體智慧學(xué)習(xí):用社交圖像和標(biāo)簽學(xué)習(xí)特征
ACM MM 2018 最佳論文《Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training》(超越敘事描述:通過(guò)多對(duì)抗訓(xùn)練,從圖像生成詩(shī)歌 )由京都大學(xué)和微軟亞洲研究院合作完成。以下為微軟亞洲研究院提供的論文中文版全文。
摘要
根據(jù)圖像自動(dòng)生成自然語(yǔ)言的技術(shù)引起了廣泛關(guān)注。本文中,我們更進(jìn)一步,研究如何從圖像生成詩(shī)歌語(yǔ)言,進(jìn)行自動(dòng)的詩(shī)歌創(chuàng)作。這一工作涉及多項(xiàng)挑戰(zhàn),包括發(fā)現(xiàn)圖像中的詩(shī)歌線索(例如,綠色中蘊(yùn)含的希望),以及生成詩(shī)歌——既滿足與圖像的相關(guān)性,又滿足語(yǔ)言層面上的詩(shī)意。為解決上述問(wèn)題,我們通過(guò)策略梯度將詩(shī)歌生成工作劃分成了兩個(gè)相關(guān)的多對(duì)抗訓(xùn)練子任務(wù),從而保證跨模態(tài)相關(guān)性和詩(shī)歌語(yǔ)言風(fēng)格。為了從圖像中提煉詩(shī)歌線索,我們提出學(xué)習(xí)深度耦合的視覺詩(shī)意嵌入,在其中,機(jī)器可以連帶地學(xué)習(xí)圖像中物品、情感 和場(chǎng)景的詩(shī)意呈現(xiàn)。本文還介紹了兩種指導(dǎo)詩(shī)歌生成的判別網(wǎng)絡(luò),包括多模態(tài)判別器和詩(shī)歌風(fēng)格判別器。為了便于研究,我們通過(guò)人工注解者收集了兩個(gè)詩(shī)歌數(shù)據(jù)集,它們有如下性質(zhì):1) 第一個(gè)是人類注解的“圖像-詩(shī)歌”對(duì)數(shù)據(jù)集(共8,292對(duì)),以及2)迄今為止最大的公共英文詩(shī)歌語(yǔ)料數(shù)據(jù)集(共有92,265首不同的詩(shī)歌)。我們應(yīng)用自己的模型生成了八千張圖像,進(jìn)行了大規(guī)模的實(shí)驗(yàn),其中一千五百?gòu)垐D像是隨機(jī)選取來(lái)進(jìn)行評(píng)估的??陀^評(píng)估和主觀評(píng)估均顯示,該方法相對(duì)于目前最先進(jìn)的圖像生成詩(shī)歌方法,表現(xiàn)優(yōu)異。我們請(qǐng)500名人類受試者來(lái)進(jìn)行了圖靈測(cè)試,其中30名評(píng)估者是詩(shī)歌方面的專業(yè)人士,測(cè)試結(jié)果證明了我們方法的有效性。
1 引言
近來(lái),同時(shí)涉及視覺和語(yǔ)言的研究引起了廣泛關(guān)注,關(guān)于圖像描述(像圖像標(biāo)題技術(shù)和圖像生成短文)的研究數(shù)量呈現(xiàn)出爆發(fā)式的增長(zhǎng)。[1, 4, 16, 27]。圖像描述的研究旨在根據(jù)圖像生成使用人類語(yǔ)言描述事實(shí)的語(yǔ)句。在本文中,我們更進(jìn)一步,希望完成更具認(rèn)知性的工作:以詩(shī)歌創(chuàng)作為目的,根據(jù)圖像生成詩(shī)歌語(yǔ)言。該工作已引起了研究界和行業(yè)的巨大興趣。
在自然語(yǔ)言處理領(lǐng)域,詩(shī)歌生成問(wèn)題已經(jīng)得到研究。例如,在[11, 32]中,作者主要關(guān)注風(fēng)格和韻律的質(zhì)量。在[7, 32, 37]中,這些工作更多地研究根據(jù)主題生成詩(shī)歌。在行業(yè)內(nèi),F(xiàn)acebook提出了使用神經(jīng)網(wǎng)絡(luò)來(lái)生成英文韻律詩(shī) [11],微軟開發(fā)了一個(gè)叫作“小冰”的系統(tǒng),其最重要的功能之一正是生成詩(shī)歌。不過(guò),以端對(duì)端的方式從圖像生成詩(shī)歌仍然是一個(gè)新的主題,面臨著巨大挑戰(zhàn)。
圖像標(biāo)題技術(shù)和圖像生成短文的重點(diǎn)在于生成關(guān)于圖像的描述性語(yǔ)句,而詩(shī)歌語(yǔ)言的生成則是更具挑戰(zhàn)性的難題。視覺呈現(xiàn)與圖像可激發(fā)的、有助于更好地生成詩(shī)歌的詩(shī)歌象征之間,距離更遠(yuǎn)。例如,圖像描述中的“人”在詩(shī)歌創(chuàng)作中可以進(jìn)一步使用“明亮的陽(yáng)光”和“張開的手臂”象征“希望”,或使用“空椅子”和“黑暗”的背景象征“孤獨(dú)”。圖1舉出了一個(gè)具體的例子,說(shuō)明同一張圖像,其描述和其詩(shī)歌之間的差異。
為了從一幅圖像生成詩(shī)歌,我們尤其需要面臨以下三個(gè)挑戰(zhàn):首先,與根據(jù)主題生成詩(shī)歌相比,這是一個(gè)跨模態(tài)的問(wèn)題。從圖像生成詩(shī)歌的一種直觀方法是先從圖像中提煉關(guān)鍵詞或說(shuō)明文字,然后以這些關(guān)鍵詞或說(shuō)明文字為種子,生成詩(shī)歌,正如從主題生成詩(shī)歌那樣。但是,關(guān)鍵詞或說(shuō)明文字會(huì)丟失許多圖像信息,更不用說(shuō)對(duì)詩(shī)歌生成十分重要的詩(shī)歌線索了[7, 37]。其次,與圖像標(biāo)題技術(shù)和圖像生成短文相比,從圖像生成詩(shī)歌是一項(xiàng)更主觀的工作,這意味著同一幅圖像可以對(duì)應(yīng)不同方面的多首詩(shī)歌,而圖像標(biāo)題技術(shù)/圖像生成短文更多地是描述圖像中的事實(shí),并生成相似的語(yǔ)句。第三,詩(shī)句的形式和風(fēng)格與敘述語(yǔ)句不同。本研究中,我們主要關(guān)注的是一種開放形式的詩(shī)歌——自由詩(shī)。盡管我們不要求格律、韻律或其他傳統(tǒng)的詩(shī)歌技術(shù),但仍要有詩(shī)歌結(jié)構(gòu)和詩(shī)歌語(yǔ)言。在本研究中,我們將這一素質(zhì)定義為詩(shī)意。例如,詩(shī)歌的長(zhǎng)度一般有限;與圖像描述相比,詩(shī)歌一般偏好特定的詞語(yǔ);詩(shī)歌中的語(yǔ)句應(yīng)與同一主題相關(guān),保持一致。
為了應(yīng)對(duì)以上挑戰(zhàn),我們收集了兩個(gè)人類注解的詩(shī)歌數(shù)據(jù)集,在一個(gè)系統(tǒng)中通過(guò)集成檢索和生成技術(shù)來(lái)研究詩(shī)歌創(chuàng)作。為了更好地研究詩(shī)歌生成中圖像的詩(shī)歌線索,我們首先研究了使用圖像CNN特點(diǎn)的深度耦合視覺詩(shī)意嵌入模型,以及包含數(shù)千對(duì)圖像-詩(shī)歌的多模態(tài)詩(shī)歌數(shù)據(jù)集(即“多模態(tài)詩(shī)集”)中的 skip-thought向量特點(diǎn)[15]。然后我們使用這一嵌入模型,從一個(gè)更大的圖像單模態(tài)詩(shī)歌語(yǔ)料庫(kù)(即,“單模態(tài)詩(shī)集”)中檢索相關(guān)的和不同的詩(shī)歌。這些被檢索的詩(shī)歌的圖片,與多模態(tài)詩(shī)集一同,構(gòu)成一個(gè)擴(kuò)大的圖像-詩(shī)歌對(duì)數(shù)據(jù)集(即“多模態(tài)詩(shī)集(EX)”)。我們還提出使用最新的序列學(xué)習(xí)技術(shù),訓(xùn)練關(guān)于多模態(tài)詩(shī)集(EX)數(shù)據(jù)集的端對(duì)端詩(shī)歌生成模型。該架構(gòu)保證我們能夠從擴(kuò)展的圖像-詩(shī)歌對(duì)中發(fā)現(xiàn)并塑造大量的詩(shī)歌線索,這對(duì)詩(shī)歌生成而言至關(guān)重要。
為避免長(zhǎng)序列(所有詩(shī)行一起)導(dǎo)致的曝光偏差問(wèn)題以及無(wú)可用的特定損失函數(shù)來(lái)定量評(píng)測(cè)生成詩(shī)歌的問(wèn)題,我們提出使用多對(duì)抗訓(xùn)練的詩(shī)歌生成遞歸神經(jīng)網(wǎng)絡(luò)(RNN),并通過(guò)策略梯度對(duì)其進(jìn)行進(jìn)一步優(yōu)化。我們使用兩個(gè)判別網(wǎng)絡(luò)來(lái)對(duì)生成詩(shī)歌與給定圖像的相關(guān)性以及生成詩(shī)歌的詩(shī)意提供獎(jiǎng)勵(lì)。我們對(duì)多模態(tài)詩(shī)集、單模態(tài)詩(shī)集以及多模態(tài)詩(shī)集(EX)進(jìn)行實(shí)驗(yàn),根據(jù)圖像生成詩(shī)歌,然后以自動(dòng)和人工的方式對(duì)生成的詩(shī)歌進(jìn)行評(píng)價(jià)。我們定義了與相關(guān)性、新穎性和解讀一致性相關(guān)的自動(dòng)評(píng)價(jià)標(biāo)準(zhǔn),并對(duì)相關(guān)性、連貫性和想象力進(jìn)行了用戶研究,來(lái)將生成的詩(shī)歌與通過(guò)基線方法生成的詩(shī)歌進(jìn)行比較。本研究的成果如下:
我們提出以自動(dòng)方式從圖像生成詩(shī)歌(英文自由詩(shī))。就我們所知,這是首個(gè)嘗試在整體框架中研究圖像生成英文自由詩(shī)歌問(wèn)題的努力,它使機(jī)器在認(rèn)知工作中能夠具備接近人類的能力。
我們將深度耦合的視覺詩(shī)意嵌入模型與基于RNN的聯(lián)合學(xué)習(xí)生成器結(jié)合,其中兩個(gè)判別器通過(guò)多對(duì)抗訓(xùn)練,為跨模態(tài)相關(guān)性和詩(shī)意提供獎(jiǎng)勵(lì)。
我們收集了首個(gè)人類注解的圖像-詩(shī)歌對(duì)數(shù)據(jù)集,以及最大的公共詩(shī)歌語(yǔ)料數(shù)據(jù)集。通過(guò)應(yīng)用自動(dòng)和人工評(píng)價(jià)標(biāo)準(zhǔn)(包括對(duì)500多位人類受試者進(jìn)行的圖靈測(cè)試),大量實(shí)驗(yàn)證明,相對(duì)于幾個(gè)基線方法,我們的方法更為有效。為了更好地促進(jìn)圖像生成詩(shī)歌的研究,我們將在不遠(yuǎn)的將來(lái)公布這些數(shù)據(jù)集。
2 相關(guān)工作
2.1 詩(shī)歌生成
傳統(tǒng)的詩(shī)歌生成方法包括基于模板和語(yǔ)法的方法[19, 20, 21]、約束優(yōu)化下的生成歸納[32]以及統(tǒng)計(jì)機(jī)器翻譯模型 [10, 12]。近年來(lái),通過(guò)應(yīng)用深度學(xué)習(xí),關(guān)于詩(shī)歌生成技術(shù)的研究已進(jìn)入一個(gè)新階段。遞歸神經(jīng)網(wǎng)絡(luò)被廣泛用于生成詩(shī)歌(讀者難以分辨這些詩(shī)歌是機(jī)器生成的,還是詩(shī)人創(chuàng)作的) [7, 8, 11, 33, 37]。之前的詩(shī)歌生成工作主要關(guān)注詩(shī)歌的風(fēng)格和韻律質(zhì)量[11, 32],而近期的研究引入主題,作為詩(shī)歌生成的條件[7, 8, 32, 37]。對(duì)一首詩(shī)歌而言,主題仍然是沒(méi)有具體場(chǎng)景的抽象概念。許多詩(shī)歌都是詩(shī)人處于特定場(chǎng)景并觀看某些具體景色時(shí)創(chuàng)作出來(lái)的,受到這一事實(shí)的啟發(fā),我們更近一步,嘗試解決視覺場(chǎng)景激發(fā)的詩(shī)歌生成問(wèn)題。與之前的研究相比,我們的工作面臨著更多挑戰(zhàn),特別是在考慮多模態(tài)問(wèn)題方面。
2.2 圖像描述
圖像標(biāo)題技術(shù)一開始被視為為一幅給定圖像從數(shù)據(jù)集中搜索文字說(shuō)明的檢索問(wèn)題[5, 13],因此不能為所有圖像提供準(zhǔn)確、適當(dāng)?shù)拿枋?。為了解決這一問(wèn)題,有人提出使用模板填充[17] 和卷積神經(jīng)網(wǎng)絡(luò)(CNN)與遞歸神經(jīng)網(wǎng)絡(luò)(RNN)范式[2, 27, 34]來(lái)生成可讀性達(dá)到人類水平的語(yǔ)句。近來(lái),生成對(duì)抗網(wǎng)絡(luò)(GAN) 被用于根據(jù)不同的問(wèn)題背景來(lái)生成說(shuō)明文字[1, 35]。與圖像標(biāo)題技術(shù)相似,圖像生成短文有著類似的發(fā)展。近期關(guān)于圖像生成短文的研究主要關(guān)注的是生成語(yǔ)句的區(qū)域檢測(cè)和層次結(jié)構(gòu)[16, 18, 23]。但是,正如我們所說(shuō)的那樣,圖像標(biāo)題技術(shù)和圖像生成短文旨在生成陳述圖像事實(shí)的描述性語(yǔ)句,而詩(shī)歌生成處理的則是一種需要詩(shī)意和語(yǔ)言風(fēng)格約束的高級(jí)語(yǔ)言形式。
3 方法
在本研究中,我們的目的是根據(jù)圖像生成詩(shī)歌,讓生成的詩(shī)歌與輸入的圖像相關(guān),并滿足詩(shī)意方面的要求。為此,我們將問(wèn)題轉(zhuǎn)化為一個(gè)多對(duì)抗訓(xùn)練學(xué)習(xí)的過(guò)程[9],并使用策略梯度對(duì)之進(jìn)行進(jìn)一步優(yōu)化[30, 36]。CNN-RNN生成模型被用作智能體。該智能體的參數(shù)制定了一種政策,這種政策的執(zhí)行將決定挑選哪些詞語(yǔ)作為動(dòng)作。當(dāng)智能體挑選出一首詩(shī)歌中的所有詞語(yǔ)時(shí),它提供獎(jiǎng)勵(lì)。我們定義了兩種判別網(wǎng)絡(luò),來(lái)判斷生成的詩(shī)歌是否與輸入圖片相匹配,以及生成的詩(shī)歌是否具有詩(shī)意,并就此提供獎(jiǎng)勵(lì)。我們?cè)姼枭赡P偷哪繕?biāo)是為一幅圖像生成一首詩(shī)歌的連串詞語(yǔ),從而將預(yù)期的最終獎(jiǎng)勵(lì)最大化。對(duì)于許多沒(méi)有不可微標(biāo)準(zhǔn)的任務(wù)而言,這種策略梯度已被證明極為有效[1, 24, 35]。
如圖 2, 所示,架構(gòu)包含幾個(gè)部分:(1) 用來(lái)學(xué)習(xí)圖像詩(shī)意呈現(xiàn)的深度耦合的視覺詩(shī)意嵌入模型(e) ,以及(2) 策略梯度優(yōu)化的多對(duì)抗訓(xùn)練。兩種判別網(wǎng)絡(luò)(g和h)以RNN為基礎(chǔ),作為智能體,為策略梯度提供獎(jiǎng)勵(lì)。
3.1 深度耦合的視覺詩(shī)意嵌入
視覺詩(shī)意嵌入模型的目標(biāo)[6, 14]是學(xué)習(xí)嵌入空間,在該空間中不同模態(tài)的點(diǎn)(例如圖像和語(yǔ)句)可以得到映射。我們使用與圖像標(biāo)題技術(shù)問(wèn)題相似的方法,假設(shè)一對(duì)圖像和詩(shī)歌共享相同的詩(shī)歌語(yǔ)義,使嵌入空間是可習(xí)得的。通過(guò)將圖像和詩(shī)歌嵌入相同的特征空間,我們能夠使用一首詩(shī)和一幅圖像呈現(xiàn)的詩(shī)歌向量來(lái)直接計(jì)算它們之間的相關(guān)性。此外,我們能進(jìn)一步利用嵌入特征,將詩(shī)歌生成中詩(shī)歌線索的優(yōu)化呈現(xiàn)初始化。
我們深度耦合的視覺詩(shī)意嵌入模型的架構(gòu)如圖2左邊部分所示。對(duì)于圖像輸入,在進(jìn)行圖像生成詩(shī)歌重要因素的用戶研究后,我們使用了深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)——該網(wǎng)絡(luò)與象征圖像中重要詩(shī)歌線索的三個(gè)方面(即,物品(v1)、場(chǎng)景 (v2)和情感(v3)有關(guān)。我們觀察到,詩(shī)歌中的概念通常是想象的和詩(shī)意的,而我們用來(lái)訓(xùn)練CNN模型的分類數(shù)據(jù)集中的概念是具體的和普通的。為了縮小圖像視覺表達(dá)和詩(shī)歌文本表達(dá)之間的語(yǔ)義分歧,我們提出使用多模態(tài)詩(shī)歌數(shù)據(jù)集來(lái)微調(diào)這三種網(wǎng)絡(luò)。我們挑選詩(shī)歌中與物品、情感和場(chǎng)景相關(guān)的常用關(guān)鍵詞作為標(biāo)簽詞匯,然后以多模態(tài)詩(shī)歌數(shù)據(jù)集為依據(jù),為物品、情感和場(chǎng)景的檢測(cè)分別建立了三個(gè)多標(biāo)簽數(shù)據(jù)集。多標(biāo)簽數(shù)據(jù)集建成后,我們分別在三個(gè)數(shù)據(jù)集中對(duì)預(yù)先訓(xùn)練的CNN模型進(jìn)行了微調(diào),通過(guò)等式(1)中所示的S形交叉熵?fù)p失進(jìn)行了優(yōu)化。然后,我們?yōu)镃NN模型的倒數(shù)第二個(gè)完全連通層的各方面采用了D維深層特征,并獲得了串聯(lián)的N維(N = D × 3)特征向量v(v ∈ RN)來(lái)作為每幅圖像視覺詩(shī)意嵌入的輸入:
其中,我們將全連接層輸出用作v1、v2、v3的特征。視覺詩(shī)意嵌入的輸出向量x是K維向量,代表圖像特征線性映射的圖像嵌入:
其中Wv∈RKxN是圖像嵌入矩陣,而bv∈RK是圖像偏差向量。同時(shí),根據(jù)詩(shī)歌語(yǔ)句的skip-thought平均值計(jì)算出詩(shī)歌的表達(dá)特征向量[15]。我們使用有M維向量(被記為t∈RM)的Combine-skip,因?yàn)槿鏪15]中所示,它顯示出更好的表現(xiàn)。skip-thought模型在單模態(tài)詩(shī)歌數(shù)據(jù)集得到訓(xùn)練。與圖像嵌入類似,詩(shī)歌嵌入被表示為:
其中Wt∈RKxM表示詩(shī)歌嵌入矩陣,而bt∈RK 表示詩(shī)歌偏差向量。最后,使用點(diǎn)積相似性最大限度地減少每對(duì)的排序損失,從而將圖像和詩(shī)歌一起嵌入:
其中mk是用于圖像嵌入x的比較研究(不相關(guān),不成對(duì))詩(shī)歌,而xk相反。α代表對(duì)比邊際。因此,我們訓(xùn)練的模型在原始圖像-詩(shī)歌對(duì)的嵌入特征之間會(huì)產(chǎn)生比隨機(jī)生成對(duì)更高的余弦相似性(與點(diǎn)積相似定一致)。
3.2 詩(shī)歌生成器作為智能體
圖像標(biāo)題技術(shù)的傳統(tǒng)CNN-RNN模型在我們的方法中被用作智能體。我們沒(méi)有使用近期在圖像生成短文中被用于生成多條語(yǔ)句的層次方法[16],而是通過(guò)將句尾標(biāo)記作為詞匯中的一個(gè)詞語(yǔ)來(lái)處理,使用了非分層遞歸模型。原因在于,相比段落,詩(shī)歌包含的詞語(yǔ)數(shù)量通常更少。此外,訓(xùn)練詩(shī)歌中語(yǔ)句之間的層次一致性更低,這使得句子間的層次更難學(xué)習(xí)。我們還將層次遞歸語(yǔ)言模型用作基線來(lái)進(jìn)行了實(shí)驗(yàn),我們會(huì)在實(shí)驗(yàn)部分展示其結(jié)果。
生成的模型包括圖像編碼器CNNs和詩(shī)歌解碼器RNN。在本研究中,我們使用門控循環(huán)單元[3]作為解碼器。我們使用通過(guò)第3.1 節(jié)中所示深度耦合的視覺詩(shī)意嵌入模型習(xí)得的圖像嵌入特征,作為圖像輸入編碼器。假設(shè)θ是模型的參數(shù)。傳統(tǒng)上,我們的目標(biāo)是通過(guò)將觀察語(yǔ)句y = y1:T∈Y*的相似性最大化,來(lái)學(xué)習(xí)θ(其中T是生成語(yǔ)句的最大長(zhǎng)度(包括代表語(yǔ)句開始的< BOS >和代表語(yǔ)句結(jié)束的< EOS > ),而Y* 代表所選詞語(yǔ)的所有序列空間)。
令r(y1:t)代表時(shí)間t時(shí)取得的獎(jiǎng)勵(lì),而R(y1:T)是累計(jì)獎(jiǎng)勵(lì),即R(yk:T) =。給定之前的所有詞語(yǔ)y1:(t-1),使pθ(yt|y1:(t-1)) 為在時(shí)間t時(shí),挑選yt的參數(shù)條件概率。pθ是政策θ的參數(shù)函數(shù)。每批次的策略梯度獎(jiǎng)勵(lì)可被計(jì)算為所有有效動(dòng)作序列的總和,作為預(yù)期的未來(lái)獎(jiǎng)勵(lì)。對(duì)所有可能動(dòng)作序列進(jìn)行迭代是成指數(shù)增長(zhǎng)的,但我們能夠?qū)⑺鼘戇M(jìn)期望中,這樣,就可以使用一個(gè)無(wú)偏估計(jì)量來(lái)對(duì)它進(jìn)行近似:
我們通過(guò)遵循其梯度,來(lái)將J(θ)最大化:
在實(shí)踐中,期望梯度可以近似為使用一個(gè)蒙特卡洛樣本,使用方法如下:按順序從模型分布pθ(yt| y1:(t-1)中對(duì)每個(gè)yt進(jìn)行取樣,其中t等于1到 T。如 [24]中所述,可引入基線b來(lái)降低梯度估計(jì)的方差,而不改變預(yù)期的梯度。因此,單一取樣的預(yù)期梯度近似等于:
3.3 判別器作為獎(jiǎng)勵(lì)
一首好的圖像詩(shī)歌必須至少滿足兩個(gè)標(biāo)準(zhǔn):詩(shī)歌(1)與圖像相關(guān),且(2)在合適長(zhǎng)度、詩(shī)歌語(yǔ)言風(fēng)格和詩(shī)句一致性方面具有詩(shī)意感。根據(jù)這兩個(gè)要求,我們提出了兩個(gè)判別網(wǎng)絡(luò)來(lái)指導(dǎo)詩(shī)歌的生成:多模態(tài)判別器和詩(shī)歌風(fēng)格判別器。深層判別網(wǎng)絡(luò)在文本分類任務(wù)中已經(jīng)被證明具備很高的有效性[1, 35],特別是對(duì)不能建立良好損失函數(shù)的任務(wù)。在本文中,我們提出的兩個(gè)判別器都有多個(gè)類別,包括一個(gè)正面類和多個(gè)負(fù)面類。
多模態(tài)判別器:為了檢查生成的詩(shī)歌y是否與輸入圖像x相匹配,我們訓(xùn)練多模態(tài)判別器(Dm),來(lái)將 (x, y)分類成匹配、不匹配和已生成三個(gè)類別。Dm 包括一個(gè)多模態(tài)編碼器、模態(tài)融合層以及一個(gè)有softmax函數(shù)的分類器:
其中Wx、bx、Wc、bc、Wm、bm 是要學(xué)習(xí)的參數(shù),⊙是元素級(jí)相乘,而Cm 代表多模態(tài)判別器的三種類型的概率。我們利用基于GRU的語(yǔ)句編碼器來(lái)進(jìn)行判別器訓(xùn)練。方程11提供了生成(x, y分類到每個(gè)種類,使用Cm(c|x, y)來(lái)表示)的概率的方法,其中c ∈{匹配,不匹配,已生成}。
詩(shī)歌風(fēng)格判別器。與強(qiáng)調(diào)格律、韻律和其他傳統(tǒng)詩(shī)歌技術(shù)的大部分詩(shī)歌生成研究不同,我們關(guān)注的是一種開放形式的詩(shī)歌——自由詩(shī)。但是,如第1節(jié)所述,我們要求我們生成的詩(shī)歌具備詩(shī)意特點(diǎn)。我們沒(méi)有為詩(shī)歌指定具體的模板或規(guī)則,而是提出了詩(shī)歌風(fēng)格判別器(Dp),將生成的詩(shī)歌朝人類創(chuàng)作的詩(shī)歌方向進(jìn)行引導(dǎo)。在Dp中,生成的詩(shī)歌會(huì)被分為四類:詩(shī)意的、無(wú)序的、段落的和生成的。
詩(shī)意類是滿足詩(shī)意標(biāo)準(zhǔn)的正面例子。其他三類都被視為反面示例。無(wú)序類是關(guān)于詩(shī)句之間的內(nèi)部結(jié)構(gòu)和連貫性,而段落類則是使用了段落句子,而被當(dāng)成反面示例。在Dp中,我們將單模態(tài)詩(shī)集當(dāng)做正面的詩(shī)意示例。為構(gòu)建無(wú)序類別的詩(shī)歌,我們首先通過(guò)分割單模態(tài)詩(shī)集中的所有詩(shī)歌,建立了一個(gè)詩(shī)句池。我們從詩(shī)句池中隨機(jī)挑選合理行數(shù)的詩(shī)句,重新構(gòu)成詩(shī)歌,作為無(wú)序類的示例。[16]提供的段落數(shù)據(jù)集被用作段落示例。
完整的生成詩(shī)歌y被GRU編碼,并解析到完全連通層,然后使用softmax函數(shù)計(jì)算被歸到四種類別的概率。此過(guò)程的公式如下:
Cp = softmax(Wp ? GRUη(y) + bp), (12)
其中η、Wp、bp是要學(xué)習(xí)的參數(shù)。生成的詩(shī)歌被歸類到類別c的概率可以用Cp(c|y)計(jì)算,其中c∈{詩(shī)意的、無(wú)序的、段落的、生成的}。
獎(jiǎng)勵(lì)函數(shù)。我們將策略梯度的獎(jiǎng)勵(lì)函數(shù)定義為生成的詩(shī)歌y(根據(jù)輸入圖像x生成)被分類到正面類別(多模態(tài)判別器Dm的匹配類以及詩(shī)歌風(fēng)格判別器Dp的詩(shī)意類)的概率的線性組合,然后經(jīng)過(guò)加權(quán)參數(shù)λ加權(quán):
R(y|?) = λCm(c = paired|x, y) + (1 - λ)Cp(c = poetic|y). (13)
3.4 多對(duì)抗訓(xùn)練
在對(duì)抗訓(xùn)練以前,我們使用圖像標(biāo)題生成技術(shù)[27]對(duì)生成器進(jìn)行了預(yù)先訓(xùn)練,為生成器提供了一個(gè)更好的策略初始化。生成器和判別器以對(duì)抗方式進(jìn)行迭代更新。生成器的目的是生成符合標(biāo)準(zhǔn)的詩(shī)歌,讓兩個(gè)判別器都獲得更高的獎(jiǎng)勵(lì),這樣,在它們欺騙判別器時(shí),判別器能夠得到訓(xùn)練,學(xué)習(xí)如何分辨生成的詩(shī)歌和匹配的詩(shī)歌、詩(shī)意的詩(shī)歌。如上所述,生成的詩(shī)歌在兩個(gè)判別器中被歸為正面類別的概率被用作對(duì)策略梯度的獎(jiǎng)勵(lì)。
我們使用來(lái)自真實(shí)數(shù)據(jù)的正面示例(Dm中的匹配類詩(shī)歌以及Dp中的詩(shī)意類詩(shī)歌),以及來(lái)自生成器生成詩(shī)歌和其他真實(shí)數(shù)據(jù)的負(fù)面示例(Dm中的不匹配類詩(shī)歌以及Dp中的段落類詩(shī)歌和無(wú)序類詩(shī)歌)來(lái)訓(xùn)練多個(gè)判別器(本文中是兩個(gè))。同時(shí),通過(guò)使用策略梯度和蒙特卡洛取樣,生成器根據(jù)多種判別器提供的期望獎(jiǎng)勵(lì)進(jìn)行了更新。由于我們有兩個(gè)判別器,我們使用了多對(duì)抗訓(xùn)練,來(lái)同時(shí)訓(xùn)練兩個(gè)判別器。
4 實(shí)驗(yàn)
4.1 數(shù)據(jù)集
為了促進(jìn)根據(jù)圖像生成詩(shī)歌的研究,我們收集了兩個(gè)詩(shī)歌數(shù)據(jù)集,其中一個(gè)包含圖像和詩(shī)歌對(duì),即多模態(tài)詩(shī)歌數(shù)據(jù)集(多模態(tài)詩(shī)集),另一個(gè)是大型的詩(shī)歌語(yǔ)料庫(kù),即單模態(tài)詩(shī)歌數(shù)據(jù)集(單模態(tài)詩(shī)集)。我們使用自己訓(xùn)練過(guò)的嵌入模型,通過(guò)添加來(lái)自無(wú)冗余詩(shī)歌語(yǔ)料庫(kù)中的三首鄰近詩(shī)歌,擴(kuò)展了圖像和詩(shī)歌對(duì),
表1:三個(gè)數(shù)據(jù)集的詳細(xì)信息。前兩個(gè)數(shù)據(jù)集由我們自己收集,第三個(gè)通過(guò)VPE擴(kuò)展而得。并構(gòu)建了一個(gè)擴(kuò)展的圖像-詩(shī)歌對(duì)數(shù)據(jù)集,稱為多模態(tài)詩(shī)集(EX)。這些數(shù)據(jù)集的詳細(xì)信息如表1所示。收集的兩個(gè)數(shù)據(jù)集的示例可參見圖 3。為了更好地促進(jìn)圖像生成詩(shī)歌的研究,我們將在不遠(yuǎn)的將來(lái)公布這些數(shù)據(jù)集。
對(duì)于多模態(tài)詩(shī)歌數(shù)據(jù)集,我們首先在Flickr上爬取了幾個(gè)小組(這些小組嘗試為人類寫作的詩(shī)歌配上插圖)的34,847對(duì)圖像-詩(shī)歌對(duì)。然后我們請(qǐng)五位英語(yǔ)文學(xué)專業(yè)的人類評(píng)估員來(lái)評(píng)估這些詩(shī)歌是否與圖像相關(guān),評(píng)判的標(biāo)準(zhǔn)是:通過(guò)綜合考慮物品、感情和場(chǎng)景,來(lái)判斷圖像是否能夠準(zhǔn)確地激發(fā)同組的詩(shī)歌。我們過(guò)濾掉被標(biāo)示不相關(guān)的圖像-詩(shī)歌對(duì),保留了剩下的8,292對(duì),構(gòu)成多模態(tài)詩(shī)集數(shù)據(jù)集。
單模態(tài)詩(shī)集是從幾個(gè)公開的在線詩(shī)歌網(wǎng)站上爬取的,比如Poetry Foundation、 PoetrySoup、 best-poem.net以及poets.org等。為實(shí)現(xiàn)充分的模型訓(xùn)練,我們對(duì)詩(shī)歌進(jìn)行了預(yù)處理,過(guò)濾掉行數(shù)過(guò)多(大于10行)或過(guò)少(小于3行)的詩(shī)歌。我們還去掉了包含陌生文字、英語(yǔ)以外語(yǔ)言的詩(shī)歌以及重復(fù)的詩(shī)歌。
4.2 比較方法
為了研究擬議方法的有效性,我們使用不同的設(shè)置與四種基線方法進(jìn)行了比較。我們選擇了展示-辨別模型 [27]和SeqGAN [35],因?yàn)樗鼈兪菆D像標(biāo)題技術(shù)的最新研究成果。我們選擇了比較性圖像生成短文模型,因?yàn)樗谀7露喾N圖像內(nèi)容方面有很強(qiáng)的能力。請(qǐng)注意,所有的方法均使用多模態(tài)詩(shī)集(EX)作為訓(xùn)練數(shù)據(jù)集,并能夠生成多行的詩(shī)歌。具體的方法和實(shí)驗(yàn)設(shè)置如下所示:
展示-辨別(1CNN):僅使用物品CNN,通過(guò)VGG-16對(duì)CNN-RNN模型進(jìn)行了訓(xùn)練。
展示-辨別(3CNNs):使用三個(gè)CNN特征,通過(guò)VGG-16對(duì)CNN-RNN模型進(jìn)行了訓(xùn)練。
SeqGAN:使用一個(gè)判別器(用來(lái)分辨生成的詩(shī)歌和真人創(chuàng)作的詩(shī)歌的判別器)對(duì)CNN-RNN模型進(jìn)行了優(yōu)化。
區(qū)域?qū)哟危阂訹16]為依據(jù)的層次段落生成模型。為了更好地與詩(shī)歌分布保持一致,我們?cè)趯?shí)驗(yàn)中將最大行數(shù)限制在10行,每行最大詞數(shù)限制在10個(gè)。
我們的模型:為了證明兩個(gè)判別器的有效性,我們?cè)谒膫€(gè)背景中訓(xùn)練我們的模型(使用GAN、I2P-GAN的圖像到詩(shī)歌):無(wú)判別器的預(yù)訓(xùn)練模型(I2P-GAN w/o判別器)、只有多模態(tài)判別器的訓(xùn)練模型(I2P-GAN w/ Dm)、有詩(shī)歌風(fēng)格判別器的訓(xùn)練模型(I2P-GAN w/ Dp)以及有兩個(gè)判別器的訓(xùn)練模型(I2P-GAN)。
4.3 自動(dòng)評(píng)估標(biāo)準(zhǔn)
詩(shī)歌的評(píng)估通常是一項(xiàng)困難的任務(wù),在現(xiàn)有的研究中沒(méi)有既定的評(píng)價(jià)標(biāo)準(zhǔn),對(duì)于根據(jù)圖像生成詩(shī)歌這一新任務(wù)而言就更是如此了。為了更好地評(píng)價(jià)詩(shī)歌的質(zhì)量,我們提出同時(shí)使用自動(dòng)和人工的方式來(lái)進(jìn)行評(píng)價(jià)。
對(duì)于自動(dòng)評(píng)價(jià),我們建議采用三種評(píng)價(jià)標(biāo)準(zhǔn),例如,BLEU、新穎性和相關(guān)性。然后在標(biāo)準(zhǔn)化后根據(jù)三種標(biāo)準(zhǔn)計(jì)算總分。
BLEU。我們首先使用雙語(yǔ)互譯質(zhì)量評(píng)估輔助工具(BLEU)[22]基于分?jǐn)?shù)的評(píng)價(jià)來(lái)檢查生成的詩(shī)歌與真實(shí)詩(shī)歌有多近似,正如圖像標(biāo)題技術(shù)和圖像生成短文研究通常所做的那樣。它還被用于一些其他的詩(shī)歌生成研究中[32]。對(duì)于每張圖片,我們僅使用人類創(chuàng)作的詩(shī)歌作為真實(shí)詩(shī)歌。
新穎性。通過(guò)引入判別器Dp,生成器應(yīng)從單模態(tài)詩(shī)歌數(shù)據(jù)集中引入單詞或短語(yǔ),并生成多模態(tài)詩(shī)集(EX)中不常出現(xiàn)的單詞或短語(yǔ)。我們使用[31] 提出的新穎性來(lái)計(jì)算生成詩(shī)歌中觀察到的低頻詞語(yǔ)或短語(yǔ)。我們研究新穎性-2和新穎性-3這兩種N-gram尺度(例如,二元模子和三元模子)。我們首先對(duì)多模態(tài)詩(shī)集(EX)訓(xùn)練數(shù)據(jù)集中出現(xiàn)的n-gram進(jìn)行排序,將前2,000作為高頻。新穎性根據(jù)訓(xùn)練數(shù)據(jù)集中出現(xiàn)的n-grams比例進(jìn)行計(jì)算(生成的詩(shī)歌中的高頻n-grams除外)。
相關(guān)性。不同于那些對(duì)詩(shī)歌內(nèi)容無(wú)約束或約束較弱的詩(shī)歌生成研究,在本研究中我們將生成詩(shī)歌與給定圖像之間的相關(guān)性視為一個(gè)重要標(biāo)準(zhǔn)。生成說(shuō)明文字更關(guān)注對(duì)圖像的事實(shí)描述,與此不同的是,不同的詩(shī)歌可以在各種方面與同一幅圖像相關(guān)。因此,我們沒(méi)有計(jì)算生成詩(shī)歌與真實(shí)詩(shī)歌之間的相關(guān)性,我們使用我們經(jīng)過(guò)學(xué)習(xí)的深度耦合的視覺詩(shī)意嵌入模型來(lái)確定詩(shī)歌和圖像之間的相關(guān)性。通過(guò)我們的嵌入模型將圖像和詩(shī)歌映射到相同空間后,我們使用余弦相似性來(lái)測(cè)量它們的相關(guān)性。盡管我們的嵌入模型能夠大概地量化圖像和詩(shī)歌之間的相關(guān)性,我們還是使用了主觀評(píng)價(jià)來(lái)更好地研究我們生成人類水平詩(shī)歌的有效性。
總體。我們根據(jù)以上三個(gè)標(biāo)準(zhǔn)來(lái)計(jì)算總分。對(duì)于一個(gè)標(biāo)準(zhǔn)a的所有值中的每個(gè)值ai,我們首先使用以下方法將其歸一化:
然后,我們得到BLEU(例如,BLEU- 1、BLEU-2和BLEU-3)和新穎性(例如,新穎性-2和新穎性-3)的平均值。我們通過(guò)對(duì)歸一化值進(jìn)行平均來(lái)計(jì)算最終得分,以確保不同標(biāo)準(zhǔn)的均等貢獻(xiàn)。
但是,在這樣一項(xiàng)開放性的任務(wù)中,沒(méi)有特別適合的標(biāo)準(zhǔn)能夠完美地評(píng)價(jià)生成的詩(shī)歌的質(zhì)量。我們使用的自動(dòng)標(biāo)準(zhǔn)在某種程度上可被視為指導(dǎo)。為更好地從人類感知角度來(lái)說(shuō)明詩(shī)歌的質(zhì)量,我們還進(jìn)行了如下的擴(kuò)展用戶研究。
4.4 人類評(píng)價(jià)
我們?cè)趤嗰R遜土耳其機(jī)器人中進(jìn)行了人類評(píng)價(jià)。我們以如下方式將三種任務(wù)分配給了AMT工人:
任務(wù)1:研究我們深度耦合的視覺詩(shī)意嵌入模型的有效性,注解者被要求根據(jù)一首詩(shī)歌與一幅給定圖像之間在內(nèi)容、情感和場(chǎng)景方面的相似性進(jìn)行0-10分的打分。
任務(wù)2:本任務(wù)的目的是在各方面對(duì)根據(jù)一幅圖像、使用不同方法(四種基線方法以及我們的四種模型設(shè)置)生成的詩(shī)歌進(jìn)行比較。我們給定一幅圖像,要求注解者根據(jù)四個(gè)標(biāo)準(zhǔn)對(duì)詩(shī)歌進(jìn)行0-10分的評(píng)分:相關(guān)性(與圖像)、連貫性(詩(shī)歌各行之間是否連貫)、想象力(詩(shī)歌對(duì)于給定的圖像顯示了多少想象力和創(chuàng)意)以及整體印象。
任務(wù)3:我們要求注解者在混雜人類創(chuàng)作和機(jī)器生成的詩(shī)歌中進(jìn)行甄別,完成了圖靈測(cè)試。請(qǐng)注意,圖靈測(cè)試在兩種設(shè)置條件下進(jìn)行,即,有圖像的詩(shī)歌和無(wú)圖像的詩(shī)歌。
我們?yōu)槊宽?xiàng)任務(wù)隨機(jī)挑選了1000幅圖像,并分配給了三名評(píng)估員。由于詩(shī)歌是一種文學(xué)形式,我們還請(qǐng)了30位專業(yè)與英語(yǔ)文學(xué)相關(guān)的注解者(其中十位注解者是以英語(yǔ)為母語(yǔ))作為專家用戶,來(lái)進(jìn)行圖靈測(cè)試。
4.5 訓(xùn)練詳情
在深度耦合的視覺詩(shī)意嵌入模型中,我們?yōu)槊總€(gè)CNN使用了D = 4,096-維度特征。我們從ImageNet[25]上經(jīng)過(guò)訓(xùn)練的VGG-16[26] 提取物體特征,從Place205-VGGNet模型[29]提取場(chǎng)景特征,并從感情模型[28]提取感情特征。
為了更好地提取詩(shī)歌象征的視覺特征,我們首先取得了單模態(tài)詩(shī)歌數(shù)據(jù)集中至少達(dá)到五頻次的名詞、動(dòng)詞和形容詞。然后,我們?nèi)斯楦星椋ò?28個(gè)標(biāo)簽)挑選形容詞和動(dòng)詞,為物品(包括604個(gè)標(biāo)簽)和場(chǎng)景(包括125個(gè)標(biāo)簽)挑選名詞。至于詩(shī)歌特征,我們使用M = 2,048-維度(其中每個(gè)1,024維度分表代表單向和雙向)為每句詩(shī)提取組合的skip-thought向量,并最終通過(guò)平均池化取得了詩(shī)歌特征。而邊際α根據(jù)[14]中的實(shí)證實(shí)驗(yàn)被設(shè)為0.2。我們?yōu)橐环鶊D片隨機(jī)地挑選出127首詩(shī)歌作為不匹配詩(shī)歌,并將它們用作對(duì)比詩(shī)歌(等式 5中的mk與xk),并在每一期中對(duì)它們進(jìn)行了重新取樣。我們通過(guò)對(duì)結(jié)果為0.1到0.9的自動(dòng)評(píng)價(jià)進(jìn)行可比觀察,根據(jù)實(shí)證將加權(quán)參數(shù)A設(shè)為A = 0.8。
4.6 評(píng)價(jià)
檢索詩(shī)歌。我們根據(jù)三種詩(shī)歌與圖片的相關(guān)性對(duì)它們進(jìn)行了對(duì)比:真實(shí)詩(shī)歌、使用VPE檢索,圖像特征未微調(diào)的詩(shī)歌(VPE w/o FT),以及使用VPE檢索,圖形特征經(jīng)過(guò)微調(diào)的詩(shī)歌(VPE w/ FT)。表2顯示了這三種詩(shī)歌類型在0-10分范圍內(nèi)的對(duì)比(0分代表不相關(guān),10分代表最相關(guān))。我們可以看到,通過(guò)使用擬議的視覺詩(shī)意嵌入模型,檢索詩(shī)歌的相關(guān)性評(píng)分能夠達(dá)到平均分(即,5分)以上。而使用詩(shī)歌象征微調(diào)后的圖像特征能夠顯著地提高相關(guān)性。
生成的詩(shī)歌。表3展示有四種設(shè)置的擬議模型的自動(dòng)評(píng)估結(jié)果,以及之前研究提出的四種基線的自動(dòng)評(píng)估結(jié)果。比較有一個(gè)CNN和三個(gè)CNN的說(shuō)明文字模型的結(jié)果,我們可以看出,多CNN確實(shí)有助于生成與圖像相關(guān)性更高的詩(shī)歌。區(qū)域?qū)哟文P透鼜?qiáng)調(diào)詩(shī)句之間的主題連貫性,但許多人類創(chuàng)作的詩(shī)歌會(huì)覆蓋多個(gè)主題,或?yàn)橥恢黝}使用不同的象征。相比于只有CNN-RNN的說(shuō)明文字模型,SeqGAN證明了應(yīng)用對(duì)抗訓(xùn)練在詩(shī)歌生成方面的優(yōu)點(diǎn),但是它在詩(shī)歌中生成的新概念較少。我們使用VPE預(yù)訓(xùn)練的模型比說(shuō)明文字模型表現(xiàn)更好,這說(shuō)明VPE能夠更有效地從圖像中提取詩(shī)歌特征,從而更好地生成詩(shī)歌。可以看出,我們的三種模型在大部分標(biāo)準(zhǔn)下表現(xiàn)更好,每種在一個(gè)方面表現(xiàn)特別優(yōu)異。僅有多模態(tài)判別器(I2P-GAN w/ Dm)的模型會(huì)引導(dǎo)模型生成真實(shí)的詩(shī)歌,因此它在BLEU上得分最高,強(qiáng)調(diào)了翻譯方式上n-grams的相似性。詩(shī)歌風(fēng)格判別器(Dp)的設(shè)計(jì)目的是引導(dǎo)生成的詩(shī)歌使用更具詩(shī)意的語(yǔ)言風(fēng)格,I2P-GAN w/ Dm取得最高的新穎性得分證明,Dp有助于為生成的詩(shī)歌提供更新穎、更富想象力的措辭??傮w上,I2P-GAN結(jié)合了兩種判別器的優(yōu)點(diǎn),在BLEU和新穎性上取得了合理的中間分?jǐn)?shù),但與其他生成模型相比,仍然表現(xiàn)的更為出色。此外,我們使用兩種判別器的模型生成的詩(shī)歌能夠在我們嵌入相關(guān)性標(biāo)準(zhǔn)上取得最高的得分。
人類評(píng)價(jià)結(jié)果的對(duì)比如表4所示。在自動(dòng)評(píng)價(jià)結(jié)果中,區(qū)域?qū)哟伪憩F(xiàn)不佳,得分結(jié)果僅僅略微高于說(shuō)明文字模型,但人工評(píng)價(jià)不同,這是因?yàn)樗性?shī)句都與同一主題相關(guān)共容易獲得用戶的認(rèn)可。我們的三種模型在所有標(biāo)準(zhǔn)中的表現(xiàn)都優(yōu)于四種基線方法。與預(yù)訓(xùn)練的模型相比,兩種判別器使詩(shī)歌具有更接近真人水平的內(nèi)涵。使用兩種判別器的模型生成的詩(shī)歌在相關(guān)性、連貫性和想象力方面質(zhì)量更高。圖4是使用三種基線方法和我們的方法,根據(jù)給定圖片生成的詩(shī)歌的示例。通過(guò)我們的方法生成詩(shī)歌的更多示例可參見圖5。
圖 5:通過(guò)我們 I2P-GAN 方法生成詩(shī)歌的示例。
圖靈測(cè)試。對(duì)于AMT注解者的圖靈測(cè)試,我們雇傭了548名工人,平均每名工人完成10.9項(xiàng)任務(wù)。對(duì)于專家用戶的圖靈測(cè)試,我們請(qǐng)15個(gè)人對(duì)帶有圖像的、人類創(chuàng)作的詩(shī)歌進(jìn)行判斷,請(qǐng)另外15名注解者對(duì)沒(méi)有圖像的詩(shī)歌進(jìn)行測(cè)試。每個(gè)人被分配了20幅圖像,我們請(qǐng)專家用戶共完成600個(gè)任務(wù)。表5顯示的是不同詩(shī)歌被判斷成人類根據(jù)給定圖像創(chuàng)作的詩(shī)歌的概率。正如我們所見,生成的詩(shī)歌無(wú)論是對(duì)普通注解者,還是對(duì)專家,都造成了混淆,盡管專家的判斷比普通人更準(zhǔn)確一些。一個(gè)有趣的觀察結(jié)果是:專家在判斷帶圖像的詩(shī)歌時(shí)準(zhǔn)確率更高,而AMT工人則在判斷無(wú)圖像的詩(shī)歌時(shí)表現(xiàn)更好。
5 結(jié)論
作為從圖像生成詩(shī)歌(英文自由詩(shī))的首個(gè)研究,我們使用多判別器作為策略梯度的獎(jiǎng)勵(lì),通過(guò)整合深度耦合的視覺詩(shī)意嵌入模型和基于RNN的對(duì)抗訓(xùn)練,提出了一種模擬問(wèn)題的新方法。此外,我們引入了首個(gè)圖像-詩(shī)歌對(duì)的數(shù)據(jù)集(多模態(tài)詩(shī)集)和大型詩(shī)歌語(yǔ)料庫(kù)(單模態(tài)詩(shī)集)來(lái)促進(jìn)關(guān)于詩(shī)歌生成的研究,特別是根據(jù)圖像生成詩(shī)歌。大量的實(shí)驗(yàn)證明,我們的嵌入模型能夠近似地學(xué)習(xí)一個(gè)合理的視覺創(chuàng)意嵌入空間。自動(dòng)和人工評(píng)價(jià)結(jié)果證明了我們?cè)姼枭赡P偷挠行浴?/p>
參考文獻(xiàn)
[1] T.-H. Chen, Y.-H. Liao, C.-Y. Chuang, W.-T. Hsu, J. Fu, 及 M. Sun.展示、適應(yīng)和辨別:跨域圖像標(biāo)題技術(shù)的對(duì)抗訓(xùn)練.ICCV, 2017.
[2] X. Chen與 C. Lawrence Zitnick.心靈之眼:圖像標(biāo)題技術(shù)的遞歸視覺表達(dá).In CVPR,第 2422-2431頁(yè), 2015.
[3] J. Chung, C. Gulcehre, K. Cho,及 Y. Bengio.對(duì)序列建模方面的門控循環(huán)神經(jīng)網(wǎng)絡(luò)的實(shí)證研究.NIPS, 2014.
[4] H. Fang, S. Gupta, F. Iandola, R. K. Srivastava, L. Deng, P. Dollar, J. Gao, X. He, M.Mitchell, J. C. Platt,等人.從說(shuō)明文字到視覺概念,再回到說(shuō)明文字.In CVPR, 第1473-1482頁(yè), 2015.
[5] A. Farhadi, M. Hejrati, M. A. Sadeghi, P. Young,Rashtchian, J. Hockenmaier,及 D. Forsyth.每張圖片都講述了一個(gè)故事:根據(jù)圖像生成語(yǔ)句.In CVPR,15-29, 2010.
[6] A. Frome, G. S. Corrado, J. Shlens, S. Bengio, J. Dean, T. Mikolov,等人.發(fā)明:深層視覺語(yǔ)義的嵌入模型.In NIPS,第 2121-2129頁(yè), 2013.
[7] M. Ghazvininejad, X. Shi, Y. Choi,及 K. Knight.生成主題詩(shī)歌.In NIPS, 1183,1191,2016.
[8] M. Ghazvininejad, X. Shi, J. Priyadarshi,及 K. Knight.Hafez:一個(gè)交互式詩(shī)歌生成系統(tǒng).ACL,第 4348頁(yè), 2017.
[9] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,Warde-Farley, S. Ozair, A. Courville,及Y. Ben- gio.生成對(duì)抗網(wǎng)絡(luò).In NIPS,第 2672-2680頁(yè), 2014.
[10] J. He, M. Zhou, 及 L. Jiang.使用統(tǒng)計(jì)機(jī)器翻譯模型生成中國(guó)傳統(tǒng)詩(shī)歌.In AAAI,2012.
[11] J. Hopkins與 D. Kiela.使用神經(jīng)網(wǎng)絡(luò)自動(dòng)生成韻律詩(shī).In ACL, 卷 1, 第 168-178頁(yè),2017.
[12] L. Jiang與 M. Zhou.使用統(tǒng)計(jì)機(jī)器翻譯方法生成中國(guó)對(duì)聯(lián).In COLING, 第 377-384頁(yè), 2008.
[13] A. Karpathy, A. Joulin,及 F. F. F. Li.用于雙向圖像語(yǔ)句映射的深層片段嵌入.In NIPS,第 1889-1897頁(yè), 2014.
[14] R. Kiros, R. Salakhutdinov,及 R. S. Zemel.統(tǒng)一多模態(tài)神經(jīng)語(yǔ)言模型的視覺語(yǔ)義嵌入.arXiv preprint arXiv:1411.2539, 2014.
[15] R. Kiros, Y. Zhu, R. R. Salakhutdinov, R. Zemel, R. Urtasun, A. Torralba,及 S.Fidler.Skip-thought向量.In NIPS,第 3294-3302頁(yè), 2015.
[16] J. Krause, J. Johnson, R. Krishna, 及 L. Fei-Fei.一種生成描述性圖像短文的層次方法.CVPR, 2017.
[17] G. Kulkarni, V. Premraj, S. Dhar, S. Li, Y. Choi, A. C. Berg,及 T. L. Berg.牙牙學(xué)語(yǔ):理解并生成圖像描述.In CVPR, 2011.
[18] Y. Liu, J. Fu, T. Mei,及 C. W. Chen.讓你的照片說(shuō)話:通過(guò)雙向注意遞歸神經(jīng)網(wǎng)絡(luò)來(lái)為照片流生成描述性段落.In AAAI, 2017.
[19] H. M. Manurung.韻律模式化文本的圖表生成器.首屆國(guó)際認(rèn)知與計(jì)算機(jī)文學(xué)研討會(huì)文集[32]第 15-19頁(yè), 1999.
[20] H. Oliveira.詩(shī)歌的自動(dòng)生成:綜述.Universidade de Coimbra, 2009.
[21] H. G. Oliveira.Poetryme: 詩(shī)歌生成的 多功能平臺(tái).創(chuàng)新計(jì)算、 [33] 概念創(chuàng)新,以及一般智能, 1:21, 2012.
[22] K. Papineni, S. Roukos, T. Ward,及 W.-J. Zhu.Bleu: 自動(dòng)評(píng)價(jià)機(jī)器翻譯的一種方法.InACL, 第 311-318頁(yè), 2002.
[23] C. C. Park 與 G. Kim.使用一系列自然語(yǔ)句表達(dá)一個(gè)圖像流.In NIPS, 第 73-81頁(yè),2015.
[24] S. J. Rennie, E. Marcheret, Y. Mroueh, J. Ross,及 V. Goel.圖像標(biāo)題技術(shù)的自臨界序列訓(xùn)練. arXivpreprint arXiv:1612.00563, 2016.
[25] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A.Khosla, M. Bernstein,等人.Imagenet 大規(guī)模視覺認(rèn)知挑戰(zhàn).IJCV, 115(3):211- 252,2015.
[26] K. Simonyan與 A. Zisserman.大規(guī)模圖像識(shí)別的甚深卷積神經(jīng)網(wǎng)絡(luò). arXiv preprint arXiv:1409.1556, 2014.
[27] O. Vinyals, A. Toshev, S. Bengio, 及 D. Erhan.展示和辨別:一個(gè)神經(jīng)圖像文字說(shuō)明生成器.In CVPR, 第 3156-3164頁(yè), 2015.
[28] J. Wang, J. Fu, Y. Xu,及 T. Mei.超遠(yuǎn)物品識(shí)別:使用深層耦合形容詞及名詞神經(jīng)網(wǎng)絡(luò)的視覺情感分析.In IJ- CAI, 第 3484-3490頁(yè), 2016.
[29] L. Wang, S. Guo, W. Huang,及 Y. Qiao.用于場(chǎng)景是別的 Places205-vggnet模型. arXiv preprint arXiv:1508.01667, 2015.
[30] R. J. Williams.簡(jiǎn)單統(tǒng)計(jì)梯度 - 用于連接增強(qiáng)式學(xué)習(xí)的跟蹤算法.機(jī)器學(xué)習(xí),8(3-4):229-256, 1992.
[31] Z. Xu, B. Liu, B. Wang, S. Chengjie, X. Wang, Z. Wang,及 C. Qi.通過(guò)有近似嵌入層的GAN產(chǎn)生神經(jīng)相應(yīng).In EMNLP, 第 628-637頁(yè), 2017.
[32] R. Yan, H. Jiang, M. Lapata, S.-D. Lin, X. Lv, 及 X. Li. I, 詩(shī)歌:通過(guò)約束優(yōu)化下生成歸納框架自動(dòng)創(chuàng)作漢語(yǔ)詩(shī)歌.In IJCAI, 第 2197-2203頁(yè), 2013.
[33] X. Yi, R. Li,及 M. Sun.使用 rnn編碼器-解碼器生成中國(guó)古典詩(shī)歌.基于自然標(biāo)注大數(shù)據(jù)的漢語(yǔ)計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理,第 211-223頁(yè).Springer, 2017.
[34] Q. You, H. Jin, Z. Wang, C. Fang, 及 J. Luo.使用語(yǔ)義注意的圖像標(biāo)題技術(shù).In CVPR,第 4651-4659頁(yè), 2016.
[35] L. Yu, W. Zhang, J. Wang,及 Y. Yu.SeqGAN:有策略梯度的序列生成對(duì)抗網(wǎng)絡(luò).In AAAI, 第 2852-2858頁(yè), 2017.
[36] W. Zaremba 與 I. Sutskever. 強(qiáng) 化 學(xué) 習(xí) 神 經(jīng)圖靈 機(jī) - 修 訂 . arXiv preprint arXiv.1505.00521, 2015.
[37] X. Zhang與 M. Lapata.使用遞歸神經(jīng)網(wǎng)絡(luò)生成中文詩(shī)歌.In EMNLP, 第 670-680頁(yè), 2014.
論文地址:https://dl.acm.org/authorize?N660819
雷鋒網(wǎng) AI 科技評(píng)論報(bào)道
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。