0
雷鋒網(wǎng) AI 科技評論按:多媒體信息處理領(lǐng)域頂級學(xué)術(shù)會議 ACM MM 2018(ACM International Conference on Multimedia)于 2018 年 10 月 22 日至 26 日在韓國首爾舉行。
本次會議共收到 757 篇論文投稿,接收論文 209 篇,接收率為 27.61%;其中口頭報(bào)告論文 64 篇,比例為 8.45%。投稿最多的領(lǐng)域是「理解-多媒體與視覺」、「理解-深度學(xué)習(xí)多媒體處理」、「理解-多模態(tài)分析與描述」、「互動-多媒體搜索與推薦」,投稿數(shù)量分別為 210 篇、167 篇、86 篇、79 篇。
10 月 24 日下午,大會現(xiàn)場公布了最佳論文獲獎(jiǎng)名單,雷鋒網(wǎng) AI 科技評論摘錄如下
最佳論文一篇
Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training
超越敘事描述:通過多對抗訓(xùn)練,從圖像生成詩歌
最佳學(xué)生論文一篇
Understanding Humans in Crowded Scenes: Deep Nested Adversarial Learning and A New Benchmark for Multi-Human Parsing
理解密集場景中的人:深度內(nèi)嵌對抗學(xué)習(xí)以及一個(gè)新的多人解析 benchmark
最佳 Demo 論文兩篇
AniDance: Real-Time Dance Motion Synthesize to Song
AniDance:從舞蹈動作實(shí)時(shí)生成音樂
Meet AR-bot: Meeting Anywhere, Anytime with Movable Spatial AR Robot
來見見 AR-bot:與可以在不同空間移動的 AR 機(jī)器人見面,隨時(shí)隨地
最佳開源軟件比賽論文兩篇
Vivid: Virtual Environment for Visual Deep Learning
Vivid:用于視覺深度學(xué)習(xí)的虛擬環(huán)境
A General-Purpose Distributed Programming System using Data-Parallel Streams
一個(gè)使用數(shù)據(jù)并行流的通用分布式變成系統(tǒng)
ACM TOMM 期刊最佳論文一篇
Learning from Collective Intelligence: Feature Learning using Social Image and Tags
從集體智慧學(xué)習(xí):用社交圖像和標(biāo)簽學(xué)習(xí)特征
ACM MM 2018 最佳論文《Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training》(超越敘事描述:通過多對抗訓(xùn)練,從圖像生成詩歌 )由京都大學(xué)和微軟亞洲研究院合作完成。以下為微軟亞洲研究院提供的論文中文版全文。
摘要
根據(jù)圖像自動生成自然語言的技術(shù)引起了廣泛關(guān)注。本文中,我們更進(jìn)一步,研究如何從圖像生成詩歌語言,進(jìn)行自動的詩歌創(chuàng)作。這一工作涉及多項(xiàng)挑戰(zhàn),包括發(fā)現(xiàn)圖像中的詩歌線索(例如,綠色中蘊(yùn)含的希望),以及生成詩歌——既滿足與圖像的相關(guān)性,又滿足語言層面上的詩意。為解決上述問題,我們通過策略梯度將詩歌生成工作劃分成了兩個(gè)相關(guān)的多對抗訓(xùn)練子任務(wù),從而保證跨模態(tài)相關(guān)性和詩歌語言風(fēng)格。為了從圖像中提煉詩歌線索,我們提出學(xué)習(xí)深度耦合的視覺詩意嵌入,在其中,機(jī)器可以連帶地學(xué)習(xí)圖像中物品、情感 和場景的詩意呈現(xiàn)。本文還介紹了兩種指導(dǎo)詩歌生成的判別網(wǎng)絡(luò),包括多模態(tài)判別器和詩歌風(fēng)格判別器。為了便于研究,我們通過人工注解者收集了兩個(gè)詩歌數(shù)據(jù)集,它們有如下性質(zhì):1) 第一個(gè)是人類注解的“圖像-詩歌”對數(shù)據(jù)集(共8,292對),以及2)迄今為止最大的公共英文詩歌語料數(shù)據(jù)集(共有92,265首不同的詩歌)。我們應(yīng)用自己的模型生成了八千張圖像,進(jìn)行了大規(guī)模的實(shí)驗(yàn),其中一千五百張圖像是隨機(jī)選取來進(jìn)行評估的??陀^評估和主觀評估均顯示,該方法相對于目前最先進(jìn)的圖像生成詩歌方法,表現(xiàn)優(yōu)異。我們請500名人類受試者來進(jìn)行了圖靈測試,其中30名評估者是詩歌方面的專業(yè)人士,測試結(jié)果證明了我們方法的有效性。
1 引言
近來,同時(shí)涉及視覺和語言的研究引起了廣泛關(guān)注,關(guān)于圖像描述(像圖像標(biāo)題技術(shù)和圖像生成短文)的研究數(shù)量呈現(xiàn)出爆發(fā)式的增長。[1, 4, 16, 27]。圖像描述的研究旨在根據(jù)圖像生成使用人類語言描述事實(shí)的語句。在本文中,我們更進(jìn)一步,希望完成更具認(rèn)知性的工作:以詩歌創(chuàng)作為目的,根據(jù)圖像生成詩歌語言。該工作已引起了研究界和行業(yè)的巨大興趣。
在自然語言處理領(lǐng)域,詩歌生成問題已經(jīng)得到研究。例如,在[11, 32]中,作者主要關(guān)注風(fēng)格和韻律的質(zhì)量。在[7, 32, 37]中,這些工作更多地研究根據(jù)主題生成詩歌。在行業(yè)內(nèi),F(xiàn)acebook提出了使用神經(jīng)網(wǎng)絡(luò)來生成英文韻律詩 [11],微軟開發(fā)了一個(gè)叫作“小冰”的系統(tǒng),其最重要的功能之一正是生成詩歌。不過,以端對端的方式從圖像生成詩歌仍然是一個(gè)新的主題,面臨著巨大挑戰(zhàn)。
圖像標(biāo)題技術(shù)和圖像生成短文的重點(diǎn)在于生成關(guān)于圖像的描述性語句,而詩歌語言的生成則是更具挑戰(zhàn)性的難題。視覺呈現(xiàn)與圖像可激發(fā)的、有助于更好地生成詩歌的詩歌象征之間,距離更遠(yuǎn)。例如,圖像描述中的“人”在詩歌創(chuàng)作中可以進(jìn)一步使用“明亮的陽光”和“張開的手臂”象征“希望”,或使用“空椅子”和“黑暗”的背景象征“孤獨(dú)”。圖1舉出了一個(gè)具體的例子,說明同一張圖像,其描述和其詩歌之間的差異。
為了從一幅圖像生成詩歌,我們尤其需要面臨以下三個(gè)挑戰(zhàn):首先,與根據(jù)主題生成詩歌相比,這是一個(gè)跨模態(tài)的問題。從圖像生成詩歌的一種直觀方法是先從圖像中提煉關(guān)鍵詞或說明文字,然后以這些關(guān)鍵詞或說明文字為種子,生成詩歌,正如從主題生成詩歌那樣。但是,關(guān)鍵詞或說明文字會丟失許多圖像信息,更不用說對詩歌生成十分重要的詩歌線索了[7, 37]。其次,與圖像標(biāo)題技術(shù)和圖像生成短文相比,從圖像生成詩歌是一項(xiàng)更主觀的工作,這意味著同一幅圖像可以對應(yīng)不同方面的多首詩歌,而圖像標(biāo)題技術(shù)/圖像生成短文更多地是描述圖像中的事實(shí),并生成相似的語句。第三,詩句的形式和風(fēng)格與敘述語句不同。本研究中,我們主要關(guān)注的是一種開放形式的詩歌——自由詩。盡管我們不要求格律、韻律或其他傳統(tǒng)的詩歌技術(shù),但仍要有詩歌結(jié)構(gòu)和詩歌語言。在本研究中,我們將這一素質(zhì)定義為詩意。例如,詩歌的長度一般有限;與圖像描述相比,詩歌一般偏好特定的詞語;詩歌中的語句應(yīng)與同一主題相關(guān),保持一致。
為了應(yīng)對以上挑戰(zhàn),我們收集了兩個(gè)人類注解的詩歌數(shù)據(jù)集,在一個(gè)系統(tǒng)中通過集成檢索和生成技術(shù)來研究詩歌創(chuàng)作。為了更好地研究詩歌生成中圖像的詩歌線索,我們首先研究了使用圖像CNN特點(diǎn)的深度耦合視覺詩意嵌入模型,以及包含數(shù)千對圖像-詩歌的多模態(tài)詩歌數(shù)據(jù)集(即“多模態(tài)詩集”)中的 skip-thought向量特點(diǎn)[15]。然后我們使用這一嵌入模型,從一個(gè)更大的圖像單模態(tài)詩歌語料庫(即,“單模態(tài)詩集”)中檢索相關(guān)的和不同的詩歌。這些被檢索的詩歌的圖片,與多模態(tài)詩集一同,構(gòu)成一個(gè)擴(kuò)大的圖像-詩歌對數(shù)據(jù)集(即“多模態(tài)詩集(EX)”)。我們還提出使用最新的序列學(xué)習(xí)技術(shù),訓(xùn)練關(guān)于多模態(tài)詩集(EX)數(shù)據(jù)集的端對端詩歌生成模型。該架構(gòu)保證我們能夠從擴(kuò)展的圖像-詩歌對中發(fā)現(xiàn)并塑造大量的詩歌線索,這對詩歌生成而言至關(guān)重要。
為避免長序列(所有詩行一起)導(dǎo)致的曝光偏差問題以及無可用的特定損失函數(shù)來定量評測生成詩歌的問題,我們提出使用多對抗訓(xùn)練的詩歌生成遞歸神經(jīng)網(wǎng)絡(luò)(RNN),并通過策略梯度對其進(jìn)行進(jìn)一步優(yōu)化。我們使用兩個(gè)判別網(wǎng)絡(luò)來對生成詩歌與給定圖像的相關(guān)性以及生成詩歌的詩意提供獎(jiǎng)勵(lì)。我們對多模態(tài)詩集、單模態(tài)詩集以及多模態(tài)詩集(EX)進(jìn)行實(shí)驗(yàn),根據(jù)圖像生成詩歌,然后以自動和人工的方式對生成的詩歌進(jìn)行評價(jià)。我們定義了與相關(guān)性、新穎性和解讀一致性相關(guān)的自動評價(jià)標(biāo)準(zhǔn),并對相關(guān)性、連貫性和想象力進(jìn)行了用戶研究,來將生成的詩歌與通過基線方法生成的詩歌進(jìn)行比較。本研究的成果如下:
我們提出以自動方式從圖像生成詩歌(英文自由詩)。就我們所知,這是首個(gè)嘗試在整體框架中研究圖像生成英文自由詩歌問題的努力,它使機(jī)器在認(rèn)知工作中能夠具備接近人類的能力。
我們將深度耦合的視覺詩意嵌入模型與基于RNN的聯(lián)合學(xué)習(xí)生成器結(jié)合,其中兩個(gè)判別器通過多對抗訓(xùn)練,為跨模態(tài)相關(guān)性和詩意提供獎(jiǎng)勵(lì)。
我們收集了首個(gè)人類注解的圖像-詩歌對數(shù)據(jù)集,以及最大的公共詩歌語料數(shù)據(jù)集。通過應(yīng)用自動和人工評價(jià)標(biāo)準(zhǔn)(包括對500多位人類受試者進(jìn)行的圖靈測試),大量實(shí)驗(yàn)證明,相對于幾個(gè)基線方法,我們的方法更為有效。為了更好地促進(jìn)圖像生成詩歌的研究,我們將在不遠(yuǎn)的將來公布這些數(shù)據(jù)集。
2 相關(guān)工作
2.1 詩歌生成
傳統(tǒng)的詩歌生成方法包括基于模板和語法的方法[19, 20, 21]、約束優(yōu)化下的生成歸納[32]以及統(tǒng)計(jì)機(jī)器翻譯模型 [10, 12]。近年來,通過應(yīng)用深度學(xué)習(xí),關(guān)于詩歌生成技術(shù)的研究已進(jìn)入一個(gè)新階段。遞歸神經(jīng)網(wǎng)絡(luò)被廣泛用于生成詩歌(讀者難以分辨這些詩歌是機(jī)器生成的,還是詩人創(chuàng)作的) [7, 8, 11, 33, 37]。之前的詩歌生成工作主要關(guān)注詩歌的風(fēng)格和韻律質(zhì)量[11, 32],而近期的研究引入主題,作為詩歌生成的條件[7, 8, 32, 37]。對一首詩歌而言,主題仍然是沒有具體場景的抽象概念。許多詩歌都是詩人處于特定場景并觀看某些具體景色時(shí)創(chuàng)作出來的,受到這一事實(shí)的啟發(fā),我們更近一步,嘗試解決視覺場景激發(fā)的詩歌生成問題。與之前的研究相比,我們的工作面臨著更多挑戰(zhàn),特別是在考慮多模態(tài)問題方面。
2.2 圖像描述
圖像標(biāo)題技術(shù)一開始被視為為一幅給定圖像從數(shù)據(jù)集中搜索文字說明的檢索問題[5, 13],因此不能為所有圖像提供準(zhǔn)確、適當(dāng)?shù)拿枋?。為了解決這一問題,有人提出使用模板填充[17] 和卷積神經(jīng)網(wǎng)絡(luò)(CNN)與遞歸神經(jīng)網(wǎng)絡(luò)(RNN)范式[2, 27, 34]來生成可讀性達(dá)到人類水平的語句。近來,生成對抗網(wǎng)絡(luò)(GAN) 被用于根據(jù)不同的問題背景來生成說明文字[1, 35]。與圖像標(biāo)題技術(shù)相似,圖像生成短文有著類似的發(fā)展。近期關(guān)于圖像生成短文的研究主要關(guān)注的是生成語句的區(qū)域檢測和層次結(jié)構(gòu)[16, 18, 23]。但是,正如我們所說的那樣,圖像標(biāo)題技術(shù)和圖像生成短文旨在生成陳述圖像事實(shí)的描述性語句,而詩歌生成處理的則是一種需要詩意和語言風(fēng)格約束的高級語言形式。
3 方法
在本研究中,我們的目的是根據(jù)圖像生成詩歌,讓生成的詩歌與輸入的圖像相關(guān),并滿足詩意方面的要求。為此,我們將問題轉(zhuǎn)化為一個(gè)多對抗訓(xùn)練學(xué)習(xí)的過程[9],并使用策略梯度對之進(jìn)行進(jìn)一步優(yōu)化[30, 36]。CNN-RNN生成模型被用作智能體。該智能體的參數(shù)制定了一種政策,這種政策的執(zhí)行將決定挑選哪些詞語作為動作。當(dāng)智能體挑選出一首詩歌中的所有詞語時(shí),它提供獎(jiǎng)勵(lì)。我們定義了兩種判別網(wǎng)絡(luò),來判斷生成的詩歌是否與輸入圖片相匹配,以及生成的詩歌是否具有詩意,并就此提供獎(jiǎng)勵(lì)。我們詩歌生成模型的目標(biāo)是為一幅圖像生成一首詩歌的連串詞語,從而將預(yù)期的最終獎(jiǎng)勵(lì)最大化。對于許多沒有不可微標(biāo)準(zhǔn)的任務(wù)而言,這種策略梯度已被證明極為有效[1, 24, 35]。
如圖 2, 所示,架構(gòu)包含幾個(gè)部分:(1) 用來學(xué)習(xí)圖像詩意呈現(xiàn)的深度耦合的視覺詩意嵌入模型(e) ,以及(2) 策略梯度優(yōu)化的多對抗訓(xùn)練。兩種判別網(wǎng)絡(luò)(g和h)以RNN為基礎(chǔ),作為智能體,為策略梯度提供獎(jiǎng)勵(lì)。
3.1 深度耦合的視覺詩意嵌入
視覺詩意嵌入模型的目標(biāo)[6, 14]是學(xué)習(xí)嵌入空間,在該空間中不同模態(tài)的點(diǎn)(例如圖像和語句)可以得到映射。我們使用與圖像標(biāo)題技術(shù)問題相似的方法,假設(shè)一對圖像和詩歌共享相同的詩歌語義,使嵌入空間是可習(xí)得的。通過將圖像和詩歌嵌入相同的特征空間,我們能夠使用一首詩和一幅圖像呈現(xiàn)的詩歌向量來直接計(jì)算它們之間的相關(guān)性。此外,我們能進(jìn)一步利用嵌入特征,將詩歌生成中詩歌線索的優(yōu)化呈現(xiàn)初始化。
我們深度耦合的視覺詩意嵌入模型的架構(gòu)如圖2左邊部分所示。對于圖像輸入,在進(jìn)行圖像生成詩歌重要因素的用戶研究后,我們使用了深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)——該網(wǎng)絡(luò)與象征圖像中重要詩歌線索的三個(gè)方面(即,物品(v1)、場景 (v2)和情感(v3)有關(guān)。我們觀察到,詩歌中的概念通常是想象的和詩意的,而我們用來訓(xùn)練CNN模型的分類數(shù)據(jù)集中的概念是具體的和普通的。為了縮小圖像視覺表達(dá)和詩歌文本表達(dá)之間的語義分歧,我們提出使用多模態(tài)詩歌數(shù)據(jù)集來微調(diào)這三種網(wǎng)絡(luò)。我們挑選詩歌中與物品、情感和場景相關(guān)的常用關(guān)鍵詞作為標(biāo)簽詞匯,然后以多模態(tài)詩歌數(shù)據(jù)集為依據(jù),為物品、情感和場景的檢測分別建立了三個(gè)多標(biāo)簽數(shù)據(jù)集。多標(biāo)簽數(shù)據(jù)集建成后,我們分別在三個(gè)數(shù)據(jù)集中對預(yù)先訓(xùn)練的CNN模型進(jìn)行了微調(diào),通過等式(1)中所示的S形交叉熵?fù)p失進(jìn)行了優(yōu)化。然后,我們?yōu)镃NN模型的倒數(shù)第二個(gè)完全連通層的各方面采用了D維深層特征,并獲得了串聯(lián)的N維(N = D × 3)特征向量v(v ∈ RN)來作為每幅圖像視覺詩意嵌入的輸入:
其中,我們將全連接層輸出用作v1、v2、v3的特征。視覺詩意嵌入的輸出向量x是K維向量,代表圖像特征線性映射的圖像嵌入:
其中Wv∈RKxN是圖像嵌入矩陣,而bv∈RK是圖像偏差向量。同時(shí),根據(jù)詩歌語句的skip-thought平均值計(jì)算出詩歌的表達(dá)特征向量[15]。我們使用有M維向量(被記為t∈RM)的Combine-skip,因?yàn)槿鏪15]中所示,它顯示出更好的表現(xiàn)。skip-thought模型在單模態(tài)詩歌數(shù)據(jù)集得到訓(xùn)練。與圖像嵌入類似,詩歌嵌入被表示為:
其中Wt∈RKxM表示詩歌嵌入矩陣,而bt∈RK 表示詩歌偏差向量。最后,使用點(diǎn)積相似性最大限度地減少每對的排序損失,從而將圖像和詩歌一起嵌入:
其中mk是用于圖像嵌入x的比較研究(不相關(guān),不成對)詩歌,而xk相反。α代表對比邊際。因此,我們訓(xùn)練的模型在原始圖像-詩歌對的嵌入特征之間會產(chǎn)生比隨機(jī)生成對更高的余弦相似性(與點(diǎn)積相似定一致)。
3.2 詩歌生成器作為智能體
圖像標(biāo)題技術(shù)的傳統(tǒng)CNN-RNN模型在我們的方法中被用作智能體。我們沒有使用近期在圖像生成短文中被用于生成多條語句的層次方法[16],而是通過將句尾標(biāo)記作為詞匯中的一個(gè)詞語來處理,使用了非分層遞歸模型。原因在于,相比段落,詩歌包含的詞語數(shù)量通常更少。此外,訓(xùn)練詩歌中語句之間的層次一致性更低,這使得句子間的層次更難學(xué)習(xí)。我們還將層次遞歸語言模型用作基線來進(jìn)行了實(shí)驗(yàn),我們會在實(shí)驗(yàn)部分展示其結(jié)果。
生成的模型包括圖像編碼器CNNs和詩歌解碼器RNN。在本研究中,我們使用門控循環(huán)單元[3]作為解碼器。我們使用通過第3.1 節(jié)中所示深度耦合的視覺詩意嵌入模型習(xí)得的圖像嵌入特征,作為圖像輸入編碼器。假設(shè)θ是模型的參數(shù)。傳統(tǒng)上,我們的目標(biāo)是通過將觀察語句y = y1:T∈Y*的相似性最大化,來學(xué)習(xí)θ(其中T是生成語句的最大長度(包括代表語句開始的< BOS >和代表語句結(jié)束的< EOS > ),而Y* 代表所選詞語的所有序列空間)。
令r(y1:t)代表時(shí)間t時(shí)取得的獎(jiǎng)勵(lì),而R(y1:T)是累計(jì)獎(jiǎng)勵(lì),即R(yk:T) =。給定之前的所有詞語y1:(t-1),使pθ(yt|y1:(t-1)) 為在時(shí)間t時(shí),挑選yt的參數(shù)條件概率。pθ是政策θ的參數(shù)函數(shù)。每批次的策略梯度獎(jiǎng)勵(lì)可被計(jì)算為所有有效動作序列的總和,作為預(yù)期的未來獎(jiǎng)勵(lì)。對所有可能動作序列進(jìn)行迭代是成指數(shù)增長的,但我們能夠?qū)⑺鼘戇M(jìn)期望中,這樣,就可以使用一個(gè)無偏估計(jì)量來對它進(jìn)行近似:
我們通過遵循其梯度,來將J(θ)最大化:
在實(shí)踐中,期望梯度可以近似為使用一個(gè)蒙特卡洛樣本,使用方法如下:按順序從模型分布pθ(yt| y1:(t-1)中對每個(gè)yt進(jìn)行取樣,其中t等于1到 T。如 [24]中所述,可引入基線b來降低梯度估計(jì)的方差,而不改變預(yù)期的梯度。因此,單一取樣的預(yù)期梯度近似等于:
3.3 判別器作為獎(jiǎng)勵(lì)
一首好的圖像詩歌必須至少滿足兩個(gè)標(biāo)準(zhǔn):詩歌(1)與圖像相關(guān),且(2)在合適長度、詩歌語言風(fēng)格和詩句一致性方面具有詩意感。根據(jù)這兩個(gè)要求,我們提出了兩個(gè)判別網(wǎng)絡(luò)來指導(dǎo)詩歌的生成:多模態(tài)判別器和詩歌風(fēng)格判別器。深層判別網(wǎng)絡(luò)在文本分類任務(wù)中已經(jīng)被證明具備很高的有效性[1, 35],特別是對不能建立良好損失函數(shù)的任務(wù)。在本文中,我們提出的兩個(gè)判別器都有多個(gè)類別,包括一個(gè)正面類和多個(gè)負(fù)面類。
多模態(tài)判別器:為了檢查生成的詩歌y是否與輸入圖像x相匹配,我們訓(xùn)練多模態(tài)判別器(Dm),來將 (x, y)分類成匹配、不匹配和已生成三個(gè)類別。Dm 包括一個(gè)多模態(tài)編碼器、模態(tài)融合層以及一個(gè)有softmax函數(shù)的分類器:
其中Wx、bx、Wc、bc、Wm、bm 是要學(xué)習(xí)的參數(shù),⊙是元素級相乘,而Cm 代表多模態(tài)判別器的三種類型的概率。我們利用基于GRU的語句編碼器來進(jìn)行判別器訓(xùn)練。方程11提供了生成(x, y分類到每個(gè)種類,使用Cm(c|x, y)來表示)的概率的方法,其中c ∈{匹配,不匹配,已生成}。
詩歌風(fēng)格判別器。與強(qiáng)調(diào)格律、韻律和其他傳統(tǒng)詩歌技術(shù)的大部分詩歌生成研究不同,我們關(guān)注的是一種開放形式的詩歌——自由詩。但是,如第1節(jié)所述,我們要求我們生成的詩歌具備詩意特點(diǎn)。我們沒有為詩歌指定具體的模板或規(guī)則,而是提出了詩歌風(fēng)格判別器(Dp),將生成的詩歌朝人類創(chuàng)作的詩歌方向進(jìn)行引導(dǎo)。在Dp中,生成的詩歌會被分為四類:詩意的、無序的、段落的和生成的。
詩意類是滿足詩意標(biāo)準(zhǔn)的正面例子。其他三類都被視為反面示例。無序類是關(guān)于詩句之間的內(nèi)部結(jié)構(gòu)和連貫性,而段落類則是使用了段落句子,而被當(dāng)成反面示例。在Dp中,我們將單模態(tài)詩集當(dāng)做正面的詩意示例。為構(gòu)建無序類別的詩歌,我們首先通過分割單模態(tài)詩集中的所有詩歌,建立了一個(gè)詩句池。我們從詩句池中隨機(jī)挑選合理行數(shù)的詩句,重新構(gòu)成詩歌,作為無序類的示例。[16]提供的段落數(shù)據(jù)集被用作段落示例。
完整的生成詩歌y被GRU編碼,并解析到完全連通層,然后使用softmax函數(shù)計(jì)算被歸到四種類別的概率。此過程的公式如下:
Cp = softmax(Wp ? GRUη(y) + bp), (12)
其中η、Wp、bp是要學(xué)習(xí)的參數(shù)。生成的詩歌被歸類到類別c的概率可以用Cp(c|y)計(jì)算,其中c∈{詩意的、無序的、段落的、生成的}。
獎(jiǎng)勵(lì)函數(shù)。我們將策略梯度的獎(jiǎng)勵(lì)函數(shù)定義為生成的詩歌y(根據(jù)輸入圖像x生成)被分類到正面類別(多模態(tài)判別器Dm的匹配類以及詩歌風(fēng)格判別器Dp的詩意類)的概率的線性組合,然后經(jīng)過加權(quán)參數(shù)λ加權(quán):
R(y|?) = λCm(c = paired|x, y) + (1 - λ)Cp(c = poetic|y). (13)
3.4 多對抗訓(xùn)練
在對抗訓(xùn)練以前,我們使用圖像標(biāo)題生成技術(shù)[27]對生成器進(jìn)行了預(yù)先訓(xùn)練,為生成器提供了一個(gè)更好的策略初始化。生成器和判別器以對抗方式進(jìn)行迭代更新。生成器的目的是生成符合標(biāo)準(zhǔn)的詩歌,讓兩個(gè)判別器都獲得更高的獎(jiǎng)勵(lì),這樣,在它們欺騙判別器時(shí),判別器能夠得到訓(xùn)練,學(xué)習(xí)如何分辨生成的詩歌和匹配的詩歌、詩意的詩歌。如上所述,生成的詩歌在兩個(gè)判別器中被歸為正面類別的概率被用作對策略梯度的獎(jiǎng)勵(lì)。
我們使用來自真實(shí)數(shù)據(jù)的正面示例(Dm中的匹配類詩歌以及Dp中的詩意類詩歌),以及來自生成器生成詩歌和其他真實(shí)數(shù)據(jù)的負(fù)面示例(Dm中的不匹配類詩歌以及Dp中的段落類詩歌和無序類詩歌)來訓(xùn)練多個(gè)判別器(本文中是兩個(gè))。同時(shí),通過使用策略梯度和蒙特卡洛取樣,生成器根據(jù)多種判別器提供的期望獎(jiǎng)勵(lì)進(jìn)行了更新。由于我們有兩個(gè)判別器,我們使用了多對抗訓(xùn)練,來同時(shí)訓(xùn)練兩個(gè)判別器。
4 實(shí)驗(yàn)
4.1 數(shù)據(jù)集
為了促進(jìn)根據(jù)圖像生成詩歌的研究,我們收集了兩個(gè)詩歌數(shù)據(jù)集,其中一個(gè)包含圖像和詩歌對,即多模態(tài)詩歌數(shù)據(jù)集(多模態(tài)詩集),另一個(gè)是大型的詩歌語料庫,即單模態(tài)詩歌數(shù)據(jù)集(單模態(tài)詩集)。我們使用自己訓(xùn)練過的嵌入模型,通過添加來自無冗余詩歌語料庫中的三首鄰近詩歌,擴(kuò)展了圖像和詩歌對,
表1:三個(gè)數(shù)據(jù)集的詳細(xì)信息。前兩個(gè)數(shù)據(jù)集由我們自己收集,第三個(gè)通過VPE擴(kuò)展而得。并構(gòu)建了一個(gè)擴(kuò)展的圖像-詩歌對數(shù)據(jù)集,稱為多模態(tài)詩集(EX)。這些數(shù)據(jù)集的詳細(xì)信息如表1所示。收集的兩個(gè)數(shù)據(jù)集的示例可參見圖 3。為了更好地促進(jìn)圖像生成詩歌的研究,我們將在不遠(yuǎn)的將來公布這些數(shù)據(jù)集。
對于多模態(tài)詩歌數(shù)據(jù)集,我們首先在Flickr上爬取了幾個(gè)小組(這些小組嘗試為人類寫作的詩歌配上插圖)的34,847對圖像-詩歌對。然后我們請五位英語文學(xué)專業(yè)的人類評估員來評估這些詩歌是否與圖像相關(guān),評判的標(biāo)準(zhǔn)是:通過綜合考慮物品、感情和場景,來判斷圖像是否能夠準(zhǔn)確地激發(fā)同組的詩歌。我們過濾掉被標(biāo)示不相關(guān)的圖像-詩歌對,保留了剩下的8,292對,構(gòu)成多模態(tài)詩集數(shù)據(jù)集。
單模態(tài)詩集是從幾個(gè)公開的在線詩歌網(wǎng)站上爬取的,比如Poetry Foundation、 PoetrySoup、 best-poem.net以及poets.org等。為實(shí)現(xiàn)充分的模型訓(xùn)練,我們對詩歌進(jìn)行了預(yù)處理,過濾掉行數(shù)過多(大于10行)或過少(小于3行)的詩歌。我們還去掉了包含陌生文字、英語以外語言的詩歌以及重復(fù)的詩歌。
4.2 比較方法
為了研究擬議方法的有效性,我們使用不同的設(shè)置與四種基線方法進(jìn)行了比較。我們選擇了展示-辨別模型 [27]和SeqGAN [35],因?yàn)樗鼈兪菆D像標(biāo)題技術(shù)的最新研究成果。我們選擇了比較性圖像生成短文模型,因?yàn)樗谀7露喾N圖像內(nèi)容方面有很強(qiáng)的能力。請注意,所有的方法均使用多模態(tài)詩集(EX)作為訓(xùn)練數(shù)據(jù)集,并能夠生成多行的詩歌。具體的方法和實(shí)驗(yàn)設(shè)置如下所示:
展示-辨別(1CNN):僅使用物品CNN,通過VGG-16對CNN-RNN模型進(jìn)行了訓(xùn)練。
展示-辨別(3CNNs):使用三個(gè)CNN特征,通過VGG-16對CNN-RNN模型進(jìn)行了訓(xùn)練。
SeqGAN:使用一個(gè)判別器(用來分辨生成的詩歌和真人創(chuàng)作的詩歌的判別器)對CNN-RNN模型進(jìn)行了優(yōu)化。
區(qū)域?qū)哟危阂訹16]為依據(jù)的層次段落生成模型。為了更好地與詩歌分布保持一致,我們在實(shí)驗(yàn)中將最大行數(shù)限制在10行,每行最大詞數(shù)限制在10個(gè)。
我們的模型:為了證明兩個(gè)判別器的有效性,我們在四個(gè)背景中訓(xùn)練我們的模型(使用GAN、I2P-GAN的圖像到詩歌):無判別器的預(yù)訓(xùn)練模型(I2P-GAN w/o判別器)、只有多模態(tài)判別器的訓(xùn)練模型(I2P-GAN w/ Dm)、有詩歌風(fēng)格判別器的訓(xùn)練模型(I2P-GAN w/ Dp)以及有兩個(gè)判別器的訓(xùn)練模型(I2P-GAN)。
4.3 自動評估標(biāo)準(zhǔn)
詩歌的評估通常是一項(xiàng)困難的任務(wù),在現(xiàn)有的研究中沒有既定的評價(jià)標(biāo)準(zhǔn),對于根據(jù)圖像生成詩歌這一新任務(wù)而言就更是如此了。為了更好地評價(jià)詩歌的質(zhì)量,我們提出同時(shí)使用自動和人工的方式來進(jìn)行評價(jià)。
對于自動評價(jià),我們建議采用三種評價(jià)標(biāo)準(zhǔn),例如,BLEU、新穎性和相關(guān)性。然后在標(biāo)準(zhǔn)化后根據(jù)三種標(biāo)準(zhǔn)計(jì)算總分。
BLEU。我們首先使用雙語互譯質(zhì)量評估輔助工具(BLEU)[22]基于分?jǐn)?shù)的評價(jià)來檢查生成的詩歌與真實(shí)詩歌有多近似,正如圖像標(biāo)題技術(shù)和圖像生成短文研究通常所做的那樣。它還被用于一些其他的詩歌生成研究中[32]。對于每張圖片,我們僅使用人類創(chuàng)作的詩歌作為真實(shí)詩歌。
新穎性。通過引入判別器Dp,生成器應(yīng)從單模態(tài)詩歌數(shù)據(jù)集中引入單詞或短語,并生成多模態(tài)詩集(EX)中不常出現(xiàn)的單詞或短語。我們使用[31] 提出的新穎性來計(jì)算生成詩歌中觀察到的低頻詞語或短語。我們研究新穎性-2和新穎性-3這兩種N-gram尺度(例如,二元模子和三元模子)。我們首先對多模態(tài)詩集(EX)訓(xùn)練數(shù)據(jù)集中出現(xiàn)的n-gram進(jìn)行排序,將前2,000作為高頻。新穎性根據(jù)訓(xùn)練數(shù)據(jù)集中出現(xiàn)的n-grams比例進(jìn)行計(jì)算(生成的詩歌中的高頻n-grams除外)。
相關(guān)性。不同于那些對詩歌內(nèi)容無約束或約束較弱的詩歌生成研究,在本研究中我們將生成詩歌與給定圖像之間的相關(guān)性視為一個(gè)重要標(biāo)準(zhǔn)。生成說明文字更關(guān)注對圖像的事實(shí)描述,與此不同的是,不同的詩歌可以在各種方面與同一幅圖像相關(guān)。因此,我們沒有計(jì)算生成詩歌與真實(shí)詩歌之間的相關(guān)性,我們使用我們經(jīng)過學(xué)習(xí)的深度耦合的視覺詩意嵌入模型來確定詩歌和圖像之間的相關(guān)性。通過我們的嵌入模型將圖像和詩歌映射到相同空間后,我們使用余弦相似性來測量它們的相關(guān)性。盡管我們的嵌入模型能夠大概地量化圖像和詩歌之間的相關(guān)性,我們還是使用了主觀評價(jià)來更好地研究我們生成人類水平詩歌的有效性。
總體。我們根據(jù)以上三個(gè)標(biāo)準(zhǔn)來計(jì)算總分。對于一個(gè)標(biāo)準(zhǔn)a的所有值中的每個(gè)值ai,我們首先使用以下方法將其歸一化:
然后,我們得到BLEU(例如,BLEU- 1、BLEU-2和BLEU-3)和新穎性(例如,新穎性-2和新穎性-3)的平均值。我們通過對歸一化值進(jìn)行平均來計(jì)算最終得分,以確保不同標(biāo)準(zhǔn)的均等貢獻(xiàn)。
但是,在這樣一項(xiàng)開放性的任務(wù)中,沒有特別適合的標(biāo)準(zhǔn)能夠完美地評價(jià)生成的詩歌的質(zhì)量。我們使用的自動標(biāo)準(zhǔn)在某種程度上可被視為指導(dǎo)。為更好地從人類感知角度來說明詩歌的質(zhì)量,我們還進(jìn)行了如下的擴(kuò)展用戶研究。
4.4 人類評價(jià)
我們在亞馬遜土耳其機(jī)器人中進(jìn)行了人類評價(jià)。我們以如下方式將三種任務(wù)分配給了AMT工人:
任務(wù)1:研究我們深度耦合的視覺詩意嵌入模型的有效性,注解者被要求根據(jù)一首詩歌與一幅給定圖像之間在內(nèi)容、情感和場景方面的相似性進(jìn)行0-10分的打分。
任務(wù)2:本任務(wù)的目的是在各方面對根據(jù)一幅圖像、使用不同方法(四種基線方法以及我們的四種模型設(shè)置)生成的詩歌進(jìn)行比較。我們給定一幅圖像,要求注解者根據(jù)四個(gè)標(biāo)準(zhǔn)對詩歌進(jìn)行0-10分的評分:相關(guān)性(與圖像)、連貫性(詩歌各行之間是否連貫)、想象力(詩歌對于給定的圖像顯示了多少想象力和創(chuàng)意)以及整體印象。
任務(wù)3:我們要求注解者在混雜人類創(chuàng)作和機(jī)器生成的詩歌中進(jìn)行甄別,完成了圖靈測試。請注意,圖靈測試在兩種設(shè)置條件下進(jìn)行,即,有圖像的詩歌和無圖像的詩歌。
我們?yōu)槊宽?xiàng)任務(wù)隨機(jī)挑選了1000幅圖像,并分配給了三名評估員。由于詩歌是一種文學(xué)形式,我們還請了30位專業(yè)與英語文學(xué)相關(guān)的注解者(其中十位注解者是以英語為母語)作為專家用戶,來進(jìn)行圖靈測試。
4.5 訓(xùn)練詳情
在深度耦合的視覺詩意嵌入模型中,我們?yōu)槊總€(gè)CNN使用了D = 4,096-維度特征。我們從ImageNet[25]上經(jīng)過訓(xùn)練的VGG-16[26] 提取物體特征,從Place205-VGGNet模型[29]提取場景特征,并從感情模型[28]提取感情特征。
為了更好地提取詩歌象征的視覺特征,我們首先取得了單模態(tài)詩歌數(shù)據(jù)集中至少達(dá)到五頻次的名詞、動詞和形容詞。然后,我們?nèi)斯楦星椋ò?28個(gè)標(biāo)簽)挑選形容詞和動詞,為物品(包括604個(gè)標(biāo)簽)和場景(包括125個(gè)標(biāo)簽)挑選名詞。至于詩歌特征,我們使用M = 2,048-維度(其中每個(gè)1,024維度分表代表單向和雙向)為每句詩提取組合的skip-thought向量,并最終通過平均池化取得了詩歌特征。而邊際α根據(jù)[14]中的實(shí)證實(shí)驗(yàn)被設(shè)為0.2。我們?yōu)橐环鶊D片隨機(jī)地挑選出127首詩歌作為不匹配詩歌,并將它們用作對比詩歌(等式 5中的mk與xk),并在每一期中對它們進(jìn)行了重新取樣。我們通過對結(jié)果為0.1到0.9的自動評價(jià)進(jìn)行可比觀察,根據(jù)實(shí)證將加權(quán)參數(shù)A設(shè)為A = 0.8。
4.6 評價(jià)
檢索詩歌。我們根據(jù)三種詩歌與圖片的相關(guān)性對它們進(jìn)行了對比:真實(shí)詩歌、使用VPE檢索,圖像特征未微調(diào)的詩歌(VPE w/o FT),以及使用VPE檢索,圖形特征經(jīng)過微調(diào)的詩歌(VPE w/ FT)。表2顯示了這三種詩歌類型在0-10分范圍內(nèi)的對比(0分代表不相關(guān),10分代表最相關(guān))。我們可以看到,通過使用擬議的視覺詩意嵌入模型,檢索詩歌的相關(guān)性評分能夠達(dá)到平均分(即,5分)以上。而使用詩歌象征微調(diào)后的圖像特征能夠顯著地提高相關(guān)性。
生成的詩歌。表3展示有四種設(shè)置的擬議模型的自動評估結(jié)果,以及之前研究提出的四種基線的自動評估結(jié)果。比較有一個(gè)CNN和三個(gè)CNN的說明文字模型的結(jié)果,我們可以看出,多CNN確實(shí)有助于生成與圖像相關(guān)性更高的詩歌。區(qū)域?qū)哟文P透鼜?qiáng)調(diào)詩句之間的主題連貫性,但許多人類創(chuàng)作的詩歌會覆蓋多個(gè)主題,或?yàn)橥恢黝}使用不同的象征。相比于只有CNN-RNN的說明文字模型,SeqGAN證明了應(yīng)用對抗訓(xùn)練在詩歌生成方面的優(yōu)點(diǎn),但是它在詩歌中生成的新概念較少。我們使用VPE預(yù)訓(xùn)練的模型比說明文字模型表現(xiàn)更好,這說明VPE能夠更有效地從圖像中提取詩歌特征,從而更好地生成詩歌??梢钥闯?,我們的三種模型在大部分標(biāo)準(zhǔn)下表現(xiàn)更好,每種在一個(gè)方面表現(xiàn)特別優(yōu)異。僅有多模態(tài)判別器(I2P-GAN w/ Dm)的模型會引導(dǎo)模型生成真實(shí)的詩歌,因此它在BLEU上得分最高,強(qiáng)調(diào)了翻譯方式上n-grams的相似性。詩歌風(fēng)格判別器(Dp)的設(shè)計(jì)目的是引導(dǎo)生成的詩歌使用更具詩意的語言風(fēng)格,I2P-GAN w/ Dm取得最高的新穎性得分證明,Dp有助于為生成的詩歌提供更新穎、更富想象力的措辭??傮w上,I2P-GAN結(jié)合了兩種判別器的優(yōu)點(diǎn),在BLEU和新穎性上取得了合理的中間分?jǐn)?shù),但與其他生成模型相比,仍然表現(xiàn)的更為出色。此外,我們使用兩種判別器的模型生成的詩歌能夠在我們嵌入相關(guān)性標(biāo)準(zhǔn)上取得最高的得分。
人類評價(jià)結(jié)果的對比如表4所示。在自動評價(jià)結(jié)果中,區(qū)域?qū)哟伪憩F(xiàn)不佳,得分結(jié)果僅僅略微高于說明文字模型,但人工評價(jià)不同,這是因?yàn)樗性娋涠寂c同一主題相關(guān)共容易獲得用戶的認(rèn)可。我們的三種模型在所有標(biāo)準(zhǔn)中的表現(xiàn)都優(yōu)于四種基線方法。與預(yù)訓(xùn)練的模型相比,兩種判別器使詩歌具有更接近真人水平的內(nèi)涵。使用兩種判別器的模型生成的詩歌在相關(guān)性、連貫性和想象力方面質(zhì)量更高。圖4是使用三種基線方法和我們的方法,根據(jù)給定圖片生成的詩歌的示例。通過我們的方法生成詩歌的更多示例可參見圖5。
圖 5:通過我們 I2P-GAN 方法生成詩歌的示例。
圖靈測試。對于AMT注解者的圖靈測試,我們雇傭了548名工人,平均每名工人完成10.9項(xiàng)任務(wù)。對于專家用戶的圖靈測試,我們請15個(gè)人對帶有圖像的、人類創(chuàng)作的詩歌進(jìn)行判斷,請另外15名注解者對沒有圖像的詩歌進(jìn)行測試。每個(gè)人被分配了20幅圖像,我們請專家用戶共完成600個(gè)任務(wù)。表5顯示的是不同詩歌被判斷成人類根據(jù)給定圖像創(chuàng)作的詩歌的概率。正如我們所見,生成的詩歌無論是對普通注解者,還是對專家,都造成了混淆,盡管專家的判斷比普通人更準(zhǔn)確一些。一個(gè)有趣的觀察結(jié)果是:專家在判斷帶圖像的詩歌時(shí)準(zhǔn)確率更高,而AMT工人則在判斷無圖像的詩歌時(shí)表現(xiàn)更好。
5 結(jié)論
作為從圖像生成詩歌(英文自由詩)的首個(gè)研究,我們使用多判別器作為策略梯度的獎(jiǎng)勵(lì),通過整合深度耦合的視覺詩意嵌入模型和基于RNN的對抗訓(xùn)練,提出了一種模擬問題的新方法。此外,我們引入了首個(gè)圖像-詩歌對的數(shù)據(jù)集(多模態(tài)詩集)和大型詩歌語料庫(單模態(tài)詩集)來促進(jìn)關(guān)于詩歌生成的研究,特別是根據(jù)圖像生成詩歌。大量的實(shí)驗(yàn)證明,我們的嵌入模型能夠近似地學(xué)習(xí)一個(gè)合理的視覺創(chuàng)意嵌入空間。自動和人工評價(jià)結(jié)果證明了我們詩歌生成模型的有效性。
參考文獻(xiàn)
[1] T.-H. Chen, Y.-H. Liao, C.-Y. Chuang, W.-T. Hsu, J. Fu, 及 M. Sun.展示、適應(yīng)和辨別:跨域圖像標(biāo)題技術(shù)的對抗訓(xùn)練.ICCV, 2017.
[2] X. Chen與 C. Lawrence Zitnick.心靈之眼:圖像標(biāo)題技術(shù)的遞歸視覺表達(dá).In CVPR,第 2422-2431頁, 2015.
[3] J. Chung, C. Gulcehre, K. Cho,及 Y. Bengio.對序列建模方面的門控循環(huán)神經(jīng)網(wǎng)絡(luò)的實(shí)證研究.NIPS, 2014.
[4] H. Fang, S. Gupta, F. Iandola, R. K. Srivastava, L. Deng, P. Dollar, J. Gao, X. He, M.Mitchell, J. C. Platt,等人.從說明文字到視覺概念,再回到說明文字.In CVPR, 第1473-1482頁, 2015.
[5] A. Farhadi, M. Hejrati, M. A. Sadeghi, P. Young,Rashtchian, J. Hockenmaier,及 D. Forsyth.每張圖片都講述了一個(gè)故事:根據(jù)圖像生成語句.In CVPR,15-29, 2010.
[6] A. Frome, G. S. Corrado, J. Shlens, S. Bengio, J. Dean, T. Mikolov,等人.發(fā)明:深層視覺語義的嵌入模型.In NIPS,第 2121-2129頁, 2013.
[7] M. Ghazvininejad, X. Shi, Y. Choi,及 K. Knight.生成主題詩歌.In NIPS, 1183,1191,2016.
[8] M. Ghazvininejad, X. Shi, J. Priyadarshi,及 K. Knight.Hafez:一個(gè)交互式詩歌生成系統(tǒng).ACL,第 4348頁, 2017.
[9] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,Warde-Farley, S. Ozair, A. Courville,及Y. Ben- gio.生成對抗網(wǎng)絡(luò).In NIPS,第 2672-2680頁, 2014.
[10] J. He, M. Zhou, 及 L. Jiang.使用統(tǒng)計(jì)機(jī)器翻譯模型生成中國傳統(tǒng)詩歌.In AAAI,2012.
[11] J. Hopkins與 D. Kiela.使用神經(jīng)網(wǎng)絡(luò)自動生成韻律詩.In ACL, 卷 1, 第 168-178頁,2017.
[12] L. Jiang與 M. Zhou.使用統(tǒng)計(jì)機(jī)器翻譯方法生成中國對聯(lián).In COLING, 第 377-384頁, 2008.
[13] A. Karpathy, A. Joulin,及 F. F. F. Li.用于雙向圖像語句映射的深層片段嵌入.In NIPS,第 1889-1897頁, 2014.
[14] R. Kiros, R. Salakhutdinov,及 R. S. Zemel.統(tǒng)一多模態(tài)神經(jīng)語言模型的視覺語義嵌入.arXiv preprint arXiv:1411.2539, 2014.
[15] R. Kiros, Y. Zhu, R. R. Salakhutdinov, R. Zemel, R. Urtasun, A. Torralba,及 S.Fidler.Skip-thought向量.In NIPS,第 3294-3302頁, 2015.
[16] J. Krause, J. Johnson, R. Krishna, 及 L. Fei-Fei.一種生成描述性圖像短文的層次方法.CVPR, 2017.
[17] G. Kulkarni, V. Premraj, S. Dhar, S. Li, Y. Choi, A. C. Berg,及 T. L. Berg.牙牙學(xué)語:理解并生成圖像描述.In CVPR, 2011.
[18] Y. Liu, J. Fu, T. Mei,及 C. W. Chen.讓你的照片說話:通過雙向注意遞歸神經(jīng)網(wǎng)絡(luò)來為照片流生成描述性段落.In AAAI, 2017.
[19] H. M. Manurung.韻律模式化文本的圖表生成器.首屆國際認(rèn)知與計(jì)算機(jī)文學(xué)研討會文集[32]第 15-19頁, 1999.
[20] H. Oliveira.詩歌的自動生成:綜述.Universidade de Coimbra, 2009.
[21] H. G. Oliveira.Poetryme: 詩歌生成的 多功能平臺.創(chuàng)新計(jì)算、 [33] 概念創(chuàng)新,以及一般智能, 1:21, 2012.
[22] K. Papineni, S. Roukos, T. Ward,及 W.-J. Zhu.Bleu: 自動評價(jià)機(jī)器翻譯的一種方法.InACL, 第 311-318頁, 2002.
[23] C. C. Park 與 G. Kim.使用一系列自然語句表達(dá)一個(gè)圖像流.In NIPS, 第 73-81頁,2015.
[24] S. J. Rennie, E. Marcheret, Y. Mroueh, J. Ross,及 V. Goel.圖像標(biāo)題技術(shù)的自臨界序列訓(xùn)練. arXivpreprint arXiv:1612.00563, 2016.
[25] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A.Khosla, M. Bernstein,等人.Imagenet 大規(guī)模視覺認(rèn)知挑戰(zhàn).IJCV, 115(3):211- 252,2015.
[26] K. Simonyan與 A. Zisserman.大規(guī)模圖像識別的甚深卷積神經(jīng)網(wǎng)絡(luò). arXiv preprint arXiv:1409.1556, 2014.
[27] O. Vinyals, A. Toshev, S. Bengio, 及 D. Erhan.展示和辨別:一個(gè)神經(jīng)圖像文字說明生成器.In CVPR, 第 3156-3164頁, 2015.
[28] J. Wang, J. Fu, Y. Xu,及 T. Mei.超遠(yuǎn)物品識別:使用深層耦合形容詞及名詞神經(jīng)網(wǎng)絡(luò)的視覺情感分析.In IJ- CAI, 第 3484-3490頁, 2016.
[29] L. Wang, S. Guo, W. Huang,及 Y. Qiao.用于場景是別的 Places205-vggnet模型. arXiv preprint arXiv:1508.01667, 2015.
[30] R. J. Williams.簡單統(tǒng)計(jì)梯度 - 用于連接增強(qiáng)式學(xué)習(xí)的跟蹤算法.機(jī)器學(xué)習(xí),8(3-4):229-256, 1992.
[31] Z. Xu, B. Liu, B. Wang, S. Chengjie, X. Wang, Z. Wang,及 C. Qi.通過有近似嵌入層的GAN產(chǎn)生神經(jīng)相應(yīng).In EMNLP, 第 628-637頁, 2017.
[32] R. Yan, H. Jiang, M. Lapata, S.-D. Lin, X. Lv, 及 X. Li. I, 詩歌:通過約束優(yōu)化下生成歸納框架自動創(chuàng)作漢語詩歌.In IJCAI, 第 2197-2203頁, 2013.
[33] X. Yi, R. Li,及 M. Sun.使用 rnn編碼器-解碼器生成中國古典詩歌.基于自然標(biāo)注大數(shù)據(jù)的漢語計(jì)算語言學(xué)和自然語言處理,第 211-223頁.Springer, 2017.
[34] Q. You, H. Jin, Z. Wang, C. Fang, 及 J. Luo.使用語義注意的圖像標(biāo)題技術(shù).In CVPR,第 4651-4659頁, 2016.
[35] L. Yu, W. Zhang, J. Wang,及 Y. Yu.SeqGAN:有策略梯度的序列生成對抗網(wǎng)絡(luò).In AAAI, 第 2852-2858頁, 2017.
[36] W. Zaremba 與 I. Sutskever. 強(qiáng) 化 學(xué) 習(xí) 神 經(jīng)圖靈 機(jī) - 修 訂 . arXiv preprint arXiv.1505.00521, 2015.
[37] X. Zhang與 M. Lapata.使用遞歸神經(jīng)網(wǎng)絡(luò)生成中文詩歌.In EMNLP, 第 670-680頁, 2014.
論文地址:https://dl.acm.org/authorize?N660819
雷鋒網(wǎng) AI 科技評論報(bào)道
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。