2
雷鋒網(wǎng)AI科技評論按:斯坦福大學(xué)的兩個學(xué)生 Abel L Peirson V 和 Meltem Tolunay 發(fā)表了自己的 CS224n 結(jié)業(yè)論文—— 用深度神經(jīng)網(wǎng)絡(luò)生成表情包(你沒有看錯)。論文主要內(nèi)容是根據(jù)圖片內(nèi)容生成有關(guān)聯(lián)的說明(吐槽)。可能該論文沒有其他論文那么的一本正經(jīng),但在思路也算清奇,論文和代碼已經(jīng)公布。雷鋒網(wǎng) AI 科技評論也簡單介紹一下論文內(nèi)容。
Abel 和 Meltem兩位同學(xué)開發(fā)了一個新型的表情包生成系統(tǒng),給張圖片就可以自動給圖片配相應(yīng)的文字(表情)。除此之外,這個系統(tǒng)還可以應(yīng)用于用戶自定義標簽,讓用戶按圖片內(nèi)容分起類來更簡單(表情包)。該系統(tǒng)先使用預(yù)訓(xùn)練 的Inception-v3 網(wǎng)絡(luò)生成一個圖片嵌入,然后將它傳遞到基于 attention 的深層 LSTM 模型中來生成最終注釋,該做法靈感來自于大名鼎鼎的 SHow&Tell 模型,他們還稍微修改了一下集束搜索算法來保證配字的多樣性(罪犯克星烏蠅哥+配字)。他們使用混淆度評估和人類評估來評估他們的模型,評估指標主要是兩個,一是生成表情包的質(zhì)量,二是是否可以以假亂真。
每種文化中那些風(fēng)靡的的表情包代表著一種理念或者行為風(fēng)格(吐槽),它們通常旨在表達一種特定現(xiàn)象、主題和含義(社會人?)。
表情包無處不在,語言和風(fēng)格也處在不停的變化中(過氣網(wǎng)紅)。表情包靈感來源廣泛,形式也不斷的演變。原本表情包只是利用文化(尤其是亞文化)主題來散播幽默的媒介。但是,表情包同樣可以被用來宣傳政治理想:),傳播共鳴,為少數(shù)派發(fā)聲。表情包是這一代人自己的交流方式,也真實的塑造了這一代人。AI 如今發(fā)展迅猛,急需新的挑戰(zhàn)。表情包的具有高度相關(guān)性還需要強理解能力,故他們選擇該項目(一本正經(jīng))。
本任務(wù)只完成了上圖的效果,即給圖片配字。這種做法大大的簡化了問題以及數(shù)據(jù)收集難度(?乛v乛?)。本篇論文中最主要的任務(wù)就是產(chǎn)生與圖片高度相關(guān)的幽默配字,可以當模板表情包的那種。他們應(yīng)用了一個已有的圖片注釋編解碼系統(tǒng),該系統(tǒng)首先是一個 CNN 圖片嵌入階段,然后再用一個 LSTM-RNN 去生成文字。他們還測試了不同的 LSTM 模型并評估它們的表現(xiàn)。
生成表情包的質(zhì)量很難自動評估。他們使用混淆度作為指標來評估和調(diào)整他們的模型,混淆度與 BLEU(Bilingual Evaluation understudy)分數(shù)高度相關(guān)。他們的定量評估則是由人類測試員完成。人類測試員需要去辨別表情包是不是生成的,或者評估一下表情包的歡樂程度,畢竟表情包的靈魂就是有趣。
一、圖片注釋模型
《Show and tell: A neural image caption generator》(https://arxiv.org/abs/1411.4555) 這篇文章的作者介紹的圖片注釋模型是他們表情包生成模型的大腿。近年來對這個模型的改進中通過雙向 LSTM 和注意力機制的使用得到很大的提升。但這些模型基本都沒有用于「幽默注釋」。StyleNet 的嘗試也僅取得有限成功,但這些模型為作者的項目提供了彈藥。
二、RNN 用于語言建模
RNN 及其變體模型最近在語言建模和機器翻譯的 NLP 任務(wù)上取得的最好成果。其中 LSTM 尤為出色,因為它們使用「門控機制」來長時間記憶數(shù)據(jù)。兩位作者使用的 LSTM 單元由于基于以下式子進行操作:
其中 f 是遺忘門,i 是輸入門,o 是輸出門,m 是存儲器輸出,W 是可訓(xùn)練矩陣。單詞預(yù)測是通過輸出詞匯表中每個單詞的概率分布的 softmax 層進行的。
三、預(yù)訓(xùn)練的 GloVe 向量
使用向量嵌入來表示單詞在很多NLP任務(wù)中都是一種重要的語義相似性捕獲手段。他們項目中使用的向量嵌入來自《Glove: Global vectors for word representation》(http://www.aclweb.org/anthology/D/D14/D14-1162.pdf)這篇文章。
四、RNN 的注意力機制
在語言建模、文本生成、機器翻譯等連續(xù) NLP 任務(wù)中,注意力機制解決了固定長度向量不適配長序列的問題。兩位作者所建模型的一個變體中采用 了Luong et al 的注意力模型(https://arxiv.org/abs/1508.04025)。
一、數(shù)據(jù)庫
他們的數(shù)據(jù)集包含 400.000張圖片,是他們自己寫 Python 代碼從 http://www.memegenerator.net/ 爬來的。在正式訓(xùn)練前,作者還對數(shù)據(jù)進行了預(yù)處理,注釋中的每個字都被縮小以匹配 GloVe 格式,標點符號也被處理了一通。
二、模型變體
編碼器:編碼器的作用就是給解碼器一個存在的理由。兩位同學(xué)在該項目中做了三個模型變體(很棒),第一個忽略標簽,第二個帶了標簽,第三個在第二個基礎(chǔ)上還加了注意力機制。
解碼器:解碼器由一個單向LSTM網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)根據(jù)上文描述的等式運行。每個LSTM單元都重用模型中的變量。而解碼器存在的意義就是接編碼器的鍋,上述三個變體前兩個可以用相同解碼器解決,后一個作者也沒提怎么解決。
推理和集束搜索:作者發(fā)現(xiàn)基于標準集束搜索的推理算法在應(yīng)用中效果拔群,遂決定用該算法,為了保證生成表情包的多樣性,他們在算法中還加了一個溫度函數(shù)。
一、訓(xùn)練
很穩(wěn)(省略操作若干)。
二、結(jié)果評估
還可以(呵,省略更多操作)。
本論文介紹了如何用神經(jīng)網(wǎng)絡(luò)模型去給圖片配字來生成表情包。Abel 和 Meltem兩位同學(xué)還開發(fā)了多個模型變體,帶標簽和不帶標簽都有辦法處理(周全),也提供了一個精調(diào)的 LSTM 模型,算是給語言建模做了一點微小的貢獻(謙虛)。最后的測試結(jié)果表明生成的表情包和人為制作的表情包無法輕松區(qū)分(我信了)。
兩位同學(xué)認為這個項目及其他類似語言建模任務(wù)最大的挑戰(zhàn)就是理解各種人群和文化的梗。他們今后會再接再厲。還有最后一個問題,數(shù)據(jù)集中存在著偏見,種族歧視和性別歧視等,之后的他們之后的工作也會注意解決這個問題。
以上就是雷鋒網(wǎng)全部編譯內(nèi)容
論文地址:https://arxiv.org/abs/1806.04510
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。