簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

本文作者： MrBear

編輯：楊曉凡

2018-02-24 10:03

導(dǎo)語(yǔ)：科學(xué)浪漫主義！

雷鋒網(wǎng) AI 科技評(píng)論按：人們已經(jīng)給神經(jīng)網(wǎng)絡(luò)找到了越來(lái)越多人的事情做，比如畫(huà)畫(huà)和寫(xiě)詩(shī)，微軟的小冰都已經(jīng)出版了一本詩(shī)集了。而其實(shí)訓(xùn)練一個(gè)能寫(xiě)詩(shī)的神經(jīng)網(wǎng)絡(luò)并不難，Automattic 公司的數(shù)據(jù)科學(xué)家 Carly Stambaugh 就寫(xiě)了一篇文章介紹如何簡(jiǎn)單快捷地建立一個(gè)會(huì)寫(xiě)詩(shī)的人工智能。雷鋒網(wǎng) AI 科技評(píng)論全文翻譯如下。

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

「代碼即詩(shī)篇」，這是 WordPress 社區(qū)的哲學(xué)。

作為一個(gè) coder 同時(shí)也是一個(gè)詩(shī)人，我一直都十分喜愛(ài)這句話。然而，如果將這句話翻轉(zhuǎn)過(guò)來(lái)，我不禁要問(wèn)：「我能否通過(guò)代碼寫(xiě)詩(shī)呢？我能否創(chuàng)造一個(gè)能夠?qū)懗鲈瓌?chuàng)性詩(shī)詞的機(jī)器？」于是，我做了一系列實(shí)驗(yàn)去探究這個(gè)問(wèn)題的答案。

首先，我們都知道如果想讓機(jī)器學(xué)會(huì)寫(xiě)詩(shī)，那么它必須先學(xué)會(huì)讀詩(shī)。在整個(gè) 2017 年中，使用 WordPress 系統(tǒng)發(fā)布的、標(biāo)注為詩(shī)歌的帖子有超過(guò) 50 萬(wàn)篇（https://wordpress.com/tag/poetry）。我聯(lián)系了一些通過(guò) WordPress 分享作品的高產(chǎn)詩(shī)人，詢問(wèn)他們是否愿意與我合作完成一個(gè)有趣的實(shí)驗(yàn)：能否讓我的機(jī)器閱讀他們的作品，讓我的機(jī)器能夠?qū)W到詩(shī)歌的形式和結(jié)構(gòu)，最終讓機(jī)器能夠自己完成詩(shī)歌創(chuàng)作？

O at the Edges – Robert Okaji（https://robertokaji.com ）
Wolff Poetry – Linda J. Wolff（http://wolffpoetry.com ）
Poetry, Short Prose and Walking – Frank Hubeny（https://frankhubeny.blog ）
Perspectives on Life, the Universe and Everything – Aurangzeb Bozdar（https://abozdar.wordpress.com ）

何為L(zhǎng)STM 以及它如何生成文本？

我使用了一種名為 LSTM (Long Short Term Memory network, 即長(zhǎng)短時(shí)期記憶網(wǎng)絡(luò)) 的神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建我的詩(shī)歌機(jī)器人。

神經(jīng)網(wǎng)絡(luò)通過(guò)層次結(jié)構(gòu)將一個(gè)問(wèn)題分解為多個(gè)小問(wèn)題。舉例而言，假如你想訓(xùn)練一個(gè)用于識(shí)別正方形的神經(jīng)網(wǎng)絡(luò)，其中一層可能會(huì)負(fù)責(zé)識(shí)別直角，另一層可能負(fù)責(zé)識(shí)別平行線。為了將圖片認(rèn)定為正方形，所有這些特征都會(huì)被機(jī)器呈現(xiàn)出來(lái)。神經(jīng)網(wǎng)絡(luò)會(huì)通過(guò)將數(shù)以百萬(wàn)計(jì)的正方形圖片作為輸入訓(xùn)練模型，從而學(xué)習(xí)到這些必要的特征的參數(shù)。這個(gè)機(jī)器還會(huì)學(xué)到圖片的哪些特征對(duì)于識(shí)別正方形是重要的，哪些是不重要的。

現(xiàn)在，假設(shè)你想要使用神經(jīng)網(wǎng)路去預(yù)測(cè)這兩個(gè)字母的下一個(gè)字母：

Th_

對(duì)于一個(gè)人來(lái)說(shuō)，這個(gè)任務(wù)是十分簡(jiǎn)單的。很有可能，你猜下一個(gè)字母應(yīng)該是 e。但是，我敢打賭，如果你是一個(gè)說(shuō)英語(yǔ)的人，你不會(huì)猜下一個(gè)字母是 q。這是因?yàn)槟阋呀?jīng)通過(guò)學(xué)習(xí)知道：在英語(yǔ)中，q 不會(huì)跟在 th 的后面。一個(gè)單詞中，前面的字母對(duì)于預(yù)測(cè)后面會(huì)出現(xiàn)什么字母是及其相關(guān)的。一個(gè) LSTM 可以「記住」它之前的狀態(tài)并將其告訴它當(dāng)前的決策過(guò)程。關(guān)于 LSTM 如何工作的更深入的解釋?zhuān)梢詤⒖脊雀璐竽X的 Chris Olah 所寫(xiě)的這篇精彩的文章。

與許多基于 LSTM 的文本生成案例一樣，我的詩(shī)歌機(jī)器人通過(guò)一次生成一個(gè)字符來(lái)生成文本。因此，要想把單詞組合成任何有意義的樣式，詩(shī)歌機(jī)器人首先必須學(xué)會(huì)如何造詞。為了實(shí)現(xiàn)這一點(diǎn)，它需要數(shù)百萬(wàn)個(gè)有效的單詞的例句。值得慶幸的是，WordPress.com 上有海量的詩(shī)歌。

數(shù)據(jù)集的準(zhǔn)備

首先，我從 Elasticsearch 索引中抓取了上面列出的所有網(wǎng)站中的詩(shī)歌。我使用一種非常簡(jiǎn)單的規(guī)則（根據(jù)每遇到一次「\n」的字符和上一個(gè)「\n」之間的詞數(shù)）把除了詩(shī)歌的文本之外的所有東西清洗掉了。如果一塊文本包含許多單詞但是包含很少的「\n」字符，它可能是一個(gè)或多個(gè)段落的集合。然而，一塊跨越多行的文本更有可能是一首詩(shī)。這是一個(gè)簡(jiǎn)單的方法，當(dāng)然，我可以想到很多優(yōu)秀的詩(shī)歌都無(wú)法滿足這個(gè)規(guī)則！但是，就本實(shí)驗(yàn)的目的而言，我對(duì)于 LSTM 是否能學(xué)習(xí)到諸如換行、詩(shī)的章節(jié)等詩(shī)歌的結(jié)構(gòu)，以及其他的例如押韻、類(lèi)韻、輔韻、頭韻修辭手法十分感興趣。因此，將訓(xùn)練數(shù)據(jù)限制為相當(dāng)結(jié)構(gòu)化的詩(shī)歌是合理的。

一旦一塊文本被認(rèn)定為一首詩(shī)，我就將它輸出到一個(gè)文本文件，并且在他前面加上「++++\n」的前綴以表示一首新詩(shī)的開(kāi)始。這樣做可以產(chǎn)生大約 500KB 的訓(xùn)練數(shù)據(jù)。通常，我試著使用至少 1MB 的文本去訓(xùn)練一個(gè) LSTM 網(wǎng)絡(luò)，因此，我需要尋找更多的詩(shī)歌！為了補(bǔ)充更多有特色的詩(shī)人的作品，我使用了去年發(fā)表的被標(biāo)記為詩(shī)歌的公開(kāi)的帖子中產(chǎn)生的隨機(jī)樣本。這就好像你在 WordPress.com 閱讀器里用詩(shī)歌標(biāo)簽瀏覽之后（https://en.wordpress.com/tag/poetry/）得到的結(jié)果。我將隨機(jī)抓取的詩(shī)歌的規(guī)模限制在每個(gè)詩(shī)人一個(gè)帖子。

訓(xùn)練 LSTM 網(wǎng)絡(luò)

當(dāng)我有了超過(guò) 1MB 的詩(shī)歌之后，我開(kāi)始構(gòu)建一個(gè) LSTM 網(wǎng)絡(luò)。我使用 Python 深度學(xué)習(xí)庫(kù) keras 以滿足我所有對(duì)神經(jīng)網(wǎng)絡(luò)的需求。keras（https://github.com/keras-team/keras）在 Github 上的 repo 代碼倉(cāng)庫(kù)有許多示例文件，可以幫助學(xué)習(xí)一系列不同的神經(jīng)網(wǎng)絡(luò)，其中就包括使用 LSTM 生成文本（https://github.com/keras-team/keras/blob/master/examples/lstm_text_generation.py ）。我根據(jù)這個(gè)示例編寫(xiě)了我的模型的代碼，并且開(kāi)始進(jìn)行不同模型配置之下的實(shí)驗(yàn)。這個(gè)模型的目標(biāo)是要產(chǎn)生原創(chuàng)的詩(shī)歌。在這種情況下，過(guò)擬合，換而言之，太過(guò)于詳細(xì)地學(xué)習(xí)訓(xùn)練數(shù)據(jù)以致于模型不能很好地泛化，會(huì)導(dǎo)致生成的文本與輸入地文本太相似。（這就好像剽竊，沒(méi)有詩(shī)人會(huì)喜歡這樣做?。┮粋€(gè)防止過(guò)擬合的方法是在網(wǎng)絡(luò)中使用 dropout 。這就迫使在每一個(gè)批次的訓(xùn)練中，隨機(jī)地使一個(gè)子集的節(jié)點(diǎn)權(quán)重降為 0。這有點(diǎn)像迫使網(wǎng)絡(luò)「忘記」一些它剛剛學(xué)到的知識(shí)。（我還添加了額外的后期處理去檢查，防止詩(shī)人的作品被詩(shī)歌機(jī)器人復(fù)制）

我使用 FloydHub（https://www.floydhub.com/ ）的 GPU 來(lái)完成我的神經(jīng)網(wǎng)絡(luò)繁重的訓(xùn)練工作。這使我能夠以將近比我的筆記本快十倍的速度訓(xùn)練我的神經(jīng)網(wǎng)絡(luò)。我的第一個(gè)神經(jīng)網(wǎng)絡(luò)有一個(gè) LSTM 層，后面跟隨著一個(gè) dropout 層。這個(gè)網(wǎng)絡(luò)產(chǎn)生了一個(gè)看上去十分像詩(shī)歌的文本。它有換行和詩(shī)的章節(jié)，并且?guī)缀跛械淖址M合都是真實(shí)的單詞。偶爾整行都是較為通順的。實(shí)際上，它第一次迭代產(chǎn)生了這樣的佳句：

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

我增加了一些 LSTM 層，嘗試著改變每一層中 dropout 的程度，知道最終定下了一個(gè)如下面代碼所示的最終模型。我最終選擇使用三層 LSTM，因?yàn)榇藭r(shí)訓(xùn)練時(shí)間開(kāi)始變得很長(zhǎng)，而訓(xùn)練的結(jié)果相當(dāng)好。（下面是程序代碼）

    1. model = Sequential()
    2. model.add(LSTM(300, input_shape=(maxlen, len(chars)), return_sequences=True, dropout=.20, recurrent_dropout=.20))
    3. model.add(LSTM(300, return_sequences=True, dropout=.20, recurrent_dropout=.20))
    4. model.add(LSTM(300, dropout=.20, recurrent_dropout=.20))
    5. model.add(Dropout(.20))
    6. model.add(Dense(len(chars)))
    7. model.add(Activation('softmax'))
    8. model.compile(loss='categorical_crossentropy', optimizer='adam')

這里有一個(gè)圖，比較了隨著LSTM層數(shù)增加而變化的模型的損失函數(shù)曲線。

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

隨著模型中LSTM層數(shù)增加，驗(yàn)證損失迅速下降

哦！這是怎么回事呢？（https://stats.stackexchange.com/questions/303857/explanation-of-spikes-in-training-loss-vs-iterations-with-adam-optimizer ）事實(shí)上，當(dāng)我們使用 adam 優(yōu)化器訓(xùn)練模型時(shí)，這是很常見(jiàn)的。注意，隨著我向網(wǎng)絡(luò)中增加 LSTM 層，模型的驗(yàn)證損失整體上以很快的速率持續(xù)下降。這說(shuō)明在較少的迭代次數(shù)內(nèi)可以得到可行的實(shí)驗(yàn)結(jié)果，但是額外的 LSTM 層會(huì)增加每次迭代的訓(xùn)練時(shí)間。訓(xùn)練單層 LSTM 時(shí)，每次迭代大概需要 600 秒，一晚上可以完成實(shí)驗(yàn)。然而，訓(xùn)練三層 LSTM 時(shí)，每次迭代需要 7000 秒，總共需要好幾天的時(shí)間完成訓(xùn)練。所以，更快的驗(yàn)證損失的下降實(shí)際上并不意味著更快地得出結(jié)果。完全從我的主觀視角來(lái)說(shuō)，盡管需要花費(fèi)更多時(shí)間去訓(xùn)練，使用三層 LSTM 層的網(wǎng)絡(luò)生成的詩(shī)是更好的。

生成詩(shī)歌

為了產(chǎn)生完全原創(chuàng)的文本，我還需要改變文本的生成方式。在 keras 庫(kù)中的示例中，腳本從訓(xùn)練數(shù)據(jù)中選擇一個(gè)隨機(jī)的字符序列作為輸入，即訓(xùn)練神經(jīng)網(wǎng)絡(luò)的種子。我想要構(gòu)建一個(gè)能寫(xiě)出原創(chuàng)詩(shī)歌的詩(shī)歌機(jī)器人，而不是轉(zhuǎn)寫(xiě)其他詩(shī)人的詩(shī)句！因此，我在生成文本的步驟中，嘗試了不同的種子。由于我已經(jīng)在訓(xùn)練集合中為每首詩(shī)加上了「++++\n」的開(kāi)頭，我想這就已經(jīng)注意創(chuàng)造完全原創(chuàng)的詩(shī)歌了。但是結(jié)果是一組沒(méi)有意義的「\n」、「.」、「_」和「&」的組合。盡管反復(fù)的試驗(yàn)和糾錯(cuò)，我發(fā)現(xiàn)種子序列需要與訓(xùn)練序列擁有相同數(shù)目的字符。在事后看來(lái)，這是顯而易見(jiàn)的。最終，我使用了一個(gè)有 300 個(gè)字符的序列，我通過(guò)重復(fù)「++++\n」來(lái)生成剛好 300 個(gè)字符的用于文本生成的種子。這個(gè)詩(shī)歌機(jī)器人每輪可以生成幾首詩(shī)并偶爾用「++++\n」將這幾首詩(shī)分割開(kāi)來(lái)。

在腳本生成了新一輪詩(shī)歌后，我做了最后的剽竊檢查。為了達(dá)到這一點(diǎn)，我首先在訓(xùn)練集中建立了一個(gè)所有 4-gram（包含 4 個(gè)單詞的短語(yǔ)）的集合，并且對(duì)我的詩(shī)歌機(jī)器人寫(xiě)的詩(shī)做了同樣的操作。之后，我計(jì)算出了這兩個(gè)集合的交集。為了達(dá)到本實(shí)驗(yàn)的目的，我手動(dòng)檢查了 4-gram，確保出現(xiàn)在兩個(gè) 4-gram 集合中的短語(yǔ)是無(wú)意義的。多數(shù)時(shí)候，這個(gè)交集里的短語(yǔ)都是這樣：

i don't want
i can not be
i want to be
the sound of the

為了得到更好的測(cè)試結(jié)果，我在 5-gram 和 6-gram 上重復(fù)了這個(gè)步驟。如果我要將這個(gè)過(guò)程自動(dòng)化，我可能會(huì)采用一種基于頻率的方法，并且排除掉那些被認(rèn)為是剽竊的、多個(gè)作者詩(shī)作間的共同的 n-gram。

神奇的詩(shī)篇！

在每一輪迭代之后輸出模型的權(quán)重意味著我們可以在訓(xùn)練時(shí)在一些節(jié)點(diǎn)上裝載模型的快照。當(dāng)我們觀察最終模型的前期迭代時(shí)，很顯然，詩(shī)歌機(jī)器人會(huì)立刻領(lǐng)悟換行技巧。我預(yù)料到了這一點(diǎn)，因?yàn)楦鶕?jù)設(shè)計(jì)，訓(xùn)練設(shè)計(jì)最顯著的特征是每行字符數(shù)很少。下面是一個(gè)經(jīng)過(guò)一輪迭代的訓(xùn)練生成的詩(shī)：

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

詩(shī)歌機(jī)器人已經(jīng)學(xué)習(xí)到了一些真實(shí)的詞匯，并且模仿在行與行之間留出空白的常見(jiàn)做法。乍看之下，如果你不仔細(xì)探究，這看上去就像一首詩(shī)。在單層 LSTM 模型的損失函數(shù)收斂之后，除了換行，模型還學(xué)會(huì)了詩(shī)的分節(jié)，甚至顯示出了一些常見(jiàn)的重復(fù)的詩(shī)歌修辭手法。

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

LSTM 的強(qiáng)大之處在單行詩(shī)句中非常明顯了。除了本文題目的那一行，另一個(gè)我最喜歡的詩(shī)行是：

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

在有史以來(lái)最有趣的格言機(jī)器人 Inspirobot 的輔助下，Demet從她最?lèi)?ài)的詩(shī)行中學(xué)習(xí)，創(chuàng)造了這樣的佳句：

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

盡管單一的 LSTM 模型在一首詩(shī)中并沒(méi)有完全掌握主題，但它在整個(gè)作品的創(chuàng)作過(guò)程中似乎都有一個(gè)共同的主線。下面是一個(gè)從所有單層 LSTM 模型生成的詩(shī)詞中產(chǎn)生的詞云：

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

多么令人沉醉??！這個(gè)詩(shī)歌機(jī)器人著迷于驕陽(yáng)和星辰

如果太陽(yáng)是訓(xùn)練數(shù)據(jù)中最常見(jiàn)的主題，那也就不足為奇了，然而事實(shí)并非如此！下面是一個(gè)訓(xùn)練數(shù)據(jù)中產(chǎn)生的詞云：

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

詩(shī)人熱衷于歌頌愛(ài)

Emily Dickinson曾經(jīng)描寫(xiě)過(guò)關(guān)于自然和死亡的詩(shī)歌。我的詩(shī)歌機(jī)器人則描寫(xiě)關(guān)于天體的詩(shī)歌。各有千秋！

在增加了第二層 LSTM 網(wǎng)絡(luò)之后，我開(kāi)始看到了其他的類(lèi)似于頭韻和押韻的詩(shī)歌修辭手法：

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

它也開(kāi)始寫(xiě)出一些十分有詩(shī)意的短語(yǔ)。這些短語(yǔ)有些類(lèi)似于之前的模型偶爾產(chǎn)生的絕佳的詩(shī)句，但是他們有些時(shí)候跨越了不止一行。例如：

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

天?。∵@就很深刻了！

到了這里，我們已經(jīng)看到了換行、節(jié)律、押韻（包括在中間和結(jié)尾）、重復(fù)和頭韻。這還不錯(cuò)！但是，除了偶得的佳句，這時(shí)詩(shī)歌機(jī)器人寫(xiě)出的詩(shī)大多數(shù)都是不通順的單詞的集合。在大多數(shù)情況下，它沒(méi)有意義的短語(yǔ)甚至都不符合語(yǔ)法結(jié)構(gòu)規(guī)范。

然而，隨著第三層 LSTM 的加入，這個(gè)情況產(chǎn)生了改觀。即使仍然沒(méi)有意義，模型產(chǎn)生的詩(shī)句更加可能合乎語(yǔ)法規(guī)范。例如：

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

這個(gè)句子似乎說(shuō)不通，但是它恰當(dāng)?shù)匕才帕苏Z(yǔ)言的各個(gè)組成部分。它也包含頭韻的修辭手法，名詞性從句也有詩(shī)意的感覺(jué)。三層 LSTM 的網(wǎng)絡(luò)模型也產(chǎn)生了三行我認(rèn)為非常有功力，飽含詩(shī)意的詩(shī)句：

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

但是，下面這首完整的詩(shī)卻可以被稱作這個(gè)三層LSTM模型取得的最高成就！

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

這首詩(shī)并不是節(jié)選自一大段文字的文本。這些詩(shī)行被牢牢地分隔在兩個(gè)「++++\n」之間！

簡(jiǎn)簡(jiǎn)單單用 LSTM 創(chuàng)造一個(gè)寫(xiě)詩(shī)機(jī)器人

看啊，人性是多么有趣！我們是如此獨(dú)一無(wú)二，我們身上有無(wú)限的可能！

特別鳴謝與我合作完成這個(gè)有趣的實(shí)驗(yàn)的詩(shī)人們！請(qǐng)大家一定要去訪問(wèn)他們的網(wǎng)站欣賞他們的佳作哦！

O at the Edges – Robert Okaji
Wolff Poetry – Linda J. Wolff
Poetry, Short Prose and Walking – Frank Hubeny
Perspectives on Life, the Universe and Everything – Aurangzeb Bozdar

via Data for Breakfast，雷鋒網(wǎng) AI 科技評(píng)論編譯

詳解如何用 LSTM 自動(dòng)識(shí)別驗(yàn)證碼

《安娜卡列尼娜》文本生成——利用 TensorFlow 構(gòu)建 LSTM 模型

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。