0
本文作者: 陳伊莉 | 2020-03-15 20:05 |
近來,一位流量明星的粉圈紛爭,意外將世界最大的同人小說網(wǎng)站 AO3 帶入更廣泛的大眾視線。可你知道嗎,世界上還有一個與同人有一定關(guān)系的 AI 小說創(chuàng)作網(wǎng)站。
請看下面兩段文字:
“The mirror of Borges. Summer, so I thought, I looked by drawing to reason. The mirrors preceded him out. The voice was the river of a few monstrous magnificent spirit of false form.”
“This day she has a commodity interest that my protection was the bearing a short an old acquaintance of her hands, and she was at the side of the death that are the same time and bringing him. Give me settled by these weeks to hear her for his whole fairy and fortune to be in the court of the same time.”
這兩段跳躍的、因果割裂的文字,是不是讓你看得一頭霧水?以上文字由兩位不同用戶,發(fā)表在 Literai 網(wǎng)站上,后者是由 3 位個人開發(fā)者在 2016 年建立的 AI 小說創(chuàng)作項目。Literai 提供了從如何訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型到最后生成文字的詳細操作指南,普通人也可以用 AI 寫出自己想要的小說。
雖然生成的文章有著這樣那樣的問題,兩位用戶對此倒還算滿意。第一個以阿根廷作家博爾赫斯的全部小說集作為數(shù)據(jù)集,用 512 個神經(jīng)元和兩個隱藏層訓(xùn)練神經(jīng)網(wǎng)絡(luò),經(jīng)過 19850 次迭代得到了這篇文章。
第二個網(wǎng)友則用了自己最迷戀的英國作家簡·奧斯汀和一點點瑪麗·雪萊的作品。在生成《Of Crying and Captains 》之前,電腦跑了一整天,“對于這個模型的創(chuàng)建來說,語氣和句子結(jié)構(gòu)是最重要的兩件事。當(dāng)我閱讀這篇文章時,我真切地感受到英國的智慧正悄悄潛入我的內(nèi)心?!痹撚脩舯硎?。
Literai 的發(fā)展與同人文化還有著一定關(guān)系。
左:Anthony Voutas 右:Myles O’Neill
2016 年,神經(jīng)網(wǎng)絡(luò)在前面幾年取得長足進步,在灣區(qū)有三位志同道合的年輕人——他們分別是在 Kaggle 的 Myles O’Neill,以及其它科技創(chuàng)業(yè)公司的 Anthony Voutas 和 sadora Lamego,一起計劃做一個讓更多人參與感受 AI 的項目。
雷鋒網(wǎng)了解到,Myles O’Neill、Anthony Voutas 研究生都就讀于澳洲國立大學(xué)計算機專業(yè),期間學(xué)習(xí)過神經(jīng)網(wǎng)絡(luò),而 sadora Lamego 當(dāng)時正在伯克利大學(xué)開設(shè)了同人小說的課程。頭腦風(fēng)暴后,他們意識到,有可能并且想要創(chuàng)造自己的神經(jīng)網(wǎng)絡(luò)來寫故事。
另外,該網(wǎng)站上現(xiàn)存的像模像樣的幾篇小說都是同人作品,除了前文提到的,還有《Harry Potter and the Cream Cake Of Dumbledore 》《The Adventures of Cyborg Holmes》 《South Park: Deeper & Harder》、《Return of the Computer Jedi 》等。網(wǎng)站似乎沒有審核機制,有網(wǎng)友上傳的無意義的文字,也有人直接上傳了《殺死一只知更鳥》這本書的前幾章。
接下來就讓我們看看具體怎么操作的吧。
作者們提供了 Mac 和 Windows 兩個版本的操作指南,不過第一步都是相同的,需要安裝 Docker,因為必須有 Hyper-V,所以如果是 Windows 版本,必須是 Windows 專業(yè)版及更高才行。;
第二步是創(chuàng)建數(shù)據(jù)庫。神經(jīng)網(wǎng)絡(luò)剛開始對拼寫、標(biāo)點、單詞字符、情節(jié)、語法常識都一竅不通,需要從零開始從給它的素材中學(xué)習(xí)這些概念。其中重點要學(xué)的是更微妙的部分,比如文風(fēng)或結(jié)構(gòu)。你喂給它莎士比亞,它就會寫出莎士比亞風(fēng)。
背后的關(guān)鍵技術(shù)就是長短期記憶神經(jīng)網(wǎng)絡(luò)( long short-term memory neural network)。它一次創(chuàng)建一個字符的內(nèi)容,每個新字符都是基于它已經(jīng)學(xué)習(xí)的內(nèi)容。
網(wǎng)站提到,用戶可以從谷歌、Project Gutenberg、IMSDB、MLDB 數(shù)據(jù)庫,或者是其它用戶所附帶的數(shù)據(jù)文件等獲取訓(xùn)練數(shù)據(jù)集。一般來說,數(shù)據(jù)集越大,AI 寫得更好。1MB (200000字)是最低的要求。3-10MB 是合理的范圍,10 或 100MB 就算得上大數(shù)據(jù)集,則更理想,當(dāng)然在個人 PC 訓(xùn)練可能需要幾周甚至幾個月的時間。
第三需要預(yù)處理數(shù)據(jù),調(diào)整一些參數(shù)。
第四啟動 Docker,將數(shù)據(jù)文本復(fù)制到 Docker 容器中,然后開始訓(xùn)練。注意保持電腦充電且不休眠。因為作者發(fā)布網(wǎng)站較早,指引中用的是 torch-rnn。幾小時或幾天后,用戶會收獲一個合乎心意的神經(jīng)網(wǎng)絡(luò)模型,輸入命令,小說就會誕生了。
目前網(wǎng)站上傳都是英文小說,理論上也可以通過學(xué)習(xí)其他語言作品來用其他語言寫作。作者也指出,目前寫出來的文章還是頗為生硬,但是它最強的一點是可以比較深刻地洞察和模仿素材庫的模式與文風(fēng)。
2019 年 2 月,OpenAI 發(fā)布了自己具有 15 億個參數(shù)的語言模型 GPT-2,當(dāng)時它就展示了頗為驚人的短句續(xù)寫成能力。最近有位網(wǎng)友就用這個模型跑了一遍,生成了一段文字發(fā)表在該網(wǎng)站上,與作者當(dāng)時用的 torch-rnn 寫出來的文字相比,無疑有很大的進步,不僅上下文聯(lián)系、有層層遞進的對話,語法還幾乎沒有錯誤,有點以假亂真了。
It was a woman who was wearing a black dress and glasses.She was standing in front of the door, and she was looking at me.
I smiled and said to her:"I am L'Lambda."
"Oh, hey, hey! You look like an adventurer, aren't you?"
"I am L'Lambda the Demon Lord."
"Who is that?" The woman asked. She had heard and admired L'Lambda's fighting skills and strength.
"I have been holding this girl for two years now. This is a slave that I have bought from a man. She has been with me for two years now, and I am holding her now."
"What kind of a place this is?"
"I have heard that L'Lambda has been living in a mansion in a mountain outside of the Kingdom of Altdorf that is very large. It is said that there is a lot of money here."
"There is?"
"Of course."
事實上,AI,或者更廣義的機器文學(xué)創(chuàng)作,在這一波 AI 復(fù)興之前就存在。如果認(rèn)真區(qū)分,還有程序?qū)懽?Program Writing,使用計算機程序來生成文字;電腦生成文學(xué) Computer-Generated Literary Art,主要是計算機與文學(xué)方面的結(jié)合,偏藝術(shù)創(chuàng)作。而人工智能、機器學(xué)習(xí)的發(fā)展,則是提供了一個更好的工具。
以上圖書都有電腦程序?qū)懽鞯牟糠?/p>
Myles O’Neill 曾在項目 Github 頁面上提過一句,計劃應(yīng)用這個產(chǎn)品參加 2016 年的 NaNoGenMo 故事。
雷鋒網(wǎng)了解到,NaNoGenMo 全稱 National Novel Generation Month,是一年一度的寫作機器人峰會,第一次在 2013 年 11 月舉辦,擁有程序員+藝術(shù)家雙重身份的 Darius Kazemi 心血來潮將想法發(fā)表在推特上,獲得了許多支持,他就在 GitHub 建立了一個倉庫。
峰會名稱來源于國家小說寫作月 NaNoWriMo(National Novel Writing Month),同時也沿用了其兩條規(guī)則:作品必須在 30 天內(nèi)完成,而且至少要寫夠 5 萬字(官方 Github:https://github.com/NaNoGenMo)。NaNoGenMo 一直開到 2019 年,去年的主題是與愛連結(jié)。
在 NLP、神經(jīng)網(wǎng)絡(luò)發(fā)展之前的 2014 年,大多數(shù)的作品都是使用創(chuàng)造性的規(guī)則轉(zhuǎn)換已有的文本,這也導(dǎo)致了作品的相似性。
搜索者
2014 年有一篇作品叫《搜索者》,作者 Thricedotted 使用了夢幻般的方式去探索機器智能的奇異之美。這是一本試圖通過閱讀維基百科來了解人類行為的機器的自傳。文字充斥著視覺美感,用抽象的雨點來給每一次算法操作的循環(huán)加標(biāo)注。文章常常是割裂的,而美感也來自于閱讀者感受到的片段式意境。
而隨著 AI 復(fù)興,在文章寫作之外,人們還將 AI 延伸到了更廣泛的文學(xué)藝術(shù)領(lǐng)域。比如在文學(xué)的明珠詩歌領(lǐng)域,微軟 2014 年起開始研究虛擬機器人小冰,她第一次破圈就是以少女詩人的身份,寫出過“愛情就像脂肪,是點點滴滴的積累”,并在 2017 年出了一本名為《陽光失了玻璃窗》的詩集,如今已經(jīng)更新到第七代。
一個叫作 Benjamin 的 AI 在 2016 年倫敦科幻電影節(jié)上用 48 小時創(chuàng)作了名為《Sunspring》的短片,兩年后又花兩天制作了一部叫作《Zone Out》的微電影。
Zone Out 微電影截圖,有網(wǎng)友表示風(fēng)格類似 David Lynch
雷鋒網(wǎng)了解到, 清華孫茂松教授帶領(lǐng)學(xué)生推出了一個 AI 作詩系統(tǒng)九歌(http://jiuge.thunlp.cn/cangtou.html),2015 年底開始開發(fā),2019 年 7 月宣布開源。
藏頭詩
以上項目的原理也類同 Literai,基于 LSTM 學(xué)習(xí)大量文本數(shù)據(jù)。小冰的現(xiàn)代詩創(chuàng)作能力,是通過對 1920 年后 519 位現(xiàn)代詩人的上千首詩反復(fù)學(xué)習(xí)(術(shù)語稱為迭代)10000 次達成的。Benjamin 則吸收了幾十個拍攝于 1980 至 1990 年代的科幻電影劇本。
而與此同時,AI 文學(xué)的差評也開始多了起來。小冰風(fēng)頭最盛,批評也最多?!蛾柟馐Я瞬AТ啊返脑娂拱暝u分 5.5 分,批評主要聚焦在:寫詩是人類精神的表達,而小冰的詩沒有靈魂和情感,只是簡單地堆砌文字,缺乏內(nèi)在的抒情邏輯。
有詩人表示,“無論輸入多少句子還是寫不了真詩,真詩是有靈性的?!薄啊”晒Φ貙W(xué)會了新詩的糟粕,寫的都是濫調(diào)?!?/p>
在現(xiàn)階段,與其說機器是在創(chuàng)作,不如說是在隨機性地排列組合文字。過去、現(xiàn)在的主流觀點一直都是,科技、邏輯、理性不是一切,永遠無法超越文學(xué)藝術(shù)。劉慈欣的一篇短篇小說《詩云》曾對這種情況做出過終極猜想。
無所不能的神級文明代表,立志寫出超越李白的詩。方法一是寫出超越李白的詩,但由于缺乏對美的理解,折戟;方法二,窮盡所有文字,寫完所有的詩。 他大手筆地用整個太陽系的物質(zhì)能量來存儲所有的詩,太陽熄滅、重燃 11 次后,在原來太陽系的位置,出現(xiàn)了一片直徑為一百個天文單位的旋渦狀星云。
而最后,神卻抽泣著承認(rèn)失敗,因為他即使寫出了巔峰的詩,卻無法從詩云中篩選出來。
“智慧生命的精華和本質(zhì),是技術(shù)所無法觸及的?!?/p>
參考:
https://arcade.stanford.edu/blogs/nanogenmo-dada-20
https://www.literai.com/story/2d97fec855
http://www.ce.cn/culture/gd/201705/30/t20170530_23321994.shtml
https://zhuanlan.zhihu.com/p/30640458?from_voters_page=true
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。