0
今年4月,Google推出 AutoDraw 繪圖功能,讓AI幫助人類畫畫,只需幾筆就能創(chuàng)作出藝術(shù)家等級的線條畫。這個有趣的AI應(yīng)用一下讓業(yè)界隨之興奮。雖然從目前流出的成果來看,AI的筆畫還有些稚嫩,但這壓根不妨礙Google對其背后的AI系統(tǒng)向大眾進行高調(diào)科普,比如發(fā)布了一些科普傾向的Paper等。背后的AI系統(tǒng)名為 SketchRNN,是Google新設(shè)的 Magenta 項目的一部分,以測試 AI 能否用來做藝術(shù)。
為更好地了解這一項目及其背后的故事,theatlantic大西洋雜志采訪了 Magenta 項目的負責人Doug Eck。雷鋒網(wǎng)對采訪內(nèi)容做了編譯。
Eck 是蒙特利爾大學(被視為人工智能的溫床)的一名教授,同時也供職于Google。他此前曾負責Google Music,現(xiàn)轉(zhuǎn)自Google Brian里工作。2000年在印第安納大學取得計算機科學學士學位后,Eck在音樂和機器學習方面都有著非常豐富的從業(yè)經(jīng)驗。
關(guān)于SketchRNN這一AI系統(tǒng),如果大家想更加形象地理解它,可從以下三幅畫來看:
當人類被要求畫一只小豬和一輛卡車時,可能會是這樣的畫風:
但是,當被要求畫一只“豬車”時,你可能會直觀混合二者的顯著特征而畫成這樣↓
雖然畫筆看起來仍然很稚嫩,但是這一混合后的產(chǎn)物其實就跟利用人工智能系統(tǒng)SketchRNN輸出后的成果有點相似。正如Eck和他在Google的合作者David Ha的介紹,SketchRNN的工作原理可以理解為“以類似于人類的方式概括抽象概念”。
以前文的例子來說明,即Google并不想創(chuàng)建畫“豬”的機器,而是由此創(chuàng)建的機器能識別和勾勒出“豬”的概念或特征。一言以蔽之,即人類在畫一個物體時,會在腦中存儲關(guān)于這一物體的概念和顯著特征,并讓“如何畫”和“存儲特征”之間產(chǎn)生聯(lián)系。而SketchRNN的意義就在于讓機器學習到人類的這種“綜合能力”。
為此,Google建立了一個名為“Quick, Draw!”的游戲,像人類玩的方式一樣,Google為該游戲制作了大量人造圖形數(shù)據(jù)庫。訓練資料則包括 75 種物品,像是貓頭鷹、蚊子、花園或是斧頭,每種資料含有至少 7 萬筆個別范例。依靠“Quick, Draw!”獲得的繪畫數(shù)據(jù),Google研發(fā)了 SketchRNN 的AI系統(tǒng)。
當人類在草繪時,豐富多彩的嘈雜世界只能壓縮在鉛筆的幾個線條里。這些簡單的筆畫就是SketchRNN的數(shù)據(jù)集。每一類物體的繪畫,如貓、瑜伽姿勢、雨等,都可以使用Google的TensorFlow開源平臺軟件庫來訓練某個特定類型的神經(jīng)網(wǎng)絡(luò)。當機器以梵高或原始DeepDream的風格呈現(xiàn)一張照片時,人類總感覺有點兒怪異,因為機器對物體的概念或顯著特征并不能融合的那么靈活或了無痕跡。
這些項目能以神秘而又主觀的方式來感受人類,但是有趣的在于,它們對真實世界的感知與人類相似但又不完全相同。
不過,SketchRNN 的輸出結(jié)果卻毫無怪異感。Eck說:
“我不想說它的方式“非常人類”,但是它的感知比那些像素生成的圖片看起來像那么回事多了?!?/span>
這也是Eck領(lǐng)導的 Magenta 團隊的核心洞察力。“人類了解世界的方式并不同于像素,而是以開發(fā)抽象概念來代替我們所看到的事物”,Eck和Ha在他們的論文中作如是表述,“從小時候起,我們就開發(fā)了通過繪畫來向他人溝通我們所看到的東西的能力?!?/p>
所以,如果人類能做到這一點,Google相信機器同樣可以做到。去年,Google的CEO Sundar Pichai就宣布了"AI First”的未來發(fā)展戰(zhàn)略。對于該公司而言,AI是其原始使命的自然延伸,“組織世界的信息,讓其變得通用和有用”。所以,Google正嘗試使用AI的方式組織信息,讓人們可以訪問并和使用這些信息。而 Magenta 項目正是Google在該愿景下的一次嘗試。
機器學習是Google近年來常用的方式,其中,一種特定的機器學習方式就是使用大致基于人類大腦連接系統(tǒng)建模的神經(jīng)網(wǎng)絡(luò)。而多層次的神經(jīng)網(wǎng)絡(luò)在解決棘手問題時特別有效,尤其是在翻譯和圖像識別方面。Google已經(jīng)在這些新架構(gòu)上重建了很多核心服務(wù)。
拿Google翻譯舉例,它雖然已經(jīng)是一個建造了10年以上的復雜系統(tǒng),但是Google最終通過深度學習花了9個月的時間對該系統(tǒng)完成了重建。所以在這種情況下,神經(jīng)網(wǎng)絡(luò)的使用和類型在近幾年實現(xiàn)了爆炸式增長。
基于神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),SketchRNN使用了一種生成遞歸神經(jīng)網(wǎng)絡(luò)。根據(jù)Google在論文中介紹,該種類型的神經(jīng)網(wǎng)絡(luò)可生成簡單物體的草圖,目的是訓練一個能繪畫和概括抽象概念的機器,并且它的思維方式與人類類似。
描述訓練的最簡單的方式,就是將其作為一種編碼方式。在輸入數(shù)據(jù)(草圖)后,該神經(jīng)網(wǎng)絡(luò)嘗試在所處理的數(shù)據(jù)中總結(jié)出一些概括性的規(guī)則。這些概括性的規(guī)則就是數(shù)據(jù)的模型,會被存儲在描述網(wǎng)絡(luò)中神經(jīng)元特性的數(shù)學中。
這種過程被稱為潛在空間或“Z”(zed)。它能吸取在整個訓練過程中學到的東西,如一只豬、一輛卡車或一個瑜伽姿勢的特性等都會存儲其中,“Z”再對它們進行抽樣。
那么,SketchRNN 能學到什么?以下就是一個接受消防車訓練的網(wǎng)絡(luò)神經(jīng)生成新的消防車的例子。在該模型中,有一個“溫度”的變量,研究人員可以上調(diào)或下調(diào)輸出的隨機性。在下列圖像中,偏藍色的表示“溫度”較低,偏紅色的則表示“溫度”較高。
或者你會更想看到貓頭鷹:
或者最好的例子——瑜伽姿勢:
從以上這些案例來看,SketchRNN輸出的成果已經(jīng)和人類的風格非常相似,但是它們本身并非人類所畫。或者說,它們正對人類可能會繪畫某種事物的方式進行重建。當然,其中有些重建的非常好,有些則不盡然。
同時,SketchRNN也能以人造圖像的形式接受輸入。當人類輸送一些內(nèi)容進去,SketchRNN會嘗試弄明白它。以下就是一個正在接受貓的數(shù)據(jù)訓練的模型,在這只三眼貓的圖像中你會發(fā)現(xiàn)哪些變化?
從上圖可以看出,從左往右的各種輸出中,第三只眼睛被去除了。因為模型知道,貓有三角形的耳朵,胡須,圓形的臉,且只有兩只眼睛。
當然,模型并不知道耳朵到底是什么,或者臉是什么樣的。它對這些草圖所示的世界一無所知。但它確實知道人類是如何描繪貓、豬或帆船的。
Eck說到,“當開始生成帆船圖時,模型會輸入進數(shù)百個其他型號的帆船,這些帆船可能來自該圖。這對我們來說是有意義的,因為模型已經(jīng)從所有這些訓練數(shù)據(jù)中生成了理想的帆船?!?/p>
訓練一個可以畫雨點的網(wǎng)絡(luò),然后輸入一個云的草圖,它會這樣做:
雨滴會從輸入模型中的云那落下來。那是因為很多人畫雨滴時,會先畫云,然后畫落下來的雨。所以如果神經(jīng)網(wǎng)絡(luò)看到一個云,它會讓雨落在該形狀的底部。 (有趣的是,如果先畫雨,模型不會產(chǎn)生云。)
這是一項有意思的工作,但是在對人類思維進行反向工程中,這種項目有什么意義呢?
Eck對述描感興趣,是因為它們內(nèi)涵豐富但包含的信息很少。畫一個笑臉只有幾個筆畫,甚至就是一些像素集合,但任何3歲以上的人都可以辨認出是一張臉,甚至區(qū)分是幸福或悲傷的臉。Eck認為這是一種壓縮,是SketchRNN可以解碼的編碼,甚至可以重新編碼。
OpenAI的研究員Andrej Karpathy也對SketchRNN的工作很感興趣。OpenAI也是人工智能研究的一個中心。但他也指出,這個項目要滿足很多前提條件,這意味著它對企業(yè)開發(fā)人工智能不會有太大的幫助。
“我們開發(fā)的生成模式通常會盡可能地與數(shù)據(jù)集的細節(jié)無關(guān),無論你輸入什么數(shù)據(jù),都應(yīng)該能用,包括圖像、音頻、文本或其他任何東西。除了圖像,其它都不是由筆畫組成的?!?/p>
Eck和Ha正在開發(fā)的,更接近于能玩國際象棋的AI,而不是一個可以玩任何游戲的AI。所以對Karpathy來說,他們目前工作的范圍似乎有限。
但有一些理由認為,線條圖是人類思考方式的基礎(chǔ)。Google員工并不是唯一被草圖的力量所吸引的研究者。早在2012年,喬治亞理工學院的James Hays與慕尼黑理工大學Mathias Eitz以及Marc Alexa,就合作創(chuàng)建了一個草圖數(shù)據(jù)集,以及一個用于識別它們的機器學習系統(tǒng)。
對于他們來說,草圖是一種“通用交流”形式,所有具有標準認知功能的人都可以做到這一點。他們認為,自史前時代以來,人類已經(jīng)以素描巖畫或洞穴繪畫的方式來描述世界了,這種象形文字比語言的出現(xiàn)早了幾十萬年,如今繪制和識別草圖的能力已經(jīng)是基本了。
多倫多大學神經(jīng)科學家Dirk Walther在一篇論文中指出,簡單抽象的草圖會以與真實刺激類似的方式,激活我們的大腦。Walther的假設(shè)是,線條圖代表了我們自然世界的本質(zhì),因為在像素的基礎(chǔ)上,一些貓的線條怎么看都不會像是一只貓。
草圖可能是一種幫助我們掌握存儲對象概念層次的方式,即我們說的“本質(zhì)”。也就是說,他們可能會告訴我們,在過去10萬年的時間里,當我們的祖先逐漸現(xiàn)代化時,人類如何開始思考的。草圖、洞穴壁畫,可能描繪出我們怎么從日常經(jīng)驗走向抽象的。
大多數(shù)現(xiàn)代生活都有這種轉(zhuǎn)變:語言,金錢,數(shù)學,以及計算本身。因此,如果草圖確定能在創(chuàng)造重要的人工智能方面發(fā)揮重要作用,也是合情合理的。
當然,對于人類來說,草圖是對真實事物的描繪。我們可以很容易地理解抽象線條與實際事物之間的關(guān)系。這個概念對我們來說意義重大。
對于SketchRNN,草圖就是筆畫序列,形狀是通過時間形成的。機器的任務(wù)是提取出圖紙中描繪的東西的本質(zhì),并嘗試用它們來了解世界。
SketchRNN團隊正在許多方面進行探索。他們可能會建立一個系統(tǒng),試圖通過人類反饋來得到更好的結(jié)果。他們可以用多種草圖來訓練模型。也許,他們會找到一種方式,來看看他們的模型是否可以推廣到逼真的圖像。但他們自己承認SketchRNN是第一步,有很多要學習的東西。
人類藝術(shù)的歷史不是技術(shù)時代能相比的。
而對Eck來說,他們更多的是想了解人類如何思考的基礎(chǔ),在他看來,藝術(shù)的一個核心部分是,它代表了基本人性。要理解深度學習,也需要理解人類生活的基本機制,即我們?nèi)绾慰匆娛澜?,如何交談,如何認識面孔,如何將單詞構(gòu)成故事,如何編曲。它看起來沒有與任何一個特定人類有關(guān),但卻代表了抽象的人類。
最后,如果你想更好地了解SketchRNN這一AI系統(tǒng),雷鋒網(wǎng)特獻上小福利→_→可戳此鏈接獲Google官方Paper。
Via theatlantic,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。