4
本文作者: 奕欣 | 2016-10-13 10:14 |
編者按:訓(xùn)練電腦來(lái)幫助音樂(lè)家們創(chuàng)作,這聽(tīng)起來(lái)似乎有點(diǎn)偷懶。然而事實(shí)并非如此,相反,來(lái)自谷歌及多個(gè)實(shí)驗(yàn)室的科學(xué)家們要付出更多的心力,才能用音樂(lè)“調(diào)教”計(jì)算機(jī)編寫(xiě)出美妙的樂(lè)章。
此曲只應(yīng)機(jī)器有,人間能得幾回聞?本文源自 Fast Company,作者 Tina Amirtha,由老呂IO、環(huán)子及何忞編譯,未經(jīng)授權(quán)不得轉(zhuǎn)載。
今年 5 月份,谷歌大牛 Douglas Eck 離開(kāi)硅谷的辦公室遠(yuǎn)赴位于北卡羅來(lái)納州的大煙山國(guó)家公園(Smoky Mountains),在這里他與許多音樂(lè)、藝術(shù)和科技人才共同度過(guò)了一年一度的 Moogfest 音樂(lè)節(jié)。在每天 High 到爆的同時(shí),Eck 也沒(méi)忘了自己的本職工作,他給自己在聚會(huì)上認(rèn)識(shí)的音樂(lè)界大牛們講述了自己的新想法——訓(xùn)練電腦來(lái)幫助音樂(lè)家們制作音樂(lè),比如做個(gè)和聲、寫(xiě)個(gè)間奏或者編個(gè)副歌部分等。未來(lái),機(jī)器還將學(xué)成出師,創(chuàng)作屬于自己的音樂(lè)。
此前,Eck 從未參與過(guò) Moogfest 音樂(lè)節(jié),這個(gè)從穆格電子琴中脫胎出來(lái)的音樂(lè)節(jié)一直是電子樂(lè)迷的最?lèi)?ài)。這次,Rck 的任務(wù)就是在音樂(lè)節(jié)上完成自己教電腦玩音樂(lè)的任務(wù)。在這幾天中,他和他的同事將用MIDI(樂(lè)器數(shù)字化接口)格式為電腦灌輸大量數(shù)據(jù)。
這里有一段 MIDI 版本的 Billie Jean,可以欣賞一下。
其實(shí)研究人員利用 AI 做音樂(lè)的實(shí)驗(yàn)多年前就開(kāi)始了,最近,索尼位于法國(guó)的計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室就公布了世界上第一首 AI 制作的流行音樂(lè)。此前,它們的 AI 平臺(tái) FlowMachines 還曾利用 MIDI 打造過(guò)多首爵士和古典音樂(lè)。Eck 在音樂(lè)節(jié)上的現(xiàn)身則預(yù)示著谷歌研究項(xiàng)目 Magenta 的正式起航,未來(lái)它不但要學(xué)會(huì)玩音樂(lè),還會(huì)成為跨界藝術(shù)大師。
點(diǎn)這里,可以聽(tīng)一聽(tīng) FlowMachines 算法編寫(xiě)的歌曲《Daddy's Car》。
研究人員表示,讓電腦聽(tīng)音樂(lè)并學(xué)習(xí)制作音樂(lè)非常有用,因?yàn)檫@兩個(gè)動(dòng)作都能提升智能系統(tǒng)的認(rèn)知水平。就像電腦從學(xué)會(huì)簡(jiǎn)單閱讀文本到理解對(duì)話(huà),未來(lái)它們也能玩轉(zhuǎn)音符并自主制作自己的音樂(lè)。
“對(duì)文本的學(xué)習(xí)能讓我們掌握大量知識(shí),電腦也一樣,MIDI 是它們的圖書(shū)館。隨著音樂(lè)創(chuàng)作悟性的提高,電腦在交流和認(rèn)知上的水平也會(huì)得到大幅提升?!盓ck 說(shuō)道。
MIDI :從拖后腿到電腦繆斯
上世紀(jì) 70-80 年代,電子合成器風(fēng)靡一時(shí),因此工程師們也開(kāi)始實(shí)驗(yàn),他們想讓電子樂(lè)器學(xué)會(huì)互相交流。最終,Dave Smith 和 Ikutaro Kakehashi 開(kāi)發(fā)出了 MIDI(樂(lè)器數(shù)字化接口)。1983年,MIDI 正式成為音樂(lè)產(chǎn)業(yè)的技術(shù)標(biāo)準(zhǔn)。
不過(guò),MIDI 能有今天也與兩位工程師當(dāng)年的大度密不可分,他們將該專(zhuān)利免費(fèi)奉獻(xiàn)給了全世界?!艾F(xiàn)在來(lái)看,當(dāng)年的決定還真是明智之舉,”Smith 說(shuō)道。“我們想全身心投入該技術(shù)的開(kāi)發(fā),因此決定不再對(duì)希望使用該技術(shù)的公司收費(fèi)?!?/p>
不久之后,個(gè)人電腦就能讀取并存儲(chǔ) MIDI 文檔了,這一進(jìn)步具有劃時(shí)代的意義。原本復(fù)雜抽象的音樂(lè)被轉(zhuǎn)換成了機(jī)器能讀懂的數(shù)據(jù),同時(shí)這種格式下數(shù)據(jù)體積也被大幅壓縮(MP3 格式下 4MB 的文檔在 MIDI 格式下只有幾百 KB)。在 MIDI 的幫助下,舞曲、電子樂(lè)、浩室音樂(lè)和打擊樂(lè)迅速異軍突起。同時(shí),MIDI 的身影還活躍在電視和電影的配樂(lè)中。
對(duì)語(yǔ)言來(lái)說(shuō),一段段的文本就是其符號(hào);而對(duì)于音樂(lè)來(lái)說(shuō),MIDI 則是其組成細(xì)胞。擅長(zhǎng) MIDI 音樂(lè)的 Jonathan Lee 表示:“MIDI 自身并不包含聲音,它只是一段段指令?!?/p>
其實(shí)一個(gè) MIDI 鏈接內(nèi)含 16 通道的數(shù)據(jù),這些數(shù)據(jù)包含有樂(lè)譜、音調(diào)、拍子、音量、顫音、音頻平移和尾白等方方面面。此外,設(shè)備還可從錄制好的聲音中檢索出所需的部分,也就是我們所說(shuō)的“聲音字體”(SoundFonts)。這種格式給了音樂(lè)家們充分的發(fā)揮空間,即使是新手也能將制作出“像模像樣”的音樂(lè)片段。比如這段 Radiohead 的 《No Surprise》。
雖然眼下數(shù)字樂(lè)器還在用著 30 年前的 5 針 MIDI 接口,但所有電腦,甚至是 Chrome 瀏覽器都能通過(guò) USB 適配器輕松地獲取數(shù)據(jù)。借助愈發(fā)強(qiáng)大的計(jì)算能力和數(shù)字采樣器,MIDI 音樂(lè)家們將自己的創(chuàng)意發(fā)揮到了極致,他們甚至還創(chuàng)作出了新的門(mén)類(lèi)——Black MIDI。
Jonathan Lee 曾以超級(jí)馬里奧的經(jīng)典音樂(lè)為基礎(chǔ)制作了自己獨(dú)有的 MIDI 版,這版神器的音樂(lè)包含有760萬(wàn)個(gè)音符,大多數(shù)電腦根本就扛不住如此巨大的數(shù)據(jù)量。不過(guò),這版音樂(lè)在 YouTube 上依然收獲了 160 萬(wàn)的點(diǎn)擊量,至于它讓多少電腦瞬間死機(jī),我們就不得而知了。點(diǎn)這里可以聽(tīng)到 Demo。
Lee 是一名來(lái)自休斯敦的 17 歲男孩,他說(shuō)自己曾經(jīng)拿爸媽的兩臺(tái)筆記本電腦試驗(yàn) Black MIDI,結(jié)果把 RAM 和 CPU 都燒壞了。他最終給買(mǎi)了個(gè)競(jìng)技級(jí)的電腦,實(shí)現(xiàn)了自己搗鼓的心愿。
Jonathan Lee 相信 Black MIDI 的出現(xiàn)會(huì)促使工程師開(kāi)發(fā)新型軟件,這樣一來(lái)電腦 RAM 的壓力就會(huì)小得多,在渲染時(shí)也就不會(huì)輕易崩潰了。
音樂(lè),深度學(xué)習(xí)的搖籃
不同于音頻錄制,MIDI 文件對(duì)于計(jì)算機(jī)科學(xué)家而言是理想的機(jī)器學(xué)習(xí)素材。這種文件小巧精致,在互聯(lián)網(wǎng)的寶庫(kù)中簡(jiǎn)單易得,并且不需要交付任何版稅,其提供的資源更是能幾乎不受限制地訓(xùn)練 AI 機(jī)器,供人類(lèi)使用。
深度學(xué)習(xí)是目前計(jì)算機(jī)訓(xùn)練的最高水平,這是一種利用人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法,其儲(chǔ)存的信息與人類(lèi)大腦和神經(jīng)系統(tǒng)所處理的信息大致類(lèi)似。在計(jì)算機(jī)視覺(jué)中,深度學(xué)習(xí)業(yè)已成為機(jī)器學(xué)習(xí)技術(shù)的標(biāo)準(zhǔn)。如果計(jì)算機(jī)知道在一個(gè)圖像中需要尋找什么樣的形狀,那么科學(xué)家們就知道該計(jì)算機(jī)如何通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。反過(guò)來(lái),你也可以在谷歌的 Deep Dream 算法中發(fā)現(xiàn)這一過(guò)程。谷歌的三位工程師 Alexander Mordvintsev, Christopher Olah 以及Mike Tyka 根據(jù)計(jì)算機(jī)系統(tǒng)能“記得”網(wǎng)上找到的其他圖像之特點(diǎn),利用公司的圖像識(shí)別軟件,以生活中的普通場(chǎng)景為原素材,創(chuàng)造出很多圖像。
Deep Dream算法將圖像識(shí)別過(guò)程反轉(zhuǎn)過(guò)來(lái),它能從其他畫(huà)面的圖案中創(chuàng)造新的圖像。
音樂(lè)算法加上MIDI 音樂(lè)以及其他輸入源也能通過(guò)類(lèi)似的過(guò)程譜寫(xiě)樂(lè)曲。
讓科學(xué)家們困擾的是,計(jì)算機(jī)是否以及如何能夠理解那些更主觀的東西,例如音樂(lè)流派、和弦,以及其中流露的情緒。不過(guò),聽(tīng)音樂(lè)能夠讓計(jì)算機(jī)達(dá)到更高層次的認(rèn)知水平。
今年七月,來(lái)自倫敦瑪麗女王大學(xué)的一個(gè)科學(xué)家團(tuán)隊(duì)報(bào)道稱(chēng),他們?cè)诮o計(jì)算機(jī)聽(tīng)過(guò)民謠、舞曲和 hip-pop 三個(gè)流派的 6600 首歌曲之后,已經(jīng)成功訓(xùn)練出了一套神經(jīng)網(wǎng)絡(luò)系統(tǒng),能以 75% 的準(zhǔn)確率識(shí)別歌曲的流派。
然后他們把計(jì)算機(jī)的神經(jīng)網(wǎng)絡(luò)拆分成不同的層面,以便觀察從巴赫(編者按:巴洛克時(shí)期音樂(lè)巨匠,為古典音樂(lè)代表作曲家)切換到艾米納姆(編者按:20 世紀(jì)白人 rap 音樂(lè)代表)時(shí),這個(gè)系統(tǒng)在每一個(gè)層面學(xué)習(xí)到了什么。研究者們發(fā)現(xiàn)計(jì)算機(jī)開(kāi)始學(xué)會(huì)了識(shí)別一些基本的音樂(lè)模型,例如打擊樂(lè),這是神經(jīng)系統(tǒng)的較低層次,還有一些更抽象的概念,例如和諧的樂(lè)章,這是神經(jīng)系統(tǒng)的最高層次。
研究者們并沒(méi)有使用 MIDI 標(biāo)示或其他類(lèi)型的音樂(lè)符號(hào),而是從 8000 首歌曲中抽取出的 8000 個(gè)原始音頻信號(hào)樣本,并注入到他們的學(xué)習(xí)算法中。這一決定或許體現(xiàn),前者在識(shí)別模擬音樂(lè)的細(xì)微差別上依然存在局限。
對(duì)于 MIDI 而言,人聲是“虛擬出來(lái)的人類(lèi)聲音,所以最后會(huì)有一點(diǎn)點(diǎn)失真,這就像當(dāng)你面對(duì)一個(gè)從德克薩斯州或明尼蘇達(dá)州來(lái)的人時(shí)可能會(huì)有一些波士頓口音,道理是一樣的?!?/p>
紐約大學(xué)音樂(lè)與音頻實(shí)驗(yàn)室的前博士后研究員 Eric Humphrey (現(xiàn)為 Spotify 的一名高級(jí)機(jī)器學(xué)習(xí)研究者)說(shuō):“ MIDI 這類(lèi)的產(chǎn)品在編排諸如和聲、節(jié)拍、結(jié)構(gòu)和模式等傳統(tǒng)的音樂(lè)元素方面具有很大的潛力。但是有趣的是, MIDI 在塑造音色和產(chǎn)出效果方面并算不上很出色?!边@也就意味著,在所有同類(lèi)產(chǎn)品之中,“MIDI 并不能很好地編碼出許多流行及現(xiàn)代音樂(lè)?!?/p>
但是谷歌并沒(méi)有糾結(jié)于什么元素會(huì)在藝術(shù)形式中丟失,而是早已開(kāi)始建立新的深度學(xué)習(xí)模型來(lái)創(chuàng)造音樂(lè)。這個(gè)夏天, Magenta 項(xiàng)目的研究者 Anna Huang 設(shè)計(jì)了一套神經(jīng)網(wǎng)絡(luò),用以在巴赫眾贊歌中寫(xiě)入新的語(yǔ)音片段(贊歌中原始的語(yǔ)音片段已由 Anna 刪除)。 Huang 和她的研究團(tuán)隊(duì)最開(kāi)始計(jì)劃,如果音樂(lè)家已經(jīng)把一首歌的開(kāi)頭和結(jié)尾寫(xiě)好,那么就使用電腦的語(yǔ)音生成技術(shù)來(lái)完成這首歌的中間部分。
但研究者們?cè)谥貜?fù)使用這個(gè)用于語(yǔ)音生成的機(jī)器學(xué)習(xí)模型時(shí),發(fā)現(xiàn)了兩個(gè)問(wèn)題。首先,音樂(lè)是繁雜多樣的,有時(shí)好幾種樂(lè)器會(huì)同時(shí)奏響,不同的聲音會(huì)同時(shí)發(fā)出。在語(yǔ)音識(shí)別中,計(jì)算機(jī)工作的本質(zhì)是在一個(gè)時(shí)間段內(nèi)僅能識(shí)別一個(gè)人說(shuō)話(huà)的模式。其次,音樂(lè)家寫(xiě)歌并一定從頭寫(xiě)到尾,他們可能在創(chuàng)作時(shí)會(huì)時(shí)不時(shí)地回去填補(bǔ)一下之前的空白。而另一方面,口語(yǔ)則需要以一定的邏輯順序來(lái)鋪成觀點(diǎn)。
為了解決第一個(gè)問(wèn)題,研究者們從圖像識(shí)別領(lǐng)域找到了方法。他們發(fā)現(xiàn)了一種機(jī)器學(xué)習(xí)模型,這種模型會(huì)教計(jì)算機(jī)重建圖像中的空白,這種方法叫做“圖像修復(fù)”(inpainting)。他們認(rèn)為如果計(jì)算機(jī)能在一個(gè)圖像中同時(shí)識(shí)別 3 個(gè) RGB 值,那么他們就可以把每個(gè)聲音在他們的新模型中想成一個(gè)獨(dú)立的 RGB 值。而為了解決第二個(gè)問(wèn)題, 他們決定寫(xiě)一個(gè)算法,讓計(jì)算機(jī)能夠隨機(jī)地生成旋律,而不是按照一定的順序生成。
團(tuán)隊(duì)成員用一些包含有女高音、男高音、女中音和男低音部分的巴赫眾贊歌曲目的 MIDI 來(lái)訓(xùn)練計(jì)算機(jī)。他們隨機(jī)地在不同樂(lè)句點(diǎn)上將歌曲剪切成片段,這樣在修正過(guò)的部分中,任意給定時(shí)間段,計(jì)算機(jī)都可以“聽(tīng)”到一種到三種聲音音色。接著,研究者們開(kāi)始測(cè)試計(jì)算機(jī)在逐漸地聽(tīng)取每種聲音后學(xué)到了什么,連續(xù)測(cè)試直到計(jì)算機(jī)將這首歌曲的所有聲音都學(xué)會(huì)。他們?yōu)橛?jì)算機(jī)設(shè)計(jì)了 28 層神經(jīng)網(wǎng)絡(luò),使其從過(guò)去產(chǎn)生的聲音中創(chuàng)造出新的聲音。最后,谷歌的科學(xué)家們終于對(duì)計(jì)算機(jī)的新作品的審美感到滿(mǎn)意。
(這里有一段谷歌 Magenta 創(chuàng)造的音樂(lè),不妨欣賞一下。小編覺(jué)得還蠻好聽(tīng)的。)
對(duì)巴赫眾贊歌的分析讓谷歌明白,計(jì)算機(jī)是可以通過(guò)學(xué)習(xí)來(lái)解決音程不和諧問(wèn)題,計(jì)算機(jī)最終是可以學(xué)習(xí)音階,學(xué)會(huì)制作更加和諧的音程關(guān)系的。
但是還有一個(gè)問(wèn)題就是,他們的模型只能數(shù)字化模擬少量真實(shí)世界的音樂(lè)風(fēng)格。一方面,他們的模型不會(huì)模仿專(zhuān)業(yè)聲樂(lè)歌手天然的音域限制,比如女高音和男低音。在特定的點(diǎn)上,計(jì)算機(jī)反映的只是一種與樂(lè)譜音高一致的聲音。研究團(tuán)隊(duì)正在將這些人類(lèi)化的特征編入機(jī)器學(xué)習(xí)模型中。
(這里又有一段谷歌 Magenta 創(chuàng)造的音樂(lè),不妨再欣賞一下。)
為了達(dá)到這個(gè)目標(biāo),必須給計(jì)算機(jī)更多的“音樂(lè)啟蒙”。除了創(chuàng)造更多有用的研究讓人工智能應(yīng)用更廣泛外,Magenta 的工程師們還對(duì)與音樂(lè)團(tuán)體的合作非常感興趣。
八月份,研究團(tuán)隊(duì)發(fā)布并更新了一款連接音樂(lè)家和谷歌開(kāi)源 AI 軟件的界面—— TensorFlow。這個(gè)新的發(fā)明允許音樂(lè)家將谷歌的人工智能模型連接到他們自己的合成器和 MIDI 控制器上,讓 AI 真正地做音樂(lè)。同時(shí),軟件開(kāi)發(fā)者們也能夠?qū)⑺麄兊娜斯ぶ悄苣P瓦B入其中,代替谷歌的模型,這樣可以為 Magenta 社區(qū)注入更多谷歌以外的新想法,產(chǎn)生更多有趣的音樂(lè)實(shí)驗(yàn)。
另外,Lee 繼續(xù)著他自己的樂(lè)隊(duì) Black MIDIs 的音樂(lè)創(chuàng)作,并將他們發(fā)布在 YouTube 上。他的 MIDI 版作曲像是在寫(xiě)一部名叫“標(biāo)注藝術(shù)”的小說(shuō),將曲線(xiàn)、字母,甚至是摩斯電碼都以其視覺(jué)感受寫(xiě)入樂(lè)譜中,還有一些則本身就非常數(shù)學(xué)化。在一個(gè)名為《π》的視頻中,包含了3141492個(gè)音符,3分14秒長(zhǎng),處處洋溢著 π 的氣息。另一個(gè)視頻則是“分形圖像”,描述了 Mandelbrot 集合的數(shù)學(xué)等式。
(點(diǎn)這里,你可以欣賞到令你眼花繚亂的 Lee 的 MIDI 曲目:π)
當(dāng)聽(tīng)到谷歌新的人工智能項(xiàng)目正在尋找 MIDI 領(lǐng)域人才時(shí),Lee 表示非常愿意參加。他打算將整個(gè) Black MIDI 社區(qū)的資料全部貢獻(xiàn)給這個(gè)新項(xiàng)目。就算這么多的 MIDI 資料無(wú)法讓計(jì)算機(jī)的作曲能力突飛猛進(jìn),它也能讓計(jì)算機(jī)至少學(xué)會(huì)一些寫(xiě)作 Black MIDI 風(fēng)格曲目的技巧。Lee 說(shuō):“我們會(huì)為這個(gè)項(xiàng)目?jī)A盡全力提供優(yōu)秀內(nèi)容。”
推薦閱讀:
AI 也有音樂(lè)細(xì)胞,流行樂(lè)古典樂(lè)都難不倒它
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。