深度 | 計(jì)算機(jī)如何從樂(lè)盲到作曲家？建 28 層神經(jīng)網(wǎng)絡(luò)，聽(tīng) 8000 個(gè) MIDI 樂(lè)章

本文作者：奕欣

2016-10-13 10:14

導(dǎo)語(yǔ)：讓電腦聽(tīng)音樂(lè)并學(xué)習(xí)制作音樂(lè)非常有用，因?yàn)檫@兩個(gè)動(dòng)作都能提升智能系統(tǒng)的認(rèn)知水平。就像電腦從學(xué)會(huì)簡(jiǎn)單閱讀文本到理解對(duì)話(huà)，未來(lái)它們也能玩轉(zhuǎn)音符并自主制作自己的音樂(lè)。

blackbettyblog

編者按：訓(xùn)練電腦來(lái)幫助音樂(lè)家們創(chuàng)作，這聽(tīng)起來(lái)似乎有點(diǎn)偷懶。然而事實(shí)并非如此，相反，來(lái)自谷歌及多個(gè)實(shí)驗(yàn)室的科學(xué)家們要付出更多的心力，才能用音樂(lè)“調(diào)教”計(jì)算機(jī)編寫(xiě)出美妙的樂(lè)章。

此曲只應(yīng)機(jī)器有，人間能得幾回聞？本文源自 Fast Company，作者 Tina Amirtha，由老呂IO、環(huán)子及何忞編譯，未經(jīng)授權(quán)不得轉(zhuǎn)載。

今年 5 月份，谷歌大牛 Douglas Eck 離開(kāi)硅谷的辦公室遠(yuǎn)赴位于北卡羅來(lái)納州的大煙山國(guó)家公園（Smoky Mountains），在這里他與許多音樂(lè)、藝術(shù)和科技人才共同度過(guò)了一年一度的 Moogfest 音樂(lè)節(jié)。在每天 High 到爆的同時(shí)，Eck 也沒(méi)忘了自己的本職工作，他給自己在聚會(huì)上認(rèn)識(shí)的音樂(lè)界大牛們講述了自己的新想法——訓(xùn)練電腦來(lái)幫助音樂(lè)家們制作音樂(lè)，比如做個(gè)和聲、寫(xiě)個(gè)間奏或者編個(gè)副歌部分等。未來(lái)，機(jī)器還將學(xué)成出師，創(chuàng)作屬于自己的音樂(lè)。

此前，Eck 從未參與過(guò) Moogfest 音樂(lè)節(jié)，這個(gè)從穆格電子琴中脫胎出來(lái)的音樂(lè)節(jié)一直是電子樂(lè)迷的最?lèi)?ài)。這次，Rck 的任務(wù)就是在音樂(lè)節(jié)上完成自己教電腦玩音樂(lè)的任務(wù)。在這幾天中，他和他的同事將用MIDI（樂(lè)器數(shù)字化接口）格式為電腦灌輸大量數(shù)據(jù)。

這里有一段 MIDI 版本的 Billie Jean，可以欣賞一下。

其實(shí)研究人員利用 AI 做音樂(lè)的實(shí)驗(yàn)多年前就開(kāi)始了，最近，索尼位于法國(guó)的計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室就公布了世界上第一首 AI 制作的流行音樂(lè)。此前，它們的 AI 平臺(tái) FlowMachines 還曾利用 MIDI 打造過(guò)多首爵士和古典音樂(lè)。Eck 在音樂(lè)節(jié)上的現(xiàn)身則預(yù)示著谷歌研究項(xiàng)目 Magenta 的正式起航，未來(lái)它不但要學(xué)會(huì)玩音樂(lè)，還會(huì)成為跨界藝術(shù)大師。

點(diǎn)這里，可以聽(tīng)一聽(tīng) FlowMachines 算法編寫(xiě)的歌曲《Daddy's Car》。

研究人員表示，讓電腦聽(tīng)音樂(lè)并學(xué)習(xí)制作音樂(lè)非常有用，因?yàn)檫@兩個(gè)動(dòng)作都能提升智能系統(tǒng)的認(rèn)知水平。就像電腦從學(xué)會(huì)簡(jiǎn)單閱讀文本到理解對(duì)話(huà)，未來(lái)它們也能玩轉(zhuǎn)音符并自主制作自己的音樂(lè)。

“對(duì)文本的學(xué)習(xí)能讓我們掌握大量知識(shí)，電腦也一樣，MIDI 是它們的圖書(shū)館。隨著音樂(lè)創(chuàng)作悟性的提高，電腦在交流和認(rèn)知上的水平也會(huì)得到大幅提升?！盓ck 說(shuō)道。

MIDI ：從拖后腿到電腦繆斯

上世紀(jì) 70-80 年代，電子合成器風(fēng)靡一時(shí)，因此工程師們也開(kāi)始實(shí)驗(yàn)，他們想讓電子樂(lè)器學(xué)會(huì)互相交流。最終，Dave Smith 和 Ikutaro Kakehashi 開(kāi)發(fā)出了 MIDI（樂(lè)器數(shù)字化接口）。1983年，MIDI 正式成為音樂(lè)產(chǎn)業(yè)的技術(shù)標(biāo)準(zhǔn)。

不過(guò)，MIDI 能有今天也與兩位工程師當(dāng)年的大度密不可分，他們將該專(zhuān)利免費(fèi)奉獻(xiàn)給了全世界?！艾F(xiàn)在來(lái)看，當(dāng)年的決定還真是明智之舉，”Smith 說(shuō)道。“我們想全身心投入該技術(shù)的開(kāi)發(fā)，因此決定不再對(duì)希望使用該技術(shù)的公司收費(fèi)?！?/p>

不久之后，個(gè)人電腦就能讀取并存儲(chǔ) MIDI 文檔了，這一進(jìn)步具有劃時(shí)代的意義。原本復(fù)雜抽象的音樂(lè)被轉(zhuǎn)換成了機(jī)器能讀懂的數(shù)據(jù)，同時(shí)這種格式下數(shù)據(jù)體積也被大幅壓縮（MP3 格式下 4MB 的文檔在 MIDI 格式下只有幾百 KB）。在 MIDI 的幫助下，舞曲、電子樂(lè)、浩室音樂(lè)和打擊樂(lè)迅速異軍突起。同時(shí)，MIDI 的身影還活躍在電視和電影的配樂(lè)中。

對(duì)語(yǔ)言來(lái)說(shuō)，一段段的文本就是其符號(hào)；而對(duì)于音樂(lè)來(lái)說(shuō)，MIDI 則是其組成細(xì)胞。擅長(zhǎng) MIDI 音樂(lè)的 Jonathan Lee 表示：“MIDI 自身并不包含聲音，它只是一段段指令?！?/p>

其實(shí)一個(gè) MIDI 鏈接內(nèi)含 16 通道的數(shù)據(jù)，這些數(shù)據(jù)包含有樂(lè)譜、音調(diào)、拍子、音量、顫音、音頻平移和尾白等方方面面。此外，設(shè)備還可從錄制好的聲音中檢索出所需的部分，也就是我們所說(shuō)的“聲音字體”（SoundFonts）。這種格式給了音樂(lè)家們充分的發(fā)揮空間，即使是新手也能將制作出“像模像樣”的音樂(lè)片段。比如這段 Radiohead 的《No Surprise》。

雖然眼下數(shù)字樂(lè)器還在用著 30 年前的 5 針 MIDI 接口，但所有電腦，甚至是 Chrome 瀏覽器都能通過(guò) USB 適配器輕松地獲取數(shù)據(jù)。借助愈發(fā)強(qiáng)大的計(jì)算能力和數(shù)字采樣器，MIDI 音樂(lè)家們將自己的創(chuàng)意發(fā)揮到了極致，他們甚至還創(chuàng)作出了新的門(mén)類(lèi)——Black MIDI。

Jonathan Lee 曾以超級(jí)馬里奧的經(jīng)典音樂(lè)為基礎(chǔ)制作了自己獨(dú)有的 MIDI 版，這版神器的音樂(lè)包含有760萬(wàn)個(gè)音符，大多數(shù)電腦根本就扛不住如此巨大的數(shù)據(jù)量。不過(guò)，這版音樂(lè)在 YouTube 上依然收獲了 160 萬(wàn)的點(diǎn)擊量，至于它讓多少電腦瞬間死機(jī)，我們就不得而知了。點(diǎn)這里可以聽(tīng)到 Demo。

深度 | 計(jì)算機(jī)如何從樂(lè)盲到作曲家？建 28 層神經(jīng)網(wǎng)絡(luò)，聽(tīng) 8000 個(gè) MIDI 樂(lè)章

Lee 是一名來(lái)自休斯敦的 17 歲男孩，他說(shuō)自己曾經(jīng)拿爸媽的兩臺(tái)筆記本電腦試驗(yàn) Black MIDI，結(jié)果把 RAM 和 CPU 都燒壞了。他最終給買(mǎi)了個(gè)競(jìng)技級(jí)的電腦，實(shí)現(xiàn)了自己搗鼓的心愿。

Jonathan Lee 相信 Black MIDI 的出現(xiàn)會(huì)促使工程師開(kāi)發(fā)新型軟件，這樣一來(lái)電腦 RAM 的壓力就會(huì)小得多，在渲染時(shí)也就不會(huì)輕易崩潰了。

音樂(lè)，深度學(xué)習(xí)的搖籃

不同于音頻錄制，MIDI 文件對(duì)于計(jì)算機(jī)科學(xué)家而言是理想的機(jī)器學(xué)習(xí)素材。這種文件小巧精致，在互聯(lián)網(wǎng)的寶庫(kù)中簡(jiǎn)單易得，并且不需要交付任何版稅，其提供的資源更是能幾乎不受限制地訓(xùn)練 AI 機(jī)器，供人類(lèi)使用。

深度學(xué)習(xí)是目前計(jì)算機(jī)訓(xùn)練的最高水平，這是一種利用人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法，其儲(chǔ)存的信息與人類(lèi)大腦和神經(jīng)系統(tǒng)所處理的信息大致類(lèi)似。在計(jì)算機(jī)視覺(jué)中，深度學(xué)習(xí)業(yè)已成為機(jī)器學(xué)習(xí)技術(shù)的標(biāo)準(zhǔn)。如果計(jì)算機(jī)知道在一個(gè)圖像中需要尋找什么樣的形狀，那么科學(xué)家們就知道該計(jì)算機(jī)如何通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。反過(guò)來(lái)，你也可以在谷歌的 Deep Dream 算法中發(fā)現(xiàn)這一過(guò)程。谷歌的三位工程師 Alexander Mordvintsev, Christopher Olah 以及Mike Tyka 根據(jù)計(jì)算機(jī)系統(tǒng)能“記得”網(wǎng)上找到的其他圖像之特點(diǎn)，利用公司的圖像識(shí)別軟件，以生活中的普通場(chǎng)景為原素材，創(chuàng)造出很多圖像。

深度 | 計(jì)算機(jī)如何從樂(lè)盲到作曲家？建 28 層神經(jīng)網(wǎng)絡(luò)，聽(tīng) 8000 個(gè) MIDI 樂(lè)章

Deep Dream算法將圖像識(shí)別過(guò)程反轉(zhuǎn)過(guò)來(lái)，它能從其他畫(huà)面的圖案中創(chuàng)造新的圖像。

音樂(lè)算法加上MIDI 音樂(lè)以及其他輸入源也能通過(guò)類(lèi)似的過(guò)程譜寫(xiě)樂(lè)曲。

讓科學(xué)家們困擾的是，計(jì)算機(jī)是否以及如何能夠理解那些更主觀的東西，例如音樂(lè)流派、和弦，以及其中流露的情緒。不過(guò)，聽(tīng)音樂(lè)能夠讓計(jì)算機(jī)達(dá)到更高層次的認(rèn)知水平。

今年七月，來(lái)自倫敦瑪麗女王大學(xué)的一個(gè)科學(xué)家團(tuán)隊(duì)報(bào)道稱(chēng)，他們?cè)诮o計(jì)算機(jī)聽(tīng)過(guò)民謠、舞曲和 hip-pop 三個(gè)流派的 6600 首歌曲之后，已經(jīng)成功訓(xùn)練出了一套神經(jīng)網(wǎng)絡(luò)系統(tǒng)，能以 75% 的準(zhǔn)確率識(shí)別歌曲的流派。

然后他們把計(jì)算機(jī)的神經(jīng)網(wǎng)絡(luò)拆分成不同的層面，以便觀察從巴赫（編者按：巴洛克時(shí)期音樂(lè)巨匠，為古典音樂(lè)代表作曲家）切換到艾米納姆（編者按：20 世紀(jì)白人 rap 音樂(lè)代表）時(shí)，這個(gè)系統(tǒng)在每一個(gè)層面學(xué)習(xí)到了什么。研究者們發(fā)現(xiàn)計(jì)算機(jī)開(kāi)始學(xué)會(huì)了識(shí)別一些基本的音樂(lè)模型，例如打擊樂(lè)，這是神經(jīng)系統(tǒng)的較低層次，還有一些更抽象的概念，例如和諧的樂(lè)章，這是神經(jīng)系統(tǒng)的最高層次。

研究者們并沒(méi)有使用 MIDI 標(biāo)示或其他類(lèi)型的音樂(lè)符號(hào)，而是從 8000 首歌曲中抽取出的 8000 個(gè)原始音頻信號(hào)樣本，并注入到他們的學(xué)習(xí)算法中。這一決定或許體現(xiàn)，前者在識(shí)別模擬音樂(lè)的細(xì)微差別上依然存在局限。

對(duì)于 MIDI 而言，人聲是“虛擬出來(lái)的人類(lèi)聲音，所以最后會(huì)有一點(diǎn)點(diǎn)失真，這就像當(dāng)你面對(duì)一個(gè)從德克薩斯州或明尼蘇達(dá)州來(lái)的人時(shí)可能會(huì)有一些波士頓口音，道理是一樣的?！?/p>

紐約大學(xué)音樂(lè)與音頻實(shí)驗(yàn)室的前博士后研究員 Eric Humphrey （現(xiàn)為 Spotify 的一名高級(jí)機(jī)器學(xué)習(xí)研究者）說(shuō)：“ MIDI 這類(lèi)的產(chǎn)品在編排諸如和聲、節(jié)拍、結(jié)構(gòu)和模式等傳統(tǒng)的音樂(lè)元素方面具有很大的潛力。但是有趣的是， MIDI 在塑造音色和產(chǎn)出效果方面并算不上很出色?！边@也就意味著，在所有同類(lèi)產(chǎn)品之中，“MIDI 并不能很好地編碼出許多流行及現(xiàn)代音樂(lè)?！?/p>

但是谷歌并沒(méi)有糾結(jié)于什么元素會(huì)在藝術(shù)形式中丟失，而是早已開(kāi)始建立新的深度學(xué)習(xí)模型來(lái)創(chuàng)造音樂(lè)。這個(gè)夏天， Magenta 項(xiàng)目的研究者 Anna Huang 設(shè)計(jì)了一套神經(jīng)網(wǎng)絡(luò)，用以在巴赫眾贊歌中寫(xiě)入新的語(yǔ)音片段（贊歌中原始的語(yǔ)音片段已由 Anna 刪除）。 Huang 和她的研究團(tuán)隊(duì)最開(kāi)始計(jì)劃，如果音樂(lè)家已經(jīng)把一首歌的開(kāi)頭和結(jié)尾寫(xiě)好，那么就使用電腦的語(yǔ)音生成技術(shù)來(lái)完成這首歌的中間部分。

但研究者們?cè)谥貜?fù)使用這個(gè)用于語(yǔ)音生成的機(jī)器學(xué)習(xí)模型時(shí)，發(fā)現(xiàn)了兩個(gè)問(wèn)題。首先，音樂(lè)是繁雜多樣的，有時(shí)好幾種樂(lè)器會(huì)同時(shí)奏響，不同的聲音會(huì)同時(shí)發(fā)出。在語(yǔ)音識(shí)別中，計(jì)算機(jī)工作的本質(zhì)是在一個(gè)時(shí)間段內(nèi)僅能識(shí)別一個(gè)人說(shuō)話(huà)的模式。其次，音樂(lè)家寫(xiě)歌并一定從頭寫(xiě)到尾，他們可能在創(chuàng)作時(shí)會(huì)時(shí)不時(shí)地回去填補(bǔ)一下之前的空白。而另一方面，口語(yǔ)則需要以一定的邏輯順序來(lái)鋪成觀點(diǎn)。

為了解決第一個(gè)問(wèn)題，研究者們從圖像識(shí)別領(lǐng)域找到了方法。他們發(fā)現(xiàn)了一種機(jī)器學(xué)習(xí)模型，這種模型會(huì)教計(jì)算機(jī)重建圖像中的空白，這種方法叫做“圖像修復(fù)”（inpainting）。他們認(rèn)為如果計(jì)算機(jī)能在一個(gè)圖像中同時(shí)識(shí)別 3 個(gè) RGB 值，那么他們就可以把每個(gè)聲音在他們的新模型中想成一個(gè)獨(dú)立的 RGB 值。而為了解決第二個(gè)問(wèn)題，他們決定寫(xiě)一個(gè)算法，讓計(jì)算機(jī)能夠隨機(jī)地生成旋律，而不是按照一定的順序生成。

團(tuán)隊(duì)成員用一些包含有女高音、男高音、女中音和男低音部分的巴赫眾贊歌曲目的 MIDI 來(lái)訓(xùn)練計(jì)算機(jī)。他們隨機(jī)地在不同樂(lè)句點(diǎn)上將歌曲剪切成片段，這樣在修正過(guò)的部分中，任意給定時(shí)間段，計(jì)算機(jī)都可以“聽(tīng)”到一種到三種聲音音色。接著，研究者們開(kāi)始測(cè)試計(jì)算機(jī)在逐漸地聽(tīng)取每種聲音后學(xué)到了什么，連續(xù)測(cè)試直到計(jì)算機(jī)將這首歌曲的所有聲音都學(xué)會(huì)。他們?yōu)橛?jì)算機(jī)設(shè)計(jì)了 28 層神經(jīng)網(wǎng)絡(luò)，使其從過(guò)去產(chǎn)生的聲音中創(chuàng)造出新的聲音。最后，谷歌的科學(xué)家們終于對(duì)計(jì)算機(jī)的新作品的審美感到滿(mǎn)意。

（這里有一段谷歌 Magenta 創(chuàng)造的音樂(lè)，不妨欣賞一下。小編覺(jué)得還蠻好聽(tīng)的。）

對(duì)巴赫眾贊歌的分析讓谷歌明白，計(jì)算機(jī)是可以通過(guò)學(xué)習(xí)來(lái)解決音程不和諧問(wèn)題，計(jì)算機(jī)最終是可以學(xué)習(xí)音階，學(xué)會(huì)制作更加和諧的音程關(guān)系的。

但是還有一個(gè)問(wèn)題就是，他們的模型只能數(shù)字化模擬少量真實(shí)世界的音樂(lè)風(fēng)格。一方面，他們的模型不會(huì)模仿專(zhuān)業(yè)聲樂(lè)歌手天然的音域限制，比如女高音和男低音。在特定的點(diǎn)上，計(jì)算機(jī)反映的只是一種與樂(lè)譜音高一致的聲音。研究團(tuán)隊(duì)正在將這些人類(lèi)化的特征編入機(jī)器學(xué)習(xí)模型中。

（這里又有一段谷歌 Magenta 創(chuàng)造的音樂(lè)，不妨再欣賞一下。）

為了達(dá)到這個(gè)目標(biāo)，必須給計(jì)算機(jī)更多的“音樂(lè)啟蒙”。除了創(chuàng)造更多有用的研究讓人工智能應(yīng)用更廣泛外，Magenta 的工程師們還對(duì)與音樂(lè)團(tuán)體的合作非常感興趣。

八月份，研究團(tuán)隊(duì)發(fā)布并更新了一款連接音樂(lè)家和谷歌開(kāi)源 AI 軟件的界面—— TensorFlow。這個(gè)新的發(fā)明允許音樂(lè)家將谷歌的人工智能模型連接到他們自己的合成器和 MIDI 控制器上，讓 AI 真正地做音樂(lè)。同時(shí)，軟件開(kāi)發(fā)者們也能夠?qū)⑺麄兊娜斯ぶ悄苣Ｐ瓦B入其中，代替谷歌的模型，這樣可以為 Magenta 社區(qū)注入更多谷歌以外的新想法，產(chǎn)生更多有趣的音樂(lè)實(shí)驗(yàn)。

另外，Lee 繼續(xù)著他自己的樂(lè)隊(duì) Black MIDIs 的音樂(lè)創(chuàng)作，并將他們發(fā)布在 YouTube 上。他的 MIDI 版作曲像是在寫(xiě)一部名叫“標(biāo)注藝術(shù)”的小說(shuō)，將曲線(xiàn)、字母，甚至是摩斯電碼都以其視覺(jué)感受寫(xiě)入樂(lè)譜中，還有一些則本身就非常數(shù)學(xué)化。在一個(gè)名為《π》的視頻中，包含了3141492個(gè)音符，3分14秒長(zhǎng)，處處洋溢著 π 的氣息。另一個(gè)視頻則是“分形圖像”，描述了 Mandelbrot 集合的數(shù)學(xué)等式。

深度 | 計(jì)算機(jī)如何從樂(lè)盲到作曲家？建 28 層神經(jīng)網(wǎng)絡(luò)，聽(tīng) 8000 個(gè) MIDI 樂(lè)章

（點(diǎn)這里，你可以欣賞到令你眼花繚亂的 Lee 的 MIDI 曲目：π）

當(dāng)聽(tīng)到谷歌新的人工智能項(xiàng)目正在尋找 MIDI 領(lǐng)域人才時(shí)，Lee 表示非常愿意參加。他打算將整個(gè) Black MIDI 社區(qū)的資料全部貢獻(xiàn)給這個(gè)新項(xiàng)目。就算這么多的 MIDI 資料無(wú)法讓計(jì)算機(jī)的作曲能力突飛猛進(jìn)，它也能讓計(jì)算機(jī)至少學(xué)會(huì)一些寫(xiě)作 Black MIDI 風(fēng)格曲目的技巧。Lee 說(shuō)：“我們會(huì)為這個(gè)項(xiàng)目?jī)A盡全力提供優(yōu)秀內(nèi)容。”

深度 | 計(jì)算機(jī)如何從樂(lè)盲到作曲家？建 28 層神經(jīng)網(wǎng)絡(luò)，聽(tīng) 8000 個(gè) MIDI 樂(lè)章

深度 | 計(jì)算機(jī)如何從樂(lè)盲到作曲家？建 28 層神經(jīng)網(wǎng)絡(luò)，聽(tīng) 8000 個(gè) MIDI 樂(lè)章