4
本文作者: 奕欣 | 2016-10-13 10:14 |
編者按:訓(xùn)練電腦來幫助音樂家們創(chuàng)作,這聽起來似乎有點(diǎn)偷懶。然而事實(shí)并非如此,相反,來自谷歌及多個(gè)實(shí)驗(yàn)室的科學(xué)家們要付出更多的心力,才能用音樂“調(diào)教”計(jì)算機(jī)編寫出美妙的樂章。
此曲只應(yīng)機(jī)器有,人間能得幾回聞?本文源自 Fast Company,作者 Tina Amirtha,由老呂IO、環(huán)子及何忞編譯,未經(jīng)授權(quán)不得轉(zhuǎn)載。
今年 5 月份,谷歌大牛 Douglas Eck 離開硅谷的辦公室遠(yuǎn)赴位于北卡羅來納州的大煙山國家公園(Smoky Mountains),在這里他與許多音樂、藝術(shù)和科技人才共同度過了一年一度的 Moogfest 音樂節(jié)。在每天 High 到爆的同時(shí),Eck 也沒忘了自己的本職工作,他給自己在聚會(huì)上認(rèn)識(shí)的音樂界大牛們講述了自己的新想法——訓(xùn)練電腦來幫助音樂家們制作音樂,比如做個(gè)和聲、寫個(gè)間奏或者編個(gè)副歌部分等。未來,機(jī)器還將學(xué)成出師,創(chuàng)作屬于自己的音樂。
此前,Eck 從未參與過 Moogfest 音樂節(jié),這個(gè)從穆格電子琴中脫胎出來的音樂節(jié)一直是電子樂迷的最愛。這次,Rck 的任務(wù)就是在音樂節(jié)上完成自己教電腦玩音樂的任務(wù)。在這幾天中,他和他的同事將用MIDI(樂器數(shù)字化接口)格式為電腦灌輸大量數(shù)據(jù)。
這里有一段 MIDI 版本的 Billie Jean,可以欣賞一下。
其實(shí)研究人員利用 AI 做音樂的實(shí)驗(yàn)多年前就開始了,最近,索尼位于法國的計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室就公布了世界上第一首 AI 制作的流行音樂。此前,它們的 AI 平臺(tái) FlowMachines 還曾利用 MIDI 打造過多首爵士和古典音樂。Eck 在音樂節(jié)上的現(xiàn)身則預(yù)示著谷歌研究項(xiàng)目 Magenta 的正式起航,未來它不但要學(xué)會(huì)玩音樂,還會(huì)成為跨界藝術(shù)大師。
點(diǎn)這里,可以聽一聽 FlowMachines 算法編寫的歌曲《Daddy's Car》。
研究人員表示,讓電腦聽音樂并學(xué)習(xí)制作音樂非常有用,因?yàn)檫@兩個(gè)動(dòng)作都能提升智能系統(tǒng)的認(rèn)知水平。就像電腦從學(xué)會(huì)簡單閱讀文本到理解對(duì)話,未來它們也能玩轉(zhuǎn)音符并自主制作自己的音樂。
“對(duì)文本的學(xué)習(xí)能讓我們掌握大量知識(shí),電腦也一樣,MIDI 是它們的圖書館。隨著音樂創(chuàng)作悟性的提高,電腦在交流和認(rèn)知上的水平也會(huì)得到大幅提升?!盓ck 說道。
MIDI :從拖后腿到電腦繆斯
上世紀(jì) 70-80 年代,電子合成器風(fēng)靡一時(shí),因此工程師們也開始實(shí)驗(yàn),他們想讓電子樂器學(xué)會(huì)互相交流。最終,Dave Smith 和 Ikutaro Kakehashi 開發(fā)出了 MIDI(樂器數(shù)字化接口)。1983年,MIDI 正式成為音樂產(chǎn)業(yè)的技術(shù)標(biāo)準(zhǔn)。
不過,MIDI 能有今天也與兩位工程師當(dāng)年的大度密不可分,他們將該專利免費(fèi)奉獻(xiàn)給了全世界?!艾F(xiàn)在來看,當(dāng)年的決定還真是明智之舉,”Smith 說道?!拔覀兿肴硇耐度朐摷夹g(shù)的開發(fā),因此決定不再對(duì)希望使用該技術(shù)的公司收費(fèi)?!?/p>
不久之后,個(gè)人電腦就能讀取并存儲(chǔ) MIDI 文檔了,這一進(jìn)步具有劃時(shí)代的意義。原本復(fù)雜抽象的音樂被轉(zhuǎn)換成了機(jī)器能讀懂的數(shù)據(jù),同時(shí)這種格式下數(shù)據(jù)體積也被大幅壓縮(MP3 格式下 4MB 的文檔在 MIDI 格式下只有幾百 KB)。在 MIDI 的幫助下,舞曲、電子樂、浩室音樂和打擊樂迅速異軍突起。同時(shí),MIDI 的身影還活躍在電視和電影的配樂中。
對(duì)語言來說,一段段的文本就是其符號(hào);而對(duì)于音樂來說,MIDI 則是其組成細(xì)胞。擅長 MIDI 音樂的 Jonathan Lee 表示:“MIDI 自身并不包含聲音,它只是一段段指令?!?/p>
其實(shí)一個(gè) MIDI 鏈接內(nèi)含 16 通道的數(shù)據(jù),這些數(shù)據(jù)包含有樂譜、音調(diào)、拍子、音量、顫音、音頻平移和尾白等方方面面。此外,設(shè)備還可從錄制好的聲音中檢索出所需的部分,也就是我們所說的“聲音字體”(SoundFonts)。這種格式給了音樂家們充分的發(fā)揮空間,即使是新手也能將制作出“像模像樣”的音樂片段。比如這段 Radiohead 的 《No Surprise》。
雖然眼下數(shù)字樂器還在用著 30 年前的 5 針 MIDI 接口,但所有電腦,甚至是 Chrome 瀏覽器都能通過 USB 適配器輕松地獲取數(shù)據(jù)。借助愈發(fā)強(qiáng)大的計(jì)算能力和數(shù)字采樣器,MIDI 音樂家們將自己的創(chuàng)意發(fā)揮到了極致,他們甚至還創(chuàng)作出了新的門類——Black MIDI。
Jonathan Lee 曾以超級(jí)馬里奧的經(jīng)典音樂為基礎(chǔ)制作了自己獨(dú)有的 MIDI 版,這版神器的音樂包含有760萬個(gè)音符,大多數(shù)電腦根本就扛不住如此巨大的數(shù)據(jù)量。不過,這版音樂在 YouTube 上依然收獲了 160 萬的點(diǎn)擊量,至于它讓多少電腦瞬間死機(jī),我們就不得而知了。點(diǎn)這里可以聽到 Demo。
Lee 是一名來自休斯敦的 17 歲男孩,他說自己曾經(jīng)拿爸媽的兩臺(tái)筆記本電腦試驗(yàn) Black MIDI,結(jié)果把 RAM 和 CPU 都燒壞了。他最終給買了個(gè)競技級(jí)的電腦,實(shí)現(xiàn)了自己搗鼓的心愿。
Jonathan Lee 相信 Black MIDI 的出現(xiàn)會(huì)促使工程師開發(fā)新型軟件,這樣一來電腦 RAM 的壓力就會(huì)小得多,在渲染時(shí)也就不會(huì)輕易崩潰了。
音樂,深度學(xué)習(xí)的搖籃
不同于音頻錄制,MIDI 文件對(duì)于計(jì)算機(jī)科學(xué)家而言是理想的機(jī)器學(xué)習(xí)素材。這種文件小巧精致,在互聯(lián)網(wǎng)的寶庫中簡單易得,并且不需要交付任何版稅,其提供的資源更是能幾乎不受限制地訓(xùn)練 AI 機(jī)器,供人類使用。
深度學(xué)習(xí)是目前計(jì)算機(jī)訓(xùn)練的最高水平,這是一種利用人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法,其儲(chǔ)存的信息與人類大腦和神經(jīng)系統(tǒng)所處理的信息大致類似。在計(jì)算機(jī)視覺中,深度學(xué)習(xí)業(yè)已成為機(jī)器學(xué)習(xí)技術(shù)的標(biāo)準(zhǔn)。如果計(jì)算機(jī)知道在一個(gè)圖像中需要尋找什么樣的形狀,那么科學(xué)家們就知道該計(jì)算機(jī)如何通過神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。反過來,你也可以在谷歌的 Deep Dream 算法中發(fā)現(xiàn)這一過程。谷歌的三位工程師 Alexander Mordvintsev, Christopher Olah 以及Mike Tyka 根據(jù)計(jì)算機(jī)系統(tǒng)能“記得”網(wǎng)上找到的其他圖像之特點(diǎn),利用公司的圖像識(shí)別軟件,以生活中的普通場景為原素材,創(chuàng)造出很多圖像。
Deep Dream算法將圖像識(shí)別過程反轉(zhuǎn)過來,它能從其他畫面的圖案中創(chuàng)造新的圖像。
音樂算法加上MIDI 音樂以及其他輸入源也能通過類似的過程譜寫樂曲。
讓科學(xué)家們困擾的是,計(jì)算機(jī)是否以及如何能夠理解那些更主觀的東西,例如音樂流派、和弦,以及其中流露的情緒。不過,聽音樂能夠讓計(jì)算機(jī)達(dá)到更高層次的認(rèn)知水平。
今年七月,來自倫敦瑪麗女王大學(xué)的一個(gè)科學(xué)家團(tuán)隊(duì)報(bào)道稱,他們?cè)诮o計(jì)算機(jī)聽過民謠、舞曲和 hip-pop 三個(gè)流派的 6600 首歌曲之后,已經(jīng)成功訓(xùn)練出了一套神經(jīng)網(wǎng)絡(luò)系統(tǒng),能以 75% 的準(zhǔn)確率識(shí)別歌曲的流派。
然后他們把計(jì)算機(jī)的神經(jīng)網(wǎng)絡(luò)拆分成不同的層面,以便觀察從巴赫(編者按:巴洛克時(shí)期音樂巨匠,為古典音樂代表作曲家)切換到艾米納姆(編者按:20 世紀(jì)白人 rap 音樂代表)時(shí),這個(gè)系統(tǒng)在每一個(gè)層面學(xué)習(xí)到了什么。研究者們發(fā)現(xiàn)計(jì)算機(jī)開始學(xué)會(huì)了識(shí)別一些基本的音樂模型,例如打擊樂,這是神經(jīng)系統(tǒng)的較低層次,還有一些更抽象的概念,例如和諧的樂章,這是神經(jīng)系統(tǒng)的最高層次。
研究者們并沒有使用 MIDI 標(biāo)示或其他類型的音樂符號(hào),而是從 8000 首歌曲中抽取出的 8000 個(gè)原始音頻信號(hào)樣本,并注入到他們的學(xué)習(xí)算法中。這一決定或許體現(xiàn),前者在識(shí)別模擬音樂的細(xì)微差別上依然存在局限。
對(duì)于 MIDI 而言,人聲是“虛擬出來的人類聲音,所以最后會(huì)有一點(diǎn)點(diǎn)失真,這就像當(dāng)你面對(duì)一個(gè)從德克薩斯州或明尼蘇達(dá)州來的人時(shí)可能會(huì)有一些波士頓口音,道理是一樣的?!?/p>
紐約大學(xué)音樂與音頻實(shí)驗(yàn)室的前博士后研究員 Eric Humphrey (現(xiàn)為 Spotify 的一名高級(jí)機(jī)器學(xué)習(xí)研究者)說:“ MIDI 這類的產(chǎn)品在編排諸如和聲、節(jié)拍、結(jié)構(gòu)和模式等傳統(tǒng)的音樂元素方面具有很大的潛力。但是有趣的是, MIDI 在塑造音色和產(chǎn)出效果方面并算不上很出色?!边@也就意味著,在所有同類產(chǎn)品之中,“MIDI 并不能很好地編碼出許多流行及現(xiàn)代音樂?!?/p>
但是谷歌并沒有糾結(jié)于什么元素會(huì)在藝術(shù)形式中丟失,而是早已開始建立新的深度學(xué)習(xí)模型來創(chuàng)造音樂。這個(gè)夏天, Magenta 項(xiàng)目的研究者 Anna Huang 設(shè)計(jì)了一套神經(jīng)網(wǎng)絡(luò),用以在巴赫眾贊歌中寫入新的語音片段(贊歌中原始的語音片段已由 Anna 刪除)。 Huang 和她的研究團(tuán)隊(duì)最開始計(jì)劃,如果音樂家已經(jīng)把一首歌的開頭和結(jié)尾寫好,那么就使用電腦的語音生成技術(shù)來完成這首歌的中間部分。
但研究者們?cè)谥貜?fù)使用這個(gè)用于語音生成的機(jī)器學(xué)習(xí)模型時(shí),發(fā)現(xiàn)了兩個(gè)問題。首先,音樂是繁雜多樣的,有時(shí)好幾種樂器會(huì)同時(shí)奏響,不同的聲音會(huì)同時(shí)發(fā)出。在語音識(shí)別中,計(jì)算機(jī)工作的本質(zhì)是在一個(gè)時(shí)間段內(nèi)僅能識(shí)別一個(gè)人說話的模式。其次,音樂家寫歌并一定從頭寫到尾,他們可能在創(chuàng)作時(shí)會(huì)時(shí)不時(shí)地回去填補(bǔ)一下之前的空白。而另一方面,口語則需要以一定的邏輯順序來鋪成觀點(diǎn)。
為了解決第一個(gè)問題,研究者們從圖像識(shí)別領(lǐng)域找到了方法。他們發(fā)現(xiàn)了一種機(jī)器學(xué)習(xí)模型,這種模型會(huì)教計(jì)算機(jī)重建圖像中的空白,這種方法叫做“圖像修復(fù)”(inpainting)。他們認(rèn)為如果計(jì)算機(jī)能在一個(gè)圖像中同時(shí)識(shí)別 3 個(gè) RGB 值,那么他們就可以把每個(gè)聲音在他們的新模型中想成一個(gè)獨(dú)立的 RGB 值。而為了解決第二個(gè)問題, 他們決定寫一個(gè)算法,讓計(jì)算機(jī)能夠隨機(jī)地生成旋律,而不是按照一定的順序生成。
團(tuán)隊(duì)成員用一些包含有女高音、男高音、女中音和男低音部分的巴赫眾贊歌曲目的 MIDI 來訓(xùn)練計(jì)算機(jī)。他們隨機(jī)地在不同樂句點(diǎn)上將歌曲剪切成片段,這樣在修正過的部分中,任意給定時(shí)間段,計(jì)算機(jī)都可以“聽”到一種到三種聲音音色。接著,研究者們開始測試計(jì)算機(jī)在逐漸地聽取每種聲音后學(xué)到了什么,連續(xù)測試直到計(jì)算機(jī)將這首歌曲的所有聲音都學(xué)會(huì)。他們?yōu)橛?jì)算機(jī)設(shè)計(jì)了 28 層神經(jīng)網(wǎng)絡(luò),使其從過去產(chǎn)生的聲音中創(chuàng)造出新的聲音。最后,谷歌的科學(xué)家們終于對(duì)計(jì)算機(jī)的新作品的審美感到滿意。
(這里有一段谷歌 Magenta 創(chuàng)造的音樂,不妨欣賞一下。小編覺得還蠻好聽的。)
對(duì)巴赫眾贊歌的分析讓谷歌明白,計(jì)算機(jī)是可以通過學(xué)習(xí)來解決音程不和諧問題,計(jì)算機(jī)最終是可以學(xué)習(xí)音階,學(xué)會(huì)制作更加和諧的音程關(guān)系的。
但是還有一個(gè)問題就是,他們的模型只能數(shù)字化模擬少量真實(shí)世界的音樂風(fēng)格。一方面,他們的模型不會(huì)模仿專業(yè)聲樂歌手天然的音域限制,比如女高音和男低音。在特定的點(diǎn)上,計(jì)算機(jī)反映的只是一種與樂譜音高一致的聲音。研究團(tuán)隊(duì)正在將這些人類化的特征編入機(jī)器學(xué)習(xí)模型中。
(這里又有一段谷歌 Magenta 創(chuàng)造的音樂,不妨再欣賞一下。)
為了達(dá)到這個(gè)目標(biāo),必須給計(jì)算機(jī)更多的“音樂啟蒙”。除了創(chuàng)造更多有用的研究讓人工智能應(yīng)用更廣泛外,Magenta 的工程師們還對(duì)與音樂團(tuán)體的合作非常感興趣。
八月份,研究團(tuán)隊(duì)發(fā)布并更新了一款連接音樂家和谷歌開源 AI 軟件的界面—— TensorFlow。這個(gè)新的發(fā)明允許音樂家將谷歌的人工智能模型連接到他們自己的合成器和 MIDI 控制器上,讓 AI 真正地做音樂。同時(shí),軟件開發(fā)者們也能夠?qū)⑺麄兊娜斯ぶ悄苣P瓦B入其中,代替谷歌的模型,這樣可以為 Magenta 社區(qū)注入更多谷歌以外的新想法,產(chǎn)生更多有趣的音樂實(shí)驗(yàn)。
另外,Lee 繼續(xù)著他自己的樂隊(duì) Black MIDIs 的音樂創(chuàng)作,并將他們發(fā)布在 YouTube 上。他的 MIDI 版作曲像是在寫一部名叫“標(biāo)注藝術(shù)”的小說,將曲線、字母,甚至是摩斯電碼都以其視覺感受寫入樂譜中,還有一些則本身就非常數(shù)學(xué)化。在一個(gè)名為《π》的視頻中,包含了3141492個(gè)音符,3分14秒長,處處洋溢著 π 的氣息。另一個(gè)視頻則是“分形圖像”,描述了 Mandelbrot 集合的數(shù)學(xué)等式。
(點(diǎn)這里,你可以欣賞到令你眼花繚亂的 Lee 的 MIDI 曲目:π)
當(dāng)聽到谷歌新的人工智能項(xiàng)目正在尋找 MIDI 領(lǐng)域人才時(shí),Lee 表示非常愿意參加。他打算將整個(gè) Black MIDI 社區(qū)的資料全部貢獻(xiàn)給這個(gè)新項(xiàng)目。就算這么多的 MIDI 資料無法讓計(jì)算機(jī)的作曲能力突飛猛進(jìn),它也能讓計(jì)算機(jī)至少學(xué)會(huì)一些寫作 Black MIDI 風(fēng)格曲目的技巧。Lee 說:“我們會(huì)為這個(gè)項(xiàng)目傾盡全力提供優(yōu)秀內(nèi)容?!?/p>
推薦閱讀:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。