4
本文作者: 奕欣 | 2016-10-13 10:14 |
編者按:訓練電腦來幫助音樂家們創(chuàng)作,這聽起來似乎有點偷懶。然而事實并非如此,相反,來自谷歌及多個實驗室的科學家們要付出更多的心力,才能用音樂“調教”計算機編寫出美妙的樂章。
此曲只應機器有,人間能得幾回聞?本文源自 Fast Company,作者 Tina Amirtha,由老呂IO、環(huán)子及何忞編譯,未經(jīng)授權不得轉載。
今年 5 月份,谷歌大牛 Douglas Eck 離開硅谷的辦公室遠赴位于北卡羅來納州的大煙山國家公園(Smoky Mountains),在這里他與許多音樂、藝術和科技人才共同度過了一年一度的 Moogfest 音樂節(jié)。在每天 High 到爆的同時,Eck 也沒忘了自己的本職工作,他給自己在聚會上認識的音樂界大牛們講述了自己的新想法——訓練電腦來幫助音樂家們制作音樂,比如做個和聲、寫個間奏或者編個副歌部分等。未來,機器還將學成出師,創(chuàng)作屬于自己的音樂。
此前,Eck 從未參與過 Moogfest 音樂節(jié),這個從穆格電子琴中脫胎出來的音樂節(jié)一直是電子樂迷的最愛。這次,Rck 的任務就是在音樂節(jié)上完成自己教電腦玩音樂的任務。在這幾天中,他和他的同事將用MIDI(樂器數(shù)字化接口)格式為電腦灌輸大量數(shù)據(jù)。
這里有一段 MIDI 版本的 Billie Jean,可以欣賞一下。
其實研究人員利用 AI 做音樂的實驗多年前就開始了,最近,索尼位于法國的計算機科學實驗室就公布了世界上第一首 AI 制作的流行音樂。此前,它們的 AI 平臺 FlowMachines 還曾利用 MIDI 打造過多首爵士和古典音樂。Eck 在音樂節(jié)上的現(xiàn)身則預示著谷歌研究項目 Magenta 的正式起航,未來它不但要學會玩音樂,還會成為跨界藝術大師。
點這里,可以聽一聽 FlowMachines 算法編寫的歌曲《Daddy's Car》。
研究人員表示,讓電腦聽音樂并學習制作音樂非常有用,因為這兩個動作都能提升智能系統(tǒng)的認知水平。就像電腦從學會簡單閱讀文本到理解對話,未來它們也能玩轉音符并自主制作自己的音樂。
“對文本的學習能讓我們掌握大量知識,電腦也一樣,MIDI 是它們的圖書館。隨著音樂創(chuàng)作悟性的提高,電腦在交流和認知上的水平也會得到大幅提升?!盓ck 說道。
MIDI :從拖后腿到電腦繆斯
上世紀 70-80 年代,電子合成器風靡一時,因此工程師們也開始實驗,他們想讓電子樂器學會互相交流。最終,Dave Smith 和 Ikutaro Kakehashi 開發(fā)出了 MIDI(樂器數(shù)字化接口)。1983年,MIDI 正式成為音樂產(chǎn)業(yè)的技術標準。
不過,MIDI 能有今天也與兩位工程師當年的大度密不可分,他們將該專利免費奉獻給了全世界?!艾F(xiàn)在來看,當年的決定還真是明智之舉,”Smith 說道?!拔覀兿肴硇耐度朐摷夹g的開發(fā),因此決定不再對希望使用該技術的公司收費?!?/p>
不久之后,個人電腦就能讀取并存儲 MIDI 文檔了,這一進步具有劃時代的意義。原本復雜抽象的音樂被轉換成了機器能讀懂的數(shù)據(jù),同時這種格式下數(shù)據(jù)體積也被大幅壓縮(MP3 格式下 4MB 的文檔在 MIDI 格式下只有幾百 KB)。在 MIDI 的幫助下,舞曲、電子樂、浩室音樂和打擊樂迅速異軍突起。同時,MIDI 的身影還活躍在電視和電影的配樂中。
對語言來說,一段段的文本就是其符號;而對于音樂來說,MIDI 則是其組成細胞。擅長 MIDI 音樂的 Jonathan Lee 表示:“MIDI 自身并不包含聲音,它只是一段段指令?!?/p>
其實一個 MIDI 鏈接內含 16 通道的數(shù)據(jù),這些數(shù)據(jù)包含有樂譜、音調、拍子、音量、顫音、音頻平移和尾白等方方面面。此外,設備還可從錄制好的聲音中檢索出所需的部分,也就是我們所說的“聲音字體”(SoundFonts)。這種格式給了音樂家們充分的發(fā)揮空間,即使是新手也能將制作出“像模像樣”的音樂片段。比如這段 Radiohead 的 《No Surprise》。
雖然眼下數(shù)字樂器還在用著 30 年前的 5 針 MIDI 接口,但所有電腦,甚至是 Chrome 瀏覽器都能通過 USB 適配器輕松地獲取數(shù)據(jù)。借助愈發(fā)強大的計算能力和數(shù)字采樣器,MIDI 音樂家們將自己的創(chuàng)意發(fā)揮到了極致,他們甚至還創(chuàng)作出了新的門類——Black MIDI。
Jonathan Lee 曾以超級馬里奧的經(jīng)典音樂為基礎制作了自己獨有的 MIDI 版,這版神器的音樂包含有760萬個音符,大多數(shù)電腦根本就扛不住如此巨大的數(shù)據(jù)量。不過,這版音樂在 YouTube 上依然收獲了 160 萬的點擊量,至于它讓多少電腦瞬間死機,我們就不得而知了。點這里可以聽到 Demo。
Lee 是一名來自休斯敦的 17 歲男孩,他說自己曾經(jīng)拿爸媽的兩臺筆記本電腦試驗 Black MIDI,結果把 RAM 和 CPU 都燒壞了。他最終給買了個競技級的電腦,實現(xiàn)了自己搗鼓的心愿。
Jonathan Lee 相信 Black MIDI 的出現(xiàn)會促使工程師開發(fā)新型軟件,這樣一來電腦 RAM 的壓力就會小得多,在渲染時也就不會輕易崩潰了。
音樂,深度學習的搖籃
不同于音頻錄制,MIDI 文件對于計算機科學家而言是理想的機器學習素材。這種文件小巧精致,在互聯(lián)網(wǎng)的寶庫中簡單易得,并且不需要交付任何版稅,其提供的資源更是能幾乎不受限制地訓練 AI 機器,供人類使用。
深度學習是目前計算機訓練的最高水平,這是一種利用人工神經(jīng)網(wǎng)絡學習的方法,其儲存的信息與人類大腦和神經(jīng)系統(tǒng)所處理的信息大致類似。在計算機視覺中,深度學習業(yè)已成為機器學習技術的標準。如果計算機知道在一個圖像中需要尋找什么樣的形狀,那么科學家們就知道該計算機如何通過神經(jīng)網(wǎng)絡進行學習。反過來,你也可以在谷歌的 Deep Dream 算法中發(fā)現(xiàn)這一過程。谷歌的三位工程師 Alexander Mordvintsev, Christopher Olah 以及Mike Tyka 根據(jù)計算機系統(tǒng)能“記得”網(wǎng)上找到的其他圖像之特點,利用公司的圖像識別軟件,以生活中的普通場景為原素材,創(chuàng)造出很多圖像。
Deep Dream算法將圖像識別過程反轉過來,它能從其他畫面的圖案中創(chuàng)造新的圖像。
音樂算法加上MIDI 音樂以及其他輸入源也能通過類似的過程譜寫樂曲。
讓科學家們困擾的是,計算機是否以及如何能夠理解那些更主觀的東西,例如音樂流派、和弦,以及其中流露的情緒。不過,聽音樂能夠讓計算機達到更高層次的認知水平。
今年七月,來自倫敦瑪麗女王大學的一個科學家團隊報道稱,他們在給計算機聽過民謠、舞曲和 hip-pop 三個流派的 6600 首歌曲之后,已經(jīng)成功訓練出了一套神經(jīng)網(wǎng)絡系統(tǒng),能以 75% 的準確率識別歌曲的流派。
然后他們把計算機的神經(jīng)網(wǎng)絡拆分成不同的層面,以便觀察從巴赫(編者按:巴洛克時期音樂巨匠,為古典音樂代表作曲家)切換到艾米納姆(編者按:20 世紀白人 rap 音樂代表)時,這個系統(tǒng)在每一個層面學習到了什么。研究者們發(fā)現(xiàn)計算機開始學會了識別一些基本的音樂模型,例如打擊樂,這是神經(jīng)系統(tǒng)的較低層次,還有一些更抽象的概念,例如和諧的樂章,這是神經(jīng)系統(tǒng)的最高層次。
研究者們并沒有使用 MIDI 標示或其他類型的音樂符號,而是從 8000 首歌曲中抽取出的 8000 個原始音頻信號樣本,并注入到他們的學習算法中。這一決定或許體現(xiàn),前者在識別模擬音樂的細微差別上依然存在局限。
對于 MIDI 而言,人聲是“虛擬出來的人類聲音,所以最后會有一點點失真,這就像當你面對一個從德克薩斯州或明尼蘇達州來的人時可能會有一些波士頓口音,道理是一樣的?!?/p>
紐約大學音樂與音頻實驗室的前博士后研究員 Eric Humphrey (現(xiàn)為 Spotify 的一名高級機器學習研究者)說:“ MIDI 這類的產(chǎn)品在編排諸如和聲、節(jié)拍、結構和模式等傳統(tǒng)的音樂元素方面具有很大的潛力。但是有趣的是, MIDI 在塑造音色和產(chǎn)出效果方面并算不上很出色?!边@也就意味著,在所有同類產(chǎn)品之中,“MIDI 并不能很好地編碼出許多流行及現(xiàn)代音樂?!?/p>
但是谷歌并沒有糾結于什么元素會在藝術形式中丟失,而是早已開始建立新的深度學習模型來創(chuàng)造音樂。這個夏天, Magenta 項目的研究者 Anna Huang 設計了一套神經(jīng)網(wǎng)絡,用以在巴赫眾贊歌中寫入新的語音片段(贊歌中原始的語音片段已由 Anna 刪除)。 Huang 和她的研究團隊最開始計劃,如果音樂家已經(jīng)把一首歌的開頭和結尾寫好,那么就使用電腦的語音生成技術來完成這首歌的中間部分。
但研究者們在重復使用這個用于語音生成的機器學習模型時,發(fā)現(xiàn)了兩個問題。首先,音樂是繁雜多樣的,有時好幾種樂器會同時奏響,不同的聲音會同時發(fā)出。在語音識別中,計算機工作的本質是在一個時間段內僅能識別一個人說話的模式。其次,音樂家寫歌并一定從頭寫到尾,他們可能在創(chuàng)作時會時不時地回去填補一下之前的空白。而另一方面,口語則需要以一定的邏輯順序來鋪成觀點。
為了解決第一個問題,研究者們從圖像識別領域找到了方法。他們發(fā)現(xiàn)了一種機器學習模型,這種模型會教計算機重建圖像中的空白,這種方法叫做“圖像修復”(inpainting)。他們認為如果計算機能在一個圖像中同時識別 3 個 RGB 值,那么他們就可以把每個聲音在他們的新模型中想成一個獨立的 RGB 值。而為了解決第二個問題, 他們決定寫一個算法,讓計算機能夠隨機地生成旋律,而不是按照一定的順序生成。
團隊成員用一些包含有女高音、男高音、女中音和男低音部分的巴赫眾贊歌曲目的 MIDI 來訓練計算機。他們隨機地在不同樂句點上將歌曲剪切成片段,這樣在修正過的部分中,任意給定時間段,計算機都可以“聽”到一種到三種聲音音色。接著,研究者們開始測試計算機在逐漸地聽取每種聲音后學到了什么,連續(xù)測試直到計算機將這首歌曲的所有聲音都學會。他們?yōu)橛嬎銠C設計了 28 層神經(jīng)網(wǎng)絡,使其從過去產(chǎn)生的聲音中創(chuàng)造出新的聲音。最后,谷歌的科學家們終于對計算機的新作品的審美感到滿意。
(這里有一段谷歌 Magenta 創(chuàng)造的音樂,不妨欣賞一下。小編覺得還蠻好聽的。)
對巴赫眾贊歌的分析讓谷歌明白,計算機是可以通過學習來解決音程不和諧問題,計算機最終是可以學習音階,學會制作更加和諧的音程關系的。
但是還有一個問題就是,他們的模型只能數(shù)字化模擬少量真實世界的音樂風格。一方面,他們的模型不會模仿專業(yè)聲樂歌手天然的音域限制,比如女高音和男低音。在特定的點上,計算機反映的只是一種與樂譜音高一致的聲音。研究團隊正在將這些人類化的特征編入機器學習模型中。
(這里又有一段谷歌 Magenta 創(chuàng)造的音樂,不妨再欣賞一下。)
為了達到這個目標,必須給計算機更多的“音樂啟蒙”。除了創(chuàng)造更多有用的研究讓人工智能應用更廣泛外,Magenta 的工程師們還對與音樂團體的合作非常感興趣。
八月份,研究團隊發(fā)布并更新了一款連接音樂家和谷歌開源 AI 軟件的界面—— TensorFlow。這個新的發(fā)明允許音樂家將谷歌的人工智能模型連接到他們自己的合成器和 MIDI 控制器上,讓 AI 真正地做音樂。同時,軟件開發(fā)者們也能夠將他們的人工智能模型連入其中,代替谷歌的模型,這樣可以為 Magenta 社區(qū)注入更多谷歌以外的新想法,產(chǎn)生更多有趣的音樂實驗。
另外,Lee 繼續(xù)著他自己的樂隊 Black MIDIs 的音樂創(chuàng)作,并將他們發(fā)布在 YouTube 上。他的 MIDI 版作曲像是在寫一部名叫“標注藝術”的小說,將曲線、字母,甚至是摩斯電碼都以其視覺感受寫入樂譜中,還有一些則本身就非常數(shù)學化。在一個名為《π》的視頻中,包含了3141492個音符,3分14秒長,處處洋溢著 π 的氣息。另一個視頻則是“分形圖像”,描述了 Mandelbrot 集合的數(shù)學等式。
(點這里,你可以欣賞到令你眼花繚亂的 Lee 的 MIDI 曲目:π)
當聽到谷歌新的人工智能項目正在尋找 MIDI 領域人才時,Lee 表示非常愿意參加。他打算將整個 Black MIDI 社區(qū)的資料全部貢獻給這個新項目。就算這么多的 MIDI 資料無法讓計算機的作曲能力突飛猛進,它也能讓計算機至少學會一些寫作 Black MIDI 風格曲目的技巧。Lee 說:“我們會為這個項目傾盡全力提供優(yōu)秀內容。”
推薦閱讀:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。