0
本文作者: 汪思穎 | 2018-08-22 20:16 | 專題:KDD 2018 |
雷鋒網(wǎng) AI 科技評論消息,KDD 2018 于 2018 年 8 月 19 日至 23 日在英國倫敦舉行,開幕式上一系列獎(jiǎng)項(xiàng)隨之揭曉,由中國科學(xué)技術(shù)大學(xué)、微軟人工智能和研究院、蘇州大學(xué)團(tuán)隊(duì)合作的論文 XiaoIce Band: A Melody and Arrangement Generation Framework for Pop Music 獲得 Research Track 最佳學(xué)生論文。憑借此篇論文,微軟在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評論數(shù)據(jù)庫產(chǎn)品「AI 影響因子」上有相應(yīng)加分。以下是對這篇論文的詳細(xì)解讀:
介紹
在本文中,我們提出了小冰樂隊(duì),一個(gè)用于歌曲生成的端到端旋律和編曲生成框架。具體而言,我們提出基于和弦的節(jié)奏和旋律交叉生成模型(CRMCG)來生成給定和弦進(jìn)行為條件的旋律。然后我們引入多樂器聯(lián)合編曲模型(MICA)用于多軌音樂。在這里,兩個(gè)信息共享策略,注意力(Attention)單元和多層感知機(jī)(MLP)單元,旨在捕獲其他任務(wù)的有用信息。前一模型利用和弦進(jìn)行來指導(dǎo)基于音樂知識的樂段之間的音程關(guān)系。后者在不同軌道之間共享信息,以確保編曲的和諧,提高歌曲的質(zhì)量。對現(xiàn)實(shí)世界數(shù)據(jù)集的廣泛實(shí)驗(yàn)證明了我們的模型相對于單軌和多軌音樂生成的基線模型的優(yōu)勢。具體來說,我們的模型[30]創(chuàng)造了許多流行歌曲并通過了 CCTV14 的圖靈測試。本文的貢獻(xiàn)總結(jié)如下。
我們提出了一種端到端的多軌音樂生成系統(tǒng),包括旋律和編曲。
基于音樂知識,我們提出用和弦進(jìn)行來指導(dǎo)旋律和通過節(jié)奏型來學(xué)習(xí)歌曲的結(jié)構(gòu)。然后,我們使用節(jié)奏和旋律交叉生成方法進(jìn)行音樂生成。
我們在解碼器層的每一步使用其他任務(wù)狀態(tài)開發(fā)多任務(wù)聯(lián)合生成網(wǎng)絡(luò),這提高了生成質(zhì)量并確保了多軌音樂的和諧。
通過提供的大量實(shí)驗(yàn),我們的系統(tǒng)與其他模型表現(xiàn)更好的性能,人工評估也得到一致的結(jié)論。
表 1:音樂生成模型比較(G:生成,Mt:多軌,M:旋律,Cp:和弦進(jìn)行,Ar:編曲,Sa:可歌唱性)
相關(guān)工作
相關(guān)工作可以分為兩類,即音樂生成和多任務(wù)學(xué)習(xí)。
音樂生成
在過去幾十年中,音樂生成一直是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。已經(jīng)提出了各種方法。典型的數(shù)據(jù)驅(qū)動(dòng)統(tǒng)計(jì)方法通常采用 N 元文法和馬爾可夫模型[5,26,31]。此外,在[2]中使用了用于音樂生成的單元選擇方法,使用排序方法拼接音樂單元。此外,[25]也提出了類似的想法,它使用和弦來選擇旋律。但是,傳統(tǒng)方法需要大量的人力和領(lǐng)域知識。
最近,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)通過端到端方法被應(yīng)用于音樂生成,解決了上述問題。其中,約翰遜等人[17]結(jié)合一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)和一個(gè)非循環(huán)神經(jīng)網(wǎng)絡(luò)來同時(shí)表示多個(gè)音符的可能性。在[13]中提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的巴赫生成模型,該模型能夠通過使用類似吉布斯采樣過程產(chǎn)生四部合唱。與基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型相反,塞巴斯等[28]使用 VAE [19]來學(xué)習(xí)音樂作品的分布。此外,楊和莫格倫等人[24,32]采用 GAN [11]來生成音樂,將隨機(jī)噪聲視為從頭開始生成旋律的輸入。與單軌音樂不同,Chu 等人[6]使用循環(huán)神經(jīng)網(wǎng)絡(luò)來產(chǎn)生旋律以及伴奏效果,如和弦和鼓。雖然已經(jīng)對音樂創(chuàng)作進(jìn)行了廣泛的研究,但還沒有工作針對流行音樂的特性來進(jìn)行研究。對于流行音樂的產(chǎn)生,以前的作品不考慮和弦進(jìn)行和節(jié)奏型。而且,和弦進(jìn)行通常引導(dǎo)旋律生成,節(jié)奏型決定該歌曲是否適合于歌唱。此外,流行音樂也應(yīng)保留樂器特性。最后,和諧在多軌音樂中起著重要作用,但在之前的研究中并未得到很好的解決。
總之,我們將小冰樂隊(duì)與幾個(gè)相關(guān)模型進(jìn)行比較,并將結(jié)果顯示在表 1 中。
多任務(wù)學(xué)習(xí)
多任務(wù)學(xué)習(xí)通常用于共享特征的相關(guān)任務(wù),因?yàn)閺囊粋€(gè)任務(wù)中學(xué)習(xí)的特征可能對其他任務(wù)有用。在以前的工作中,多任務(wù)學(xué)習(xí)已成功應(yīng)用于機(jī)器學(xué)習(xí)的所有應(yīng)用,從自然語言處理[7,21]到計(jì)算機(jī)視覺[10,33]。
圖 2:標(biāo)有“和弦進(jìn)行”的歌曲“We Don’t Talk Anymore”的旋律
例如,張等人[34] 提出通過共享相關(guān)任務(wù)的訓(xùn)練數(shù)據(jù)來提升整體的生成效果。在[15]中,作者預(yù)先定義了由若干 NLP 任務(wù)組成的分層架構(gòu),并設(shè)計(jì)了一個(gè)簡單的正則項(xiàng)來優(yōu)化所有模型權(quán)重,以改善一項(xiàng)任務(wù)的損失,而不會(huì)在其他任務(wù)中表現(xiàn)出災(zāi)難性干擾。計(jì)算機(jī)視覺中的另一項(xiàng)工作[18]通過基于最大化具有任務(wù)依賴性不確定性的高斯可能性導(dǎo)出多任務(wù)損失函數(shù),來調(diào)整每個(gè)任務(wù)在成本函數(shù)中的相對權(quán)重。在[22,23,27]中則提出了更多應(yīng)用于深度學(xué)習(xí)的多任務(wù)學(xué)習(xí)工作。
問題描述與模型結(jié)構(gòu)
由于每個(gè)流行音樂都有特定的和弦進(jìn)行,我們考慮在給定和弦進(jìn)行條件下生成流行音樂的場景。因此,音樂生成任務(wù)的輸入是給定的和弦進(jìn)行
注意,Ci 是和弦的向量表示,lc 是序列的長度。我們的目標(biāo)是生成合適的節(jié)奏
和旋律
為此,我們提出 CRMCG 用于單軌音樂,以及 MICA 用于多軌音樂來解決這個(gè)問題。
圖 4 顯示了小冰樂隊(duì)的整體框架,它可以分為四個(gè)部分:1)數(shù)據(jù)處理部分;2)用于旋律生成的 CRMCG 部分(單軌);3)用于編曲生成的MICA 部分(多軌道);4)顯示部分。
圖 4:小冰樂隊(duì)的流程圖概述
表 2:框架中使用的符號
實(shí)驗(yàn)
為了研究 CRMCG 和 MICA 的有效性,我們對收集的數(shù)據(jù)集進(jìn)行了兩個(gè)任務(wù)的實(shí)驗(yàn):旋律生成和編曲生成。
數(shù)據(jù)描述
在本文中,我們在真實(shí)世界數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集由超過五萬個(gè) MIDI(數(shù)字分?jǐn)?shù)格式)文件組成,并且為了避免偏差,那些不完整的 MIDI 文件,例如沒有聲道的音樂都被刪除。最后,我們的數(shù)據(jù)集中保存了 14077個(gè) MIDI 文件。具體來說,每個(gè) MIDI 文件包含各種類型的音軌,如旋律,鼓,貝司和弦樂。
為了保證實(shí)驗(yàn)結(jié)果的可靠性,我們對數(shù)據(jù)集進(jìn)行了如下預(yù)處理。首先,我們將所有 MIDI 文件轉(zhuǎn)換為 C 大調(diào)或 A 小調(diào),以保持所有音樂在同一曲調(diào)上。然后我們將所有音樂的 BPM(每分鐘節(jié)拍)設(shè)置為 60,這確保所有音符都是整數(shù)節(jié)拍。最后,我們將每 2 個(gè)小節(jié)并為一個(gè)樂段。表 3 總結(jié)了修剪數(shù)據(jù)集的一些基本統(tǒng)計(jì)數(shù)據(jù)。
表 3:數(shù)據(jù)集描述
訓(xùn)練細(xì)節(jié)
我們從數(shù)據(jù)集中隨機(jī)選擇 9855 個(gè)實(shí)例作為訓(xùn)練數(shù)據(jù),另外 2815 個(gè)用于調(diào)整參數(shù),最后 1407 個(gè)作為測試數(shù)據(jù)來驗(yàn)證性能以及更多生成的音樂。在我們的模型中,對于編碼器和解碼器中的每個(gè) GRU 層,循環(huán)隱藏單元的數(shù)量設(shè)置為 256。用于計(jì)算注意力單元和 MLP 單元中的隱藏向量的參數(shù)的維度被設(shè)置為 256。使用隨機(jī)梯度下降[1]算法更新模型,其中批量大小設(shè)置為 64,并且根據(jù)驗(yàn)證集上的交叉熵?fù)p失選擇最終模型。
旋律生成
在本小節(jié)中,我們進(jìn)行旋律生成任務(wù)以驗(yàn)證我們的 CRMCG 模型的性能。 也就是說,我們僅使用從原始 MIDI 音樂中提取的旋律軌跡來訓(xùn)練模型并評估旋律軌跡生成結(jié)果的美學(xué)質(zhì)量。
基線方法
由于音樂生成任務(wù)通??梢员灰暈樾蛄猩蓡栴},我們選擇兩個(gè)最先進(jìn)的模型作為基線生成序列:
馬真塔(RNN) 基于 RNN 的模型[3],旨在模擬具有表現(xiàn)力時(shí)間和動(dòng)態(tài)的復(fù)音音樂。
GANMidi(GAN) 一種新穎的基于對抗網(wǎng)絡(luò)(GAN)的模型[32],它使用條件機(jī)制來開發(fā)音樂的多種先驗(yàn)知識。
除了提出的 CRMCG 模型,我們還評估了模型的兩個(gè)變體,以驗(yàn)證和弦進(jìn)行和交叉訓(xùn)練方法對旋律生成的重要性:
CRMCG(完整版) 提出的模型,用和弦信息交叉產(chǎn)生旋律和節(jié)奏。
CRMCG(有/無和弦進(jìn)行) 基于 CRMCG(完整),和弦信息被刪除。
CRMCG(有/無交叉訓(xùn)練) 基于 CRMCG(完整),我們在訓(xùn)練過程中分別根據(jù) Lm 和 Lr 訓(xùn)練旋律和節(jié)奏型。
整體表現(xiàn)
考慮到音樂生成的獨(dú)特性,沒有合適的量化度量來評估旋律生成結(jié)果。因此,我們驗(yàn)證了基于人類研究的模型的性能。根據(jù)[29]中的一些觀點(diǎn)概念,我們使用列出的指標(biāo):
表 4:人類對旋律生成的評估
韻律:音樂聽起來流暢而適當(dāng)暫停嗎?
旋律:音樂識別關(guān)系是否自然而和諧?
完整:音樂結(jié)構(gòu)是否完整而不是突然中斷?
可唱性:音樂適合用歌詞唱歌嗎?
我們邀請了 8 名音樂欣賞專家志愿者來評估各種方法的結(jié)果。志愿者根據(jù)上述評估指標(biāo)對每個(gè)生成的音樂進(jìn)行評分,評分為 1 到 5。表 4 顯示了性能。根據(jù)結(jié)果,我們發(fā)現(xiàn) CRMCG 模型在所有指標(biāo)上都優(yōu)于所有基線, 顯著提高了我們的 CRMCG 模型對旋律生成的有效性。特別是,CRMCG(完整)比 CRMCG(有/無和弦)表現(xiàn)更好,它可以驗(yàn)證和弦信息,提高旋律的質(zhì)量。此外,我們還發(fā)現(xiàn)交叉訓(xùn)練平均可以提高 6.9% 的質(zhì)量, 這證明了我們的交叉訓(xùn)練算法對旋律生成的有效性。
同時(shí),我們發(fā)現(xiàn)基于 RNN 的基線優(yōu)于基于 GAN 的模型,該模型使用卷積神經(jīng)網(wǎng)絡(luò)來生成旋律。這種現(xiàn)象表明基于 RNN 的模型更適合于旋律生成,這就是我們設(shè)計(jì)基于 RNN 的 CRMCG 的原因。
編曲生成
在本小節(jié)中,我們進(jìn)行多軌音樂生成以驗(yàn)證我們的 MICA 模型的性能。在這里,我們選擇多軌音樂生成中的五個(gè)最重要的任務(wù),即旋律,鼓,貝斯,弦樂和吉他。
基線方法
為了驗(yàn)證我們的兩個(gè) MICA 模型的性能,選擇相關(guān)模型 HRNN[6]作為基線方法。具體來說,我們將比較方法設(shè)置如下:
HRNN: 基于分層 RNN 的模型[6],用于生成多軌音樂。特別是,它使用低層結(jié)構(gòu)來生成旋律,使用更高層級的結(jié)構(gòu)產(chǎn)生不同樂器的軌道。
MICA 使用注意單元:提出的模型,使用注意單元在不同軌道之間共享信息。
MICA 使用 MLP 單元:提出的模型,使用 MLP 單元在不同軌道之間共享信息。
整體性能
與旋律生成任務(wù)不同,我們要求志愿者從整體上評估所生成音樂的質(zhì)量。
表 5:人類對編曲生成的評估
性能如表 5 所示。根據(jù)結(jié)果,我們發(fā)現(xiàn),我們的 MICA模型在單軌和多軌上的性能優(yōu)于當(dāng)前方法 HRNN,這意味著 MICA 在多軌音樂生成任務(wù)上有顯著改進(jìn)。特別地,我們發(fā)現(xiàn)多軌道具有更高的分?jǐn)?shù), 這表明多軌道音樂聽起來比單軌音樂更好并且證實(shí)了編曲的重要性。同時(shí),我們觀察到鼓的軌道與其他單軌道相比性能最差,這是因?yàn)楣牡能壍纼H在一段多軌道音樂中起輔助作用。此外,我們基于 MLP 單元的 MICA 模型比基于注意單元的 MICA 模型表現(xiàn)更好,似乎我們的 MLP 單元機(jī)制可以更好地利用多個(gè)軌道之間的信息。
結(jié)論
在本文中,我們提出了一種基于音樂知識的旋律和編曲生成框架,稱為小冰樂隊(duì),它生成了同時(shí)伴隨的幾種樂器的旋律。對于旋律生成,我們設(shè)計(jì)了基于和弦的節(jié)奏和旋律交叉生成模型(CRMCG),其利用和弦進(jìn)行來指導(dǎo)旋律進(jìn)行,以及通過節(jié)奏型來學(xué)習(xí)歌曲的結(jié)構(gòu)。對于編曲生成,在多任務(wù)學(xué)習(xí)的推動(dòng)下,我們提出了一種用于多音軌音樂編曲的多樂器聯(lián)合編曲模型(MICA),它在解碼器層的每一步使用其他任務(wù)狀態(tài)來提高整個(gè)的性能并確保多軌音樂的和諧。通過大量實(shí)驗(yàn),無論是會(huì)自動(dòng)指標(biāo)還是人工評估,我們的系統(tǒng)與其他模型相比均表現(xiàn)出更好的性能,并且我們已經(jīng)完成了圖靈測試并取得了良好的效果。此外,我們在互聯(lián)網(wǎng)上制作了流行音樂示例,展示了我們模型的應(yīng)用價(jià)值。
References
[1] Le?on Bottou. 2010. Large-scale machine learning with stochastic gradient descent. In Proceedings of COMPSTAT’2010. Springer, 177–186.
[2] Mason Bretan, Gil Weinberg, and Larry Heck. 2016. A Unit Selection Methodology for Music Generation Using Deep Neural Networks. arXiv preprint arXiv:1612.03789 (2016).
[3] PietroCasellaandAnaPaiva.2001.Magenta:Anarchitectureforrealtimeautomatic composition of background music. In International Workshop on Intelligent Virtual Agents. Springer, 224–232.
[4] Kyunghyun Cho, Bart Van Merrie?nboer, Dzmitry Bahdanau, and Yoshua Bengio. 2014. On the properties of neural machine translation: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259 (2014).
[5] Parag Chordia, Avinash Sastry, and Sertan S?entu?rk. 2011. Predictive tabla modelling using variable-length markov and hidden markov models. Journal of New Music Research 40, 2 (2011), 105–118.
[6] Hang Chu, Raquel Urtasun, and Sanja Fidler. 2016. Song from pi: A musically plausible network for pop music generation. arXiv preprint arXiv:1611.03477(2016).
[7] Ronan Collobert and Jason Weston. 2008. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of the 25th international conference on Machine learning. ACM, 160–167.
[8] Darrell Conklin. 2003. Music generation from statistical models. In Proceedings of the AISB 2003 Symposium on Artificial Intelligence and Creativity in the Arts and Sciences. Citeseer, 30–35.
[9] Daxiang Dong, Hua Wu, Wei He, Dianhai Yu, and Haifeng Wang. 2015. Multi-Task Learning for Multiple Language Translation.. In ACL (1). 1723–1732.
[10] RossGirshick.2015.Fastr-cnn.InProceedingsoftheIEEEinternationalconference on computer vision. 1440–1448.
[11] Ian Goodfellow, Jean Pouget Abadie, Mehdi Mirza, Bing Xu, David Warde Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014. Generative adversarial nets. In Advances in neural information processing systems. 2672–2680.
[12] Alex Graves, Abdel-rahman Mohamed, and Geoffrey Hinton. 2013. Speech recognition with deep recurrent neural networks. In Acoustics, speech and signal processing (icassp), 2013 ieee international conference on. IEEE, 6645–6649.
[13] Gae?tan Hadjeres and Franc?ois Pachet. 2016. DeepBach: a Steerable Model for Bach chorales generation. arXiv preprint arXiv:1612.01010 (2016).
[14] ChristopherHarte,MarkSandler,andMartinGasser.2006.Detectingharmonic change in musical audio. In Proceedings of the 1st ACM workshop on Audio and music computing multimedia. ACM, 21–26.
[15] Kazuma Hashimoto, Caiming Xiong, Yoshimasa Tsuruoka, and Richard Socher. 2016. A joint many-task model: Growing a neural network for multiple NLP tasks. arXiv preprint arXiv:1611.01587 (2016).
[16] Nanzhu Jiang, Peter Grosche, Verena Konz, and Meinard Mu?ller. 2011. Analyzing chroma feature types for automated chord recognition. In Audio Engineering Society Conference: 42nd International Conference: Semantic Audio. Audio Engineering Society.
[17] Daniel Johnson.2015.Composing music with recurrent neural networks.(2015).
[18] Alex Kendall, Yarin Gal, and Roberto Cipolla. 2017. Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics. arXiv preprint arXiv:1705.07115 (2017).
[19] Diederik P Kingma and Max Welling. 2013. Auto-encoding variational bayes.
arXiv preprint arXiv:1312.6114 (2013).
[20] Vladimir I Levenshtein. 1966. Binary codes capable of correcting deletions, insertions, and reversals. In Soviet physics doklady, Vol. 10. 707–710.
[21] Pengfei Liu, Xipeng Qiu, and Xuanjing Huang. 2016. Recurrent neural network for text classification with multi-task learning. arXiv preprint arXiv:1605.05101(2016).
[22] Mingsheng Long and Jianmin Wang. 2015. Learning multiple tasks with deep relationship networks. arXiv preprint arXiv:1506.02117 (2015).
[23] Ishan Misra, Abhinav Shrivastava, Abhinav Gupta, and Martial Hebert. 2016. Cross-stitch networks for multi-task learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 3994–4003.
[24] Olof Mogren. 2016. C-RNN-GAN: Continuous recurrent neural networks with adversarial training. arXiv preprint arXiv:1611.09904 (2016).
[25] Franc?ois Pachet, Sony CSL Paris, Alexandre Papadopoulos, and Pierre Roy. 2017. Sampling variations of sequences for structured music generation. In Proceedings of the 18th International Society for Music Information Retrieval Conference (ISMIR’2017), Suzhou, China. 167–173.
[26] Franc?ois Pachet and Pierre Roy. 2011. Markov constraints: steerable generation of Markov sequences. Constraints 16, 2 (2011), 148–172.
[27] Sebastian Ruder, Joachim Bingel, Isabelle Augenstein, and Anders S?gaard. 2017. Sluice networks: Learning what to share between loosely related tasks. arXiv preprint arXiv:1705.08142 (2017).
[28] Romain Sabathe?, Eduardo Coutinho, and Bjo?rn Schuller. 2017. Deep recurrent music writer: Memory-enhanced variational autoencoder-based musical score composition and an objective measure. In Neural Networks (IJCNN), 2017 International Joint Conference on. IEEE, 3467–3474.
[29] Paul Schmeling. 2011. Berklee Music Theory. Berklee Press.
[30] Heung-Yeung Shum, Xiaodong He, and Di Li. 2018. From Eliza to XiaoIce: Challenges and Opportunities with Social Chatbots. arXiv preprint arXiv:1801.01957(2018).
[31] Andries Van Der Merwe and Walter Schulze. 2011. Music generation with Markov models. IEEE MultiMedia 18, 3 (2011), 78–85.
[32] Li-Chia Yang, Szu-Yu Chou, and Yi-Hsuan Yang. 2017. MidiNet: A convolutional generative adversarial network for symbolic-domain music generation. In Proceedings of the 18th International Society for Music Information Retrieval Conference (ISMIR’2017), Suzhou, China.
[33] Xiaofan Zhang, Feng Zhou, Yuanqing Lin, and Shaoting Zhang. 2016. Embed- ding label structures for fine-grained feature representation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 1114–1123.
[34] Yu Zhang and Qiang Yang. 2017. A survey on multi-task learning. arXiv preprint arXiv:1707.08114 (2017).
論文地址:https://dl.acm.org/authorize.cfm?key=N665888
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章