KDD 2018 Research Track 最佳學生論文詳解：流行音樂的旋律與編曲生成

本文作者：汪思穎

2018-08-22 20:16

專題：KDD 2018

導語：提出基于和弦的節(jié)奏和旋律交叉生成模型(CRMCG)來生成給定和弦進行為條件的旋律，然后引入多樂器聯(lián)合編曲模型(MICA)用于多軌音樂。

微軟

+10

AI影響因子

論文

名稱：KDD

時間：2018

企業(yè)：微軟

雷鋒網(wǎng) AI 科技評論消息，KDD 2018 于 2018 年 8 月 19 日至 23 日在英國倫敦舉行，開幕式上一系列獎項隨之揭曉，由中國科學技術大學、微軟人工智能和研究院、蘇州大學團隊合作的論文 XiaoIce Band: A Melody and Arrangement Generation Framework for Pop Music 獲得 Research Track 最佳學生論文。憑借此篇論文，微軟在雷鋒網(wǎng)旗下學術頻道 AI 科技評論數(shù)據(jù)庫產(chǎn)品「AI 影響因子」上有相應加分。以下是對這篇論文的詳細解讀：

介紹

在本文中，我們提出了小冰樂隊，一個用于歌曲生成的端到端旋律和編曲生成框架。具體而言，我們提出基于和弦的節(jié)奏和旋律交叉生成模型（CRMCG）來生成給定和弦進行為條件的旋律。然后我們引入多樂器聯(lián)合編曲模型（MICA）用于多軌音樂。在這里，兩個信息共享策略，注意力（Attention）單元和多層感知機（MLP）單元，旨在捕獲其他任務的有用信息。前一模型利用和弦進行來指導基于音樂知識的樂段之間的音程關系。后者在不同軌道之間共享信息，以確保編曲的和諧，提高歌曲的質量。對現(xiàn)實世界數(shù)據(jù)集的廣泛實驗證明了我們的模型相對于單軌和多軌音樂生成的基線模型的優(yōu)勢。具體來說，我們的模型[30]創(chuàng)造了許多流行歌曲并通過了 CCTV14 的圖靈測試。本文的貢獻總結如下。

我們提出了一種端到端的多軌音樂生成系統(tǒng)，包括旋律和編曲。

基于音樂知識，我們提出用和弦進行來指導旋律和通過節(jié)奏型來學習歌曲的結構。然后，我們使用節(jié)奏和旋律交叉生成方法進行音樂生成。
我們在解碼器層的每一步使用其他任務狀態(tài)開發(fā)多任務聯(lián)合生成網(wǎng)絡，這提高了生成質量并確保了多軌音樂的和諧。
通過提供的大量實驗，我們的系統(tǒng)與其他模型表現(xiàn)更好的性能，人工評估也得到一致的結論。

KDD 2018 Research Track 最佳學生論文詳解：流行音樂的旋律與編曲生成

表 1：音樂生成模型比較（G：生成，Mt：多軌，M：旋律，Cp：和弦進行，Ar：編曲，Sa：可歌唱性)

相關工作

相關工作可以分為兩類，即音樂生成和多任務學習。

音樂生成

在過去幾十年中，音樂生成一直是一項具有挑戰(zhàn)性的任務。已經(jīng)提出了各種方法。典型的數(shù)據(jù)驅動統(tǒng)計方法通常采用 N 元文法和馬爾可夫模型[5,26,31]。此外，在[2]中使用了用于音樂生成的單元選擇方法，使用排序方法拼接音樂單元。此外，[25]也提出了類似的想法，它使用和弦來選擇旋律。但是，傳統(tǒng)方法需要大量的人力和領域知識。

最近，深度神經(jīng)網(wǎng)絡已經(jīng)通過端到端方法被應用于音樂生成，解決了上述問題。其中，約翰遜等人[17]結合一個循環(huán)神經(jīng)網(wǎng)絡和一個非循環(huán)神經(jīng)網(wǎng)絡來同時表示多個音符的可能性。在[13]中提出了一種基于循環(huán)神經(jīng)網(wǎng)絡的巴赫生成模型，該模型能夠通過使用類似吉布斯采樣過程產(chǎn)生四部合唱。與基于循環(huán)神經(jīng)網(wǎng)絡的模型相反，塞巴斯等[28]使用 VAE [19]來學習音樂作品的分布。此外，楊和莫格倫等人[24,32]采用 GAN [11]來生成音樂，將隨機噪聲視為從頭開始生成旋律的輸入。與單軌音樂不同，Chu 等人[6]使用循環(huán)神經(jīng)網(wǎng)絡來產(chǎn)生旋律以及伴奏效果，如和弦和鼓。雖然已經(jīng)對音樂創(chuàng)作進行了廣泛的研究，但還沒有工作針對流行音樂的特性來進行研究。對于流行音樂的產(chǎn)生，以前的作品不考慮和弦進行和節(jié)奏型。而且，和弦進行通常引導旋律生成，節(jié)奏型決定該歌曲是否適合于歌唱。此外，流行音樂也應保留樂器特性。最后，和諧在多軌音樂中起著重要作用，但在之前的研究中并未得到很好的解決。

總之，我們將小冰樂隊與幾個相關模型進行比較，并將結果顯示在表 1 中。

多任務學習

多任務學習通常用于共享特征的相關任務，因為從一個任務中學習的特征可能對其他任務有用。在以前的工作中，多任務學習已成功應用于機器學習的所有應用，從自然語言處理[7,21]到計算機視覺[10,33]。

KDD 2018 Research Track 最佳學生論文詳解：流行音樂的旋律與編曲生成

圖 2：標有“和弦進行”的歌曲“We Don’t Talk Anymore”的旋律

例如，張等人[34] 提出通過共享相關任務的訓練數(shù)據(jù)來提升整體的生成效果。在[15]中，作者預先定義了由若干 NLP 任務組成的分層架構，并設計了一個簡單的正則項來優(yōu)化所有模型權重，以改善一項任務的損失，而不會在其他任務中表現(xiàn)出災難性干擾。計算機視覺中的另一項工作[18]通過基于最大化具有任務依賴性不確定性的高斯可能性導出多任務損失函數(shù)，來調整每個任務在成本函數(shù)中的相對權重。在[22,23,27]中則提出了更多應用于深度學習的多任務學習工作。

問題描述與模型結構

由于每個流行音樂都有特定的和弦進行，我們考慮在給定和弦進行條件下生成流行音樂的場景。因此，音樂生成任務的輸入是給定的和弦進行

KDD 2018 Research Track 最佳學生論文詳解：流行音樂的旋律與編曲生成

注意，Ci 是和弦的向量表示，lc 是序列的長度。我們的目標是生成合適的節(jié)奏

KDD 2018 Research Track 最佳學生論文詳解：流行音樂的旋律與編曲生成

和旋律

KDD 2018 Research Track 最佳學生論文詳解：流行音樂的旋律與編曲生成

為此，我們提出 CRMCG 用于單軌音樂，以及 MICA 用于多軌音樂來解決這個問題。

圖 4 顯示了小冰樂隊的整體框架，它可以分為四個部分：1）數(shù)據(jù)處理部分；2）用于旋律生成的 CRMCG 部分（單軌）；3）用于編曲生成的MICA 部分（多軌道）；4）顯示部分。

KDD 2018 Research Track 最佳學生論文詳解：流行音樂的旋律與編曲生成

圖 4：小冰樂隊的流程圖概述

KDD 2018 Research Track 最佳學生論文詳解：流行音樂的旋律與編曲生成

表 2：框架中使用的符號

實驗

為了研究 CRMCG 和 MICA 的有效性，我們對收集的數(shù)據(jù)集進行了兩個任務的實驗：旋律生成和編曲生成。

數(shù)據(jù)描述

在本文中，我們在真實世界數(shù)據(jù)集上進行了實驗，該數(shù)據(jù)集由超過五萬個 MIDI（數(shù)字分數(shù)格式）文件組成，并且為了避免偏差，那些不完整的 MIDI 文件，例如沒有聲道的音樂都被刪除。最后，我們的數(shù)據(jù)集中保存了 14077個 MIDI 文件。具體來說，每個 MIDI 文件包含各種類型的音軌，如旋律，鼓，貝司和弦樂。

為了保證實驗結果的可靠性，我們對數(shù)據(jù)集進行了如下預處理。首先，我們將所有 MIDI 文件轉換為 C 大調或 A 小調，以保持所有音樂在同一曲調上。然后我們將所有音樂的 BPM（每分鐘節(jié)拍）設置為 60，這確保所有音符都是整數(shù)節(jié)拍。最后，我們將每 2 個小節(jié)并為一個樂段。表 3 總結了修剪數(shù)據(jù)集的一些基本統(tǒng)計數(shù)據(jù)。

KDD 2018 Research Track 最佳學生論文詳解：流行音樂的旋律與編曲生成

表 3：數(shù)據(jù)集描述

訓練細節(jié)

我們從數(shù)據(jù)集中隨機選擇 9855 個實例作為訓練數(shù)據(jù)，另外 2815 個用于調整參數(shù)，最后 1407 個作為測試數(shù)據(jù)來驗證性能以及更多生成的音樂。在我們的模型中，對于編碼器和解碼器中的每個 GRU 層，循環(huán)隱藏單元的數(shù)量設置為 256。用于計算注意力單元和 MLP 單元中的隱藏向量的參數(shù)的維度被設置為 256。使用隨機梯度下降[1]算法更新模型，其中批量大小設置為 64，并且根據(jù)驗證集上的交叉熵損失選擇最終模型。

旋律生成

在本小節(jié)中，我們進行旋律生成任務以驗證我們的 CRMCG 模型的性能。也就是說，我們僅使用從原始 MIDI 音樂中提取的旋律軌跡來訓練模型并評估旋律軌跡生成結果的美學質量。

基線方法

由于音樂生成任務通?？梢员灰暈樾蛄猩蓡栴}，我們選擇兩個最先進的模型作為基線生成序列：

馬真塔（RNN） 基于 RNN 的模型[3]，旨在模擬具有表現(xiàn)力時間和動態(tài)的復音音樂。
GANMidi（GAN） 一種新穎的基于對抗網(wǎng)絡(GAN)的模型[32]，它使用條件機制來開發(fā)音樂的多種先驗知識。

除了提出的 CRMCG 模型，我們還評估了模型的兩個變體，以驗證和弦進行和交叉訓練方法對旋律生成的重要性：

CRMCG（完整版） 提出的模型，用和弦信息交叉產(chǎn)生旋律和節(jié)奏。
CRMCG（有/無和弦進行） 基于 CRMCG（完整），和弦信息被刪除。
CRMCG（有/無交叉訓練） 基于 CRMCG（完整），我們在訓練過程中分別根據(jù) Lm 和 Lr 訓練旋律和節(jié)奏型。

整體表現(xiàn)

考慮到音樂生成的獨特性，沒有合適的量化度量來評估旋律生成結果。因此，我們驗證了基于人類研究的模型的性能。根據(jù)[29]中的一些觀點概念，我們使用列出的指標：

KDD 2018 Research Track 最佳學生論文詳解：流行音樂的旋律與編曲生成

表 4：人類對旋律生成的評估

韻律：音樂聽起來流暢而適當暫停嗎?
旋律：音樂識別關系是否自然而和諧?
完整：音樂結構是否完整而不是突然中斷?
可唱性：音樂適合用歌詞唱歌嗎?

我們邀請了 8 名音樂欣賞專家志愿者來評估各種方法的結果。志愿者根據(jù)上述評估指標對每個生成的音樂進行評分，評分為 1 到 5。表 4 顯示了性能。根據(jù)結果，我們發(fā)現(xiàn) CRMCG 模型在所有指標上都優(yōu)于所有基線，顯著提高了我們的 CRMCG 模型對旋律生成的有效性。特別是，CRMCG（完整）比 CRMCG（有/無和弦）表現(xiàn)更好，它可以驗證和弦信息，提高旋律的質量。此外，我們還發(fā)現(xiàn)交叉訓練平均可以提高 6.9% 的質量，這證明了我們的交叉訓練算法對旋律生成的有效性。

同時，我們發(fā)現(xiàn)基于 RNN 的基線優(yōu)于基于 GAN 的模型，該模型使用卷積神經(jīng)網(wǎng)絡來生成旋律。這種現(xiàn)象表明基于 RNN 的模型更適合于旋律生成，這就是我們設計基于 RNN 的 CRMCG 的原因。

編曲生成

在本小節(jié)中，我們進行多軌音樂生成以驗證我們的 MICA 模型的性能。在這里，我們選擇多軌音樂生成中的五個最重要的任務，即旋律，鼓，貝斯，弦樂和吉他。

基線方法

為了驗證我們的兩個 MICA 模型的性能，選擇相關模型 HRNN[6]作為基線方法。具體來說，我們將比較方法設置如下：

HRNN: 基于分層 RNN 的模型[6]，用于生成多軌音樂。特別是，它使用低層結構來生成旋律，使用更高層級的結構產(chǎn)生不同樂器的軌道。
MICA 使用注意單元：提出的模型，使用注意單元在不同軌道之間共享信息。
MICA 使用 MLP 單元：提出的模型，使用 MLP 單元在不同軌道之間共享信息。

整體性能

與旋律生成任務不同，我們要求志愿者從整體上評估所生成音樂的質量。

KDD 2018 Research Track 最佳學生論文詳解：流行音樂的旋律與編曲生成

表 5：人類對編曲生成的評估

性能如表 5 所示。根據(jù)結果，我們發(fā)現(xiàn)，我們的 MICA模型在單軌和多軌上的性能優(yōu)于當前方法 HRNN，這意味著 MICA 在多軌音樂生成任務上有顯著改進。特別地，我們發(fā)現(xiàn)多軌道具有更高的分數(shù)，這表明多軌道音樂聽起來比單軌音樂更好并且證實了編曲的重要性。同時，我們觀察到鼓的軌道與其他單軌道相比性能最差，這是因為鼓的軌道僅在一段多軌道音樂中起輔助作用。此外，我們基于 MLP 單元的 MICA 模型比基于注意單元的 MICA 模型表現(xiàn)更好，似乎我們的 MLP 單元機制可以更好地利用多個軌道之間的信息。

結論

在本文中，我們提出了一種基于音樂知識的旋律和編曲生成框架，稱為小冰樂隊，它生成了同時伴隨的幾種樂器的旋律。對于旋律生成，我們設計了基于和弦的節(jié)奏和旋律交叉生成模型(CRMCG)，其利用和弦進行來指導旋律進行，以及通過節(jié)奏型來學習歌曲的結構。對于編曲生成，在多任務學習的推動下，我們提出了一種用于多音軌音樂編曲的多樂器聯(lián)合編曲模型(MICA)，它在解碼器層的每一步使用其他任務狀態(tài)來提高整個的性能并確保多軌音樂的和諧。通過大量實驗，無論是會自動指標還是人工評估，我們的系統(tǒng)與其他模型相比均表現(xiàn)出更好的性能，并且我們已經(jīng)完成了圖靈測試并取得了良好的效果。此外，我們在互聯(lián)網(wǎng)上制作了流行音樂示例，展示了我們模型的應用價值。

References

[1] Le?on Bottou. 2010. Large-scale machine learning with stochastic gradient descent. In Proceedings of COMPSTAT’2010. Springer, 177–186.

[2] Mason Bretan, Gil Weinberg, and Larry Heck. 2016. A Unit Selection Methodology for Music Generation Using Deep Neural Networks. arXiv preprint arXiv:1612.03789 (2016).

[3] PietroCasellaandAnaPaiva.2001.Magenta:Anarchitectureforrealtimeautomatic composition of background music. In International Workshop on Intelligent Virtual Agents. Springer, 224–232.

[4] Kyunghyun Cho, Bart Van Merrie?nboer, Dzmitry Bahdanau, and Yoshua Bengio. 2014. On the properties of neural machine translation: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259 (2014).

[5] Parag Chordia, Avinash Sastry, and Sertan S?entu?rk. 2011. Predictive tabla modelling using variable-length markov and hidden markov models. Journal of New Music Research 40, 2 (2011), 105–118.

[6] Hang Chu, Raquel Urtasun, and Sanja Fidler. 2016. Song from pi: A musically plausible network for pop music generation. arXiv preprint arXiv:1611.03477(2016).

[7] Ronan Collobert and Jason Weston. 2008. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of the 25th international conference on Machine learning. ACM, 160–167.

[8] Darrell Conklin. 2003. Music generation from statistical models. In Proceedings of the AISB 2003 Symposium on Artificial Intelligence and Creativity in the Arts and Sciences. Citeseer, 30–35.

[9] Daxiang Dong, Hua Wu, Wei He, Dianhai Yu, and Haifeng Wang. 2015. Multi-Task Learning for Multiple Language Translation.. In ACL (1). 1723–1732.

[10] RossGirshick.2015.Fastr-cnn.InProceedingsoftheIEEEinternationalconference on computer vision. 1440–1448.

[11] Ian Goodfellow, Jean Pouget Abadie, Mehdi Mirza, Bing Xu, David Warde Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014. Generative adversarial nets. In Advances in neural information processing systems. 2672–2680.

[12] Alex Graves, Abdel-rahman Mohamed, and Geoffrey Hinton. 2013. Speech recognition with deep recurrent neural networks. In Acoustics, speech and signal processing (icassp), 2013 ieee international conference on. IEEE, 6645–6649.

[13] Gae?tan Hadjeres and Franc?ois Pachet. 2016. DeepBach: a Steerable Model for Bach chorales generation. arXiv preprint arXiv:1612.01010 (2016).

[14] ChristopherHarte,MarkSandler,andMartinGasser.2006.Detectingharmonic change in musical audio. In Proceedings of the 1st ACM workshop on Audio and music computing multimedia. ACM, 21–26.

[15] Kazuma Hashimoto, Caiming Xiong, Yoshimasa Tsuruoka, and Richard Socher. 2016. A joint many-task model: Growing a neural network for multiple NLP tasks. arXiv preprint arXiv:1611.01587 (2016).

[16] Nanzhu Jiang, Peter Grosche, Verena Konz, and Meinard Mu?ller. 2011. Analyzing chroma feature types for automated chord recognition. In Audio Engineering Society Conference: 42nd International Conference: Semantic Audio. Audio Engineering Society.

[17] Daniel Johnson.2015.Composing music with recurrent neural networks.(2015).

[18] Alex Kendall, Yarin Gal, and Roberto Cipolla. 2017. Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics. arXiv preprint arXiv:1705.07115 (2017).

[19] Diederik P Kingma and Max Welling. 2013. Auto-encoding variational bayes.

arXiv preprint arXiv:1312.6114 (2013).

[20] Vladimir I Levenshtein. 1966. Binary codes capable of correcting deletions, insertions, and reversals. In Soviet physics doklady, Vol. 10. 707–710.

[21] Pengfei Liu, Xipeng Qiu, and Xuanjing Huang. 2016. Recurrent neural network for text classification with multi-task learning. arXiv preprint arXiv:1605.05101(2016).

[22] Mingsheng Long and Jianmin Wang. 2015. Learning multiple tasks with deep relationship networks. arXiv preprint arXiv:1506.02117 (2015).

[23] Ishan Misra, Abhinav Shrivastava, Abhinav Gupta, and Martial Hebert. 2016. Cross-stitch networks for multi-task learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 3994–4003.

[24] Olof Mogren. 2016. C-RNN-GAN: Continuous recurrent neural networks with adversarial training. arXiv preprint arXiv:1611.09904 (2016).

[25] Franc?ois Pachet, Sony CSL Paris, Alexandre Papadopoulos, and Pierre Roy. 2017. Sampling variations of sequences for structured music generation. In Proceedings of the 18th International Society for Music Information Retrieval Conference (ISMIR’2017), Suzhou, China. 167–173.

[26] Franc?ois Pachet and Pierre Roy. 2011. Markov constraints: steerable generation of Markov sequences. Constraints 16, 2 (2011), 148–172.

[27] Sebastian Ruder, Joachim Bingel, Isabelle Augenstein, and Anders S?gaard. 2017. Sluice networks: Learning what to share between loosely related tasks. arXiv preprint arXiv:1705.08142 (2017).

[28] Romain Sabathe?, Eduardo Coutinho, and Bjo?rn Schuller. 2017. Deep recurrent music writer: Memory-enhanced variational autoencoder-based musical score composition and an objective measure. In Neural Networks (IJCNN), 2017 International Joint Conference on. IEEE, 3467–3474.

[29] Paul Schmeling. 2011. Berklee Music Theory. Berklee Press.

[30] Heung-Yeung Shum, Xiaodong He, and Di Li. 2018. From Eliza to XiaoIce: Challenges and Opportunities with Social Chatbots. arXiv preprint arXiv:1801.01957(2018).

[31] Andries Van Der Merwe and Walter Schulze. 2011. Music generation with Markov models. IEEE MultiMedia 18, 3 (2011), 78–85.

[32] Li-Chia Yang, Szu-Yu Chou, and Yi-Hsuan Yang. 2017. MidiNet: A convolutional generative adversarial network for symbolic-domain music generation. In Proceedings of the 18th International Society for Music Information Retrieval Conference (ISMIR’2017), Suzhou, China.

[33] Xiaofan Zhang, Feng Zhou, Yuanqing Lin, and Shaoting Zhang. 2016. Embed- ding label structures for fine-grained feature representation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 1114–1123.

[34] Yu Zhang and Qiang Yang. 2017. A survey on multi-task learning. arXiv preprint arXiv:1707.08114 (2017).

論文地址：https://dl.acm.org/authorize.cfm?key=N665888

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。