0
本文作者: 楊曉凡 | 2019-04-29 11:32 |
雷鋒網(wǎng) AI 科技評(píng)論按:OpenAI 前幾日突然在 Twitch 展開(kāi)直播。此前,OpenAI 的每次 DOTA2 直播都是在這里進(jìn)行的,但這次的內(nèi)容不再是電子游戲了,而是直播 AI 創(chuàng)作的曲子。OpenAI CTO Greg Brockman 都調(diào)侃說(shuō):「六個(gè)月前我也想不到我們會(huì)把直播頻道的分類(lèi)從 DOTA2 換成音樂(lè)和表演」。
直播的主角是 OpenAI 新創(chuàng)造的作曲 AI「MuseNet」,它可以創(chuàng)作不同風(fēng)格的、時(shí)長(zhǎng)達(dá) 4 分鐘的樂(lè)曲,風(fēng)格可以根據(jù)不同的作曲者變化(巴赫、貝多芬、Oscar Peterson、Frank Sinatra、Bon Jovi)、不同的風(fēng)格變化(Jazz、Albeniz、電影配樂(lè)、鄉(xiāng)村、印度寶萊塢、迪士尼),而且樂(lè)曲中可以使用 10 種不同的樂(lè)器?!窶useNet」使用的是和前段時(shí)間 OpenAI 的文本生成模型 GPT-2 類(lèi)似的大規(guī)模 Transformer 模型,而且為了增強(qiáng)它的長(zhǎng)序列建模能力,「MuseNet」也使用了雷鋒網(wǎng) AI 科技評(píng)論剛剛介紹過(guò)的稀疏注意力技術(shù)。繼上次用 GPT-2 生成接近人類(lèi)水準(zhǔn)的短文之后,OpenAI 儼然已經(jīng)成為了長(zhǎng)序列建模的小能手。
學(xué)習(xí)音樂(lè)畢竟是一件有難度的任務(wù),不同的樂(lè)器有不同的音色,不同的曲風(fēng)也有各自的微結(jié)構(gòu)。所以 OpenAI 的做法是讓模型學(xué)習(xí)并預(yù)測(cè) MIDI (音符、控制參數(shù)等組成的數(shù)字音頻信號(hào),可以用 MIDI 播放器播放),而不是學(xué)習(xí)原始音頻波形;同時(shí) OpenAI 也為模型設(shè)計(jì)了對(duì)應(yīng)作曲者和樂(lè)器的 token,簡(jiǎn)化數(shù)據(jù)參數(shù)。
在稀疏 Transformer 的重新計(jì)算以及優(yōu)化過(guò)的核心幫助下,MuseNet 被設(shè)計(jì)為一個(gè) 72 層、具有 24 個(gè)注意力頭的網(wǎng)絡(luò),它可以在 4096 個(gè)元素長(zhǎng)度的內(nèi)容上進(jìn)行完整的注意力操作。正因?yàn)樗軌蛱幚淼男蛄凶銐蜷L(zhǎng),所以它可以記住曲子中的長(zhǎng)段結(jié)構(gòu),完成段落的重復(fù)以及變化。
為了讓模型更好地控制樂(lè)曲主體內(nèi)容的結(jié)構(gòu),OpenAI 為模型設(shè)計(jì)了多種不同的嵌入。除了正常的位置嵌入之外,他們額外讓模型學(xué)習(xí)一個(gè)嵌入,用它來(lái)追蹤每個(gè)樣本中已經(jīng)經(jīng)過(guò)的時(shí)間。這樣,所有同時(shí)響起的音符都會(huì)具有同樣的時(shí)間嵌入。他們還為和弦中的每個(gè)音符增加了一個(gè)嵌入(這種做法類(lèi)似于相對(duì)注意力,當(dāng)模型需要生成第四個(gè)音符的時(shí)候它會(huì)提供第三個(gè)音符作為參考,也就讓模型更容易學(xué)習(xí))。最后,他們還增加了兩種不同的結(jié)構(gòu)嵌入,它們的共同作用是告訴模型某一段音樂(lè)在更大的曲目范圍內(nèi)的位置;其中,第一個(gè)嵌入會(huì)把大段音樂(lè)分為128個(gè)部分,第二個(gè)嵌入會(huì)從127到0倒數(shù),表示距離結(jié)尾還有多遠(yuǎn)。
模型的效果是驚人的,不僅當(dāng)天的 Twitch 直播中演示的不同風(fēng)格的曲目辨識(shí)度高、旋律自然,而且 OpenAI 在介紹博客中展示的混搭生成結(jié)果(從某首知名樂(lè)曲中取一個(gè)小節(jié)作為開(kāi)頭,然后讓模型以其他的風(fēng)格續(xù)寫(xiě),模型會(huì)給出四種結(jié)果),以及好奇的網(wǎng)友們利用 OpenAI 提供的試驗(yàn)工具生成的樂(lè)曲都讓大家無(wú)比欽佩。我們推薦大家到 MuseNet 的官方介紹頁(yè)面親自嘗試混搭續(xù)寫(xiě)工具以及聽(tīng)聽(tīng)已有的生成樂(lè)曲。
OpenAI 還根據(jù)嵌入的學(xué)習(xí)結(jié)果制作了不同作曲者之間的相似度關(guān)系圖,也和我們?nèi)粘5恼J(rèn)知非常相符。
在 OpenAI 的研究人員們看來(lái),音樂(lè)生成任務(wù)的難度介于文本和圖像之間,它具有和文本類(lèi)似的靈活的序列結(jié)構(gòu)(比如圖像中可以固定地參照前 N 個(gè)元素,而文本和音樂(lè)中的這個(gè)數(shù)字大小是不固定的)。他們收集了訓(xùn)練數(shù)據(jù)集并嘗試了不同的訓(xùn)練技巧。
這項(xiàng)研究實(shí)在是生動(dòng)有趣,OpenAI 也希望大家多多參與活動(dòng),多多討論和反饋,也幫助他們選定這項(xiàng)研究的下一步目標(biāo)。公開(kāi)參與的時(shí)間一直持續(xù)到 5 月 12 日,大家快到 openai.com/blog/musenet/ 玩玩聽(tīng)聽(tīng)看吧!
via openai.com,雷鋒網(wǎng) AI 科技評(píng)論編譯
相關(guān)文章:
除了生成文本,還可以補(bǔ)全圖像、生成音頻序列的稀疏 Transformers
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。