只看手勢(shì)動(dòng)作，就能完美復(fù)現(xiàn)音樂(lè)，MIT聯(lián)合沃森實(shí)驗(yàn)室團(tuán)隊(duì)推出最新AI，多種高難度樂(lè)器信手拈來(lái)！

本文作者：貝爽

2020-07-24 18:28

導(dǎo)語(yǔ)：不會(huì)樂(lè)器也可以玩的很嗨

會(huì)玩樂(lè)器的人在生活中簡(jiǎn)直自帶光環(huán)！

不過(guò)，學(xué)會(huì)一門(mén)樂(lè)器也真的很難，多少人陷入過(guò)從入門(mén)到放棄的死循環(huán)。

但是，不會(huì)玩樂(lè)器，就真的不能演奏出好聽(tīng)的音樂(lè)了嗎？

最近，麻省理工（MIT）聯(lián)合沃森人工智能實(shí)驗(yàn)室（MIT-IBM Watson AI Lab）共同開(kāi)發(fā)出了一款A(yù)I模型Foley Music，它可以根據(jù)演奏手勢(shì)完美還原樂(lè)曲原聲！

只看手勢(shì)動(dòng)作，就能完美復(fù)現(xiàn)音樂(lè)，MIT聯(lián)合沃森實(shí)驗(yàn)室團(tuán)隊(duì)推出最新AI，多種高難度樂(lè)器信手拈來(lái)！

而且還是不分樂(lè)器的那種，小提琴、鋼琴、尤克里里、吉他，統(tǒng)統(tǒng)都可以。

只要拿起樂(lè)器，就是一場(chǎng)專業(yè)演奏會(huì)！如果喜歡不同音調(diào)，還可以對(duì)音樂(lè)風(fēng)格進(jìn)行編輯，A調(diào)、F調(diào)、G調(diào)均可。

這項(xiàng)名為《Foley Music：Learning to Generate Music from Videos》的技術(shù)論文已被ECCV 2020收錄。

接下來(lái)，我們看看AI模型是如何還原音樂(lè)的？

會(huì)玩多種樂(lè)器的Foley Music

如同為一段舞蹈配樂(lè)需要了解肢體動(dòng)作、舞蹈風(fēng)格一樣，為樂(lè)器演奏者配樂(lè)，同樣需要知道其手勢(shì)、動(dòng)作以及所用樂(lè)器。

如果給定一段演奏視頻，AI會(huì)自動(dòng)鎖定目標(biāo)對(duì)象的身體關(guān)鍵點(diǎn)（Body Keypoints），以及演奏的樂(lè)器和聲音。

身體關(guān)鍵點(diǎn)：由AI系統(tǒng)中的視覺(jué)感知模塊（Visual Perception Model）來(lái)完成。它會(huì)通過(guò)身體姿勢(shì)和手勢(shì)的兩項(xiàng)指標(biāo)來(lái)反饋。一般身體會(huì)提取25個(gè)關(guān)2D點(diǎn)，手指提起21個(gè)2D點(diǎn)。

樂(lè)器聲音提?。翰捎?strong>音頻表征模塊（Audio Representation Model），該模塊研究人員提出了一種樂(lè)器數(shù)字化接口（Musical Instrument Digital Interface，簡(jiǎn)稱MIDI）的音頻表征形式。它是Foley Music區(qū)別于其他模型的關(guān)鍵。

研究人員介紹，對(duì)于一個(gè)6秒中的演奏視頻，通常會(huì)生成大約500個(gè)MIDI事件，這些MIDI事件可以輕松導(dǎo)入到標(biāo)準(zhǔn)音樂(lè)合成器以生成音樂(lè)波形。

在完成信息提取和處理后，接下來(lái)，視-聽(tīng)模塊（Visual-Audio Model）將整合所有信息并轉(zhuǎn)化，生成最終相匹配的音樂(lè)。

我們先來(lái)看一下它完整架構(gòu)圖：主要由視覺(jué)編碼，MIDI解碼和MIDI波形圖輸出三個(gè)部分構(gòu)成。

視覺(jué)編碼：將視覺(jué)信息進(jìn)行編碼化處理，并傳遞給轉(zhuǎn)換器MIDI解碼器。從視頻幀中提取關(guān)鍵坐標(biāo)點(diǎn)，使用GCN（Graph-CNN）捕獲人體動(dòng)態(tài)隨時(shí)間變化產(chǎn)生的潛在表示。

MIDI解碼器：通過(guò)Graph-Transfomers完成人體姿態(tài)特征和MIDI事件之間的相關(guān)性進(jìn)行建模。Transfomers是基于編解碼器的自回歸生成模型，主要用于機(jī)器翻譯。在這里，它可以根據(jù)人體特征準(zhǔn)確的預(yù)測(cè)MIDI事件的序列。

MIDI輸出：使用標(biāo)準(zhǔn)音頻合成器將MIDI事件轉(zhuǎn)換為最終的波形。

實(shí)驗(yàn)結(jié)果

研究人員證實(shí)Foley Music遠(yuǎn)優(yōu)于現(xiàn)有其他模型。在對(duì)比試驗(yàn)中，他們采用了三種數(shù)據(jù)集對(duì)Foley Music進(jìn)行了訓(xùn)練，并選擇了9中樂(lè)器，與其它GAN-based、SampleRNN和WaveNet三種模型進(jìn)行了對(duì)比評(píng)估。

其中，數(shù)據(jù)集分別為AtinPiano、MUSIC及URMP，涵蓋了超過(guò)11個(gè)類別的大約1000個(gè)高質(zhì)量的音樂(lè)演奏視頻。樂(lè)器則為風(fēng)琴，貝斯，巴松管，大提琴，吉他，鋼琴，大號(hào)，夏威夷四弦琴和小提琴，其視頻長(zhǎng)度均為6秒。以下為定量評(píng)估結(jié)果：

可見(jiàn)，F(xiàn)oley Music模型在貝斯（Bass）樂(lè)器演奏的預(yù)測(cè)性能最高達(dá)到了72%，而其他模型最高僅為8%。

另外，從以下四個(gè)指標(biāo)來(lái)看，結(jié)果更為突出：

正確性：生成的歌曲與視頻內(nèi)容之間的相關(guān)性。
噪音：音樂(lè)噪音最小。
同步性：歌曲在時(shí)間上與視頻內(nèi)容最一致。

只看手勢(shì)動(dòng)作，就能完美復(fù)現(xiàn)音樂(lè)，MIT聯(lián)合沃森實(shí)驗(yàn)室團(tuán)隊(duì)推出最新AI，多種高難度樂(lè)器信手拈來(lái)！黃色為Foley Music模型，它在各項(xiàng)指標(biāo)上的性能表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)了其他模型，在正確性、噪音和同步性三項(xiàng)指標(biāo)上最高均超過(guò)了0.6，其他最高不足0.4，且9種樂(lè)器均是如此。

另外，研究人員還發(fā)現(xiàn)，與其他基準(zhǔn)系統(tǒng)相比，MIDI事件有助于改善聲音質(zhì)量，語(yǔ)義對(duì)齊和時(shí)間同步。

說(shuō)明

GAN模型：它以人體特征為輸入，通過(guò)鑒別其判定其姿態(tài)特征所產(chǎn)生的頻譜圖是真或是假，經(jīng)過(guò)反復(fù)訓(xùn)練后，通過(guò)傅立葉逆變換將頻譜圖轉(zhuǎn)換為音頻波形。
SampleRNN：是無(wú)條件的端到端的神經(jīng)音頻生成模型，它相較于WaveNet結(jié)構(gòu)更簡(jiǎn)單，在樣本級(jí)層面生成語(yǔ)音要更快。
WaveNet：是谷歌Deepmind推出一款語(yǔ)音生成模型，在text-to-speech和語(yǔ)音生成方面表現(xiàn)很好。

另外，該模型的優(yōu)勢(shì)還在于它的可擴(kuò)展性。MIDI表示是完全可解釋和透明的，因此可以對(duì)預(yù)測(cè)的MIDI序列進(jìn)行編輯，以生成A\G\F調(diào)不同風(fēng)格音樂(lè)。如果使用波形或者頻譜圖作為音頻表示形式的模型，這個(gè)功能是不可實(shí)現(xiàn)的。

最后研究人員在論文中表明，此項(xiàng)研究通過(guò)人體關(guān)鍵點(diǎn)和MIDI表示很好地建立視覺(jué)和音樂(lè)信號(hào)之間的相關(guān)性，實(shí)現(xiàn)了音樂(lè)風(fēng)格的可拓展性。為當(dāng)前研究視頻和音樂(lè)聯(lián)系拓展出了一種更好的研究路徑。

以下為Youtobe視頻，一起來(lái)感受下AI音樂(lè)!
https://www.youtube.com/watch?v=bo5UzyDB80E

引用鏈接：（雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)）

http://foley-music.csail.mit.edu/
https://arxiv.org/pdf/2007.10984.pdf
https://venturebeat.com/2020/07/23/researchers-ai-system-infers-music-from-silent-videos-of-musicians/

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

貝爽

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

只看手勢(shì)動(dòng)作，就能完美復(fù)現(xiàn)音樂(lè)，MIT聯(lián)合沃森實(shí)驗(yàn)室團(tuán)隊(duì)推出最新AI，多種高難度樂(lè)器信手拈來(lái)！

會(huì)玩多種樂(lè)器的Foley Music

實(shí)驗(yàn)結(jié)果

只看手勢(shì)動(dòng)作，就能完美復(fù)現(xiàn)音樂(lè)，MIT聯(lián)合沃森實(shí)驗(yàn)室團(tuán)隊(duì)推出最新AI，多種高難度樂(lè)器信手拈來(lái)！