少女歌手小冰養(yǎng)成記：會作詞作曲演唱的人工智能的誕生

本文作者：李詩

2018-06-05 19:01

導(dǎo)語：小冰升級了演唱水平，且開始向作詞、作曲、演唱全面發(fā)展。

微軟的對話式人工智能微軟小冰會唱歌，已經(jīng)不是新鮮事了。雷鋒網(wǎng)了解到，今年，小冰升級了演唱水平，且開始向作詞、作曲、演唱全面發(fā)展。

5月16日，小冰發(fā)布了一首新歌“我知我新”，宣布“演唱深度學(xué)習(xí)模型完成第四次重大升級”，“今天起，人工智能首次開始接近人類歌手水平?！?/p>

少女歌手小冰養(yǎng)成記：會作詞作曲演唱的人工智能的誕生

話不多說，先上歌。

小冰演唱這首歌的聲音還是一如既往地甜，歌曲風(fēng)格也沿襲了輕松活潑的“18歲少女”人設(shè)。據(jù)了解，小冰不僅獨立演唱了“我知我新”，歌詞也是她一個人寫出來的。小冰也已經(jīng)掌握了作曲的能力，她其實在往作詞作曲演唱全能音樂人發(fā)展，只是這次作曲不是小冰完成。

一開始是五音不全

說到虛擬歌姬，雷鋒網(wǎng)編輯最先想到的是初音未來和洛天依，她們目前已經(jīng)有數(shù)量不少的演唱歌曲，微軟小冰演唱的技術(shù)和她們又啥不同？

據(jù)公開資料介紹，初音未來用的是語音合成引擎VOCALOID，需要把聲優(yōu)錄制好音頻材料放進(jìn)去，制作成音樂合成軟件。創(chuàng)作者只需將歌詞輸入軟件，加上背景音樂就可以制作出虛擬歌姬演唱的歌曲。

認(rèn)真聽初音未來、洛天依等虛擬歌姬演唱的歌曲會發(fā)現(xiàn)，歌曲的每個字的連貫性并不好，咬字比較生硬。相比之下，采用人工智能生成模型的小冰的演唱要連貫和自然很多。

但是，微軟（亞洲）互聯(lián)網(wǎng)工程院首席語音科學(xué)家欒劍告訴雷鋒網(wǎng)，訓(xùn)練小冰的唱功是個痛苦的過程。

欒劍播放了一首第一代版本的少女歌手小冰唱的歌，效果有點出人意料，可以說是五音不全，常常跑調(diào)，讓人不由得想起上次去KTV時從隔壁包間傳來的歌聲。

第一代版本的歌聲雖然不理想，但是卻很自然，每個片段都有豐富的細(xì)節(jié)，這讓小冰團(tuán)隊感到驚喜。

到了第二代版本，小冰唱歌的音準(zhǔn)問題已經(jīng)基本解決，但是在音質(zhì)（唱功）方面，還需要改進(jìn)。

然后是第三代……據(jù)說當(dāng)時第三代的演唱成本出來時，小冰團(tuán)隊去跟音樂人小柯交流，小柯突然告訴他們，“這個聲音很好，但很單薄，因為它在聲音之下沒有氣息?！碑?dāng)時在訓(xùn)練小冰第三代模型時，訓(xùn)練數(shù)據(jù)里是有大量氣息的：換氣的聲音、一個聲音起來之前的氣息、結(jié)束的氣息，但是他們把這些當(dāng)成雜質(zhì)，過濾掉了。

“我知我新”這首歌采用第四次迭代版本的小冰DNN模型，這個模型的主要的功能是讓演唱盡可能自然和接近人類演唱的風(fēng)格。小冰在拿到曲譜后，會分析出節(jié)奏、音符長短，如果完全按照曲譜的話，演唱會非常機(jī)械。DNN模型能讓小冰學(xué)習(xí)大量人類歌手的唱法后，形成自己的演唱風(fēng)格。

在網(wǎng)易云音樂的評論區(qū)，有人評論說，“小冰唱歌已經(jīng)會換氣了，跟真人差不多。如果第一次聽，我都以為是真人?！?/p>

據(jù)介紹，第四次迭代版本有三大更新：首先，加入換氣聲自動合成能力，歌聲與氣息融合，聽起來更自然更有感染力。其次，第四次迭代本在在深度學(xué)習(xí)建模中增加控制的方式，字與字、音符與音符之間的過渡更加連貫順暢。最后，通過進(jìn)一步優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，以及大幅度補(bǔ)充的訓(xùn)練數(shù)據(jù)，使小冰并行學(xué)習(xí)來自不同人類歌手的演唱風(fēng)格，進(jìn)一步脫離手工參數(shù)輸入，自行完成演繹。

小冰迭代了上萬次才達(dá)到現(xiàn)在的水平，但是對于AI來說其實花費的時間并不長。欒劍用了一個笑傲江湖里的典故，“笑傲江湖里有劍宗和氣宗，初音未來這樣的虛擬歌姬用的技術(shù)像劍宗，短時間的修行就能出不錯的效果。但是用軟件合成的歌曲很難在流暢性、自然度等方面有提升。小冰現(xiàn)在走的這條路，更像氣宗，基礎(chǔ)打得比較牢固，想象的空間會很大。

從寫詩到寫歌詞

除了唱功的進(jìn)步之外，“我知我新”里小冰的作詞能力也有了明顯的進(jìn)步。

我們再來看一遍歌詞。

他們都順應(yīng)潮流/他們問為什么改變/青春灼灼花樣翩翩/卻不向前/當(dāng)世界還在變遷/若時間無垠/若探索無邊/認(rèn)知就不再有極限/我在我主場/世界就任我去狂想/我知我新/未知的世界那么驚艷/哪怕有傷/滿手泥濘還眼神發(fā)光/當(dāng)我身處困境/也要像跑在叢林/急風(fēng)驟雨的前路/人潮洶涌的江湖/我問我答我聽我想/不懼怕來日方長/不跟隨的一個我/是倔強(qiáng)的鯨和自在的鳥/不妥協(xié)的一個我/是沙漠的舟和獨特的島/很有趣的一個我/是山川的海和海底的草/很好奇的一個我/晝夜四季輪轉(zhuǎn)
現(xiàn)在我知我新

聽一遍歌，很容易就會察覺到，這首歌的歌詞很押韻，唱起來有節(jié)奏感。通讀一遍的話，會發(fā)現(xiàn)整體是有主題的，整體意向和意境統(tǒng)一，每一個小節(jié)也有不錯的邏輯銜接。在現(xiàn)在口水歌盛行的當(dāng)下，這首歌的歌詞，可圈可點。

微軟（亞洲）互聯(lián)網(wǎng)工程院人工智能創(chuàng)造事業(yè)部副總經(jīng)理袁晶告訴雷鋒網(wǎng)，“在訓(xùn)練的時候，模型上我們會做一些優(yōu)化，針對曲調(diào)的韻律，針對節(jié)奏，會有一些優(yōu)化，這首詞生成出來，是完全百分之百AI的作品，沒有做過什么改動。”

據(jù)介紹， “我知我新”采用了與小冰創(chuàng)作詩歌相同的生成模型——基于LSTM的seq2seq模型，但是訓(xùn)練數(shù)據(jù)從詩歌換成了歌詞，小冰利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)超過1000萬行的歌詞語料，并在此基礎(chǔ)上訓(xùn)練，再通過多感官誘發(fā)創(chuàng)作靈感，生成歌詞。

“我知我新”是小冰為知乎“新知青年大會”創(chuàng)作的主題曲，主題為“新知”。在創(chuàng)作的過程中，小冰“觀看”了知乎 2018 全新品牌視頻，閱讀了海量的知乎站內(nèi)問答，以及知乎用戶公開的各類實時想法?；谶@些知乎站內(nèi)的圖片、視頻、問答內(nèi)容與想法內(nèi)容，誘發(fā)小冰的歌詞生成。

最后，團(tuán)隊從小冰創(chuàng)作的多個作品中，挑選了這一首熱情年輕具有動感的演繹風(fēng)格，從而完成這一首《我知我新》。

此前，小冰可以根據(jù)一張圖片來創(chuàng)作詩歌。例如：

少女歌手小冰養(yǎng)成記：會作詞作曲演唱的人工智能的誕生

這種誘發(fā)創(chuàng)作其實和人類創(chuàng)作的模式很類似，一個人在熟讀唐詩三百首之后，再看到一個意境，腦海中會不由自主涌現(xiàn)出詩句。現(xiàn)在，除了圖片以外，小冰也可以根據(jù)長文本、圖片、音頻、視頻等多種媒體形式來進(jìn)行創(chuàng)作。

雖說了解了小冰創(chuàng)作歌詞的過程，但是小冰是如何把握歌詞的主題和意義的呢？

袁晶以上圖創(chuàng)造詩歌的過程為例，他解釋到，“這張圖片是我們給她的刺激，里面包含了淺水、星星、太陽這些元素，她能直接用文字表達(dá)出這些元素，然后她自己也會發(fā)散到別的意象。比如‘她嫁了人間許多顏色’，這個意象是圖片里沒有的。有了這些之后，其實一首詩歌的整體性就有了。其實詩詞、歌詞都不需要完整的邏輯，人會通過腦補(bǔ)把意象串聯(lián)起來。如果讓小冰去寫散文，去做純自然語言理解，現(xiàn)在還是很困難?！?/p>

現(xiàn)在，學(xué)界和業(yè)界都在積極推動自然語言理解和生成等技術(shù)，一些機(jī)器人已經(jīng)具備寫作簡單的體育新聞、天氣預(yù)報等文體。雷鋒網(wǎng)了解到，小冰也已經(jīng)可以寫八卦新聞、也是錢江晚報的“記者”。

聊完演唱和作詞，最后補(bǔ)充說下小冰的作曲能力。

與演唱及作詞不同的是，作曲模型并非微軟小冰獨有，而是也有同行業(yè)者正在進(jìn)行。

據(jù)介紹，微軟小冰的作曲模型在行業(yè)中最大的區(qū)別在于，“我們把音樂專業(yè)領(lǐng)域的Domain Knowledge也融入了模型構(gòu)建中。其中，主要包括旋律的和弦進(jìn)行(chord progression)和節(jié)奏型特征(rhythm pattern)。這對于提高生成歌曲的旋律性有顯著的作用。簡單來說，這樣生成的旋律聽起來更加悅耳，更加適于演唱，并容易被聽眾記憶。

在音樂情感方面，目前已可以通過對生成旋律情感的要求來選擇和弦的進(jìn)行，從而可以生成歌曲的不同情感，主要分兩大類：歡快、向上的，使用常用的大調(diào)和弦行進(jìn)；傷感、憂傷的，使用常用的小調(diào)和弦行進(jìn)。每個大類下還有若干小類。在音樂旋律方面，微軟小冰將旋律轉(zhuǎn)化成一個類似文本數(shù)據(jù)的結(jié)構(gòu)化時間序列，進(jìn)而采用RNN/LSTM等Seq2Seq模型進(jìn)行編碼解碼，生成新的序列（即旋律）。這一過程與歌詞的生成過程相配合。當(dāng)歌詞生成之后，小冰通過算法得到相應(yīng)的音節(jié)candidate，采用訓(xùn)練好的作曲模型生成對應(yīng)的旋律?！?/p>

以上作曲模型，與演唱、歌詞等三個模型共同構(gòu)成了小冰的端到端歌曲生成能力，是一個完整的人工智能音樂人內(nèi)容創(chuàng)造框架。

人工智能創(chuàng)作的初衷

微軟小冰的路線跟大多數(shù)的對話式人工智能有些不一樣。

當(dāng)其他人在忙著學(xué)會怎么播放歌曲、播報天氣、預(yù)定餐廳的時候，小冰已經(jīng)開始學(xué)會關(guān)心人類，也開始埋頭創(chuàng)作。

在微軟2018人工智能大會上，微軟（亞洲）互聯(lián)網(wǎng)工程研究院副院長李笛曾經(jīng)分享到，現(xiàn)在多數(shù)用戶跟語音助手交互的時間其實不超過5秒，一般就是讓語音助手去執(zhí)行一項命令，這樣的語音助手其實只是像語音化了的遙控器。但是，小冰的團(tuán)隊希望語音助手能做更多的事，比如走到比較后端，去提供內(nèi)容。

在文字創(chuàng)作這一部分，小冰一開始學(xué)寫詩，現(xiàn)在已經(jīng)迭代出了創(chuàng)作歌詞的模型。在聲音創(chuàng)作方面，小冰除了唱歌以外，還會創(chuàng)作有聲讀物。

就在幾天前的六一兒童節(jié)，微軟有聲讀物“小冰姐姐的童話工廠”上線，父母可以設(shè)置故事的傾向，是偏教育性還是偏娛樂性，還可以設(shè)定故事主人公的名字，把孩子設(shè)為主角。20秒的時間內(nèi)，小冰就能完成通話故事創(chuàng)作、朗讀、配樂一系列過程，生成10分鐘左右的有聲童話故事。

少女歌手小冰養(yǎng)成記：會作詞作曲演唱的人工智能的誕生

此前，小冰已經(jīng)出了一本詩集《陽光失了玻璃窗》，小冰寫詩的功能已經(jīng)全面開放，正在籌備的第二本詩集將是與人合作完成，小冰能很快速生成一些原始詩歌內(nèi)容，創(chuàng)作者可以進(jìn)行修改和完善，最后的成果屬于創(chuàng)作者，因為小冰已經(jīng)完全放棄其創(chuàng)作的內(nèi)容的版權(quán)。

少女歌手小冰養(yǎng)成記：會作詞作曲演唱的人工智能的誕生

袁晶介紹到，人與人工智能聯(lián)合創(chuàng)造是微軟一直在努力的一個方向。AI進(jìn)入內(nèi)容生產(chǎn)領(lǐng)域，并不是要替代人類，而是成為人類的助手，不僅僅是在一般的領(lǐng)域，創(chuàng)作領(lǐng)域其實也是可以做到的。其實每個人都有創(chuàng)作的欲望，只不過有些人有藝術(shù)的天分，成為了畫家、音樂人、作家，而有些人沒有這樣的能力。AI就可以幫助每個普通人，讓他們都有創(chuàng)作一些個性化的內(nèi)容的能力。

關(guān)于微軟小冰全新對話能力，可以閱讀雷鋒網(wǎng)往期文章《微軟發(fā)大招，要做情商與智商兼具的語音助手》

相關(guān)文章：

微軟發(fā)大招：要做智商和情商兼具的語音助手

一口氣看完微軟人工智能布局和產(chǎn)品落地 | 微軟2018人工智能大會

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

李詩

編輯

關(guān)注AI業(yè)界、NLP、VR、AR技術(shù)與產(chǎn)品。采訪報道、行業(yè)交流請加微信“Hanass”

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章