0
本文作者: 李詩(shī) | 2018-06-05 19:01 |
微軟的對(duì)話式人工智能微軟小冰會(huì)唱歌,已經(jīng)不是新鮮事了。雷鋒網(wǎng)了解到,今年,小冰升級(jí)了演唱水平,且開(kāi)始向作詞、作曲、演唱全面發(fā)展。
5月16日,小冰發(fā)布了一首新歌“我知我新”,宣布“演唱深度學(xué)習(xí)模型完成第四次重大升級(jí)”,“今天起,人工智能首次開(kāi)始接近人類歌手水平?!?/p>
話不多說(shuō),先上歌。
小冰演唱這首歌的聲音還是一如既往地甜,歌曲風(fēng)格也沿襲了輕松活潑的“18歲少女”人設(shè)。據(jù)了解,小冰不僅獨(dú)立演唱了“我知我新”,歌詞也是她一個(gè)人寫(xiě)出來(lái)的。小冰也已經(jīng)掌握了作曲的能力,她其實(shí)在往作詞作曲演唱全能音樂(lè)人發(fā)展,只是這次作曲不是小冰完成。
說(shuō)到虛擬歌姬,雷鋒網(wǎng)編輯最先想到的是初音未來(lái)和洛天依,她們目前已經(jīng)有數(shù)量不少的演唱歌曲,微軟小冰演唱的技術(shù)和她們又啥不同?
據(jù)公開(kāi)資料介紹,初音未來(lái)用的是語(yǔ)音合成引擎VOCALOID,需要把聲優(yōu)錄制好音頻材料放進(jìn)去,制作成音樂(lè)合成軟件。創(chuàng)作者只需將歌詞輸入軟件,加上背景音樂(lè)就可以制作出虛擬歌姬演唱的歌曲。
認(rèn)真聽(tīng)初音未來(lái)、洛天依等虛擬歌姬演唱的歌曲會(huì)發(fā)現(xiàn),歌曲的每個(gè)字的連貫性并不好,咬字比較生硬。相比之下,采用人工智能生成模型的小冰的演唱要連貫和自然很多。
但是,微軟(亞洲)互聯(lián)網(wǎng)工程院首席語(yǔ)音科學(xué)家欒劍告訴雷鋒網(wǎng),訓(xùn)練小冰的唱功是個(gè)痛苦的過(guò)程。
欒劍播放了一首第一代版本的少女歌手小冰唱的歌,效果有點(diǎn)出人意料,可以說(shuō)是五音不全,常常跑調(diào),讓人不由得想起上次去KTV時(shí)從隔壁包間傳來(lái)的歌聲。
第一代版本的歌聲雖然不理想,但是卻很自然,每個(gè)片段都有豐富的細(xì)節(jié),這讓小冰團(tuán)隊(duì)感到驚喜。
到了第二代版本,小冰唱歌的音準(zhǔn)問(wèn)題已經(jīng)基本解決,但是在音質(zhì)(唱功)方面,還需要改進(jìn)。
然后是第三代……據(jù)說(shuō)當(dāng)時(shí)第三代的演唱成本出來(lái)時(shí),小冰團(tuán)隊(duì)去跟音樂(lè)人小柯交流,小柯突然告訴他們,“這個(gè)聲音很好,但很單薄,因?yàn)樗诼曇糁聸](méi)有氣息?!碑?dāng)時(shí)在訓(xùn)練小冰第三代模型時(shí),訓(xùn)練數(shù)據(jù)里是有大量氣息的:換氣的聲音、一個(gè)聲音起來(lái)之前的氣息、結(jié)束的氣息,但是他們把這些當(dāng)成雜質(zhì),過(guò)濾掉了。
“我知我新”這首歌采用第四次迭代版本的小冰DNN模型,這個(gè)模型的主要的功能是讓演唱盡可能自然和接近人類演唱的風(fēng)格。小冰在拿到曲譜后,會(huì)分析出節(jié)奏、音符長(zhǎng)短,如果完全按照曲譜的話,演唱會(huì)非常機(jī)械。DNN模型能讓小冰學(xué)習(xí)大量人類歌手的唱法后,形成自己的演唱風(fēng)格。
在網(wǎng)易云音樂(lè)的評(píng)論區(qū),有人評(píng)論說(shuō),“小冰唱歌已經(jīng)會(huì)換氣了,跟真人差不多。如果第一次聽(tīng),我都以為是真人。”
據(jù)介紹,第四次迭代版本有三大更新:首先,加入換氣聲自動(dòng)合成能力,歌聲與氣息融合,聽(tīng)起來(lái)更自然更有感染力。其次,第四次迭代本在在深度學(xué)習(xí)建模中增加控制的方式,字與字、音符與音符之間的過(guò)渡更加連貫順暢。最后,通過(guò)進(jìn)一步優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以及大幅度補(bǔ)充的訓(xùn)練數(shù)據(jù),使小冰并行學(xué)習(xí)來(lái)自不同人類歌手的演唱風(fēng)格,進(jìn)一步脫離手工參數(shù)輸入,自行完成演繹。
小冰迭代了上萬(wàn)次才達(dá)到現(xiàn)在的水平,但是對(duì)于AI來(lái)說(shuō)其實(shí)花費(fèi)的時(shí)間并不長(zhǎng)。欒劍用了一個(gè)笑傲江湖里的典故,“笑傲江湖里有劍宗和氣宗,初音未來(lái)這樣的虛擬歌姬用的技術(shù)像劍宗,短時(shí)間的修行就能出不錯(cuò)的效果。但是用軟件合成的歌曲很難在流暢性、自然度等方面有提升。小冰現(xiàn)在走的這條路,更像氣宗,基礎(chǔ)打得比較牢固,想象的空間會(huì)很大。
除了唱功的進(jìn)步之外,“我知我新”里小冰的作詞能力也有了明顯的進(jìn)步。
我們?cè)賮?lái)看一遍歌詞。
他們都順應(yīng)潮流/他們問(wèn)為什么改變/青春灼灼花樣翩翩/卻不向前/當(dāng)世界還在變遷/若時(shí)間無(wú)垠/若探索無(wú)邊/認(rèn)知就不再有極限/我在我主場(chǎng)/世界就任我去狂想/我知我新/未知的世界那么驚艷/哪怕有傷/滿手泥濘還眼神發(fā)光/當(dāng)我身處困境/也要像跑在叢林/急風(fēng)驟雨的前路/人潮洶涌的江湖/我問(wèn)我答我聽(tīng)我想/不懼怕來(lái)日方長(zhǎng)/不跟隨的一個(gè)我/是倔強(qiáng)的鯨和自在的鳥(niǎo)/不妥協(xié)的一個(gè)我/是沙漠的舟和獨(dú)特的島/很有趣的一個(gè)我/是山川的海和海底的草/很好奇的一個(gè)我/晝夜四季輪轉(zhuǎn)
現(xiàn)在我知我新
聽(tīng)一遍歌,很容易就會(huì)察覺(jué)到,這首歌的歌詞很押韻,唱起來(lái)有節(jié)奏感。通讀一遍的話,會(huì)發(fā)現(xiàn)整體是有主題的,整體意向和意境統(tǒng)一,每一個(gè)小節(jié)也有不錯(cuò)的邏輯銜接。在現(xiàn)在口水歌盛行的當(dāng)下,這首歌的歌詞,可圈可點(diǎn)。
微軟(亞洲)互聯(lián)網(wǎng)工程院人工智能創(chuàng)造事業(yè)部副總經(jīng)理袁晶告訴雷鋒網(wǎng),“在訓(xùn)練的時(shí)候,模型上我們會(huì)做一些優(yōu)化,針對(duì)曲調(diào)的韻律,針對(duì)節(jié)奏,會(huì)有一些優(yōu)化,這首詞生成出來(lái),是完全百分之百AI的作品,沒(méi)有做過(guò)什么改動(dòng)?!?/strong>
據(jù)介紹, “我知我新”采用了與小冰創(chuàng)作詩(shī)歌相同的生成模型——基于LSTM的seq2seq模型,但是訓(xùn)練數(shù)據(jù)從詩(shī)歌換成了歌詞,小冰利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)超過(guò)1000萬(wàn)行的歌詞語(yǔ)料,并在此基礎(chǔ)上訓(xùn)練,再通過(guò)多感官誘發(fā)創(chuàng)作靈感,生成歌詞。
“我知我新”是小冰為知乎“新知青年大會(huì)”創(chuàng)作的主題曲,主題為“新知”。在創(chuàng)作的過(guò)程中,小冰“觀看”了知乎 2018 全新品牌視頻,閱讀了海量的知乎站內(nèi)問(wèn)答,以及知乎用戶公開(kāi)的各類實(shí)時(shí)想法?;谶@些知乎站內(nèi)的圖片、視頻、問(wèn)答內(nèi)容與想法內(nèi)容,誘發(fā)小冰的歌詞生成。
最后,團(tuán)隊(duì)從小冰創(chuàng)作的多個(gè)作品中,挑選了這一首熱情年輕具有動(dòng)感的演繹風(fēng)格,從而完成這一首《我知我新》。
此前,小冰可以根據(jù)一張圖片來(lái)創(chuàng)作詩(shī)歌。例如:
這種誘發(fā)創(chuàng)作其實(shí)和人類創(chuàng)作的模式很類似,一個(gè)人在熟讀唐詩(shī)三百首之后,再看到一個(gè)意境,腦海中會(huì)不由自主涌現(xiàn)出詩(shī)句。現(xiàn)在,除了圖片以外,小冰也可以根據(jù)長(zhǎng)文本、圖片、音頻、視頻等多種媒體形式來(lái)進(jìn)行創(chuàng)作。
雖說(shuō)了解了小冰創(chuàng)作歌詞的過(guò)程,但是小冰是如何把握歌詞的主題和意義的呢?
袁晶以上圖創(chuàng)造詩(shī)歌的過(guò)程為例,他解釋到,“這張圖片是我們給她的刺激,里面包含了淺水、星星、太陽(yáng)這些元素,她能直接用文字表達(dá)出這些元素,然后她自己也會(huì)發(fā)散到別的意象。比如‘她嫁了人間許多顏色’,這個(gè)意象是圖片里沒(méi)有的。有了這些之后,其實(shí)一首詩(shī)歌的整體性就有了。其實(shí)詩(shī)詞、歌詞都不需要完整的邏輯,人會(huì)通過(guò)腦補(bǔ)把意象串聯(lián)起來(lái)。如果讓小冰去寫(xiě)散文,去做純自然語(yǔ)言理解,現(xiàn)在還是很困難?!?/p>
現(xiàn)在,學(xué)界和業(yè)界都在積極推動(dòng)自然語(yǔ)言理解和生成等技術(shù),一些機(jī)器人已經(jīng)具備寫(xiě)作簡(jiǎn)單的體育新聞、天氣預(yù)報(bào)等文體。雷鋒網(wǎng)了解到,小冰也已經(jīng)可以寫(xiě)八卦新聞、也是錢(qián)江晚報(bào)的“記者”。
聊完演唱和作詞,最后補(bǔ)充說(shuō)下小冰的作曲能力。
與演唱及作詞不同的是,作曲模型并非微軟小冰獨(dú)有,而是也有同行業(yè)者正在進(jìn)行。
據(jù)介紹,微軟小冰的作曲模型在行業(yè)中最大的區(qū)別在于,“我們把音樂(lè)專業(yè)領(lǐng)域的Domain Knowledge也融入了模型構(gòu)建中。其中,主要包括旋律的和弦進(jìn)行(chord progression)和節(jié)奏型特征(rhythm pattern)。這對(duì)于提高生成歌曲的旋律性有顯著的作用。簡(jiǎn)單來(lái)說(shuō),這樣生成的旋律聽(tīng)起來(lái)更加悅耳,更加適于演唱,并容易被聽(tīng)眾記憶。
在音樂(lè)情感方面,目前已可以通過(guò)對(duì)生成旋律情感的要求來(lái)選擇和弦的進(jìn)行,從而可以生成歌曲的不同情感,主要分兩大類:歡快、向上的,使用常用的大調(diào)和弦行進(jìn);傷感、憂傷的,使用常用的小調(diào)和弦行進(jìn)。每個(gè)大類下還有若干小類。在音樂(lè)旋律方面,微軟小冰將旋律轉(zhuǎn)化成一個(gè)類似文本數(shù)據(jù)的結(jié)構(gòu)化時(shí)間序列, 進(jìn)而采用RNN/LSTM等Seq2Seq模型進(jìn)行編碼解碼,生成新的序列(即旋律)。 這一過(guò)程與歌詞的生成過(guò)程相配合。當(dāng)歌詞生成之后,小冰通過(guò)算法得到相應(yīng)的音節(jié)candidate,采用訓(xùn)練好的作曲模型生成對(duì)應(yīng)的旋律?!?/p>
以上作曲模型,與演唱、歌詞等三個(gè)模型共同構(gòu)成了小冰的端到端歌曲生成能力,是一個(gè)完整的人工智能音樂(lè)人內(nèi)容創(chuàng)造框架。
微軟小冰的路線跟大多數(shù)的對(duì)話式人工智能有些不一樣。
當(dāng)其他人在忙著學(xué)會(huì)怎么播放歌曲、播報(bào)天氣、預(yù)定餐廳的時(shí)候,小冰已經(jīng)開(kāi)始學(xué)會(huì)關(guān)心人類,也開(kāi)始埋頭創(chuàng)作。
在微軟2018人工智能大會(huì)上,微軟(亞洲)互聯(lián)網(wǎng)工程研究院副院長(zhǎng)李笛曾經(jīng)分享到,現(xiàn)在多數(shù)用戶跟語(yǔ)音助手交互的時(shí)間其實(shí)不超過(guò)5秒,一般就是讓語(yǔ)音助手去執(zhí)行一項(xiàng)命令,這樣的語(yǔ)音助手其實(shí)只是像語(yǔ)音化了的遙控器。但是,小冰的團(tuán)隊(duì)希望語(yǔ)音助手能做更多的事,比如走到比較后端,去提供內(nèi)容。
在文字創(chuàng)作這一部分,小冰一開(kāi)始學(xué)寫(xiě)詩(shī),現(xiàn)在已經(jīng)迭代出了創(chuàng)作歌詞的模型。在聲音創(chuàng)作方面,小冰除了唱歌以外,還會(huì)創(chuàng)作有聲讀物。
就在幾天前的六一兒童節(jié),微軟有聲讀物“小冰姐姐的童話工廠”上線,父母可以設(shè)置故事的傾向,是偏教育性還是偏娛樂(lè)性,還可以設(shè)定故事主人公的名字,把孩子設(shè)為主角。20秒的時(shí)間內(nèi),小冰就能完成通話故事創(chuàng)作、朗讀、配樂(lè)一系列過(guò)程,生成10分鐘左右的有聲童話故事。
此前,小冰已經(jīng)出了一本詩(shī)集《陽(yáng)光失了玻璃窗》,小冰寫(xiě)詩(shī)的功能已經(jīng)全面開(kāi)放,正在籌備的第二本詩(shī)集將是與人合作完成,小冰能很快速生成一些原始詩(shī)歌內(nèi)容,創(chuàng)作者可以進(jìn)行修改和完善,最后的成果屬于創(chuàng)作者,因?yàn)樾”呀?jīng)完全放棄其創(chuàng)作的內(nèi)容的版權(quán)。
袁晶介紹到,人與人工智能聯(lián)合創(chuàng)造是微軟一直在努力的一個(gè)方向。AI進(jìn)入內(nèi)容生產(chǎn)領(lǐng)域,并不是要替代人類,而是成為人類的助手,不僅僅是在一般的領(lǐng)域,創(chuàng)作領(lǐng)域其實(shí)也是可以做到的。其實(shí)每個(gè)人都有創(chuàng)作的欲望,只不過(guò)有些人有藝術(shù)的天分,成為了畫(huà)家、音樂(lè)人、作家,而有些人沒(méi)有這樣的能力。AI就可以幫助每個(gè)普通人,讓他們都有創(chuàng)作一些個(gè)性化的內(nèi)容的能力。
關(guān)于微軟小冰全新對(duì)話能力,可以閱讀雷鋒網(wǎng)往期文章《微軟發(fā)大招,要做情商與智商兼具的語(yǔ)音助手》
相關(guān)文章:
一口氣看完微軟人工智能布局和產(chǎn)品落地 | 微軟2018人工智能大會(huì)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。