0
微軟的對話式人工智能微軟小冰會唱歌,已經(jīng)不是新鮮事了。雷鋒網(wǎng)了解到,今年,小冰升級了演唱水平,且開始向作詞、作曲、演唱全面發(fā)展。
5月16日,小冰發(fā)布了一首新歌“我知我新”,宣布“演唱深度學習模型完成第四次重大升級”,“今天起,人工智能首次開始接近人類歌手水平。”
話不多說,先上歌。
小冰演唱這首歌的聲音還是一如既往地甜,歌曲風格也沿襲了輕松活潑的“18歲少女”人設。據(jù)了解,小冰不僅獨立演唱了“我知我新”,歌詞也是她一個人寫出來的。小冰也已經(jīng)掌握了作曲的能力,她其實在往作詞作曲演唱全能音樂人發(fā)展,只是這次作曲不是小冰完成。
說到虛擬歌姬,雷鋒網(wǎng)編輯最先想到的是初音未來和洛天依,她們目前已經(jīng)有數(shù)量不少的演唱歌曲,微軟小冰演唱的技術和她們又啥不同?
據(jù)公開資料介紹,初音未來用的是語音合成引擎VOCALOID,需要把聲優(yōu)錄制好音頻材料放進去,制作成音樂合成軟件。創(chuàng)作者只需將歌詞輸入軟件,加上背景音樂就可以制作出虛擬歌姬演唱的歌曲。
認真聽初音未來、洛天依等虛擬歌姬演唱的歌曲會發(fā)現(xiàn),歌曲的每個字的連貫性并不好,咬字比較生硬。相比之下,采用人工智能生成模型的小冰的演唱要連貫和自然很多。
但是,微軟(亞洲)互聯(lián)網(wǎng)工程院首席語音科學家欒劍告訴雷鋒網(wǎng),訓練小冰的唱功是個痛苦的過程。
欒劍播放了一首第一代版本的少女歌手小冰唱的歌,效果有點出人意料,可以說是五音不全,常常跑調,讓人不由得想起上次去KTV時從隔壁包間傳來的歌聲。
第一代版本的歌聲雖然不理想,但是卻很自然,每個片段都有豐富的細節(jié),這讓小冰團隊感到驚喜。
到了第二代版本,小冰唱歌的音準問題已經(jīng)基本解決,但是在音質(唱功)方面,還需要改進。
然后是第三代……據(jù)說當時第三代的演唱成本出來時,小冰團隊去跟音樂人小柯交流,小柯突然告訴他們,“這個聲音很好,但很單薄,因為它在聲音之下沒有氣息?!碑敃r在訓練小冰第三代模型時,訓練數(shù)據(jù)里是有大量氣息的:換氣的聲音、一個聲音起來之前的氣息、結束的氣息,但是他們把這些當成雜質,過濾掉了。
“我知我新”這首歌采用第四次迭代版本的小冰DNN模型,這個模型的主要的功能是讓演唱盡可能自然和接近人類演唱的風格。小冰在拿到曲譜后,會分析出節(jié)奏、音符長短,如果完全按照曲譜的話,演唱會非常機械。DNN模型能讓小冰學習大量人類歌手的唱法后,形成自己的演唱風格。
在網(wǎng)易云音樂的評論區(qū),有人評論說,“小冰唱歌已經(jīng)會換氣了,跟真人差不多。如果第一次聽,我都以為是真人。”
據(jù)介紹,第四次迭代版本有三大更新:首先,加入換氣聲自動合成能力,歌聲與氣息融合,聽起來更自然更有感染力。其次,第四次迭代本在在深度學習建模中增加控制的方式,字與字、音符與音符之間的過渡更加連貫順暢。最后,通過進一步優(yōu)化的深度神經(jīng)網(wǎng)絡結構,以及大幅度補充的訓練數(shù)據(jù),使小冰并行學習來自不同人類歌手的演唱風格,進一步脫離手工參數(shù)輸入,自行完成演繹。
小冰迭代了上萬次才達到現(xiàn)在的水平,但是對于AI來說其實花費的時間并不長。欒劍用了一個笑傲江湖里的典故,“笑傲江湖里有劍宗和氣宗,初音未來這樣的虛擬歌姬用的技術像劍宗,短時間的修行就能出不錯的效果。但是用軟件合成的歌曲很難在流暢性、自然度等方面有提升。小冰現(xiàn)在走的這條路,更像氣宗,基礎打得比較牢固,想象的空間會很大。
除了唱功的進步之外,“我知我新”里小冰的作詞能力也有了明顯的進步。
我們再來看一遍歌詞。
他們都順應潮流/他們問為什么改變/青春灼灼花樣翩翩/卻不向前/當世界還在變遷/若時間無垠/若探索無邊/認知就不再有極限/我在我主場/世界就任我去狂想/我知我新/未知的世界那么驚艷/哪怕有傷/滿手泥濘還眼神發(fā)光/當我身處困境/也要像跑在叢林/急風驟雨的前路/人潮洶涌的江湖/我問我答我聽我想/不懼怕來日方長/不跟隨的一個我/是倔強的鯨和自在的鳥/不妥協(xié)的一個我/是沙漠的舟和獨特的島/很有趣的一個我/是山川的海和海底的草/很好奇的一個我/晝夜四季輪轉
現(xiàn)在我知我新
聽一遍歌,很容易就會察覺到,這首歌的歌詞很押韻,唱起來有節(jié)奏感。通讀一遍的話,會發(fā)現(xiàn)整體是有主題的,整體意向和意境統(tǒng)一,每一個小節(jié)也有不錯的邏輯銜接。在現(xiàn)在口水歌盛行的當下,這首歌的歌詞,可圈可點。
微軟(亞洲)互聯(lián)網(wǎng)工程院人工智能創(chuàng)造事業(yè)部副總經(jīng)理袁晶告訴雷鋒網(wǎng),“在訓練的時候,模型上我們會做一些優(yōu)化,針對曲調的韻律,針對節(jié)奏,會有一些優(yōu)化,這首詞生成出來,是完全百分之百AI的作品,沒有做過什么改動?!?/strong>
據(jù)介紹, “我知我新”采用了與小冰創(chuàng)作詩歌相同的生成模型——基于LSTM的seq2seq模型,但是訓練數(shù)據(jù)從詩歌換成了歌詞,小冰利用深度神經(jīng)網(wǎng)絡學習超過1000萬行的歌詞語料,并在此基礎上訓練,再通過多感官誘發(fā)創(chuàng)作靈感,生成歌詞。
“我知我新”是小冰為知乎“新知青年大會”創(chuàng)作的主題曲,主題為“新知”。在創(chuàng)作的過程中,小冰“觀看”了知乎 2018 全新品牌視頻,閱讀了海量的知乎站內問答,以及知乎用戶公開的各類實時想法。基于這些知乎站內的圖片、視頻、問答內容與想法內容,誘發(fā)小冰的歌詞生成。
最后,團隊從小冰創(chuàng)作的多個作品中,挑選了這一首熱情年輕具有動感的演繹風格,從而完成這一首《我知我新》。
此前,小冰可以根據(jù)一張圖片來創(chuàng)作詩歌。例如:
這種誘發(fā)創(chuàng)作其實和人類創(chuàng)作的模式很類似,一個人在熟讀唐詩三百首之后,再看到一個意境,腦海中會不由自主涌現(xiàn)出詩句?,F(xiàn)在,除了圖片以外,小冰也可以根據(jù)長文本、圖片、音頻、視頻等多種媒體形式來進行創(chuàng)作。
雖說了解了小冰創(chuàng)作歌詞的過程,但是小冰是如何把握歌詞的主題和意義的呢?
袁晶以上圖創(chuàng)造詩歌的過程為例,他解釋到,“這張圖片是我們給她的刺激,里面包含了淺水、星星、太陽這些元素,她能直接用文字表達出這些元素,然后她自己也會發(fā)散到別的意象。比如‘她嫁了人間許多顏色’,這個意象是圖片里沒有的。有了這些之后,其實一首詩歌的整體性就有了。其實詩詞、歌詞都不需要完整的邏輯,人會通過腦補把意象串聯(lián)起來。如果讓小冰去寫散文,去做純自然語言理解,現(xiàn)在還是很困難?!?/p>
現(xiàn)在,學界和業(yè)界都在積極推動自然語言理解和生成等技術,一些機器人已經(jīng)具備寫作簡單的體育新聞、天氣預報等文體。雷鋒網(wǎng)了解到,小冰也已經(jīng)可以寫八卦新聞、也是錢江晚報的“記者”。
聊完演唱和作詞,最后補充說下小冰的作曲能力。
與演唱及作詞不同的是,作曲模型并非微軟小冰獨有,而是也有同行業(yè)者正在進行。
據(jù)介紹,微軟小冰的作曲模型在行業(yè)中最大的區(qū)別在于,“我們把音樂專業(yè)領域的Domain Knowledge也融入了模型構建中。其中,主要包括旋律的和弦進行(chord progression)和節(jié)奏型特征(rhythm pattern)。這對于提高生成歌曲的旋律性有顯著的作用。簡單來說,這樣生成的旋律聽起來更加悅耳,更加適于演唱,并容易被聽眾記憶。
在音樂情感方面,目前已可以通過對生成旋律情感的要求來選擇和弦的進行,從而可以生成歌曲的不同情感,主要分兩大類:歡快、向上的,使用常用的大調和弦行進;傷感、憂傷的,使用常用的小調和弦行進。每個大類下還有若干小類。在音樂旋律方面,微軟小冰將旋律轉化成一個類似文本數(shù)據(jù)的結構化時間序列, 進而采用RNN/LSTM等Seq2Seq模型進行編碼解碼,生成新的序列(即旋律)。 這一過程與歌詞的生成過程相配合。當歌詞生成之后,小冰通過算法得到相應的音節(jié)candidate,采用訓練好的作曲模型生成對應的旋律?!?/p>
以上作曲模型,與演唱、歌詞等三個模型共同構成了小冰的端到端歌曲生成能力,是一個完整的人工智能音樂人內容創(chuàng)造框架。
微軟小冰的路線跟大多數(shù)的對話式人工智能有些不一樣。
當其他人在忙著學會怎么播放歌曲、播報天氣、預定餐廳的時候,小冰已經(jīng)開始學會關心人類,也開始埋頭創(chuàng)作。
在微軟2018人工智能大會上,微軟(亞洲)互聯(lián)網(wǎng)工程研究院副院長李笛曾經(jīng)分享到,現(xiàn)在多數(shù)用戶跟語音助手交互的時間其實不超過5秒,一般就是讓語音助手去執(zhí)行一項命令,這樣的語音助手其實只是像語音化了的遙控器。但是,小冰的團隊希望語音助手能做更多的事,比如走到比較后端,去提供內容。
在文字創(chuàng)作這一部分,小冰一開始學寫詩,現(xiàn)在已經(jīng)迭代出了創(chuàng)作歌詞的模型。在聲音創(chuàng)作方面,小冰除了唱歌以外,還會創(chuàng)作有聲讀物。
就在幾天前的六一兒童節(jié),微軟有聲讀物“小冰姐姐的童話工廠”上線,父母可以設置故事的傾向,是偏教育性還是偏娛樂性,還可以設定故事主人公的名字,把孩子設為主角。20秒的時間內,小冰就能完成通話故事創(chuàng)作、朗讀、配樂一系列過程,生成10分鐘左右的有聲童話故事。
此前,小冰已經(jīng)出了一本詩集《陽光失了玻璃窗》,小冰寫詩的功能已經(jīng)全面開放,正在籌備的第二本詩集將是與人合作完成,小冰能很快速生成一些原始詩歌內容,創(chuàng)作者可以進行修改和完善,最后的成果屬于創(chuàng)作者,因為小冰已經(jīng)完全放棄其創(chuàng)作的內容的版權。
袁晶介紹到,人與人工智能聯(lián)合創(chuàng)造是微軟一直在努力的一個方向。AI進入內容生產(chǎn)領域,并不是要替代人類,而是成為人類的助手,不僅僅是在一般的領域,創(chuàng)作領域其實也是可以做到的。其實每個人都有創(chuàng)作的欲望,只不過有些人有藝術的天分,成為了畫家、音樂人、作家,而有些人沒有這樣的能力。AI就可以幫助每個普通人,讓他們都有創(chuàng)作一些個性化的內容的能力。
關于微軟小冰全新對話能力,可以閱讀雷鋒網(wǎng)往期文章《微軟發(fā)大招,要做情商與智商兼具的語音助手》
相關文章:
一口氣看完微軟人工智能布局和產(chǎn)品落地 | 微軟2018人工智能大會
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。