從 0 到 1，揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

本文作者：張進(jìn)

2024-04-22 10:57

導(dǎo)語(yǔ)：第一個(gè)國(guó)產(chǎn)音樂(lè)AIGC SOTA模型。

【雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))】雨果曾經(jīng)說(shuō)過(guò)：“開啟人類智慧寶庫(kù)的三把鑰匙，即數(shù)字、字母、音符。”

音樂(lè)早已成為人類表達(dá)情感的最佳載體。

但音樂(lè)創(chuàng)作是一件門檻很高的事情，因?yàn)橐魳?lè)創(chuàng)作不是某一個(gè)人的獨(dú)角戲，而一個(gè)團(tuán)隊(duì)高度協(xié)作的過(guò)程。從作詞、作曲到編曲、混音，再到歌曲錄制，每個(gè)環(huán)節(jié)都需要專業(yè)音樂(lè)人付出努力，并伴隨著高昂的成本投入。

但試想一下，如果有一天，我們只需手指點(diǎn)一點(diǎn)就能創(chuàng)作歌曲，那將會(huì)發(fā)生什么？

這種猜想在2023年，隨著大模型爆火一步步發(fā)酵：

2023年，一場(chǎng)由“AI歌手”引領(lǐng)的翻唱熱潮席卷網(wǎng)絡(luò)，諸如孫燕姿、陳奕迅、林俊杰等眾多華語(yǔ)樂(lè)壇巨星紛紛擁有了屬于自己的AI替身，各個(gè)網(wǎng)絡(luò)平臺(tái)變成“AI歌手復(fù)出演唱會(huì)”的現(xiàn)場(chǎng)。這一切的背后，是So-vits Svc AI音樂(lè)生成技術(shù)的應(yīng)用。這項(xiàng)技術(shù)通過(guò)解析少量音頻片段，就能精確模擬目標(biāo)歌手的獨(dú)特音色，盡管在捕捉歌手的個(gè)性化唱腔特點(diǎn)、演唱技法及個(gè)人風(fēng)格等方面尚存差距，但它近乎實(shí)現(xiàn)1:1的音色還原，也激發(fā)了一場(chǎng)全民音樂(lè)創(chuàng)作浪潮。

自今年3月以來(lái)，隨著Suno V3和Udio發(fā)布，這股音樂(lè)創(chuàng)作熱潮被再次點(diǎn)燃。這次我們不僅可以翻唱某位歌手的歌曲，還可以通過(guò)輸入幾句歌詞和音樂(lè)風(fēng)格，就能獲得兩首時(shí)長(zhǎng)約兩分鐘的完整歌曲。這種突破性的技術(shù)創(chuàng)新，被業(yè)界視為真正意義上拉低了音樂(lè)創(chuàng)作門檻，讓更多人能夠參與到音樂(lè)創(chuàng)作中。

短短一年多時(shí)間，從So-vits Svc到OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen，再到SunoV3和Udio，大模型技術(shù)不斷重塑音樂(lè)創(chuàng)作領(lǐng)域。

可以看到，從克隆音色的“AI歌手”，到生成完整歌曲的Suno，AI音樂(lè)生成技術(shù)正在不斷飛躍。只可惜，這些產(chǎn)品距離生成高品質(zhì)且類型豐富的歌曲還有段距離。特別在中文歌曲領(lǐng)域，一直沒(méi)有一款符合中國(guó)人音樂(lè)審美的AI音樂(lè)生成大模型。

直到昨天，昆侖萬(wàn)維發(fā)布全球最大規(guī)模的開源MOE大模型「天工3.0」，并基于它打造了國(guó)內(nèi)目前唯一公開可用的AI音樂(lè)生成大模型「天工SkyMusic」。這款音樂(lè)大模型在人聲&BGM音質(zhì)、人聲自然度、發(fā)音可懂度等性能方面，以6.65分的綜合得分超越Suno V3，成為中國(guó)首個(gè)音樂(lè)AIGC SOTA（state of the art，領(lǐng)域最佳水準(zhǔn)）模型。

從 0 到 1，揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

那么天工SkyMusic是如何成為中國(guó)首個(gè)音樂(lè)AIGC SOTA模型？它的實(shí)際體驗(yàn)如何呢？下面我們一起來(lái)看一下。

1
中國(guó)首個(gè)音樂(lè)AIGC SOTA模型

打開天工 APP，點(diǎn)擊音樂(lè)板塊，輸入歌名和歌詞，選擇你想要參考的歌曲，再點(diǎn)擊生成音樂(lè)，即可獲得由你創(chuàng)作的歌曲。這就是「天工SkyMusic」簡(jiǎn)化而高效的音樂(lè)創(chuàng)作全過(guò)程。

從 0 到 1，揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

這種參考音樂(lè)生成能力，也是「天工SkyMusic」的一大亮點(diǎn)。用戶既可以上傳自己喜歡的歌曲作為模板，也可以從「天工SkyMusic」龐大的數(shù)據(jù)庫(kù)中挑選合適的參照曲目，系統(tǒng)將據(jù)此生成風(fēng)格相近、嗓音神似的全新作品。這一特性顯著降低了音樂(lè)創(chuàng)作的技術(shù)門檻，使得即便是缺乏專業(yè)音樂(lè)素養(yǎng)的普通用戶也能參與音樂(lè)創(chuàng)作，享受創(chuàng)作音樂(lè)的樂(lè)趣。

利用「天工SkyMusic」，我們制作了兩首風(fēng)格迥異的《乘鶴》：

從 0 到 1，揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

再輸入一首耳熟能詳?shù)挠⑽耐{《小星星》，將它改編成搖滾風(fēng)格和抒情男聲版本，也算是對(duì)童年的獨(dú)特回憶：

從 0 到 1，揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

在創(chuàng)作中我們發(fā)現(xiàn)，「天工SkyMusic」涵蓋了說(shuō)唱、民謠、放克、古風(fēng)、電子等多種曲風(fēng)。下一步，團(tuán)隊(duì)還計(jì)劃讓用戶根據(jù)哼出來(lái)的旋律生成歌曲。同時(shí)相比SunoV3等海外同類產(chǎn)品，「天工SkyMusic」創(chuàng)作的歌曲在中文人聲細(xì)膩度和可識(shí)別度上表現(xiàn)更優(yōu)秀，還能運(yùn)用顫音、吟唱、男女對(duì)唱、自動(dòng)和聲等技巧。

再來(lái)一首《明天不上班》，慶祝一下即將到來(lái)的星期五。

從 0 到 1，揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

這首歌也完美展示了「天工SkyMusic」相較Suno的核心體驗(yàn)優(yōu)勢(shì)——方言歌曲生成能力，即讓用戶能自如地利用四川話、粵語(yǔ)、北京話等多種方言演唱歌曲，極大豐富了用戶的音樂(lè)創(chuàng)作空間。

如此卓越的AI音樂(lè)生成模型，為什么才出現(xiàn)呢？究其原因，是因?yàn)樘幚硪魳?lè)數(shù)據(jù)比處理圖像和視頻數(shù)據(jù)更復(fù)雜。音樂(lè)作為一種長(zhǎng)時(shí)序的技術(shù)形式，每秒內(nèi)包含數(shù)萬(wàn)個(gè)相互緊密關(guān)聯(lián)的采樣點(diǎn)，這種內(nèi)在的復(fù)雜性使它成為最復(fù)雜的模態(tài)之一。加之音樂(lè)中融合了歌詞、人聲及旋律等多種信息層次，每層之下又包含海量的信息，這意味在處理音樂(lè)時(shí)，不僅要構(gòu)建精確的時(shí)間序列模型，還要綜合考慮聲波形態(tài)、頻率特性、節(jié)奏結(jié)構(gòu)等諸多要素。

不過(guò)隨著AI大模型技術(shù)的不斷演進(jìn)，已經(jīng)找到兩種駕馭音樂(lè)復(fù)雜性質(zhì)的有效策略，這也構(gòu)成了AI音樂(lè)生成大模型的兩大技術(shù)路徑：符號(hào)音樂(lè)生成路線、大模型音樂(lè)音頻生成路線。

符號(hào)音樂(lè)生成路線，是通過(guò)標(biāo)注大量樂(lè)譜數(shù)據(jù)再訓(xùn)練模型，這條路線在學(xué)術(shù)界已有廣泛研究，但它最終生成的是樂(lè)譜，借助其他程序或工具轉(zhuǎn)化成可播放的音樂(lè)，而且實(shí)際效果并不盡如人意。

大模型音樂(lè)音頻生成路線則是涵蓋樂(lè)器、人聲、旋律、音量和音符等音樂(lè)元素的端到端一體化生成，最終生成的是可聽(tīng)的音頻文件。但代價(jià)是需要巨大的研發(fā)資源投入和對(duì)大規(guī)模訓(xùn)練數(shù)據(jù)集的依賴。即便如Google、OpenAI等行業(yè)巨頭，也尚未取得重大突破。

此外，AI對(duì)人聲演唱真實(shí)感的模擬也是至關(guān)重要的研究課題。但過(guò)去的AI音樂(lè)技術(shù)主要聚焦于無(wú)人聲演唱的背景音樂(lè)（BGM）創(chuàng)作，對(duì)人聲演唱的Song領(lǐng)域一直缺少有效的解決方案。

「天工SkyMusic」在立項(xiàng)之初，昆侖萬(wàn)維就面臨著這兩項(xiàng)艱難的選擇。最終，研發(fā)團(tuán)隊(duì)一致決定選擇大模型音樂(lè)音頻生成路線并攻堅(jiān)人聲Song領(lǐng)域。這意味著昆侖萬(wàn)維將在幾乎沒(méi)有任何開源可借鑒的情況下，正式挺進(jìn)AI音樂(lè)生成技術(shù)的兩個(gè)無(wú)人區(qū)，難度可想而知。

從 0 到 1，揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

經(jīng)歷多次實(shí)驗(yàn)探索，研發(fā)團(tuán)隊(duì)意識(shí)到DiT結(jié)構(gòu)與AI音樂(lè)生成大模型的深度兼容性，并堅(jiān)定地朝這個(gè)方向投入，最終自主研發(fā)出適用于音樂(lè)音頻領(lǐng)域的類Sora模型架構(gòu)，填補(bǔ)了行業(yè)在技術(shù)路線以及人聲演唱領(lǐng)域的技術(shù)空白。這套架構(gòu)包含三大核心模塊——Encoder、DiT（Diffusion Transformer）和Decoder。其中，Large-scale Transformer 負(fù)責(zé)譜曲，學(xué)習(xí) Music Patches 的上下文依賴關(guān)系，同時(shí)完成音樂(lè)可控性；Diffusion Transformer 負(fù)責(zé)演唱，通過(guò)LDM讓Music Patches被還原成高質(zhì)量音頻。

同時(shí)為訓(xùn)練「天工SkyMusic」，昆侖萬(wàn)維建立了迄今為止全球最大的音樂(lè)數(shù)據(jù)集，包含了兩千余萬(wàn)首歌曲樣本，確保了「天工SkyMusic」在音樂(lè)風(fēng)格上精準(zhǔn)可控和廣泛適用。

如此，「天工SkyMusic」降低了音樂(lè)創(chuàng)作的準(zhǔn)入門檻，讓音樂(lè)創(chuàng)作不再存在專業(yè)壁壘。真正意義上拉近了音樂(lè)創(chuàng)作與普通大眾的距離，推動(dòng)了AIGC產(chǎn)業(yè)向前邁進(jìn)了。同時(shí)昆侖萬(wàn)維還主動(dòng)公開了「天工SkyMusic」的技術(shù)原理圖，為全球開源社區(qū)和開發(fā)者提供了可參考的案例，促進(jìn)全球AIGC技術(shù)生態(tài)的共建共享。

2
能獨(dú)立思考的天工3.0大模型

「天工SkyMusic」的成功離不開背后的技術(shù)底座「天工 3.0」。昆侖萬(wàn)維董事長(zhǎng)兼CEO方漢表示：“文本大模型是所有AIGC堅(jiān)實(shí)的基礎(chǔ)。所有的社交、游戲、音樂(lè)專屬模型都是需要文本大模型去支撐的?！碑?dāng)前，無(wú)論是GPT模型、GLM模型還是Baichuan模型，都是采用底層文本大模型與專業(yè)細(xì)分大模型相結(jié)合的方式。

昆侖萬(wàn)維發(fā)布的「天工 3.0」擁有高達(dá)4000億參數(shù)，性能全面超越3140億參數(shù)的MoE大模型Grok1（xAI），是迄今全球最大規(guī)模的開源MoE大模型，也是昆侖萬(wàn)維旗下所有AI技術(shù)應(yīng)用模型的基石。

從 0 到 1，揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

相較于上一代，「天工 3.0」在模型語(yǔ)義理解、邏輯推理以及通用性、泛化性、不確定性知識(shí)、學(xué)習(xí)能力等領(lǐng)域擁有驚人的性能提升，其技術(shù)知識(shí)能力提升超過(guò)20%，數(shù)學(xué) / 推理 / 代碼 / 文創(chuàng)能力提升超過(guò) 30%。

同時(shí)作為多模態(tài)大模型，「天工 3.0」集成了AI搜索、AI寫作、AI長(zhǎng)文本閱讀、AI圖片生成、AI音樂(lè)生成等功能。在權(quán)威評(píng)測(cè)MMBench-CN的評(píng)估中，「天工3.0」的AR（屬性推理）、RR（關(guān)系推理）、FP-C（細(xì)粒度感知-交叉實(shí)例）、CP（粗略感知）四項(xiàng)性能均位列榜首，整體綜合成績(jī)更超越GPT-4V，穩(wěn)居全球多模態(tài)大模型首位。

從 0 到 1，揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

基于性能與能力的全方位躍升，「天工3.0」還掌握了至關(guān)重要的獨(dú)立思考能力。這使得它能夠在多輪搜索與綜合工具調(diào)用、圖表繪制、研究模式、增強(qiáng)模式、改圖擴(kuò)圖等多項(xiàng)能力上，為用戶提供前所未有的AI應(yīng)用體驗(yàn)。

「天工3.0」擁有很強(qiáng)的邏輯推理能力：

從 0 到 1，揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

「天工3.0」還能夠更好地理解和處理用戶自然語(yǔ)言Query中的復(fù)雜語(yǔ)義信息，包括隱喻、多義詞等。例如最近爆火的“成都迪士尼”，我們問(wèn)了天工大模型，它不僅可以精確地解釋這一網(wǎng)絡(luò)熱梗。還會(huì)通過(guò)追問(wèn)，為我們規(guī)劃行程或給到近期的游客反饋。

從 0 到 1，揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

在面對(duì)產(chǎn)業(yè)研究、產(chǎn)品橫評(píng)、信息分析、圖片生成、圖表繪制等復(fù)雜需求時(shí)，「天工3.0」能同時(shí)展示多種能力，控制模型去完成任務(wù)。

在執(zhí)行“查詢南非國(guó)家2023年的人均GDP，并制作成柱狀圖”一任務(wù)過(guò)程中，「天工3.0」率先調(diào)用了搜索功能，再調(diào)用python工具繪制柱狀圖，最后加以解讀和總結(jié)，給出了正確的答案和全面分析：

從 0 到 1，揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

「天工3.0」先通過(guò)語(yǔ)義理解對(duì)用戶需求進(jìn)行深度理解，再通過(guò)邏輯推理能力將復(fù)雜的任務(wù)拆解成細(xì)分環(huán)節(jié)，最后通過(guò)獨(dú)立規(guī)劃以及調(diào)用、組合外部工具及信息，將細(xì)分環(huán)節(jié)發(fā)到不同模型，從而精準(zhǔn)高效的完成這類復(fù)雜需求。

內(nèi)容創(chuàng)作能力一直是「天工」系列大模型的強(qiáng)項(xiàng)，在上一代「天工2.0」大模型的基礎(chǔ)上，「天工3.0」更是進(jìn)行了全面的內(nèi)容創(chuàng)作能力升級(jí)，其不僅能實(shí)現(xiàn)AI音樂(lè)生成、AI語(yǔ)音、AI對(duì)話、AI二次元漫畫生成等強(qiáng)大的內(nèi)容創(chuàng)作能力，更是通過(guò)專項(xiàng)Agent訓(xùn)練實(shí)現(xiàn)了在對(duì)話中結(jié)合文本需求實(shí)時(shí)生成圖片、結(jié)合文本需求實(shí)時(shí)內(nèi)容分析及圖表構(gòu)建等能力。

讓「天工3.0」分析小米SU7跟蔚來(lái)ET5哪款車更好：

從 0 到 1，揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

可以看到在如上述這種產(chǎn)品對(duì)比的復(fù)雜需求中，「天工3.0」可以根據(jù)需求，實(shí)時(shí)內(nèi)容分析并構(gòu)建圖表來(lái)讓結(jié)果呈現(xiàn)更明晰。

3
后記

通過(guò)「天工3.0」和「天工SkyMusic」的發(fā)布，我們可以看到，昆侖萬(wàn)維“All in AGI 與 AIGC”的戰(zhàn)略并不是停留于理論的口號(hào)，而是真切指引著昆侖萬(wàn)維在技術(shù)和商業(yè)模式上的每一處布局。依托“天工大模型”這一技術(shù)基石，昆侖萬(wàn)維已規(guī)劃出包含AI大模型、AI搜索、AI音樂(lè)、AI社交、AI游戲和AI視頻在內(nèi)的六大AI業(yè)務(wù)矩陣，并著力整合這六大板塊，構(gòu)筑一個(gè)集成式的AI UGC平臺(tái)。

“昆侖萬(wàn)維認(rèn)為下一代的AI巨頭一定是C端加上免費(fèi)，因?yàn)榛ヂ?lián)網(wǎng)時(shí)代和移動(dòng)互聯(lián)網(wǎng)時(shí)代的成功企業(yè)均采用免費(fèi)加C端模式，而在AI時(shí)代，我們同樣堅(jiān)信這一邏輯?！狈綕h表示。

由于大模型每次提供服務(wù)都需要耗費(fèi)推理資源，為了實(shí)現(xiàn)免費(fèi)toC模式，方漢總結(jié)出產(chǎn)業(yè)的三條路徑：“第一條，通過(guò)持續(xù)優(yōu)化，將推理成本降低至用戶創(chuàng)造的廣告價(jià)值之下；第二條，通過(guò)AI手機(jī)實(shí)現(xiàn)端側(cè)推理，將推理成本分?jǐn)傊两K端硬件中。第三條，建立AI UGC平臺(tái)，由1%的用戶創(chuàng)造內(nèi)容，99%的用戶消費(fèi)內(nèi)容?！?/p>

這三條路徑并不互相矛盾，只是分屬于產(chǎn)業(yè)的不同階段。比如，方漢判斷，在AI終端硬件大面積普及之前，AI UGC平臺(tái)落地會(huì)更快速形成商業(yè)閉環(huán)，但大模型的終局一定是終端AI。

不論是「天工SkyMusic」，還是其他核心AI業(yè)務(wù)，皆遵循這一商業(yè)邏輯。即通過(guò)AI技術(shù)賦能，降低創(chuàng)作門檻，持續(xù)擴(kuò)大內(nèi)容創(chuàng)作者群體，以此提升個(gè)性化內(nèi)容的生產(chǎn)量與豐富度，從而滿足了大眾對(duì)于優(yōu)質(zhì)內(nèi)容的消費(fèi)需求，形成正向投資回報(bào)率的良性循環(huán)。

同時(shí)昆侖萬(wàn)維也將運(yùn)用AI技術(shù)打破傳統(tǒng)內(nèi)容創(chuàng)作壁壘，讓不同文化和語(yǔ)言群體都能夠在這一AI UGC平臺(tái)上輕松傳達(dá)自身的故事與情感，促進(jìn)全球范圍內(nèi)實(shí)現(xiàn)文化平權(quán)。

在推進(jìn)AI UGC平臺(tái)建設(shè)的過(guò)程中，昆侖萬(wàn)維堅(jiān)持技術(shù)創(chuàng)新與商業(yè)模式創(chuàng)新相結(jié)合，積極探索適合當(dāng)下及未來(lái)市場(chǎng)的增長(zhǎng)路徑。昆侖萬(wàn)維正全力踐行“All in AGI 與 AIGC”，力爭(zhēng)在全球范圍內(nèi)構(gòu)建一個(gè)包容性強(qiáng)、參與度廣、創(chuàng)新能力出眾的AI內(nèi)容生態(tài)，引領(lǐng)行業(yè)邁向一個(gè)嶄新的時(shí)代。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。