丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給張進(jìn)
發(fā)送

0

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

本文作者: 張進(jìn) 2024-04-22 10:57
導(dǎo)語(yǔ):第一個(gè)國(guó)產(chǎn)音樂(lè)AIGC SOTA模型。

【雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))】雨果曾經(jīng)說(shuō)過(guò):“開啟人類智慧寶庫(kù)的三把鑰匙,即數(shù)字、字母、音符。”

音樂(lè)早已成為人類表達(dá)情感的最佳載體。

但音樂(lè)創(chuàng)作是一件門檻很高的事情,因?yàn)橐魳?lè)創(chuàng)作不是某一個(gè)人的獨(dú)角戲,而一個(gè)團(tuán)隊(duì)高度協(xié)作的過(guò)程。從作詞、作曲到編曲、混音,再到歌曲錄制,每個(gè)環(huán)節(jié)都需要專業(yè)音樂(lè)人付出努力,并伴隨著高昂的成本投入。

但試想一下,如果有一天,我們只需手指點(diǎn)一點(diǎn)就能創(chuàng)作歌曲,那將會(huì)發(fā)生什么?

這種猜想在2023年,隨著大模型爆火一步步發(fā)酵:

2023年,一場(chǎng)由“AI歌手”引領(lǐng)的翻唱熱潮席卷網(wǎng)絡(luò),諸如孫燕姿、陳奕迅、林俊杰等眾多華語(yǔ)樂(lè)壇巨星紛紛擁有了屬于自己的AI替身,各個(gè)網(wǎng)絡(luò)平臺(tái)變成“AI歌手復(fù)出演唱會(huì)”的現(xiàn)場(chǎng)。這一切的背后,是So-vits Svc AI音樂(lè)生成技術(shù)的應(yīng)用。這項(xiàng)技術(shù)通過(guò)解析少量音頻片段,就能精確模擬目標(biāo)歌手的獨(dú)特音色,盡管在捕捉歌手的個(gè)性化唱腔特點(diǎn)、演唱技法及個(gè)人風(fēng)格等方面尚存差距,但它近乎實(shí)現(xiàn)1:1的音色還原,也激發(fā)了一場(chǎng)全民音樂(lè)創(chuàng)作浪潮。

自今年3月以來(lái),隨著Suno V3和Udio發(fā)布,這股音樂(lè)創(chuàng)作熱潮被再次點(diǎn)燃。這次我們不僅可以翻唱某位歌手的歌曲,還可以通過(guò)輸入幾句歌詞和音樂(lè)風(fēng)格,就能獲得兩首時(shí)長(zhǎng)約兩分鐘的完整歌曲。這種突破性的技術(shù)創(chuàng)新,被業(yè)界視為真正意義上拉低了音樂(lè)創(chuàng)作門檻,讓更多人能夠參與到音樂(lè)創(chuàng)作中。

短短一年多時(shí)間,從So-vits Svc到OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen,再到SunoV3和Udio,大模型技術(shù)不斷重塑音樂(lè)創(chuàng)作領(lǐng)域。

可以看到,從克隆音色的“AI歌手”,到生成完整歌曲的Suno,AI音樂(lè)生成技術(shù)正在不斷飛躍。只可惜,這些產(chǎn)品距離生成高品質(zhì)且類型豐富的歌曲還有段距離。特別在中文歌曲領(lǐng)域,一直沒(méi)有一款符合中國(guó)人音樂(lè)審美的AI音樂(lè)生成大模型。

直到昨天,昆侖萬(wàn)維發(fā)布全球最大規(guī)模的開源MOE大模型「天工3.0」,并基于它打造了國(guó)內(nèi)目前唯一公開可用的AI音樂(lè)生成大模型「天工SkyMusic」。這款音樂(lè)大模型在人聲&BGM音質(zhì)、人聲自然度、發(fā)音可懂度等性能方面,以6.65分的綜合得分超越Suno V3,成為中國(guó)首個(gè)音樂(lè)AIGC SOTA(state of the art,領(lǐng)域最佳水準(zhǔn))模型。

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

那么天工SkyMusic是如何成為中國(guó)首個(gè)音樂(lè)AIGC SOTA模型?它的實(shí)際體驗(yàn)如何呢?下面我們一起來(lái)看一下。


1
中國(guó)首個(gè)音樂(lè)AIGC SOTA模型

打開天工 APP,點(diǎn)擊音樂(lè)板塊,輸入歌名和歌詞,選擇你想要參考的歌曲,再點(diǎn)擊生成音樂(lè),即可獲得由你創(chuàng)作的歌曲。這就是「天工SkyMusic」簡(jiǎn)化而高效的音樂(lè)創(chuàng)作全過(guò)程。

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

這種參考音樂(lè)生成能力,也是「天工SkyMusic」的一大亮點(diǎn)。用戶既可以上傳自己喜歡的歌曲作為模板,也可以從「天工SkyMusic」龐大的數(shù)據(jù)庫(kù)中挑選合適的參照曲目,系統(tǒng)將據(jù)此生成風(fēng)格相近、嗓音神似的全新作品。這一特性顯著降低了音樂(lè)創(chuàng)作的技術(shù)門檻,使得即便是缺乏專業(yè)音樂(lè)素養(yǎng)的普通用戶也能參與音樂(lè)創(chuàng)作,享受創(chuàng)作音樂(lè)的樂(lè)趣。

利用「天工SkyMusic」,我們制作了兩首風(fēng)格迥異的《乘鶴》:


從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

再輸入一首耳熟能詳?shù)挠⑽耐{《小星星》,將它改編成搖滾風(fēng)格和抒情男聲版本,也算是對(duì)童年的獨(dú)特回憶:

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

在創(chuàng)作中我們發(fā)現(xiàn),「天工SkyMusic」涵蓋了說(shuō)唱、民謠、放克、古風(fēng)、電子等多種曲風(fēng)。下一步,團(tuán)隊(duì)還計(jì)劃讓用戶根據(jù)哼出來(lái)的旋律生成歌曲。同時(shí)相比SunoV3等海外同類產(chǎn)品,「天工SkyMusic」創(chuàng)作的歌曲在中文人聲細(xì)膩度和可識(shí)別度上表現(xiàn)更優(yōu)秀,還能運(yùn)用顫音、吟唱、男女對(duì)唱、自動(dòng)和聲等技巧。

再來(lái)一首《明天不上班》,慶祝一下即將到來(lái)的星期五。

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

這首歌也完美展示了「天工SkyMusic」相較Suno的核心體驗(yàn)優(yōu)勢(shì)——方言歌曲生成能力,即讓用戶能自如地利用四川話、粵語(yǔ)、北京話等多種方言演唱歌曲,極大豐富了用戶的音樂(lè)創(chuàng)作空間。

如此卓越的AI音樂(lè)生成模型,為什么才出現(xiàn)呢?究其原因,是因?yàn)樘幚硪魳?lè)數(shù)據(jù)比處理圖像和視頻數(shù)據(jù)更復(fù)雜。音樂(lè)作為一種長(zhǎng)時(shí)序的技術(shù)形式,每秒內(nèi)包含數(shù)萬(wàn)個(gè)相互緊密關(guān)聯(lián)的采樣點(diǎn),這種內(nèi)在的復(fù)雜性使它成為最復(fù)雜的模態(tài)之一。加之音樂(lè)中融合了歌詞、人聲及旋律等多種信息層次,每層之下又包含海量的信息,這意味在處理音樂(lè)時(shí),不僅要構(gòu)建精確的時(shí)間序列模型,還要綜合考慮聲波形態(tài)、頻率特性、節(jié)奏結(jié)構(gòu)等諸多要素。

不過(guò)隨著AI大模型技術(shù)的不斷演進(jìn),已經(jīng)找到兩種駕馭音樂(lè)復(fù)雜性質(zhì)的有效策略,這也構(gòu)成了AI音樂(lè)生成大模型的兩大技術(shù)路徑:符號(hào)音樂(lè)生成路線、大模型音樂(lè)音頻生成路線。

符號(hào)音樂(lè)生成路線,是通過(guò)標(biāo)注大量樂(lè)譜數(shù)據(jù)再訓(xùn)練模型,這條路線在學(xué)術(shù)界已有廣泛研究,但它最終生成的是樂(lè)譜,借助其他程序或工具轉(zhuǎn)化成可播放的音樂(lè),而且實(shí)際效果并不盡如人意。

大模型音樂(lè)音頻生成路線則是涵蓋樂(lè)器、人聲、旋律、音量和音符等音樂(lè)元素的端到端一體化生成,最終生成的是可聽(tīng)的音頻文件。但代價(jià)是需要巨大的研發(fā)資源投入和對(duì)大規(guī)模訓(xùn)練數(shù)據(jù)集的依賴。即便如Google、OpenAI等行業(yè)巨頭,也尚未取得重大突破。

此外,AI對(duì)人聲演唱真實(shí)感的模擬也是至關(guān)重要的研究課題。但過(guò)去的AI音樂(lè)技術(shù)主要聚焦于無(wú)人聲演唱的背景音樂(lè)(BGM)創(chuàng)作,對(duì)人聲演唱的Song領(lǐng)域一直缺少有效的解決方案。

「天工SkyMusic」在立項(xiàng)之初,昆侖萬(wàn)維就面臨著這兩項(xiàng)艱難的選擇。最終,研發(fā)團(tuán)隊(duì)一致決定選擇大模型音樂(lè)音頻生成路線并攻堅(jiān)人聲Song領(lǐng)域。這意味著昆侖萬(wàn)維將在幾乎沒(méi)有任何開源可借鑒的情況下,正式挺進(jìn)AI音樂(lè)生成技術(shù)的兩個(gè)無(wú)人區(qū),難度可想而知。

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

經(jīng)歷多次實(shí)驗(yàn)探索,研發(fā)團(tuán)隊(duì)意識(shí)到DiT結(jié)構(gòu)與AI音樂(lè)生成大模型的深度兼容性,并堅(jiān)定地朝這個(gè)方向投入,最終自主研發(fā)出適用于音樂(lè)音頻領(lǐng)域的類Sora模型架構(gòu),填補(bǔ)了行業(yè)在技術(shù)路線以及人聲演唱領(lǐng)域的技術(shù)空白。這套架構(gòu)包含三大核心模塊——Encoder、DiT(Diffusion Transformer)和Decoder。其中,Large-scale Transformer 負(fù)責(zé)譜曲,學(xué)習(xí) Music Patches 的上下文依賴關(guān)系,同時(shí)完成音樂(lè)可控性;Diffusion Transformer 負(fù)責(zé)演唱,通過(guò)LDM讓Music Patches被還原成高質(zhì)量音頻。

同時(shí)為訓(xùn)練「天工SkyMusic」,昆侖萬(wàn)維建立了迄今為止全球最大的音樂(lè)數(shù)據(jù)集,包含了兩千余萬(wàn)首歌曲樣本,確保了「天工SkyMusic」在音樂(lè)風(fēng)格上精準(zhǔn)可控和廣泛適用。

如此,「天工SkyMusic」降低了音樂(lè)創(chuàng)作的準(zhǔn)入門檻,讓音樂(lè)創(chuàng)作不再存在專業(yè)壁壘。真正意義上拉近了音樂(lè)創(chuàng)作與普通大眾的距離,推動(dòng)了AIGC產(chǎn)業(yè)向前邁進(jìn)了。同時(shí)昆侖萬(wàn)維還主動(dòng)公開了「天工SkyMusic」的技術(shù)原理圖,為全球開源社區(qū)和開發(fā)者提供了可參考的案例,促進(jìn)全球AIGC技術(shù)生態(tài)的共建共享。


2
能獨(dú)立思考的天工3.0大模型

「天工SkyMusic」的成功離不開背后的技術(shù)底座「天工 3.0」。昆侖萬(wàn)維董事長(zhǎng)兼CEO方漢表示:“文本大模型是所有AIGC堅(jiān)實(shí)的基礎(chǔ)。所有的社交、游戲、音樂(lè)專屬模型都是需要文本大模型去支撐的?!碑?dāng)前,無(wú)論是GPT模型、GLM模型還是Baichuan模型,都是采用底層文本大模型與專業(yè)細(xì)分大模型相結(jié)合的方式。

昆侖萬(wàn)維發(fā)布的「天工 3.0」擁有高達(dá)4000億參數(shù),性能全面超越3140億參數(shù)的MoE大模型Grok1(xAI),是迄今全球最大規(guī)模的開源MoE大模型,也是昆侖萬(wàn)維旗下所有AI技術(shù)應(yīng)用模型的基石。

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

相較于上一代,「天工 3.0」在模型語(yǔ)義理解、邏輯推理以及通用性、泛化性、不確定性知識(shí)、學(xué)習(xí)能力等領(lǐng)域擁有驚人的性能提升,其技術(shù)知識(shí)能力提升超過(guò)20%,數(shù)學(xué) / 推理 / 代碼 / 文創(chuàng)能力提升超過(guò) 30%。

同時(shí)作為多模態(tài)大模型,「天工 3.0」集成了AI搜索、AI寫作、AI長(zhǎng)文本閱讀、AI圖片生成、AI音樂(lè)生成等功能。在權(quán)威評(píng)測(cè)MMBench-CN的評(píng)估中,「天工3.0」的AR(屬性推理)、RR(關(guān)系推理)、FP-C(細(xì)粒度感知-交叉實(shí)例)、CP(粗略感知)四項(xiàng)性能均位列榜首,整體綜合成績(jī)更超越GPT-4V,穩(wěn)居全球多模態(tài)大模型首位。

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

基于性能與能力的全方位躍升,「天工3.0」還掌握了至關(guān)重要的獨(dú)立思考能力。這使得它能夠在多輪搜索與綜合工具調(diào)用、圖表繪制、研究模式、增強(qiáng)模式、改圖擴(kuò)圖等多項(xiàng)能力上,為用戶提供前所未有的AI應(yīng)用體驗(yàn)。

「天工3.0」擁有很強(qiáng)的邏輯推理能力:

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

「天工3.0」還能夠更好地理解和處理用戶自然語(yǔ)言Query中的復(fù)雜語(yǔ)義信息,包括隱喻、多義詞等。例如最近爆火的“成都迪士尼”,我們問(wèn)了天工大模型,它不僅可以精確地解釋這一網(wǎng)絡(luò)熱梗。還會(huì)通過(guò)追問(wèn),為我們規(guī)劃行程或給到近期的游客反饋。

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

在面對(duì)產(chǎn)業(yè)研究、產(chǎn)品橫評(píng)、信息分析、圖片生成、圖表繪制等復(fù)雜需求時(shí),「天工3.0」能同時(shí)展示多種能力,控制模型去完成任務(wù)。

在執(zhí)行“查詢南非國(guó)家2023年的人均GDP,并制作成柱狀圖”一任務(wù)過(guò)程中,「天工3.0」率先調(diào)用了搜索功能,再調(diào)用python工具繪制柱狀圖,最后加以解讀和總結(jié),給出了正確的答案和全面分析:

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

「天工3.0」先通過(guò)語(yǔ)義理解對(duì)用戶需求進(jìn)行深度理解,再通過(guò)邏輯推理能力將復(fù)雜的任務(wù)拆解成細(xì)分環(huán)節(jié),最后通過(guò)獨(dú)立規(guī)劃以及調(diào)用、組合外部工具及信息,將細(xì)分環(huán)節(jié)發(fā)到不同模型,從而精準(zhǔn)高效的完成這類復(fù)雜需求。

內(nèi)容創(chuàng)作能力一直是「天工」系列大模型的強(qiáng)項(xiàng),在上一代「天工2.0」大模型的基礎(chǔ)上,「天工3.0」更是進(jìn)行了全面的內(nèi)容創(chuàng)作能力升級(jí),其不僅能實(shí)現(xiàn)AI音樂(lè)生成、AI語(yǔ)音、AI對(duì)話、AI二次元漫畫生成等強(qiáng)大的內(nèi)容創(chuàng)作能力,更是通過(guò)專項(xiàng)Agent訓(xùn)練實(shí)現(xiàn)了在對(duì)話中結(jié)合文本需求實(shí)時(shí)生成圖片、結(jié)合文本需求實(shí)時(shí)內(nèi)容分析及圖表構(gòu)建等能力。

讓「天工3.0」分析小米SU7跟蔚來(lái)ET5哪款車更好:

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

可以看到在如上述這種產(chǎn)品對(duì)比的復(fù)雜需求中, 「天工3.0」可以根據(jù)需求,實(shí)時(shí)內(nèi)容分析并構(gòu)建圖表來(lái)讓結(jié)果呈現(xiàn)更明晰。



3
后記

通過(guò)「天工3.0」和「天工SkyMusic」的發(fā)布,我們可以看到,昆侖萬(wàn)維“All in AGI 與 AIGC”的戰(zhàn)略并不是停留于理論的口號(hào),而是真切指引著昆侖萬(wàn)維在技術(shù)和商業(yè)模式上的每一處布局。依托“天工大模型”這一技術(shù)基石,昆侖萬(wàn)維已規(guī)劃出包含AI大模型、AI搜索、AI音樂(lè)、AI社交、AI游戲和AI視頻在內(nèi)的六大AI業(yè)務(wù)矩陣,并著力整合這六大板塊,構(gòu)筑一個(gè)集成式的AI UGC平臺(tái)。

“昆侖萬(wàn)維認(rèn)為下一代的AI巨頭一定是C端加上免費(fèi),因?yàn)榛ヂ?lián)網(wǎng)時(shí)代和移動(dòng)互聯(lián)網(wǎng)時(shí)代的成功企業(yè)均采用免費(fèi)加C端模式,而在AI時(shí)代,我們同樣堅(jiān)信這一邏輯?!狈綕h表示。

由于大模型每次提供服務(wù)都需要耗費(fèi)推理資源,為了實(shí)現(xiàn)免費(fèi)toC模式,方漢總結(jié)出產(chǎn)業(yè)的三條路徑:“第一條,通過(guò)持續(xù)優(yōu)化,將推理成本降低至用戶創(chuàng)造的廣告價(jià)值之下;第二條,通過(guò)AI手機(jī)實(shí)現(xiàn)端側(cè)推理,將推理成本分?jǐn)傊两K端硬件中。第三條,建立AI UGC平臺(tái),由1%的用戶創(chuàng)造內(nèi)容,99%的用戶消費(fèi)內(nèi)容?!?/p>

這三條路徑并不互相矛盾,只是分屬于產(chǎn)業(yè)的不同階段。比如,方漢判斷,在AI終端硬件大面積普及之前,AI UGC平臺(tái)落地會(huì)更快速形成商業(yè)閉環(huán),但大模型的終局一定是終端AI。

不論是「天工SkyMusic」,還是其他核心AI業(yè)務(wù),皆遵循這一商業(yè)邏輯。即通過(guò)AI技術(shù)賦能,降低創(chuàng)作門檻,持續(xù)擴(kuò)大內(nèi)容創(chuàng)作者群體,以此提升個(gè)性化內(nèi)容的生產(chǎn)量與豐富度,從而滿足了大眾對(duì)于優(yōu)質(zhì)內(nèi)容的消費(fèi)需求,形成正向投資回報(bào)率的良性循環(huán)。

同時(shí)昆侖萬(wàn)維也將運(yùn)用AI技術(shù)打破傳統(tǒng)內(nèi)容創(chuàng)作壁壘,讓不同文化和語(yǔ)言群體都能夠在這一AI UGC平臺(tái)上輕松傳達(dá)自身的故事與情感,促進(jìn)全球范圍內(nèi)實(shí)現(xiàn)文化平權(quán)。

在推進(jìn)AI UGC平臺(tái)建設(shè)的過(guò)程中,昆侖萬(wàn)維堅(jiān)持技術(shù)創(chuàng)新與商業(yè)模式創(chuàng)新相結(jié)合,積極探索適合當(dāng)下及未來(lái)市場(chǎng)的增長(zhǎng)路徑。昆侖萬(wàn)維正全力踐行“All in AGI 與 AIGC”,力爭(zhēng)在全球范圍內(nèi)構(gòu)建一個(gè)包容性強(qiáng)、參與度廣、創(chuàng)新能力出眾的AI內(nèi)容生態(tài),引領(lǐng)行業(yè)邁向一個(gè)嶄新的時(shí)代。



雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

從 0 到 1,揭秘中國(guó)首個(gè) AI 音樂(lè) SOTA 模型

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)