丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給張進(jìn)
發(fā)送

0

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

本文作者: 張進(jìn) 2024-04-22 10:57
導(dǎo)語:第一個國產(chǎn)音樂AIGC SOTA模型。

【雷峰網(wǎng)(公眾號:雷峰網(wǎng))】雨果曾經(jīng)說過:“開啟人類智慧寶庫的三把鑰匙,即數(shù)字、字母、音符?!?/p>

音樂早已成為人類表達(dá)情感的最佳載體。

但音樂創(chuàng)作是一件門檻很高的事情,因為音樂創(chuàng)作不是某一個人的獨角戲,而一個團(tuán)隊高度協(xié)作的過程。從作詞、作曲到編曲、混音,再到歌曲錄制,每個環(huán)節(jié)都需要專業(yè)音樂人付出努力,并伴隨著高昂的成本投入。

但試想一下,如果有一天,我們只需手指點一點就能創(chuàng)作歌曲,那將會發(fā)生什么?

這種猜想在2023年,隨著大模型爆火一步步發(fā)酵:

2023年,一場由“AI歌手”引領(lǐng)的翻唱熱潮席卷網(wǎng)絡(luò),諸如孫燕姿、陳奕迅、林俊杰等眾多華語樂壇巨星紛紛擁有了屬于自己的AI替身,各個網(wǎng)絡(luò)平臺變成“AI歌手復(fù)出演唱會”的現(xiàn)場。這一切的背后,是So-vits Svc AI音樂生成技術(shù)的應(yīng)用。這項技術(shù)通過解析少量音頻片段,就能精確模擬目標(biāo)歌手的獨特音色,盡管在捕捉歌手的個性化唱腔特點、演唱技法及個人風(fēng)格等方面尚存差距,但它近乎實現(xiàn)1:1的音色還原,也激發(fā)了一場全民音樂創(chuàng)作浪潮。

自今年3月以來,隨著Suno V3和Udio發(fā)布,這股音樂創(chuàng)作熱潮被再次點燃。這次我們不僅可以翻唱某位歌手的歌曲,還可以通過輸入幾句歌詞和音樂風(fēng)格,就能獲得兩首時長約兩分鐘的完整歌曲。這種突破性的技術(shù)創(chuàng)新,被業(yè)界視為真正意義上拉低了音樂創(chuàng)作門檻,讓更多人能夠參與到音樂創(chuàng)作中。

短短一年多時間,從So-vits Svc到OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen,再到SunoV3和Udio,大模型技術(shù)不斷重塑音樂創(chuàng)作領(lǐng)域。

可以看到,從克隆音色的“AI歌手”,到生成完整歌曲的Suno,AI音樂生成技術(shù)正在不斷飛躍。只可惜,這些產(chǎn)品距離生成高品質(zhì)且類型豐富的歌曲還有段距離。特別在中文歌曲領(lǐng)域,一直沒有一款符合中國人音樂審美的AI音樂生成大模型。

直到昨天,昆侖萬維發(fā)布全球最大規(guī)模的開源MOE大模型「天工3.0」,并基于它打造了國內(nèi)目前唯一公開可用的AI音樂生成大模型「天工SkyMusic」。這款音樂大模型在人聲&BGM音質(zhì)、人聲自然度、發(fā)音可懂度等性能方面,以6.65分的綜合得分超越Suno V3,成為中國首個音樂AIGC SOTA(state of the art,領(lǐng)域最佳水準(zhǔn))模型。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

那么天工SkyMusic是如何成為中國首個音樂AIGC SOTA模型?它的實際體驗如何呢?下面我們一起來看一下。


1
中國首個音樂AIGC SOTA模型

打開天工 APP,點擊音樂板塊,輸入歌名和歌詞,選擇你想要參考的歌曲,再點擊生成音樂,即可獲得由你創(chuàng)作的歌曲。這就是「天工SkyMusic」簡化而高效的音樂創(chuàng)作全過程。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

這種參考音樂生成能力,也是「天工SkyMusic」的一大亮點。用戶既可以上傳自己喜歡的歌曲作為模板,也可以從「天工SkyMusic」龐大的數(shù)據(jù)庫中挑選合適的參照曲目,系統(tǒng)將據(jù)此生成風(fēng)格相近、嗓音神似的全新作品。這一特性顯著降低了音樂創(chuàng)作的技術(shù)門檻,使得即便是缺乏專業(yè)音樂素養(yǎng)的普通用戶也能參與音樂創(chuàng)作,享受創(chuàng)作音樂的樂趣。

利用「天工SkyMusic」,我們制作了兩首風(fēng)格迥異的《乘鶴》:


從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

再輸入一首耳熟能詳?shù)挠⑽耐{《小星星》,將它改編成搖滾風(fēng)格和抒情男聲版本,也算是對童年的獨特回憶:

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

在創(chuàng)作中我們發(fā)現(xiàn),「天工SkyMusic」涵蓋了說唱、民謠、放克、古風(fēng)、電子等多種曲風(fēng)。下一步,團(tuán)隊還計劃讓用戶根據(jù)哼出來的旋律生成歌曲。同時相比SunoV3等海外同類產(chǎn)品,「天工SkyMusic」創(chuàng)作的歌曲在中文人聲細(xì)膩度和可識別度上表現(xiàn)更優(yōu)秀,還能運用顫音、吟唱、男女對唱、自動和聲等技巧。

再來一首《明天不上班》,慶祝一下即將到來的星期五。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

這首歌也完美展示了「天工SkyMusic」相較Suno的核心體驗優(yōu)勢——方言歌曲生成能力,即讓用戶能自如地利用四川話、粵語、北京話等多種方言演唱歌曲,極大豐富了用戶的音樂創(chuàng)作空間。

如此卓越的AI音樂生成模型,為什么才出現(xiàn)呢?究其原因,是因為處理音樂數(shù)據(jù)比處理圖像和視頻數(shù)據(jù)更復(fù)雜。音樂作為一種長時序的技術(shù)形式,每秒內(nèi)包含數(shù)萬個相互緊密關(guān)聯(lián)的采樣點,這種內(nèi)在的復(fù)雜性使它成為最復(fù)雜的模態(tài)之一。加之音樂中融合了歌詞、人聲及旋律等多種信息層次,每層之下又包含海量的信息,這意味在處理音樂時,不僅要構(gòu)建精確的時間序列模型,還要綜合考慮聲波形態(tài)、頻率特性、節(jié)奏結(jié)構(gòu)等諸多要素。

不過隨著AI大模型技術(shù)的不斷演進(jìn),已經(jīng)找到兩種駕馭音樂復(fù)雜性質(zhì)的有效策略,這也構(gòu)成了AI音樂生成大模型的兩大技術(shù)路徑:符號音樂生成路線、大模型音樂音頻生成路線。

符號音樂生成路線,是通過標(biāo)注大量樂譜數(shù)據(jù)再訓(xùn)練模型,這條路線在學(xué)術(shù)界已有廣泛研究,但它最終生成的是樂譜,借助其他程序或工具轉(zhuǎn)化成可播放的音樂,而且實際效果并不盡如人意。

大模型音樂音頻生成路線則是涵蓋樂器、人聲、旋律、音量和音符等音樂元素的端到端一體化生成,最終生成的是可聽的音頻文件。但代價是需要巨大的研發(fā)資源投入和對大規(guī)模訓(xùn)練數(shù)據(jù)集的依賴。即便如Google、OpenAI等行業(yè)巨頭,也尚未取得重大突破。

此外,AI對人聲演唱真實感的模擬也是至關(guān)重要的研究課題。但過去的AI音樂技術(shù)主要聚焦于無人聲演唱的背景音樂(BGM)創(chuàng)作,對人聲演唱的Song領(lǐng)域一直缺少有效的解決方案。

「天工SkyMusic」在立項之初,昆侖萬維就面臨著這兩項艱難的選擇。最終,研發(fā)團(tuán)隊一致決定選擇大模型音樂音頻生成路線并攻堅人聲Song領(lǐng)域。這意味著昆侖萬維將在幾乎沒有任何開源可借鑒的情況下,正式挺進(jìn)AI音樂生成技術(shù)的兩個無人區(qū),難度可想而知。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

經(jīng)歷多次實驗探索,研發(fā)團(tuán)隊意識到DiT結(jié)構(gòu)與AI音樂生成大模型的深度兼容性,并堅定地朝這個方向投入,最終自主研發(fā)出適用于音樂音頻領(lǐng)域的類Sora模型架構(gòu),填補了行業(yè)在技術(shù)路線以及人聲演唱領(lǐng)域的技術(shù)空白。這套架構(gòu)包含三大核心模塊——Encoder、DiT(Diffusion Transformer)和Decoder。其中,Large-scale Transformer 負(fù)責(zé)譜曲,學(xué)習(xí) Music Patches 的上下文依賴關(guān)系,同時完成音樂可控性;Diffusion Transformer 負(fù)責(zé)演唱,通過LDM讓Music Patches被還原成高質(zhì)量音頻。

同時為訓(xùn)練「天工SkyMusic」,昆侖萬維建立了迄今為止全球最大的音樂數(shù)據(jù)集,包含了兩千余萬首歌曲樣本,確保了「天工SkyMusic」在音樂風(fēng)格上精準(zhǔn)可控和廣泛適用。

如此,「天工SkyMusic」降低了音樂創(chuàng)作的準(zhǔn)入門檻,讓音樂創(chuàng)作不再存在專業(yè)壁壘。真正意義上拉近了音樂創(chuàng)作與普通大眾的距離,推動了AIGC產(chǎn)業(yè)向前邁進(jìn)了。同時昆侖萬維還主動公開了「天工SkyMusic」的技術(shù)原理圖,為全球開源社區(qū)和開發(fā)者提供了可參考的案例,促進(jìn)全球AIGC技術(shù)生態(tài)的共建共享。


2
能獨立思考的天工3.0大模型

「天工SkyMusic」的成功離不開背后的技術(shù)底座「天工 3.0」。昆侖萬維董事長兼CEO方漢表示:“文本大模型是所有AIGC堅實的基礎(chǔ)。所有的社交、游戲、音樂專屬模型都是需要文本大模型去支撐的?!碑?dāng)前,無論是GPT模型、GLM模型還是Baichuan模型,都是采用底層文本大模型與專業(yè)細(xì)分大模型相結(jié)合的方式。

昆侖萬維發(fā)布的「天工 3.0」擁有高達(dá)4000億參數(shù),性能全面超越3140億參數(shù)的MoE大模型Grok1(xAI),是迄今全球最大規(guī)模的開源MoE大模型,也是昆侖萬維旗下所有AI技術(shù)應(yīng)用模型的基石。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

相較于上一代,「天工 3.0」在模型語義理解、邏輯推理以及通用性、泛化性、不確定性知識、學(xué)習(xí)能力等領(lǐng)域擁有驚人的性能提升,其技術(shù)知識能力提升超過20%,數(shù)學(xué) / 推理 / 代碼 / 文創(chuàng)能力提升超過 30%。

同時作為多模態(tài)大模型,「天工 3.0」集成了AI搜索、AI寫作、AI長文本閱讀、AI圖片生成、AI音樂生成等功能。在權(quán)威評測MMBench-CN的評估中,「天工3.0」的AR(屬性推理)、RR(關(guān)系推理)、FP-C(細(xì)粒度感知-交叉實例)、CP(粗略感知)四項性能均位列榜首,整體綜合成績更超越GPT-4V,穩(wěn)居全球多模態(tài)大模型首位。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

基于性能與能力的全方位躍升,「天工3.0」還掌握了至關(guān)重要的獨立思考能力。這使得它能夠在多輪搜索與綜合工具調(diào)用、圖表繪制、研究模式、增強模式、改圖擴(kuò)圖等多項能力上,為用戶提供前所未有的AI應(yīng)用體驗。

「天工3.0」擁有很強的邏輯推理能力:

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

「天工3.0」還能夠更好地理解和處理用戶自然語言Query中的復(fù)雜語義信息,包括隱喻、多義詞等。例如最近爆火的“成都迪士尼”,我們問了天工大模型,它不僅可以精確地解釋這一網(wǎng)絡(luò)熱梗。還會通過追問,為我們規(guī)劃行程或給到近期的游客反饋。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

在面對產(chǎn)業(yè)研究、產(chǎn)品橫評、信息分析、圖片生成、圖表繪制等復(fù)雜需求時,「天工3.0」能同時展示多種能力,控制模型去完成任務(wù)。

在執(zhí)行“查詢南非國家2023年的人均GDP,并制作成柱狀圖”一任務(wù)過程中,「天工3.0」率先調(diào)用了搜索功能,再調(diào)用python工具繪制柱狀圖,最后加以解讀和總結(jié),給出了正確的答案和全面分析:

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

「天工3.0」先通過語義理解對用戶需求進(jìn)行深度理解,再通過邏輯推理能力將復(fù)雜的任務(wù)拆解成細(xì)分環(huán)節(jié),最后通過獨立規(guī)劃以及調(diào)用、組合外部工具及信息,將細(xì)分環(huán)節(jié)發(fā)到不同模型,從而精準(zhǔn)高效的完成這類復(fù)雜需求。

內(nèi)容創(chuàng)作能力一直是「天工」系列大模型的強項,在上一代「天工2.0」大模型的基礎(chǔ)上,「天工3.0」更是進(jìn)行了全面的內(nèi)容創(chuàng)作能力升級,其不僅能實現(xiàn)AI音樂生成、AI語音、AI對話、AI二次元漫畫生成等強大的內(nèi)容創(chuàng)作能力,更是通過專項Agent訓(xùn)練實現(xiàn)了在對話中結(jié)合文本需求實時生成圖片、結(jié)合文本需求實時內(nèi)容分析及圖表構(gòu)建等能力。

讓「天工3.0」分析小米SU7跟蔚來ET5哪款車更好:

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

可以看到在如上述這種產(chǎn)品對比的復(fù)雜需求中, 「天工3.0」可以根據(jù)需求,實時內(nèi)容分析并構(gòu)建圖表來讓結(jié)果呈現(xiàn)更明晰。



3
后記

通過「天工3.0」和「天工SkyMusic」的發(fā)布,我們可以看到,昆侖萬維“All in AGI 與 AIGC”的戰(zhàn)略并不是停留于理論的口號,而是真切指引著昆侖萬維在技術(shù)和商業(yè)模式上的每一處布局。依托“天工大模型”這一技術(shù)基石,昆侖萬維已規(guī)劃出包含AI大模型、AI搜索、AI音樂、AI社交、AI游戲和AI視頻在內(nèi)的六大AI業(yè)務(wù)矩陣,并著力整合這六大板塊,構(gòu)筑一個集成式的AI UGC平臺。

“昆侖萬維認(rèn)為下一代的AI巨頭一定是C端加上免費,因為互聯(lián)網(wǎng)時代和移動互聯(lián)網(wǎng)時代的成功企業(yè)均采用免費加C端模式,而在AI時代,我們同樣堅信這一邏輯。”方漢表示。

由于大模型每次提供服務(wù)都需要耗費推理資源,為了實現(xiàn)免費toC模式,方漢總結(jié)出產(chǎn)業(yè)的三條路徑:“第一條,通過持續(xù)優(yōu)化,將推理成本降低至用戶創(chuàng)造的廣告價值之下;第二條,通過AI手機(jī)實現(xiàn)端側(cè)推理,將推理成本分?jǐn)傊两K端硬件中。第三條,建立AI UGC平臺,由1%的用戶創(chuàng)造內(nèi)容,99%的用戶消費內(nèi)容?!?/p>

這三條路徑并不互相矛盾,只是分屬于產(chǎn)業(yè)的不同階段。比如,方漢判斷,在AI終端硬件大面積普及之前,AI UGC平臺落地會更快速形成商業(yè)閉環(huán),但大模型的終局一定是終端AI。

不論是「天工SkyMusic」,還是其他核心AI業(yè)務(wù),皆遵循這一商業(yè)邏輯。即通過AI技術(shù)賦能,降低創(chuàng)作門檻,持續(xù)擴(kuò)大內(nèi)容創(chuàng)作者群體,以此提升個性化內(nèi)容的生產(chǎn)量與豐富度,從而滿足了大眾對于優(yōu)質(zhì)內(nèi)容的消費需求,形成正向投資回報率的良性循環(huán)。

同時昆侖萬維也將運用AI技術(shù)打破傳統(tǒng)內(nèi)容創(chuàng)作壁壘,讓不同文化和語言群體都能夠在這一AI UGC平臺上輕松傳達(dá)自身的故事與情感,促進(jìn)全球范圍內(nèi)實現(xiàn)文化平權(quán)。

在推進(jìn)AI UGC平臺建設(shè)的過程中,昆侖萬維堅持技術(shù)創(chuàng)新與商業(yè)模式創(chuàng)新相結(jié)合,積極探索適合當(dāng)下及未來市場的增長路徑。昆侖萬維正全力踐行“All in AGI 與 AIGC”,力爭在全球范圍內(nèi)構(gòu)建一個包容性強、參與度廣、創(chuàng)新能力出眾的AI內(nèi)容生態(tài),引領(lǐng)行業(yè)邁向一個嶄新的時代。



雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說