0
本文作者: 王悅 | 2025-01-22 14:07 |
試想一個(gè)場景,職場中接到一個(gè)香港客戶的單子,但是在交付的過程中耽擱了時(shí)間,現(xiàn)在要進(jìn)行線上溝通解釋,那么你面對的情況大致是這樣的:
如果不對這段音頻進(jìn)行標(biāo)注,可能大部分人會認(rèn)為這一粵語、英語混用的片段是真實(shí)發(fā)生或從TVB電視劇里截出來的。但其實(shí),這是由 AI 完成的配音,背后所使用的工具是海螺語音。
今年 1 月,繼 MiniMax 發(fā)布并開源基礎(chǔ)語言大模型 MiniMax-Text-01 和視覺多模態(tài)大模型 MiniMax-VL-01 后,再次推出了升級的語音大模型 T2A-01 系列,搭載于海螺 AI 之上,開辟海螺語音板塊。相較于舊版本, T2A-01 系列語音模型能夠提供更快、更穩(wěn)的語音生成能力,不僅具有音質(zhì)穩(wěn)定清晰、韻律自然、情緒精準(zhǔn)表達(dá)、高準(zhǔn)確度等特點(diǎn),還能支持包括中文、粵語、英語在內(nèi)的 17 種語言及上百種預(yù)置音色可選。
從以上的音頻中可以聽出,海螺語音能夠準(zhǔn)確理解并無縫處理不同的語種,并飽含語氣、以接近人聲的自然度講出來,這就是目前海螺語音無需抽卡就可以達(dá)到的穩(wěn)定水平。接下來,我們通過海螺語音和其他語音生成產(chǎn)品的對比來來感受一下,無需抽卡即可以達(dá)到高水平的穩(wěn)定輸出是什么樣的概念。
測試問題為一個(gè)終極難度的繞口令“施氏食獅史”,主要考驗(yàn)的是語音大模型在面對大量同聲詞時(shí)的處理能力。(原文:石室詩士施氏,嗜獅,誓食十獅。氏時(shí)時(shí)適市視獅。十時(shí),適十獅適市。是時(shí),適施氏適市。氏視是十獅,恃矢勢,使是十獅逝世。氏拾是十獅尸,適石室。石室濕,氏使侍拭石室。石室拭,氏始試食是十獅尸。食時(shí),始識是十獅尸,實(shí)十石獅尸。試釋是事。)
先來聽由 ChatTTS 生成的內(nèi)容:整個(gè)過程中字與字的區(qū)別并不大,產(chǎn)生很強(qiáng)的粘連感,聽起來像石獅石獅石獅石獅......可以說聽不出來在讀什么。
再來聽 ElevenLabs:可能是模型幻覺的原因, ElevenLabs 在讀的時(shí)候很喜歡“呱呱叫”,就算去調(diào)整語速也不會好轉(zhuǎn)。但相較于ChatTTS,已經(jīng)有一個(gè)明顯的質(zhì)量上的提升,字與字之間能夠區(qū)分開,并且語音中有語調(diào)和情緒在。
再來聽 MiniMax 的海螺語音輸出的內(nèi)容:首先,整段聲音聽起來偏向自然,沒有像 ChatTTS 一樣從頭到尾一個(gè)音,也沒有ElevenLabs 表現(xiàn)出的“呱”的聲音的明顯瑕疵。雖然并不是完美無瑕,部分詞語上也有斷句的問題,但在 80% 的短句中已經(jīng)有顯著驚艷的表現(xiàn),對音調(diào)、分詞錯(cuò)落、節(jié)奏和斷句能聽出表意,這反映的是語音模型背后的理解能力。在一眾生產(chǎn)力工具向的 AI ChatBot 中,海螺 AI 是唯一一個(gè)能提供獨(dú)立的語音模型板塊給用戶、讓用戶自定義生成音頻的產(chǎn)品。
一、能與 ElevenLabs 掰手腕的多語言合成能力
國內(nèi)無論是大廠還是創(chuàng)業(yè)公司,在語音模型能力上都會對標(biāo) ElevenLabs。ElevenLabs 憑借其高質(zhì)量語音合成、多語種能力、個(gè)性化語音生成和強(qiáng)大的API支持,成為了當(dāng)前語音合成領(lǐng)域的領(lǐng)先產(chǎn)品之一。在 T2A-01 模型的能力支持下,海螺 AI 所生成的語音在相似度、錯(cuò)誤率和聽感評測上均領(lǐng)先于同類產(chǎn)品,能與 ElevenLabs 掰手腕。MiniMax 團(tuán)隊(duì)采用和 Seed-TTS 論文相同的評測集和評測工具來計(jì)算海螺語音的字錯(cuò)率和相似度。結(jié)果顯示,海螺語音在中文的字錯(cuò)率和相似度最好,英文的字錯(cuò)率、相似度和真實(shí)錄音「Human」接近。
根據(jù)用戶真實(shí)場景,MiniMax 建立了多語種評測集,并對17個(gè)語種進(jìn)行客觀評測。其中,每種語言選取2-10個(gè)音色,生成50條以上音頻進(jìn)行評估。結(jié)果顯示,海螺語音相似度整體占優(yōu),綜合能力媲美 ElevenLabs。在中文、粵語、英語、日語、韓語和阿拉伯語等多個(gè)語種上,海螺語音的相似度、正確率方面大幅領(lǐng)先。
那么 T2A-01 的多語種能力究竟如何?先來讓它用囂張小姐的語氣,帶著開心的情緒,以正常速度,用九種語言說出楊冪的經(jīng)典廣告語:你沒事吧?(1、中文:你沒事兒吧 2、英語:Are you okay? 3、日語:大丈夫ですか?(Daijōbu desu ka?)4、法語:?a va? 5、德語:Geht es dir gut? 6、西班牙語:?Estás bien? 7、俄語:Ты в порядке?(Ty v poriadke?)8、韓語:?????(Gwaenchanayo?)9、意大利語:Stai bene?)
你還真別說,第一聲出來的時(shí)候還真有點(diǎn)像楊冪的聲音。之后的小語種發(fā)音清晰,也能從語流語調(diào)間感受到開心的情緒。再來看這個(gè)視頻,其中的配音語言采用德語,在音色調(diào)節(jié)效果中選擇了空曠回聲音效,出來的效果完全沒有 AI 味兒,仿佛女政客在國會現(xiàn)場的慷慨陳詞。
二、精準(zhǔn)情緒+音色控制的王炸組合
于機(jī)器而言,準(zhǔn)確地進(jìn)行情緒表達(dá)一直是難點(diǎn)所在。語音模型情感表達(dá)的訓(xùn)練依賴于大量標(biāo)注數(shù)據(jù),但這些數(shù)據(jù)往往存在偏差,某些情感可能被過度強(qiáng)調(diào),而另一些則被忽視,導(dǎo)致模型在處理這些情感時(shí)不夠準(zhǔn)確。于 TTS 行業(yè)而言,即使模型能夠理解情感,生成的情感表達(dá)也可能顯得生硬或不自然,模型可能難以在語音中保持情感的一致性,或者無法模擬真實(shí)人類情感的細(xì)微變化。
為了讓聲音更加鮮活,情緒表達(dá)更加精準(zhǔn),MiniMax 對長達(dá)超千萬小時(shí)的高質(zhì)量音頻數(shù)據(jù)進(jìn)行加工、訓(xùn)練,最終實(shí)現(xiàn)高音質(zhì)、情感豐富的聲音效果。先來通過朗讀古詩簡單感受下,所選取內(nèi)容為:“惟覺時(shí)之枕席,失向來之煙霞。世間行樂亦如此,古來萬事東流水?!庇捎诨浾Z接近古漢語的方言,所以用粵語念詩會更貼近古人念詩時(shí)的表現(xiàn),對情感的考驗(yàn)也相較于白話文稍上了一個(gè)高度,因此輸入的 prompt 為:“惟覺時(shí)之枕席,失向來之煙霞。世間行樂亦如此,古來萬事東流水。”
市面上的大部分語音模型可以對這一題穩(wěn)定輸出,但MiniMax不止于此。最新發(fā)布的海螺語音具備情感理解能力,能夠智能地識別并重現(xiàn)語音中細(xì)微的情感差別,用戶既可以讓系統(tǒng)自動(dòng)檢測情緒,也可以明確指定情緒,從而生成能夠精準(zhǔn)捕捉人類深層情感的語音輸出。在指定情緒中,除了中性外,有開心、難過、生氣、害怕、厭惡、驚訝效果可選,自然而逼真。雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
日常的對話表達(dá),或商業(yè)化場景中,情緒往往是多變且富有層次的,這個(gè)是過去的語音大模型較難攻克的痛點(diǎn)。但海螺語音實(shí)現(xiàn)了這一突破,可以分段控制不同的情緒。例如,同樣是表達(dá)老人害怕的情緒,想進(jìn)一步從聲音中感受到從害怕到難過再到開心的完整情緒變化,海螺AI給出了如下的答案:
從婦人發(fā)現(xiàn)怪老頭沖自己喊叫時(shí)的緊張、驚慌、害怕,到發(fā)現(xiàn)是自己年輕時(shí)的堂哥走散落魄至此,此時(shí)聲音變低落展現(xiàn)難過,再到重逢時(shí)的開心有明顯的音調(diào)上揚(yáng),海螺 AI 對輸入的文字有精準(zhǔn)理解,對輸出的聲音也可以做到層次分明,精細(xì)地控制。除了情緒的精準(zhǔn)控制外,海螺語音的另一個(gè)明顯優(yōu)勢時(shí)預(yù)置不同語種共計(jì)300+音色供用戶選擇,用戶可按語言、口音、性別和年齡分類篩選。音色多變,不羈、詼諧、慈祥等風(fēng)格豐富多樣,有聲書、ASMR耳語、新聞播報(bào)等場景均可適用。
在平臺給定的音色基礎(chǔ)上,用戶也可以根據(jù)偏好對低沉/明亮、力量感/柔和、磁性/清脆等細(xì)節(jié)進(jìn)行自定義,同時(shí)也可以增加類似于空曠回聲、禮堂廣播、電話失真等場景感。
選擇“花甲”奶奶這一音色,也可以通過調(diào)試臺對語速、聲調(diào)、音量進(jìn)行調(diào)節(jié)。
將花甲奶奶的聲音設(shè)置為語速和聲調(diào)降低,情緒輸出為害怕,就能獲得講恐怖故事很有氛圍感的說書聲音。
在87版《紅樓夢》中,林黛玉的角色被成功塑造,這一文學(xué)佳作在香港也曾拍過多版。如果在香港引進(jìn)87版的黛玉,“花謝花飛花滿天,紅消香斷有誰憐”該如何用粵語配音呢?一起來感受一下:該片段中的配音由海螺語音完成,可以切實(shí)感受到,海螺語音在情緒和音色控制方面的實(shí)力所在,如果將兩者進(jìn)行結(jié)合,可以說,幾乎能隨心所欲地生成想要的語音效果,滿足更多為影視作品引進(jìn)和配音的潛在需求。
三、面向AGI,堅(jiān)定多模態(tài)
在 AI 公司的多模態(tài)模型能力開發(fā)順序上,音頻似乎很難排在文字、圖片、視頻能力之前,給行業(yè)造成一種“音頻模型相對滯后”印象。但實(shí)際上,語音大模型的開發(fā)難度和技術(shù)門檻都非常高,數(shù)據(jù)的稀缺性是制約模型能力的關(guān)鍵難點(diǎn),從海量數(shù)據(jù)中剝離出語音到對多語言、多口音、多情緒的語音進(jìn)行標(biāo)注,都需要高昂的成本。因此在多模態(tài)公司的布局中,對其開發(fā)往往需要在具備一定的技術(shù)積累和資源支持后才逐步推進(jìn)。
近半年的時(shí)間以來,國內(nèi)多家大廠發(fā)布了語音模型。去年7月,阿里開源了一個(gè)語音大模型項(xiàng)目 FunAudioLLM,包含了 SenseVoice(語音識別) 和 CosyVoice(語音生成)兩個(gè)模型;今年1月,字節(jié)跳動(dòng)上線了實(shí)時(shí)語音大模型,并將基于此模型全量上線豆包。App 實(shí)時(shí)語音通話功能。半年之內(nèi),諸多大廠的跟進(jìn)和成績意味著語音大模型的發(fā)展?jié)摿Σ恍 ?/p>
而在 AI 創(chuàng)業(yè)公司中,鮮少有哪家語音能力突出, MiniMax 是一個(gè),甚至其對語音大模型的開發(fā)投入時(shí)間早于大廠。2023年11月,MiniMax 就發(fā)布了初代語音大模型 abab-speech系列,支持多角色音頻生成、文本角色分類等功能。發(fā)布至今,MiniMax語音模型已經(jīng)服務(wù)閱文起點(diǎn)有聲書、高途教育等近萬家企業(yè)用戶與個(gè)人開發(fā)者。
2024年10月,MiniMax Realtime API 亮相 RTE 2024實(shí)時(shí)互聯(lián)網(wǎng)大會,系國內(nèi)首個(gè)Realtime API。2025開年,MiniMax保持高昂的狀態(tài)。在此次發(fā)布語音模型之前,就已經(jīng)接連發(fā)布了視頻模型S2V-01,并在Github開源了新一代MiniMax-01模型,與DeepSeek共同對傳統(tǒng)Transformer架構(gòu)與高訓(xùn)練成本發(fā)起挑戰(zhàn)。MiniMax創(chuàng)始人透露,“我們認(rèn)為這有可能啟發(fā)更多長上下文的研究和應(yīng)用,從而更快促進(jìn)AI Agent時(shí)代的到來。開源了一方面可以逼著我們提高算法創(chuàng)新效率,另一方面也能打造全球技術(shù)品牌?!?/p>
從文本、視頻,到語音能力的全面更新,只能說,MiniMax和海螺 AI 是會給人帶來驚喜的——這也是對多模態(tài)模型的長期投入和持續(xù)發(fā)力的結(jié)果。MiniMax 的主心骨一直都是面向 AGI 投入,而多模態(tài)能力就是現(xiàn)階段最明晰的路徑。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。