0
雷鋒網(wǎng)消息,在 12 月 8 日至 14 日于溫哥華召開的機器學(xué)習(xí)頂會之一 NeurIPS 2019 會議上,微軟和浙江大學(xué)研究人員介紹了文本-語音模型 FastSpeech,該模型可大幅提升文本語音轉(zhuǎn)換過程中梅爾譜的生成速度,語音生成速度比基線快 38 倍。
雷鋒網(wǎng)注:【 圖片來源:VentureBeat 所有者:VentureBeat 】
目前,Google Assistant 語音助手及最近出現(xiàn)在 Alexa 和 Amazon Polly 服務(wù)中的新聞播音員的語音乍聽上去幾乎與人聲無異。事實上,這些語音助手都是由文本-語音模型提供支持的。
在當(dāng)下,基于神經(jīng)網(wǎng)絡(luò)的端到端文本-語音合成技術(shù)發(fā)展迅速,大多數(shù)模型的合成方法為:從文本生成梅爾譜(Mel-Spectrogram,即一種展示聲音功率的光譜圖),然后使用聲碼器(分析和合成語音信號的編解碼器)合成語音。
但是,這種合成方法存在著一些不可避免的問題,主要包括:
速度慢:端到端模型通常以自回歸方式生成梅爾譜,再通過聲碼器合成語音,而一段語音的梅爾譜通常能到幾百上千幀,導(dǎo)致合成速度較慢;
穩(wěn)定性差:序列生成的錯誤傳播及注意力對齊不準,會導(dǎo)致出現(xiàn)重復(fù)吐詞或漏詞現(xiàn)象;
缺乏可控性:自回歸的神經(jīng)網(wǎng)絡(luò)模型自動決定一條語音的生成長度,不易控制語速或韻律停頓等。
為解決這些問題,微軟(亞洲)互聯(lián)網(wǎng)工程院語音團隊聯(lián)合浙江大學(xué)提出了一種新的機器學(xué)習(xí)模型 FastSpeech,并在論文《FastSpeech:快速、強大且可控的文本-語音模型》中詳細介紹了該模型。另外,值得一提的是,該論文已被溫哥華 NeurIPS 2019 會議錄用。
【 圖片來源:論文 】
與其他文本-語音模型相比,F(xiàn)astSpeech 模型架構(gòu)較為獨特,且有著更佳的性能(其梅爾譜生成速度比基線快 270 倍,語音生成速度比基線快 38 倍)。不僅如此,它還能夠避免了單詞跳過等錯誤,還支持精細調(diào)整語速和單詞中斷。
更為重要的是,F(xiàn)astSpeech 包含長度調(diào)節(jié)器,可協(xié)調(diào)梅爾譜序列和音素序列(即感知度不同的聲音單位)之間的差異。
簡單來講,由于音素序列的長度總是小于梅爾譜序列長度,一個音素對應(yīng)多個梅爾譜。而長度調(diào)節(jié)器會根據(jù)持續(xù)時間,擴展音素序列以匹配梅爾譜序列長度(一個補充時長預(yù)測器組件確定一個音素的時長)。 增加或減少與音素或音素持續(xù)時間匹配的梅爾譜數(shù)目,可成比例地調(diào)整語音速度。
【 圖片來源:論文 】
為驗證 FastSpeech 的有效性,研究人員將其與開源的 LJ Speech 數(shù)據(jù)集進行了對比,該數(shù)據(jù)集包含 13100 個英語音頻片段(相當(dāng)于 24 個小時的音頻)和相應(yīng)的文本轉(zhuǎn)錄。在將數(shù)據(jù)集隨機分成用于訓(xùn)練的 12500 個樣本、用于驗證的 300 個樣本和用于測試的 300 個樣本后,他們對語音質(zhì)量、穩(wěn)定性等進行了一系列評估。
論文中,研究團隊主要從語音質(zhì)量(audio quality)、生成速度(inference speedup)、穩(wěn)定性(robustness)和可控性(controllability)等方面評估 FastSpeech 模型的性能。
研究團隊表示,F(xiàn)astSpeech 的質(zhì)量幾乎與谷歌的 Tacotron 2 文本-語音模型相當(dāng),在穩(wěn)定性上輕松超過主流的 Transformer 模型。同時,與基線的 34% 有效錯誤率相比,F(xiàn)astSpeech 的有效錯誤率為零。(但不可否認的是,其穩(wěn)定性測試只涉及 50 個語義復(fù)雜的句子) 此外,F(xiàn)astSpeech 能在保持準確度的前提下,將生成的語音速度從 0.5 倍變?yōu)?1.5 倍。
因此,研究團隊表示,F(xiàn)astSpeech 兼具快速、魯棒、可控等特點。
【 圖片來源:論文 】
論文的最后,研究團隊也提到,未來將把 FastSpeech 和速度更快的聲碼器組合成單一模型,提供完全端到端的文本-語音解決方案。
via VentureBeat,雷鋒網(wǎng)編譯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。