微軟與浙大開發(fā)出新 AI 模型，解決語音助手卡頓問題

本文作者：付靜

2019-12-13 17:55

導(dǎo)語：FastSpeech 模型兼具了快速、魯棒、可控等特點。

雷鋒網(wǎng)消息，在 12 月 8 日至 14 日于溫哥華召開的機器學(xué)習(xí)頂會之一 NeurIPS 2019 會議上，微軟和浙江大學(xué)研究人員介紹了文本-語音模型 FastSpeech，該模型可大幅提升文本語音轉(zhuǎn)換過程中梅爾譜的生成速度，語音生成速度比基線快 38 倍。

雷鋒網(wǎng)注：【圖片來源：VentureBeat 所有者：VentureBeat 】

目前，Google Assistant 語音助手及最近出現(xiàn)在 Alexa 和 Amazon Polly 服務(wù)中的新聞播音員的語音乍聽上去幾乎與人聲無異。事實上，這些語音助手都是由文本-語音模型提供支持的。

在當(dāng)下，基于神經(jīng)網(wǎng)絡(luò)的端到端文本-語音合成技術(shù)發(fā)展迅速，大多數(shù)模型的合成方法為：從文本生成梅爾譜（Mel-Spectrogram，即一種展示聲音功率的光譜圖），然后使用聲碼器（分析和合成語音信號的編解碼器）合成語音。

但是，這種合成方法存在著一些不可避免的問題，主要包括：

速度慢：端到端模型通常以自回歸方式生成梅爾譜，再通過聲碼器合成語音，而一段語音的梅爾譜通常能到幾百上千幀，導(dǎo)致合成速度較慢；
穩(wěn)定性差：序列生成的錯誤傳播及注意力對齊不準，會導(dǎo)致出現(xiàn)重復(fù)吐詞或漏詞現(xiàn)象；
缺乏可控性：自回歸的神經(jīng)網(wǎng)絡(luò)模型自動決定一條語音的生成長度，不易控制語速或韻律停頓等。

為解決這些問題，微軟（亞洲）互聯(lián)網(wǎng)工程院語音團隊聯(lián)合浙江大學(xué)提出了一種新的機器學(xué)習(xí)模型 FastSpeech，并在論文《FastSpeech：快速、強大且可控的文本-語音模型》中詳細介紹了該模型。另外，值得一提的是，該論文已被溫哥華 NeurIPS 2019 會議錄用。

微軟與浙大開發(fā)出新 AI 模型，解決語音助手卡頓問題

【圖片來源：論文】

與其他文本-語音模型相比，F(xiàn)astSpeech 模型架構(gòu)較為獨特，且有著更佳的性能（其梅爾譜生成速度比基線快 270 倍，語音生成速度比基線快 38 倍）。不僅如此，它還能夠避免了單詞跳過等錯誤，還支持精細調(diào)整語速和單詞中斷。

更為重要的是，F(xiàn)astSpeech 包含長度調(diào)節(jié)器，可協(xié)調(diào)梅爾譜序列和音素序列（即感知度不同的聲音單位）之間的差異。

簡單來講，由于音素序列的長度總是小于梅爾譜序列長度，一個音素對應(yīng)多個梅爾譜。而長度調(diào)節(jié)器會根據(jù)持續(xù)時間，擴展音素序列以匹配梅爾譜序列長度（一個補充時長預(yù)測器組件確定一個音素的時長）。增加或減少與音素或音素持續(xù)時間匹配的梅爾譜數(shù)目，可成比例地調(diào)整語音速度。

微軟與浙大開發(fā)出新 AI 模型，解決語音助手卡頓問題

【圖片來源：論文】

為驗證 FastSpeech 的有效性，研究人員將其與開源的 LJ Speech 數(shù)據(jù)集進行了對比，該數(shù)據(jù)集包含 13100 個英語音頻片段（相當(dāng)于 24 個小時的音頻）和相應(yīng)的文本轉(zhuǎn)錄。在將數(shù)據(jù)集隨機分成用于訓(xùn)練的 12500 個樣本、用于驗證的 300 個樣本和用于測試的 300 個樣本后，他們對語音質(zhì)量、穩(wěn)定性等進行了一系列評估。

論文中，研究團隊主要從語音質(zhì)量（audio quality）、生成速度（inference speedup）、穩(wěn)定性（robustness）和可控性（controllability）等方面評估 FastSpeech 模型的性能。

研究團隊表示，F(xiàn)astSpeech 的質(zhì)量幾乎與谷歌的 Tacotron 2 文本-語音模型相當(dāng)，在穩(wěn)定性上輕松超過主流的 Transformer 模型。同時，與基線的 34% 有效錯誤率相比，F(xiàn)astSpeech 的有效錯誤率為零。（但不可否認的是，其穩(wěn)定性測試只涉及 50 個語義復(fù)雜的句子）此外，F(xiàn)astSpeech 能在保持準確度的前提下，將生成的語音速度從 0.5 倍變?yōu)?1.5 倍。

因此，研究團隊表示，F(xiàn)astSpeech 兼具快速、魯棒、可控等特點。

微軟與浙大開發(fā)出新 AI 模型，解決語音助手卡頓問題