百度Deep Voice作者與Bengio團隊切磋五大技術細節(jié)，端到端的語音合成還有多遠？

本文作者：奕欣

2017-03-02 09:34

導語：Deep Voice作者代表百度硅谷 AI 團隊，MILA的Char2Wav作者代表 MILA 的機器學習團隊，他們的「Reddit 論劍」又會擦出怎樣的火花？

雷鋒網 AI 科技評論消息，今日百度研究院在官網上正式推出了 Deep Voice：實時語音合成神經網絡系統(tǒng)（Real-Time Neural Text-to-Speech for Production），Twitter 上也同步更新了消息，目前論文也已經投遞 ICML 2017。

本系統(tǒng)完全依賴深度神經網絡搭建而成，最大的優(yōu)勢在于能夠滿足實時轉換的要求。在以前，音頻合成的速度往往非常慢，需要花費數(shù)分鐘到數(shù)小時不等的時間才能轉換幾秒的內容，而現(xiàn)在，百度研究院已經能實現(xiàn)實時合成，在同樣的 CPU 與 GPU 上，系統(tǒng)比起谷歌 DeepMind 在去年 9 月發(fā)布的原始音頻波形深度生成模型 WaveNet 要快上 400 倍。

基于傳統(tǒng)的 TTS 流程，Deep Voice 采用深度神經網絡與更為簡單的詞性取代原有的轉換方法。這樣一來，系統(tǒng)能夠兼容所有新的數(shù)據(jù)集、語音文件甚至是從未涉獵的領域。系統(tǒng)主要由五個部分構成：

用于定位音素邊界的分割模型；
用于字素轉音素的轉換模型；
判斷音素能持續(xù)多長時間的預測模型；
基頻預測模型；
音頻合成模型。

在分割模型中，百度研究院提出了一種通過 CTC 損失（connectionist temporal classification）實現(xiàn)音素邊界檢測的新方法。而比起 WaveNet，百度的合成模型所需要的參數(shù)更少，速度更快。

Deep Voice 目前需要借助一個音素模型與音頻合成組件的幫助，希望在未來能夠實現(xiàn)真正意義上的端到端（end-to-end）語音合成，上述系統(tǒng)不需要經過復雜的合成流程，也不依賴手工設計特征的輸入或預訓練文本。

在官網上，百度研究院展示了三個不同的語音樣本做為對比，歡迎點擊此處查看?？梢月牫?，過 Deep Voice 合成的語音已經非常接近原始視頻的聲音，研究院的音頻的合成能夠有效地重塑人聲。

語音合成模型，谷歌、MILA及百度的香餑餑

語音合成即文本轉換技術（TTS），根據(jù)百度語音官網的介紹，它是實現(xiàn)人機語音交互，建立一個有聽和講能力的交互系統(tǒng)所必需的關鍵技術。它是將計算機自己產生的、或外部輸入的文字信息轉變?yōu)榭梢月牭枚摹⒘骼目谡Z輸出的技術。

現(xiàn)在也有很多領域都需要應用這一技術，比如提供語音服務的設備、導航系統(tǒng)，或是為視覺障礙者提供語音輔助。最早期的做法是機械地將預先錄制好的聲音拼接在一起（concatenative TTS），后來衍生出通過語音編碼器、合成分析并再現(xiàn)語音輸入的參數(shù)式 TTS（parametric TTS），但該項目開發(fā)流程可謂兼具高難度與強工作量。

有不少研究所都在語音合成領域下了功夫，其中最為有名的包括谷歌 DeepMind 及蒙特利爾大學機器學習研究所（MILA）。

谷歌 DeepMind 于去年 9 月公布了原始音頻波形深度生成模型 WaveNet，顯示生成的原始音頻質量優(yōu)于目前Google采用的兩種最優(yōu)模型 Parametric TTS 與 Concatenative TTS。WaveNet通過直接為音頻信號的原始波形建模，一次為一種音頻樣本建模，來改變這種范式。同生成聽起來更為自然的語音相同，使用原始波形意味著WaveNet能夠為任意類型的音頻建模，包括音樂。

為了實現(xiàn)這一點，研究團隊需要告訴 WaveNet 文本的內容。我們通過將文本轉換成語言和語音特征（包括音位、音節(jié)、單詞等），把轉換得來的特征提供給 WaveNet。這意味著網絡的預測步驟不僅僅基于先前獲得的音頻樣本，而且要基于文本所傳達的內容。

而除了谷歌 DeepMind，近日 MILA 的 Yoshua Bengio 與 Aaron Courville 二位《Deep Learning》作者聯(lián)合 Jose Sotelo 等人推出了端到端的語音合成模型 Char2Wav，并于近日投遞了 ICLR 2017 的 workshop track。

Char2Wav 模型由一個讀取器與一個神經聲碼器組成，前者是一個聚焦機制的編碼-解碼器模型；而后者是 SampleRNN 的條件式擴展，兩者的結合能夠直接根據(jù)文本生成音頻。

在論文中團隊指出，語音合成需要達成兩個目標：

一個是可理解性（intelligibility），指的是音頻的清晰程度，特別是聽者能在多大程度上提取出原有的信息；
另一個是自然感（naturalness），追求的是與可理解性相對的層面，即聽者聽懂句意的程度、全句的風格一致性，還有地域或語言層面的差異程度等。

而現(xiàn)在百度也公布了它們在語音合成的巨大進展，這也引發(fā)了包括 Yoshua 團隊在內的研究者們的注意。

DeepVoice 與 Char2Wav 團隊探討了哪些技術細節(jié)？

最近，百度的 DeepVoice 論文作者 @NiftyIon 與 Char2Wav 作者之一 @kkastner 就在 Reddit 上針對 DeepVoice 進行了一番討論。@NiftyIon 的真實身份并不可考，在 Reddit 上他自稱是 DeepVoice 的作者之一。

據(jù)雷鋒網 AI 科技評論判斷，這位名為 @kkastner 的 Reddit 用戶應該是 Char2Wav 論文五作 Kyle Kasnter。根據(jù) LinkedIn 資料顯示，Kyle Kasnter 是蒙特利爾大學的在讀博士生，曾經在 IBM Watson、谷歌大腦團隊及 scikit-learn 實習，一方代表百度硅谷 AI 團隊，一方代表 Yoshua 的機器學習大牛，他們的「華山論劍」又會擦出怎樣的火花？一起來看看以 Kasnter 為代表的語音合成團隊都在關注哪些技術細節(jié)吧，為方便閱讀，由雷鋒網 AI 科技評論整理成問答形式，@NiftyIon下稱“Deep Voice作者”，@kkastner下稱“Char2Wav作者”：

問題一：如何考慮中國市場？

Char2Wav 作者：

官網中展示的樣例表現(xiàn)都非常棒，考慮到百度做為一家中國企業(yè)，你們是否會將研究重心放在漢語上呢？

Deep Voice 作者：

我們對 Char2Wav 的成果感到非常振奮，也曾經討論過幾次采用聚焦機制而擺脫持續(xù)預測的想法，它正在朝著我們感興趣的方向發(fā)展，而且確實是管用的。

我們目前專注于英語，因為這項研究目前是在百度硅谷 AI 實驗室（SVAIL）完成。我們自然是希望能將這個系統(tǒng)應用于漢語及其它語言。

問題二：數(shù)據(jù)來源及模型討論

Char2Wav 作者：

您在論文中數(shù)次提及了「WORLD TTS system」，但 WORLD 只關注 DSP 領域（實際上它是一個聲碼器）。大多數(shù) TTS 系統(tǒng)也在做前端（文本），因此我并不覺得可以把 WORLD 標記為 TTS 系統(tǒng)。在我看來，TTS 最糟糕的地方在于文本，但你們的模型更多地集中于這一點上。此外，我并不認為我們的模型需要基于現(xiàn)有的 TTS 系統(tǒng)。就像論文中提及的，我們需要一個手工／專業(yè)的聲碼器實現(xiàn)端到端的語音生成，但我們不需要任何細粒度注釋的訓練或生成。而我認為我們所實現(xiàn)的目標是將句子作為一個數(shù)據(jù)集，并訓練生成 wav 給定的句子。

其中的區(qū)別有些微妙，但從用戶的角度上看，我們的系統(tǒng)看起來是一樣的（除了您的系統(tǒng)更快?。?。但我們真的很難在 LDC 外找到合理大小的細粒度注釋，也引致我們正在重新嘗試實現(xiàn)和擴展 Alex Graves 的演示。我在閱讀 WaveNet 的論文時，因為前端的預測依賴文本，我也有相同的感覺。因此，所有的區(qū)別歸結起來就是：「我需要用什么樣的數(shù)據(jù)來訓練」，「如何擴展系統(tǒng)，使大量的數(shù)據(jù)可用」，以及「如何分解模型」。我認為 Heiga Zen 最近的演講很好地提供了參數(shù)合成的一個概述。

未來，您所訓練的數(shù)據(jù)是會公開，還是不會？另外，數(shù)據(jù)集的來源有哪些？

Deep Voice 作者：

您提及了我們有預先存在的 TTS 系統(tǒng)，確實，我們沒有對不同階段的流程進行區(qū)分。而我們所說的 WORLD TTS 功能指的是您提及的聲碼器。而我們并沒有考慮到實際上前端有很多的 TTS 特征，因此可能想當然了。如果有讀者像您一樣對這一點感到疑惑，我們感到非常抱歉。

在「生成」的時候，我承認兩個系統(tǒng)看起來是一樣的：我們想表達的是，與 Char2Wav 的差異只存在于訓練前。事實上，我最欣賞您系統(tǒng)的原因在于整個系統(tǒng)是端到端的，目前我們的產品還不能做到這一點。

我覺得團隊不會公開內部數(shù)據(jù)集，但我們也展示了源自 Blizzard 2013 數(shù)據(jù)的結果，這一數(shù)據(jù)是開放的，當然，你需要簽署相關協(xié)議。

問題三：表現(xiàn)性能

Char2Wav 作者：

我們模型的測試時間數(shù)據(jù)稍后也會在 arxiv 上公布，不過 DeepVoice 的速度表現(xiàn)真的很好。如果我沒有看錯的話，系統(tǒng)能達到 48kHz/秒的速度。從研究角度看，它是真的預示著高水準音頻合成時代的到來，還是這只是在理想狀態(tài)下的表現(xiàn)？至少在我看來是不可思議的。

Deep Voice 作者：

我們在實驗中了解到原始數(shù)據(jù)就是 48kHz 的，而且我們發(fā)現(xiàn)之前基于 WaveNet 得到的「低質量音頻」實際上是 16 kHz 的，而不是 48 kHz。因此我們訓練的就是常規(guī)的 40 層模型，并直接輸出 48kHz 的音頻。所以從長遠來看，我們將能實時合成高于 16kHz 的音頻（雖然目前做不到），但依然有很多未實現(xiàn)的想法。

問題四：如何讓合成音頻發(fā)音正確？

Deep Voice 作者：

您如何看待直接從字素到音頻的想法？我們曾經考慮這樣設計算法，不過擔心這樣的模型可能無法自動修正錯誤拼寫問題。因此，字素到音素，與音素到音頻的分離是必須的。而即使是人類，在這一點上可能也沒辦法做得很好吧——你可以問問人們"Jalapeno" and "P!nk" 和"Worcestershire"這幾個詞該怎么念。

（雷鋒網 AI 科技評論按：Jalapeno：墨西哥胡椒，[?hɑ:l?'pe?njo?]；P!nk：美國著名歌手，同 pink; Worcestershire: 伍斯特郡 [?wust??i?]。）

Char2Wav作者：

這個問題非常有趣，因為它的定義非常不明確。考慮像 GAN 這樣的超分辨率技術也存在一個類似的問題——它屬于一對多的映射，但所選擇的任何方案都需要是全局一致（或至少中等范圍一致的）。我們嘗試的方法是采用全局揚聲器調節(jié)，希望通過捕獲揚聲器質量，也能捕獲默認的發(fā)音與說話者之間的變化，但希望同一個人之間能夠保持一致。我目前沒有看到任何習得清晰發(fā)音的合成示例，但我們也看到了在兩個對話者切換之時，語音的速度與韻律發(fā)生了明顯改變，這也意味著系統(tǒng)未來有可能學會更好地發(fā)音。

機器翻譯也存在類似的問題，因此對于我而言并不是無法解決的，但可能需要更多的數(shù)據(jù)或/以及一些思考，比如為什么英語發(fā)音如此奇怪，而且它是如何形成的。我們已經有一些初步的想法，但為時還早。參數(shù)化的做法已經避免了大部分的發(fā)音問題，但需要考慮細粒度注釋的問題。不過，我知道任何這個領域的研究者都了解不少優(yōu)秀的數(shù)據(jù)庫，它們能夠為建立 TTS 系統(tǒng)提供非常重要的幫助。

而以決策樹連接系統(tǒng)為代表的發(fā)音系統(tǒng)也存在一個優(yōu)點，即不論怎樣總能在決策樹中找到正確發(fā)音，研究者也能夠利用這一點反復迭代，基于用戶反饋處理特殊情況。

在我看來，英語之所以難以訓練，在于它發(fā)音的多模態(tài)性，一些基于字素而訓練得到的英語聽起來非常怪異。我個人最喜歡的例子是"I am an athlete"。像西班牙語這樣的其它語言，即使缺少數(shù)據(jù)，映射性的表現(xiàn)也不差。德語與羅馬尼亞語表現(xiàn)相當，目前我正寄希望于冰島語的測試上。

問題五：訓練時長與表現(xiàn)

Deep Voice 作者：

實際上我們的系統(tǒng)并沒有做長時間的訓練。系統(tǒng)訓練了 20 小時，但只需要 3-5 小時就能得到很高質量的音頻結果。我們也沒有測試過音素的持續(xù)時間和 F0 預測模型對數(shù)據(jù)的敏感程度。不過，像在 VoiceBunny.com 這樣的平臺，你就能花 5000 到 10000 美金拿到 5 到 10 小時的音頻。而開一個小工作室然后錄上一周的話，這樣也不花什么錢，不過我們自己沒有這么做。你需要文本和對應的音頻——不一定要數(shù)據(jù)注釋，因為你可以用音素字典和一個字素到音素模型獲得。如果有需要的話，可以采用 LibriSpeech 獲取音頻內容，只需要弄清楚如何將文本對齊音頻。我覺得可以采用語音識別系統(tǒng)來實現(xiàn)這一點（在百度，我們用的是自己研發(fā)的 Deep Speech2，你也可以選擇自己訓練或尋找外部 API）。

關于 48kHz 模型，我們發(fā)現(xiàn)最有意思的地方在于我們大概有 83ms 的文本，而且它的表現(xiàn)相當不錯。這與 SampleRNN 沒有關系，但 WaveNet 也具有固定的感受野，顯然 83ms 已經基本足夠。這也意味著高質量的合成可能與感受野無關，而是與其它因素有聯(lián)系。我們有一些解釋的想法，但還不是非常確定。

Char2Wav 作者：

我覺得三個小時以上的訓練只是一個開始，嘗試采用一些更小的數(shù)據(jù)集時，系統(tǒng)看起來在 5-10 小時之間會有更好的結果。我不記得 DIMEX 是多少時間了，但記得也很短。有的取決于說話者的數(shù)量，有的與語種有關。

至于你說的感受野的問題，非常有意思。在 WaveNet 中完全被隱藏了，而相對短（時間）的感受野，甚至在無監(jiān)督的情況下也給出了長距離的一致性，但 83 ms 也非常小，幾乎也只是三方對話的規(guī)模。因此你們團隊做出的質量改進非常有意思，讓我感到很驚訝?？幔?/p>