丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給岑大師
發(fā)送

0

Google推出Tacotron 2:結(jié)合WaveNet,深度神經(jīng)網(wǎng)絡(luò) TTS 媲美專業(yè)級別

本文作者: 岑大師 2017-12-20 13:17
導(dǎo)語:10月Deepmind宣布對WaveNet升級后,Google Brain近日宣布推出 Tacotron 2,兩個團(tuán)隊的暗中較勁仍在繼續(xù)。

雷鋒網(wǎng)按:今年3月,Google 提出了一種新的端到端的語音合成系統(tǒng):Tacotron。該系統(tǒng)可以接收字符輸入并輸出相應(yīng)的原始頻譜圖,然后將其提供給 Griffin-Lim 重建算法直接生成語音。該論文認(rèn)為這一新思路相比去年 DeepMind 的 WaveNet 具有架構(gòu)上的優(yōu)勢。10 月,Deepmind發(fā)布博客稱,其新的WaveNet 模型比起一年前的原始模型效率提高 1000 倍并正式商用于Google Assistant中(參見雷鋒網(wǎng)文章:《Deepmind語音生成模型WaveNet正式商用:效率提高1000倍》),而就在今天,Google Brain 團(tuán)隊發(fā)布博客,宣布推出 Tacotron 2,Google Brain 與 DeepMind 的暗中較勁仍在繼續(xù)。

以下是 Google 博客的相關(guān)內(nèi)容,讓我們來看看此次 Tacotron 2 的更新情況:

從文本(文本到語音,TTS)生成非常自然的探測語音已經(jīng)成為過去數(shù)十年的研究目標(biāo)。在近幾年中,TTS研究取得了很大的進(jìn)展,TTS系統(tǒng)有許多獨(dú)立的模塊都有了很大的改進(jìn)。結(jié)合在 Tacotron 和 WaveNet 等過去研究思路,我們增加了更多改進(jìn),最終實(shí)現(xiàn)了我們的新系統(tǒng) Tacotron 2 。我們的方法不使用復(fù)雜的語言和聲學(xué)特性作為輸入,相反,我們僅使用語音示例和相應(yīng)的文本記錄進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò),來從文本生成類似人類的語音。

Google推出Tacotron 2:結(jié)合WaveNet,深度神經(jīng)網(wǎng)絡(luò) TTS 媲美專業(yè)級別

對于這一新系統(tǒng)的完整描述可以在我們的論文“Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”(通過調(diào)節(jié) WaveNet 對 Mel 譜圖預(yù)測的自然 TTS 合成)中找到。簡而言之,其工作原理是這樣的:我們使用針對 TTS 優(yōu)化的序列到序列模型來映射序列字母到編碼音頻的一系列功能。這些功能是一個 80 維音頻頻譜圖,每 12.5 毫秒計算一次幀,不僅可以捕捉單詞的發(fā)音,還可以捕捉人類語音的各種微妙之處,包括音量,速度和語調(diào)。最后,這些功能使用類似 WaveNet 的架構(gòu)轉(zhuǎn)換為 24 kHz 波形。

Google推出Tacotron 2:結(jié)合WaveNet,深度神經(jīng)網(wǎng)絡(luò) TTS 媲美專業(yè)級別

(圖為 Tacotron 2 的詳細(xì)模型架構(gòu)。圖像的下半部分描述了將字母序列映射到光譜圖的序列到序列模型。更多技術(shù)細(xì)節(jié)請參閱相關(guān)論文。)

您可以點(diǎn)擊這里聽一些 Tacotron 2 生成的音頻樣本。在一個評估中,我們要求聽眾對生成的語音的自然度進(jìn)行評分,并獲得了與專業(yè)錄音相媲美的評分。

雖然我們的樣本聽起來不錯,但仍然有一些棘手的問題需要解決。例如,我們的系統(tǒng)在復(fù)雜的單詞(例如“decorum”和“merlot”)的發(fā)音上有困難,在極端的情況下甚至?xí)S機(jī)產(chǎn)生奇怪的噪音。另外,我們的系統(tǒng)還不能實(shí)時生成音頻。而且,我們還不能控制生成的語音,比如引導(dǎo)它聽起來高興或悲傷。這些都是一個有趣的研究問題。

Tacotron VS WaveNet

WaveNet 是一種用于生成原始音頻波形的深層神經(jīng)網(wǎng)絡(luò)模型,由 Deepmind 于2016年提出。在 TTS 語音合成系統(tǒng)中,主流的做法是拼接 TTS (由單個配音演員的高質(zhì)量錄音大數(shù)據(jù)庫,通常有數(shù)個小時的數(shù)據(jù)。這些錄音被分割成小塊,然后可以將其進(jìn)行組合以形成完整的話語) ,而WaveNet采取完全不同的方法。在原始論文中,我們描述了一個深層的生成模型,可以以每秒處理16000個樣本、每次處理一個樣本黨的方式構(gòu)建單個波形,實(shí)現(xiàn)各個聲音之間的無縫轉(zhuǎn)換。

Google推出Tacotron 2:結(jié)合WaveNet,深度神經(jīng)網(wǎng)絡(luò) TTS 媲美專業(yè)級別    

上圖動畫展示了 WaveNet 的結(jié)構(gòu)。它由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建,在訓(xùn)練階段,網(wǎng)絡(luò)確定了語音的底層結(jié)構(gòu),比如哪些音調(diào)相互依存,什么樣的波形是真實(shí)的以及哪些波形是不自然的。訓(xùn)練好的網(wǎng)絡(luò)每次合成一個樣本,每個生成的樣本都考慮前一個樣本的屬性,所產(chǎn)生的聲音包含自然語調(diào)和如嘴唇形態(tài)等參數(shù)。它的“口音”取決于它接受訓(xùn)練時的聲音口音,而且可以從混合數(shù)據(jù)集中創(chuàng)建任何獨(dú)特聲音。與TTS系統(tǒng)一樣,WaveNet使用文本輸入來告訴它應(yīng)該產(chǎn)生哪些字以響應(yīng)查詢。另外,為了使用 WaveNet 將文本轉(zhuǎn)化為語音,需要識別文本中是什么。

Tacotron由 Google Brain 團(tuán)隊的 Yuxuan Wang (王雨軒)等人提出。在第一代 Tacotron 的相關(guān)論文中指出,WaveNet 對 TTS 效果良好,但由于樣本集的自回歸屬性(sample-level autoregressive nature),其生成語音的處理速度較慢;同時,由于 WaveNet 還需要對現(xiàn)有 TTS 前端語言特征進(jìn)行調(diào)節(jié),因此也不是端到端的。

Google推出Tacotron 2:結(jié)合WaveNet,深度神經(jīng)網(wǎng)絡(luò) TTS 媲美專業(yè)級別

(上圖為Tacotron最初論文中的模型架構(gòu))

在今年3月提出的模型中,Tacotron 模型取得了 3.82 的平均意見得分(滿分5) 。而在最近的評估中,Tacotron 2 模型平均意見得分為 4.53,專業(yè)錄音平均意見得分為 4.58。

雷鋒網(wǎng)發(fā)現(xiàn),WaveNet 大幅提高了效率后,此前的“處理速度慢”的問題已經(jīng)得到解決,但仍然不是端到端。而在新的 Tacotron 模型架構(gòu)中也看到,主要改進(jìn)在于輸出端增加了 WaveNet MoL,這樣可以將 WaveNet 和 Tacotron 的優(yōu)點(diǎn)各自結(jié)合起來,二者的“強(qiáng)強(qiáng)聯(lián)合”有望促進(jìn)類似語音識別一樣的進(jìn)步,實(shí)現(xiàn)語音合成的新臺階。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Google推出Tacotron 2:結(jié)合WaveNet,深度神經(jīng)網(wǎng)絡(luò) TTS 媲美專業(yè)級別

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說