丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給付靜
發(fā)送

0

微軟與浙大開發(fā)出新 AI 模型,解決語音助手卡頓問題

本文作者: 付靜 2019-12-13 17:55
導(dǎo)語:FastSpeech 模型兼具了快速、魯棒、可控等特點。

雷鋒網(wǎng)消息,在 12 月 8 日至 14 日于溫哥華召開的機器學(xué)習(xí)頂會之一 NeurIPS 2019 會議上,微軟和浙江大學(xué)研究人員介紹了文本-語音模型 FastSpeech,該模型可大幅提升文本語音轉(zhuǎn)換過程中梅爾譜的生成速度,語音生成速度比基線快 38 倍。

微軟與浙大開發(fā)出新 AI 模型,解決語音助手卡頓問題

雷鋒網(wǎng)注:【 圖片來源:VentureBeat  所有者:VentureBeat 】

目前,Google Assistant 語音助手及最近出現(xiàn)在 Alexa 和 Amazon Polly 服務(wù)中的新聞播音員的語音乍聽上去幾乎與人聲無異。事實上,這些語音助手都是由文本-語音模型提供支持的。

在當(dāng)下,基于神經(jīng)網(wǎng)絡(luò)的端到端文本-語音合成技術(shù)發(fā)展迅速,大多數(shù)模型的合成方法為:從文本生成梅爾譜(Mel-Spectrogram,即一種展示聲音功率的光譜圖),然后使用聲碼器(分析和合成語音信號的編解碼器)合成語音。

但是,這種合成方法存在著一些不可避免的問題,主要包括:

  • 速度慢:端到端模型通常以自回歸方式生成梅爾譜,再通過聲碼器合成語音,而一段語音的梅爾譜通常能到幾百上千幀,導(dǎo)致合成速度較慢;

  • 穩(wěn)定性差:序列生成的錯誤傳播及注意力對齊不準,會導(dǎo)致出現(xiàn)重復(fù)吐詞或漏詞現(xiàn)象;

  • 缺乏可控性:自回歸的神經(jīng)網(wǎng)絡(luò)模型自動決定一條語音的生成長度,不易控制語速或韻律停頓等。

為解決這些問題,微軟(亞洲)互聯(lián)網(wǎng)工程院語音團隊聯(lián)合浙江大學(xué)提出了一種新的機器學(xué)習(xí)模型 FastSpeech,并在論文《FastSpeech:快速、強大且可控的文本-語音模型》中詳細介紹了該模型。另外,值得一提的是,該論文已被溫哥華 NeurIPS 2019 會議錄用。

微軟與浙大開發(fā)出新 AI 模型,解決語音助手卡頓問題

【 圖片來源:論文 】

與其他文本-語音模型相比,F(xiàn)astSpeech 模型架構(gòu)較為獨特,且有著更佳的性能(其梅爾譜生成速度比基線快 270 倍,語音生成速度比基線快 38 倍)。不僅如此,它還能夠避免了單詞跳過等錯誤,還支持精細調(diào)整語速和單詞中斷。

更為重要的是,F(xiàn)astSpeech 包含長度調(diào)節(jié)器,可協(xié)調(diào)梅爾譜序列和音素序列(即感知度不同的聲音單位)之間的差異。

簡單來講,由于音素序列的長度總是小于梅爾譜序列長度,一個音素對應(yīng)多個梅爾譜。而長度調(diào)節(jié)器會根據(jù)持續(xù)時間,擴展音素序列以匹配梅爾譜序列長度(一個補充時長預(yù)測器組件確定一個音素的時長)。 增加或減少與音素或音素持續(xù)時間匹配的梅爾譜數(shù)目,可成比例地調(diào)整語音速度。

微軟與浙大開發(fā)出新 AI 模型,解決語音助手卡頓問題

【 圖片來源:論文 】

為驗證 FastSpeech 的有效性,研究人員將其與開源的 LJ Speech 數(shù)據(jù)集進行了對比,該數(shù)據(jù)集包含 13100 個英語音頻片段(相當(dāng)于 24 個小時的音頻)和相應(yīng)的文本轉(zhuǎn)錄。在將數(shù)據(jù)集隨機分成用于訓(xùn)練的 12500 個樣本、用于驗證的 300 個樣本和用于測試的 300 個樣本后,他們對語音質(zhì)量、穩(wěn)定性等進行了一系列評估。

論文中,研究團隊主要從語音質(zhì)量(audio quality)、生成速度(inference speedup)、穩(wěn)定性(robustness)和可控性(controllability)等方面評估 FastSpeech 模型的性能。

研究團隊表示,F(xiàn)astSpeech 的質(zhì)量幾乎與谷歌的 Tacotron 2 文本-語音模型相當(dāng),在穩(wěn)定性上輕松超過主流的 Transformer 模型。同時,與基線的 34% 有效錯誤率相比,F(xiàn)astSpeech 的有效錯誤率為零。(但不可否認的是,其穩(wěn)定性測試只涉及 50 個語義復(fù)雜的句子) 此外,F(xiàn)astSpeech 能在保持準確度的前提下,將生成的語音速度從 0.5 倍變?yōu)?1.5 倍。

因此,研究團隊表示,F(xiàn)astSpeech 兼具快速、魯棒、可控等特點。

微軟與浙大開發(fā)出新 AI 模型,解決語音助手卡頓問題

【 圖片來源:論文 】

論文的最后,研究團隊也提到,未來將把 FastSpeech 和速度更快的聲碼器組合成單一模型,提供完全端到端的文本-語音解決方案。

via VentureBeat,雷鋒網(wǎng)編譯。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

關(guān)注前沿科技。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說