百度新論文帶來「聲音克隆」，一個半小時的訓(xùn)練數(shù)據(jù)就可以復(fù)制你的聲音

本文作者：楊曉凡

2018-03-05 10:29

導(dǎo)語：阿笠博士欣慰地笑了

雷鋒網(wǎng) AI 科技評論按：日前百度發(fā)布了一篇新論文介紹了自己在語音生成方面的最近進(jìn)展。之前的 Deep Voice 系統(tǒng)已經(jīng)可以生成高質(zhì)量的語音，而現(xiàn)在，百度新開發(fā)的語音生成系統(tǒng)不僅可以把說話聲音從固定的一種增加到了上千種，得以模仿數(shù)千個不同說話者的聲音，而且每個說話者只需要不到一個半小時的訓(xùn)練數(shù)據(jù)。

這種驚人表現(xiàn)背后的技術(shù)理念就是從不同說話者中獨立學(xué)習(xí)共通的和差異性的信息。而且在此基礎(chǔ)上，百度的研究人員們打算更進(jìn)一步，嘗試只從幾秒長度的短句中學(xué)習(xí)說話者的聲音特點。通常我們把這類問題稱為「語音克隆」。在人際交互接口的個性化訂制場景中，研究者們預(yù)期語音克隆很可能會有重要作用。

百度新論文帶來「聲音克隆」，一個半小時的訓(xùn)練數(shù)據(jù)就可以復(fù)制你的聲音

為了解決語音克隆問題，在這項研究中百度的研究人員們把注意力主要放在了兩種基礎(chǔ)方法上：講話人適配（speaker adaptation）和講話人編碼（speaker encoding），具體細(xì)節(jié)可參考上圖。兩種方法都可以用在帶有講話人嵌入（speaker embeddings，https://arxiv.org/pdf/1710.07654.pdf ）的多講話人語音生成模型中，同時還不降低生成的語音的質(zhì)量。在生成語音的自然性和相比原講話人的相似性方面，兩種方法也都只需要很少的克隆樣本就可以展現(xiàn)良好的表現(xiàn)?？寺∩傻臉颖究梢詤⒁?nbsp;https://audiodemos.github.io./ 。

講話人適配方法是使用數(shù)個克隆樣本，通過基于反向傳播的優(yōu)化方法對多講話人語音生成模型做精細(xì)調(diào)節(jié)（fine-tune）。適配方法可以作用于整個模型，或者只作用于低維度的講話人嵌入；后者表征每個講話人所需的參數(shù)數(shù)量要少得多，盡管需要更長的克隆時間，生成的語音的質(zhì)量也要稍差一些。

講話人編碼方法中需要訓(xùn)練一個單獨的模型，用它直接從要克隆的語音樣本中推斷出新的講話人嵌入，然后再把這個講話人嵌入用在多講話人語音生成模型中。這個講話人編碼模型中帶有時域和頻域的處理模塊，可以從每個音頻樣本中提取得到關(guān)于講話人身份的信息，然后用注意力模塊把這些信息以最優(yōu)方式結(jié)合起來。講話人編碼方法的好處包括克隆速度快（只需要幾秒時間）、表征每個講話人需要的參數(shù)數(shù)目少，使得這種方法更適用于在資源有限的環(huán)境中使用。

百度新論文帶來「聲音克隆」，一個半小時的訓(xùn)練數(shù)據(jù)就可以復(fù)制你的聲音

除了在研究中準(zhǔn)確估測講話人嵌入外，百度的研究人員們還發(fā)現(xiàn)講話人編碼器可以學(xué)會有意義地把不同的講話人映射到嵌入空間中。比如，來自不同地域、性別、口音的講話人可以被分別聚類。通過在學(xué)到的隱含空間中進(jìn)行操作，就可以把某個說話者的性別或者口音轉(zhuǎn)換成圖中的樣子。根據(jù)研究員們的測試結(jié)果表明，對于為新的講話人生成語音以及模仿講話人的聲音特點，他們所提的方法非常有效。

AAAI 主席 Subbarao Kambhampati 也饒有興趣地轉(zhuǎn)發(fā)了百度介紹這項成果的技術(shù)博客，希望這個技術(shù)抓緊實用起來，只要設(shè)置好了自己的聲音，哄小孩睡覺的時候就再也不用花時間講睡前故事了，有聲讀書器就可以用爸爸媽媽的聲音講故事。（不過雷鋒網(wǎng) AI 科技評論編輯也擔(dān)心這大概不利于培養(yǎng)親子感情吧……）

論文地址：https://arxiv.org/pdf/1802.06006.pdf

via Baidu Research，雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

楊曉凡

讀論文為生

日常笑點滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章

百度新論文帶來「聲音克隆」，一個半小時的訓(xùn)練數(shù)據(jù)就可以復(fù)制你的聲音

百度新論文帶來「聲音克隆」，一個半小時的訓(xùn)練數(shù)據(jù)就可以復(fù)制你的聲音