丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

百度新論文帶來「聲音克隆」,一個(gè)半小時(shí)的訓(xùn)練數(shù)據(jù)就可以復(fù)制你的聲音

本文作者: 楊曉凡 2018-03-05 10:29
導(dǎo)語:阿笠博士欣慰地笑了

雷鋒網(wǎng) AI 科技評(píng)論按:日前百度發(fā)布了一篇新論文介紹了自己在語音生成方面的最近進(jìn)展。之前的 Deep Voice 系統(tǒng)已經(jīng)可以生成高質(zhì)量的語音,而現(xiàn)在,百度新開發(fā)的語音生成系統(tǒng)不僅可以把說話聲音從固定的一種增加到了上千種,得以模仿數(shù)千個(gè)不同說話者的聲音,而且每個(gè)說話者只需要不到一個(gè)半小時(shí)的訓(xùn)練數(shù)據(jù)。

這種驚人表現(xiàn)背后的技術(shù)理念就是從不同說話者中獨(dú)立學(xué)習(xí)共通的和差異性的信息。而且在此基礎(chǔ)上,百度的研究人員們打算更進(jìn)一步,嘗試只從幾秒長(zhǎng)度的短句中學(xué)習(xí)說話者的聲音特點(diǎn)。通常我們把這類問題稱為「語音克隆」。在人際交互接口的個(gè)性化訂制場(chǎng)景中,研究者們預(yù)期語音克隆很可能會(huì)有重要作用。

百度新論文帶來「聲音克隆」,一個(gè)半小時(shí)的訓(xùn)練數(shù)據(jù)就可以復(fù)制你的聲音

為了解決語音克隆問題,在這項(xiàng)研究中百度的研究人員們把注意力主要放在了兩種基礎(chǔ)方法上:講話人適配(speaker adaptation)和講話人編碼(speaker encoding),具體細(xì)節(jié)可參考上圖。兩種方法都可以用在帶有講話人嵌入(speaker embeddings,https://arxiv.org/pdf/1710.07654.pdf  )的多講話人語音生成模型中,同時(shí)還不降低生成的語音的質(zhì)量。在生成語音的自然性和相比原講話人的相似性方面,兩種方法也都只需要很少的克隆樣本就可以展現(xiàn)良好的表現(xiàn)。克隆生成的樣本可以參見 https://audiodemos.github.io./  。

講話人適配方法是使用數(shù)個(gè)克隆樣本,通過基于反向傳播的優(yōu)化方法對(duì)多講話人語音生成模型做精細(xì)調(diào)節(jié)(fine-tune)。適配方法可以作用于整個(gè)模型,或者只作用于低維度的講話人嵌入;后者表征每個(gè)講話人所需的參數(shù)數(shù)量要少得多,盡管需要更長(zhǎng)的克隆時(shí)間,生成的語音的質(zhì)量也要稍差一些。

講話人編碼方法中需要訓(xùn)練一個(gè)單獨(dú)的模型,用它直接從要克隆的語音樣本中推斷出新的講話人嵌入,然后再把這個(gè)講話人嵌入用在多講話人語音生成模型中。這個(gè)講話人編碼模型中帶有時(shí)域和頻域的處理模塊,可以從每個(gè)音頻樣本中提取得到關(guān)于講話人身份的信息,然后用注意力模塊把這些信息以最優(yōu)方式結(jié)合起來。講話人編碼方法的好處包括克隆速度快(只需要幾秒時(shí)間)、表征每個(gè)講話人需要的參數(shù)數(shù)目少,使得這種方法更適用于在資源有限的環(huán)境中使用。

百度新論文帶來「聲音克隆」,一個(gè)半小時(shí)的訓(xùn)練數(shù)據(jù)就可以復(fù)制你的聲音

除了在研究中準(zhǔn)確估測(cè)講話人嵌入外,百度的研究人員們還發(fā)現(xiàn)講話人編碼器可以學(xué)會(huì)有意義地把不同的講話人映射到嵌入空間中。比如,來自不同地域、性別、口音的講話人可以被分別聚類。通過在學(xué)到的隱含空間中進(jìn)行操作,就可以把某個(gè)說話者的性別或者口音轉(zhuǎn)換成圖中的樣子。根據(jù)研究員們的測(cè)試結(jié)果表明,對(duì)于為新的講話人生成語音以及模仿講話人的聲音特點(diǎn),他們所提的方法非常有效。

AAAI 主席 Subbarao Kambhampati 也饒有興趣地轉(zhuǎn)發(fā)了百度介紹這項(xiàng)成果的技術(shù)博客,希望這個(gè)技術(shù)抓緊實(shí)用起來,只要設(shè)置好了自己的聲音,哄小孩睡覺的時(shí)候就再也不用花時(shí)間講睡前故事了,有聲讀書器就可以用爸爸媽媽的聲音講故事。(不過雷鋒網(wǎng) AI 科技評(píng)論編輯也擔(dān)心這大概不利于培養(yǎng)親子感情吧……)

論文地址:https://arxiv.org/pdf/1802.06006.pdf 

via Baidu Research,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

百度新論文帶來「聲音克隆」,一個(gè)半小時(shí)的訓(xùn)練數(shù)據(jù)就可以復(fù)制你的聲音

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說