1
本文作者: AI研習社-譯站 | 2018-04-09 11:40 |
雷鋒網(wǎng)按:這里是,雷鋒字幕組編譯的Two minutes paper專欄,每周帶大家用碎片時間閱覽前沿技術(shù),了解AI領(lǐng)域的最新研究成果。
原標題 DeepMind's WaveNet, 1000 Times Faster | Two Minute Papers #232
翻譯 | 李晶 霍雷剛 字幕 | 凡江 整理 | 吳璇 林尤添
?每周一篇2分鐘論文視頻解讀
本期2分鐘論文Parallel WaveNet: Fast High-Fidelity Speech Synthesis,主要介紹了2017年最新版的WaveNet技術(shù)運用的訓練方法 Probability Density Distillation ,由該技術(shù)雖然不是實時生成,卻比實時生成快了20倍,產(chǎn)生的系統(tǒng)能夠由Google助手在線部署,還能提供英語、日語語音多項服務。
WaveNet是2016年Google旗下DeepMind實驗室推出的一種文本轉(zhuǎn)語音算法。
一直以來,WaveNet的迭代方向都是生成“更好更逼真的語音音頻波形”。近期,WaveNet出了新版本,DeepMind的研究員們算出了一個速度更快的WaveNet,比原始的快1000倍。
在舊的WaveNet算法情況下,程序員必須為每一秒連續(xù)聲音片段,生成24000個樣本。而且,這些新樣本是一個一個生成的,讓一個計算單元完成所有的工作,意味著同一時間內(nèi),其它的計算單元什么都不做,并不適合如今所需的大規(guī)模計算,也很難在實時生產(chǎn)環(huán)境中部署。
DeepMind的研究員們一直在想辦法讓這算法并行起來。他們找到的解決方式是——并行生成樣本。因為語音不是類似于隨機噪音的東西,當新樣本高度依賴原有樣本時,它是高度相關(guān)的,這樣的話我們一次只能生成一個新樣,那么我們?nèi)绾尾⑿械厥褂眠@些多個計算單元,并且創(chuàng)建新的波形呢?
具體算法還請觀看視頻解讀及論文,論文原址 https://arxiv.org/abs/1711.10433
更多文章,關(guān)注雷鋒網(wǎng) 雷鋒網(wǎng)雷鋒網(wǎng)
添加雷鋒字幕組微信號(leiphonefansub)為好友
備注「我要加入」,To be a AI Volunteer !
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。