0
這里是,雷鋒字幕組編譯的Two minutes paper專欄,每周帶大家用碎片時間閱覽前沿技術(shù),了解AI領(lǐng)域的最新研究成果。
原標題 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS | Two Minute Papers
翻譯 | 張鋒凱 整理 | 凡江 林尤添
在往期的2分鐘論文欄目中,我們有談過Google的WaveNet(一個基于學習型的文本到語音引擎),也就是說,只要我們給予已經(jīng)訓練好的模型一些朗讀的素材,引擎就會盡可能生成一個較真實的聲音。而在本期視頻中,我們將介紹一個新的產(chǎn)品,它在原有的基礎(chǔ)上進行改進,讓合成語音臻于完美。
圖片來源:WaveNet: A Generative Model for Raw Audio
點開本期視頻后,你會聽到,合成的語音在韻律,重讀,和語調(diào)上都非常出色,以至于我們真假難辨。相關(guān)的音頻信息可以在這里找到:https://google.github.io/tacotron/publications/tacotron2/index.html
在原先Google的WaveNet論文中,我們?yōu)榱私鉀Q語音合成難題,創(chuàng)造了擴張卷積,這個網(wǎng)絡(luò)結(jié)構(gòu)跳躍性地輸入數(shù)據(jù),由此使我們我們有了更好的全局視野。這有點像增加我們眼睛的感受野,讓我們能夠感受整個景觀,而不是照片中只有樹的狹窄的視角。
新框架利用梅爾聲譜作為WaveNet的輸入,這種聲譜是一種基于人類感知的中間媒介,它不僅記錄了不同的單詞如何發(fā)音,而且還記錄了預(yù)期的音量和語調(diào)。
新模型接受了大約24小時的語音數(shù)據(jù)訓練,當然,模型都是要經(jīng)過某種程度的檢驗才合格。
我們對其的檢驗方法是記錄以前算法的平均意見分(用來描述聲音樣本和人類真實聲音的比分)。我們的新算法大獲成功,之后通過用戶研究更加接地氣的檢驗,讓用戶進行盲測,猜測聽到的聲音是合成的還是真實的。
的確不可思議,因為大部分的測試結(jié)果都是——人們真假莫辨。
請注意,生成這些波形不是實時的,而且還需要很長時間。為了有更好的效率,DeepMind的科學家撰寫了一篇轟動的論文,把WaveNe的波形生成速度提升了上千倍。當然,新發(fā)明也會帶來新挑戰(zhàn)——這可能導致錄音更容易被偽造,而錄音將被削弱作為物證的可信性,除非我們找到一種新的檢驗方法,例如在錄音上加入數(shù)字簽名。
論文原址 https://arxiv.org/pdf/1712.05884.pdf
更多文章,關(guān)注雷鋒網(wǎng),添加雷鋒字幕組微信號(leiphonefansub)為好友
備注「我要加入」,To be a AI Volunteer !
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。