0
雷鋒網(wǎng) AI 科技評論按:不同語言之間的語音到語音轉(zhuǎn)換早已不是什么新鮮事了,任務(wù)拆分簡單直接,只需要把「源語言的語音識別模型(語音轉(zhuǎn)文本)」、「文本到文本翻譯模型」、「目標語言的語音生成模型(文本轉(zhuǎn)語音)」這三個模型串聯(lián)使用就可以。由于這三類模型的發(fā)展都各自比較成熟,現(xiàn)在市面上如谷歌翻譯這樣的軟件產(chǎn)品、如科大訊飛翻譯機這樣的專用硬件設(shè)備都能達到很好的多語互譯效果,準確率和延時都讓人比較滿意。
但技術(shù)研究的探索并不會就此止步。谷歌的研究人員們做了一次大膽的試驗,嘗試把語音轉(zhuǎn)文、文本到文本翻譯、文本轉(zhuǎn)語音這三個步驟合并到同一個端到端模型中完成!在論文「Direct speech-to-speech translation with a sequence-to-sequence model」(通過一個序列到序列模型進行語音到語音的直接轉(zhuǎn)換,https://arxiv.org/abs/1904.06037)中,他們用了一個帶有注意力機制的序列到序列轉(zhuǎn)換模型構(gòu)建了新的翻譯系統(tǒng),完全拋棄了需要經(jīng)過文本表示的中間步驟。他們把這個系統(tǒng)命名為 Translatotron。雷鋒網(wǎng) AI 科技評論介紹如下。
端到端語音模型的萌芽最早是在 2016 年開始的,當時研究人員們發(fā)現(xiàn)可以用單個序列到序列轉(zhuǎn)換模型實現(xiàn)語音到文本的轉(zhuǎn)換。在 2017 年,谷歌的研究人員們已經(jīng)在研究中表明了這樣的端到端模型比傳統(tǒng)的瀑布式模型有更好的表現(xiàn)(https://arxiv.org/abs/1703.08581)。此后,領(lǐng)域內(nèi)提出了越來越多的改進方案,不斷提升了端到端語音到文本序列轉(zhuǎn)換模型的表現(xiàn),包括谷歌自己也在近期又提出了利用弱監(jiān)督數(shù)據(jù)繼續(xù)提升表現(xiàn)的方案(https://arxiv.org/abs/1811.02050)。
Translatotron 則是全新的一步,直接把一個語言的語音轉(zhuǎn)換為另一種語言的語音,不需要經(jīng)過文本形式的中間表示環(huán)節(jié)。它把源語言語音的頻譜圖作為輸入,然后直接輸出說話內(nèi)容在目標語言的語音頻譜圖。模型中會使用兩個分別獨立訓(xùn)練的組件:一個神經(jīng)網(wǎng)絡(luò)聲碼器,它會把輸出的頻譜圖轉(zhuǎn)換成時域的音頻波形;另一個組件的使用是可選的,可以借助一個說話人音色編碼器在生成的翻譯語音中保留源語音的特點。
在訓(xùn)練過程中,這個序列到序列轉(zhuǎn)換模型使用了一個多任務(wù)并行訓(xùn)練模型,它需要同時預(yù)測源語音轉(zhuǎn)文本的結(jié)果、文本翻譯的結(jié)果以及目標語音的頻譜圖。前兩個任務(wù)僅作為輔助任務(wù),在訓(xùn)練完成后就不再需要模型輸出文本結(jié)果了。
Translatotron 系統(tǒng)框圖
谷歌的研究人員們用一個額外的語音識別系統(tǒng)識別 Translatotron 的輸出,然后通過 BLEU 分數(shù)定量地測試了模型的表現(xiàn)。雖然模型的表現(xiàn)不如傳統(tǒng)的三步式的語音轉(zhuǎn)換(這并不令人意外),但這已經(jīng)證明了端到端的直接語音轉(zhuǎn)換的可行性。
谷歌提供了多組 Translatotron 和基線(傳統(tǒng)方法)語音轉(zhuǎn)換的對比,兩者都可以提供恰當?shù)姆g,發(fā)音也很標準??梢栽?nbsp;https://google-research.github.io/lingvo-lab/translatotron/ 試聽。
保留說話人特征
借助一個額外的說話人音色編碼器,Translatotron 可以在轉(zhuǎn)換后的語音中保留原本的說話人的聲音特征,這讓轉(zhuǎn)換出的語音聽起來更自然、避免生硬。這個功能利用了谷歌此前在說話人鑒別(https://arxiv.org/abs/1710.10467)以及文本轉(zhuǎn)語音的說話人適應(yīng)(https://arxiv.org/abs/1806.04558)方面的研究成果。
說話人音色編碼器首先在說話人鑒別任務(wù)上進行了預(yù)訓(xùn)練,學(xué)習(xí)到了如何從一段短的語音中編碼說話人聲音的特點。讓頻譜編碼器在音色編碼器的作用下生成語音,得到的結(jié)果就可以含有非常相似的說話音色,即便說的內(nèi)容是另一個語言。
試聽例子 https://google-research.github.io/lingvo-lab/translatotron/#conversational。
除了保留說話人聲音特征之外之外,根據(jù)谷歌研究人員們的測試,這個系統(tǒng)相比傳統(tǒng)的三個步驟的系統(tǒng)還有多項優(yōu)勢:更快的推理(翻譯)速度;天然地更善于避開識別和翻譯階段累積的錯誤;而且對于不需要翻譯的詞匯也處理得更好(比如名字和專有名詞)。
據(jù)谷歌的研究人員們目前所知,這是世界上首個可以直接把一種語言的語音翻譯到另一種語言語音的端到端模型;除此之外它還可以保留源說話人的聲音特點。這項研究可能是未來更多端到端語音翻譯系統(tǒng)研究的開端。
詳細內(nèi)容可以閱讀論文原文 https://arxiv.org/abs/1904.06037
via ai.googleblog.com,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。