丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

0

序列轉(zhuǎn)換模型三合一!谷歌提出首個(gè)端到端的直接語音翻譯模型

本文作者: 楊曉凡 2019-05-17 10:50
導(dǎo)語:三個(gè)任務(wù)合并成一個(gè)任務(wù)解決

序列轉(zhuǎn)換模型三合一!谷歌提出首個(gè)端到端的直接語音翻譯模型

雷鋒網(wǎng) AI 科技評論按:不同語言之間的語音到語音轉(zhuǎn)換早已不是什么新鮮事了,任務(wù)拆分簡單直接,只需要把「源語言的語音識(shí)別模型(語音轉(zhuǎn)文本)」、「文本到文本翻譯模型」、「目標(biāo)語言的語音生成模型(文本轉(zhuǎn)語音)」這三個(gè)模型串聯(lián)使用就可以。由于這三類模型的發(fā)展都各自比較成熟,現(xiàn)在市面上如谷歌翻譯這樣的軟件產(chǎn)品、如科大訊飛翻譯機(jī)這樣的專用硬件設(shè)備都能達(dá)到很好的多語互譯效果,準(zhǔn)確率和延時(shí)都讓人比較滿意。

但技術(shù)研究的探索并不會(huì)就此止步。谷歌的研究人員們做了一次大膽的試驗(yàn),嘗試把語音轉(zhuǎn)文、文本到文本翻譯、文本轉(zhuǎn)語音這三個(gè)步驟合并到同一個(gè)端到端模型中完成!在論文「Direct speech-to-speech translation with a sequence-to-sequence model」(通過一個(gè)序列到序列模型進(jìn)行語音到語音的直接轉(zhuǎn)換,https://arxiv.org/abs/1904.06037)中,他們用了一個(gè)帶有注意力機(jī)制的序列到序列轉(zhuǎn)換模型構(gòu)建了新的翻譯系統(tǒng),完全拋棄了需要經(jīng)過文本表示的中間步驟。他們把這個(gè)系統(tǒng)命名為 Translatotron。雷鋒網(wǎng) AI 科技評論介紹如下。

Translatotron 介紹

端到端語音模型的萌芽最早是在 2016 年開始的,當(dāng)時(shí)研究人員們發(fā)現(xiàn)可以用單個(gè)序列到序列轉(zhuǎn)換模型實(shí)現(xiàn)語音到文本的轉(zhuǎn)換。在 2017 年,谷歌的研究人員們已經(jīng)在研究中表明了這樣的端到端模型比傳統(tǒng)的瀑布式模型有更好的表現(xiàn)(https://arxiv.org/abs/1703.08581)。此后,領(lǐng)域內(nèi)提出了越來越多的改進(jìn)方案,不斷提升了端到端語音到文本序列轉(zhuǎn)換模型的表現(xiàn),包括谷歌自己也在近期又提出了利用弱監(jiān)督數(shù)據(jù)繼續(xù)提升表現(xiàn)的方案(https://arxiv.org/abs/1811.02050)。

Translatotron 則是全新的一步,直接把一個(gè)語言的語音轉(zhuǎn)換為另一種語言的語音,不需要經(jīng)過文本形式的中間表示環(huán)節(jié)。它把源語言語音的頻譜圖作為輸入,然后直接輸出說話內(nèi)容在目標(biāo)語言的語音頻譜圖。模型中會(huì)使用兩個(gè)分別獨(dú)立訓(xùn)練的組件:一個(gè)神經(jīng)網(wǎng)絡(luò)聲碼器,它會(huì)把輸出的頻譜圖轉(zhuǎn)換成時(shí)域的音頻波形;另一個(gè)組件的使用是可選的,可以借助一個(gè)說話人音色編碼器在生成的翻譯語音中保留源語音的特點(diǎn)。

在訓(xùn)練過程中,這個(gè)序列到序列轉(zhuǎn)換模型使用了一個(gè)多任務(wù)并行訓(xùn)練模型,它需要同時(shí)預(yù)測源語音轉(zhuǎn)文本的結(jié)果、文本翻譯的結(jié)果以及目標(biāo)語音的頻譜圖。前兩個(gè)任務(wù)僅作為輔助任務(wù),在訓(xùn)練完成后就不再需要模型輸出文本結(jié)果了。

序列轉(zhuǎn)換模型三合一!谷歌提出首個(gè)端到端的直接語音翻譯模型

Translatotron 系統(tǒng)框圖

模型表現(xiàn)

谷歌的研究人員們用一個(gè)額外的語音識(shí)別系統(tǒng)識(shí)別 Translatotron 的輸出,然后通過 BLEU 分?jǐn)?shù)定量地測試了模型的表現(xiàn)。雖然模型的表現(xiàn)不如傳統(tǒng)的三步式的語音轉(zhuǎn)換(這并不令人意外),但這已經(jīng)證明了端到端的直接語音轉(zhuǎn)換的可行性。

谷歌提供了多組 Translatotron 和基線(傳統(tǒng)方法)語音轉(zhuǎn)換的對比,兩者都可以提供恰當(dāng)?shù)姆g,發(fā)音也很標(biāo)準(zhǔn)??梢栽?nbsp;https://google-research.github.io/lingvo-lab/translatotron/ 試聽。

保留說話人特征

借助一個(gè)額外的說話人音色編碼器,Translatotron 可以在轉(zhuǎn)換后的語音中保留原本的說話人的聲音特征,這讓轉(zhuǎn)換出的語音聽起來更自然、避免生硬。這個(gè)功能利用了谷歌此前在說話人鑒別(https://arxiv.org/abs/1710.10467)以及文本轉(zhuǎn)語音的說話人適應(yīng)(https://arxiv.org/abs/1806.04558)方面的研究成果。

說話人音色編碼器首先在說話人鑒別任務(wù)上進(jìn)行了預(yù)訓(xùn)練,學(xué)習(xí)到了如何從一段短的語音中編碼說話人聲音的特點(diǎn)。讓頻譜編碼器在音色編碼器的作用下生成語音,得到的結(jié)果就可以含有非常相似的說話音色,即便說的內(nèi)容是另一個(gè)語言。

試聽例子 https://google-research.github.io/lingvo-lab/translatotron/#conversational

除了保留說話人聲音特征之外之外,根據(jù)谷歌研究人員們的測試,這個(gè)系統(tǒng)相比傳統(tǒng)的三個(gè)步驟的系統(tǒng)還有多項(xiàng)優(yōu)勢:更快的推理(翻譯)速度;天然地更善于避開識(shí)別和翻譯階段累積的錯(cuò)誤;而且對于不需要翻譯的詞匯也處理得更好(比如名字和專有名詞)。

結(jié)論

據(jù)谷歌的研究人員們目前所知,這是世界上首個(gè)可以直接把一種語言的語音翻譯到另一種語言語音的端到端模型;除此之外它還可以保留源說話人的聲音特點(diǎn)。這項(xiàng)研究可能是未來更多端到端語音翻譯系統(tǒng)研究的開端。

詳細(xì)內(nèi)容可以閱讀論文原文 https://arxiv.org/abs/1904.06037

via ai.googleblog.com,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

序列轉(zhuǎn)換模型三合一!谷歌提出首個(gè)端到端的直接語音翻譯模型

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說