丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

Meta 開源首個(gè) AI 語音翻譯系統(tǒng),閩南話和英語可以直接語音互譯!

本文作者: 我在思考中 2022-10-28 10:01
導(dǎo)語:?AI 翻譯進(jìn)化速度這么快,實(shí)現(xiàn)地球村有望了。

作者 | 李梅

編輯 | 陳彩嫻

機(jī)器翻譯是現(xiàn)今人類消除語言障礙、重建巴別塔的新工具。然而,在世界現(xiàn)存的 7000 多種已知語言中,許多低資源語言還未得到足夠的關(guān)注,尤其是有近一半的語言沒有標(biāo)準(zhǔn)的書面系統(tǒng),這是構(gòu)建機(jī)器翻譯工具的一大障礙,所以目前 AI 翻譯主要集中在書面語言上。

在利用 AI 推動(dòng)自然語言翻譯這件事上,Meta 一直致力于“No Language Left Behind”(沒有一種語言被落下)的目標(biāo)。

比如漢語方言之一閩南話,現(xiàn)在也有了專屬的機(jī)器翻譯系統(tǒng),講閩南話的人可以與講英語的人進(jìn)行無障礙對(duì)話了。

這是由 Meta 開源的第一個(gè)由 AI 驅(qū)動(dòng)的非書面的、語音到語音的翻譯系統(tǒng)。來聽聽這項(xiàng)工作的負(fù)責(zé)人、Meta AI 研究員 Peng-Jen Chen 與小扎的對(duì)話,Chen 出生于中國臺(tái)灣。

視頻見:https://mp.weixin.qq.com/s/38dd-zUEtQkl2woo28wNjQ

該系統(tǒng)可以將閩南話的語音翻譯成英語語音,反之亦可。會(huì)講閩南話的讀者可以來檢驗(yàn)一下,是不是翻譯效果還挺不錯(cuò)?

據(jù)了解,這個(gè)開源翻譯系統(tǒng)是 Meta 的通用語音翻譯(UST) 項(xiàng)目的一部分,該項(xiàng)目致力于開發(fā)新的人工智能方法,幫助實(shí)現(xiàn)所有現(xiàn)存語言的實(shí)時(shí)語音到語音的翻譯。目前,Meta 已經(jīng)開源了該翻譯模型和評(píng)估數(shù)據(jù)集,研究論文如下:

Meta 開源首個(gè) AI 語音翻譯系統(tǒng),閩南話和英語可以直接語音互譯!
論文地址:https://research.facebook.com/file/799432337944526/Speech-to-speech-translation-for-a-real-world-unwritten-language.pdf



1

克服訓(xùn)練數(shù)據(jù)的挑戰(zhàn)

閩南話是漢語方言之一,是一種低資源語言,沒有標(biāo)準(zhǔn)的書寫系統(tǒng),人工的英語到閩南話翻譯人員也相對(duì)很少,所以為模型收集和標(biāo)注訓(xùn)練數(shù)據(jù)就變得更加困難。

Meta 開源首個(gè) AI 語音翻譯系統(tǒng),閩南話和英語可以直接語音互譯!

圖注:講閩南話(Hokkien)的人的數(shù)量

為此,來自 Meta AI 的研究團(tuán)隊(duì)采用了一種特殊放方案,利用漢語普通話(屬于高資源語言)作為中間語言來構(gòu)建偽標(biāo)簽和人工翻譯。他們首先將英語(或閩南話)語音翻譯成普通話文本,然后再翻譯成閩南話(或英語)并將其添加到訓(xùn)練數(shù)據(jù)中。這種方法通過利用來自類似高資源語言的數(shù)據(jù),極大地提高了模型性能。

語音挖掘是訓(xùn)練數(shù)據(jù)生成的另一種方法。使用預(yù)訓(xùn)練的語音編碼器,能夠?qū)㈤}南話語音嵌入編碼到與其他語言相同的語義空間中,所以閩南話沒有書面形式也不造成問題。閩南話語音可以與語義嵌入相似的英語語音和文本對(duì)齊,然后從文本中合成英語語音,產(chǎn)生并行的閩南話和英語語音。

Meta 開源首個(gè) AI 語音翻譯系統(tǒng),閩南話和英語可以直接語音互譯!

圖注:無需人類標(biāo)注的語音翻譯模型



2

新的建模方法:語音到語音

許多語音翻譯系統(tǒng)都依賴轉(zhuǎn)錄或者是語音到文本的系統(tǒng)。但是,閩南話的形式主要是口語,缺乏標(biāo)準(zhǔn)的書面文字系統(tǒng),無法轉(zhuǎn)錄成文本作。所以,Meta 所構(gòu)建的是一個(gè)語音到語音的翻譯系統(tǒng)。

研究人員使用語音到單元(speech-to-unit,S2UT)翻譯,將輸入語音直接翻譯成一系列的聲學(xué)單元,這也是 Meta 先前最早開創(chuàng)的一種路徑。然后,從這些聲學(xué)單元中生成波形。此外,研究人員還采用了 UnitY 作為雙通道解碼機(jī)制,第一通道解碼器生成相關(guān)語言(即漢語普通話)的文本,第二通道解碼器創(chuàng)建單元。

Meta 開源首個(gè) AI 語音翻譯系統(tǒng),閩南話和英語可以直接語音互譯!

圖注:UnitY 模型架構(gòu)



3

新的準(zhǔn)確性評(píng)估系統(tǒng)

語音翻譯系統(tǒng)的評(píng)估工具通常是 ASR-BLEU 指標(biāo),該指標(biāo)首先使用自動(dòng)語音識(shí)別 (ASR) 將翻譯后的語音轉(zhuǎn)錄為文本,然后將轉(zhuǎn)錄文本與人工翻譯的文本進(jìn)行比較,計(jì)算 BLEU 分?jǐn)?shù)。

但要評(píng)估閩南話的語音翻譯系統(tǒng),難處還是在于它沒有標(biāo)準(zhǔn)的書面文字系統(tǒng)。所以,為了實(shí)現(xiàn)自動(dòng)評(píng)估,研究人員開發(fā)了一個(gè)系統(tǒng),將閩南語語音轉(zhuǎn)錄為一種稱為 Tai-l? 的標(biāo)準(zhǔn)化注音符號(hào)。這樣就能在音節(jié)的層面上計(jì)算 BLEU 分?jǐn)?shù),從而比較不同方法的翻譯質(zhì)量。

除了開發(fā)這種評(píng)估閩-英語音翻譯的方法外,研究人員還基于閩南話語料庫 Taiwanese Across Taiwan,創(chuàng)建了第一個(gè)閩-英雙向語音到語音翻譯基準(zhǔn)數(shù)據(jù)集。該基準(zhǔn)數(shù)據(jù)集將開源,以方便更多研究人員從事閩南話語音翻譯工作。



4

不止閩南話

這項(xiàng)工作所用技術(shù)可以進(jìn)一步擴(kuò)展到許多其他書面和非書面語言。

為此,Meta 還發(fā)布了  SpeechMatrix,它是一個(gè)大型的語音到語音翻譯語料庫,使用了 Meta 的創(chuàng)新數(shù)據(jù)挖掘技術(shù) LASER, 從歐洲議會(huì)錄音的真實(shí)演講中挖掘數(shù)據(jù)。該數(shù)據(jù)庫包含 136 種語言對(duì)的語音對(duì)齊,共 41.8 萬小時(shí)的語音。挖掘的數(shù)據(jù)和模型都是免費(fèi)的,研究人員可以創(chuàng)建自己的語音到語音翻譯 (S2ST) 系統(tǒng)。

Meta 開源首個(gè) AI 語音翻譯系統(tǒng),閩南話和英語可以直接語音互譯!

圖注:LASER 挖掘獲得的語音到語音成對(duì)數(shù)據(jù)

Meta 在無監(jiān)督語音識(shí)別 ( wav2vec-U ) 和無監(jiān)督機(jī)器翻譯( mBART )方面的研究進(jìn)展,也為口語翻譯工作提供了支持。比如用于預(yù)訓(xùn)練語音模型的無監(jiān)督域自適應(yīng)技術(shù),提高了下游無監(jiān)督語音識(shí)別的性能,尤其是對(duì)于低資源語言,在沒有任何人工標(biāo)注的情況下,可以構(gòu)建高質(zhì)量語音到語音翻譯模型。

該模型仍在不斷推進(jìn)中,目前一次只能翻譯一個(gè)完整的句子,但這邁出了未來實(shí)現(xiàn)語言間同聲傳譯的一步。

據(jù) Meta AI 的研究員 Peng-Jen Chen 說,這個(gè)閩南話翻譯系統(tǒng)其實(shí)有一部分是出于他的一個(gè)私人心愿。他在中國臺(tái)灣長(zhǎng)大,同時(shí)會(huì)講普通話,但是他的父親普通話不好,他希望他的父親能夠用閩南話與每個(gè)人都順暢地交流。這也是 AI 之于人類的意義之一。

參考鏈接:https://ai.facebook.com/blog/ai-translation-hokkien/

更多內(nèi)容,點(diǎn)擊下方關(guān)注:
掃碼添加 AI 科技評(píng)論 微信號(hào),投稿&進(jìn)群:

Meta 開源首個(gè) AI 語音翻譯系統(tǒng),閩南話和英語可以直接語音互譯!

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Meta 開源首個(gè) AI 語音翻譯系統(tǒng),閩南話和英語可以直接語音互譯!

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說