0
本文作者: 叢末 | 2020-01-03 10:58 |
作者 | 劉宇宸、張家俊
本文對(duì)中科院宗成慶、張家俊團(tuán)隊(duì)完成、被 AAAI-20 錄用的口頭報(bào)告論文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》進(jìn)行解讀。
語音翻譯技術(shù)是指利用計(jì)算機(jī)實(shí)現(xiàn)從一種語言的語音到另外一種語言的語音或文本的自動(dòng)翻譯過程。該技術(shù)可以廣泛應(yīng)用于會(huì)議演講、商業(yè)會(huì)談、跨境客服、出國(guó)旅游等各個(gè)領(lǐng)域和場(chǎng)景,具有重要的研究?jī)r(jià)值和廣闊的應(yīng)用前景。
近年來,隨著人工智能技術(shù)在語音、翻譯等相關(guān)領(lǐng)域的蓬勃發(fā)展,語音翻譯技術(shù)逐漸成為學(xué)術(shù)界和企業(yè)界競(jìng)相研究的熱點(diǎn)。當(dāng)前的語音翻譯系統(tǒng)通常由語音識(shí)別、機(jī)器翻譯和語音合成等多個(gè)模塊串聯(lián)組成,方法簡(jiǎn)單,但面臨著噪聲容錯(cuò)、斷句標(biāo)點(diǎn)、時(shí)間延遲等一系列技術(shù)難題。
端到端的語音翻譯模型在理論上可以緩解級(jí)聯(lián)系統(tǒng)的缺陷,它通過直接建立源語言語音到目標(biāo)語言文本的映射關(guān)系,一步實(shí)現(xiàn)跨模態(tài)跨語言的翻譯,一旦技術(shù)成熟,理論上可以讓語音翻譯更準(zhǔn)更快,極大地提升模型的性能。我們發(fā)現(xiàn)語音識(shí)別和語音翻譯兩個(gè)任務(wù)是相輔相成的。
如圖1所示,
圖1語音識(shí)別和語音翻譯交互示例相比于直接將原始語音作為輸入,如果能夠動(dòng)態(tài)獲取到識(shí)別出的文本信息,語音翻譯將變得更加容易;而翻譯出的結(jié)果也有助于同音詞識(shí)別的消歧,使識(shí)別結(jié)果更加準(zhǔn)確。因此,我們希望設(shè)計(jì)一種交互式的模型,讓語音識(shí)別與語音翻譯兩個(gè)任務(wù)可以動(dòng)態(tài)交互學(xué)習(xí),實(shí)現(xiàn)知識(shí)的共享和傳遞。
針對(duì)上述問題,中科院自動(dòng)化所自然語言處理組博士生劉宇宸、張家俊研究員、宗成慶研究員和百度公司合作提出了一種基于交互式解碼的同步語音識(shí)別與語音翻譯模型。
如圖2所示,
圖 2 基于交互式解碼的同步語音識(shí)別與語音翻譯
我們使用基于自注意力機(jī)制的Transformer模型作為主框架,語音識(shí)別任務(wù)和語音翻譯解碼任務(wù)共享同一個(gè)編碼器,在解碼器中加入一個(gè)交互注意力機(jī)制層,實(shí)現(xiàn)兩個(gè)任務(wù)的知識(shí)交互和傳遞。
如圖3所示,
圖3 交互注意力機(jī)制層
交互注意力機(jī)制層包含一個(gè)自注意力模塊和一個(gè)跨任務(wù)注意力模塊。其中前者用于提取當(dāng)前任務(wù)輸出端的特征表示,后者用于提取另一個(gè)任務(wù)輸出端的特征表示,兩者通過一個(gè)線性插值函數(shù)融合得到包含兩個(gè)任務(wù)信息的特征表示。
在訓(xùn)練階段,兩個(gè)任務(wù)同時(shí)優(yōu)化;在解碼階段,兩個(gè)任務(wù)同步進(jìn)行。如此,在預(yù)測(cè)下一個(gè)詞的過程中既可以用到當(dāng)前任務(wù)的已生成的詞語,也可以利用到另一個(gè)任務(wù)上已生成的詞語。為了進(jìn)一步提升語音翻譯的性能,我們采用了一種wait-k的方法,使得語音翻譯任務(wù)相比語音識(shí)別任務(wù)延遲k個(gè)詞語進(jìn)行,以獲得更多更可靠的文本信息作為輔助。
目前語音翻譯數(shù)據(jù)十分匱乏且質(zhì)量不高,為此我們構(gòu)建了一個(gè)新的語音翻譯數(shù)據(jù)集。我們從TED網(wǎng)站上爬取了視頻和字幕文件,從中提取出音頻、英文字幕和多語言翻譯字幕,得到了語音、識(shí)別文本、翻譯文本的對(duì)齊語料。這里使用了英德、英法、英中、英日四種語言,前兩種屬于較為相似的語言對(duì),后兩種是不相似的語言對(duì)。
語音識(shí)別和語音翻譯的結(jié)果分別使用詞錯(cuò)誤率(WER)和BLEU進(jìn)行衡量。我們與多個(gè)強(qiáng)基線模型進(jìn)行了對(duì)比,包括由語音識(shí)別和機(jī)器翻譯模型串聯(lián)組成的級(jí)聯(lián)系統(tǒng)(Pipeline),在語音識(shí)別語料上進(jìn)行預(yù)訓(xùn)練的端到端語音翻譯模型(E2E),語音識(shí)別和語音翻譯共享編碼器的多任務(wù)模型(Multi-task),以及一個(gè)兩階段模型(Two-stage)(第一階段解碼器用于獲取識(shí)別文本的中間表示,第二階段解碼器基于編碼器的表示和第一階段解碼器的中間表示生成對(duì)應(yīng)的翻譯)。
表1不同模型在多個(gè)語言對(duì)上的實(shí)驗(yàn)結(jié)果
表1給出了不同模型在英德、英法、英中、英日不同語言對(duì)上的識(shí)別和翻譯效果??梢钥闯鲈诖蠖鄶?shù)情況下,基于交互式解碼的同步語言識(shí)別與語音翻譯模型的性能表現(xiàn)不管在語音識(shí)別任務(wù)還是語音翻譯任務(wù)上都要顯著高于預(yù)訓(xùn)練的端到端模型、多任務(wù)模型和兩階段模型。在相似的語言對(duì)上基于交互式解碼的模型可以超越級(jí)聯(lián)系統(tǒng),在不相似的語言對(duì)上也與級(jí)聯(lián)系統(tǒng)可比。值得注意的是之前端到端的語音翻譯模型幾乎都很難達(dá)到級(jí)聯(lián)系統(tǒng)的性能。
表2 wait-k對(duì)翻譯性能的影響
為了進(jìn)一步提升語音翻譯的性能,我們讓語音翻譯任務(wù)相比語音識(shí)別任務(wù)延遲k個(gè)詞語進(jìn)行,以獲得更多的文本信息作為輔助。表2給出了在開發(fā)集和測(cè)試集上不同的延遲詞語數(shù)對(duì)于模型性能的影響??梢钥闯?,雖然延遲詞語會(huì)輕微影響識(shí)別任務(wù)的表現(xiàn),但是語音翻譯任務(wù)的性能可以得到提升。
表3 模型參數(shù)、訓(xùn)練速度和解碼速度
我們也對(duì)比了不同模型的參數(shù)量、訓(xùn)練和解碼速率。表3給出了模型的參數(shù)量大小、每秒的訓(xùn)練步數(shù)和每秒的解碼句子數(shù)。可以看出,我們的模型較好的平衡了參數(shù)量和解碼速率,相比級(jí)聯(lián)系統(tǒng),參數(shù)量獲得的大幅降低;訓(xùn)練和解碼速率顯著低于兩階段模型;雖然解碼速率略低于預(yù)訓(xùn)練端到端模型和多任務(wù)模型,但是我們的方法可以實(shí)現(xiàn)兩個(gè)任務(wù)的同步解碼。
相關(guān)細(xì)節(jié)可參考發(fā)表于人工智能頂級(jí)學(xué)術(shù)會(huì)議AAAI2020的論文:
Yuchen Liu, Jiajun Zhang,Hao Xiong, Long Zhou, Zhongjun He, Hua Wu, Haifeng Wang, and Chengqing Zong.Synchronous Speech Recognition and Speech-to-Text Translation with InteractiveDecoding. AAAI-2020. (available on https://arxiv.org/abs/1912.07240)
Youtube上也有學(xué)者介紹我們的工作:https://www.youtube.com/watch?v=ZgbUBmVFcBc
雷鋒網(wǎng) AI 科技評(píng)論報(bào)道 雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。