丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

搜狗ICASSP論文:基于模態(tài)注意力的端到端音視覺語音識別

本文作者: camel 2019-05-17 15:41
導語:0dB噪聲情況下,相比純語音識別錯誤率相對下降36% ~

雷鋒網(wǎng)AI科技篇按:在近期舉辦的語音頂會 ICASSP 2019上,搜狗聯(lián)合清華天工研究院發(fā)表了一篇有意思的論文:基于模態(tài)注意力的端到端音視覺語音識別

簡單來說,即引入「基于模態(tài)注意力的端到端」方法,有機地融合了語音和唇部動作信息,顯著提高了嘈雜環(huán)境中語音識別的效果。


搜狗ICASSP論文:基于模態(tài)注意力的端到端音視覺語音識別論文鏈接:https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649


我們知道,安靜環(huán)境下語音識別的正確率目前已經(jīng)可以達到98%以上,商業(yè)應用基本沒太大問題。但嘈雜環(huán)境(例如會廳、地鐵環(huán)境)中語音識別卻難以獲得理想的效果。

以0dB的噪聲環(huán)境(噪聲與信號強度相同)為例,DeepMind和牛津大學在CVPR2017上聯(lián)合發(fā)表的研究中,字符錯誤率(CER)為29.8%;近兩年來,其他研究在效果上也并沒有得到顯著地改善。而搜狗的這篇文章無論在方法上還是性能上都非常值得關注。

值得注意的是,這篇文章也是搜狗在唇語系列研究中的新成果。2017年搜狗在第四屆烏鎮(zhèn)世界互聯(lián)網(wǎng)大會上公開展示了遠高于谷歌的唇語識別技術,引起業(yè)界的廣泛關注。在當時“智東西”的采訪中,搜狗語音交互中心技術總監(jiān)陳偉就已經(jīng)表示了將探索唇語與語音識別融合(而非采用麥克風陣列降噪)來提升在嘈雜環(huán)境中語音識別性能的想法。這篇論文算是一個回應。


一、創(chuàng)新點


任何創(chuàng)新都是站在前人的肩膀上。

想想我們人類。當你聽不清對方講話時,會很自然地盯緊講話者的嘴巴,這在一定程度上會幫助你明白講話者的意思,實質上這便是利用了講話者唇部動作所攜帶的信息(也即唇語)。

在嘈雜環(huán)境下計算機該如何識別說話內容呢?正如人類一樣,解決方案是在語音基礎上加入視覺信息,通過視、聽模態(tài)信息的融合來增強語音識別的效果,這被稱為 AVSR(Automatic Visual Speech Recognition)。 

搜狗ICASSP論文:基于模態(tài)注意力的端到端音視覺語音識別利用唇部動作所攜帶的信息增強語音識別的效果

這里面有兩個難題。首先,語音和視頻本質上完全不同的數(shù)據(jù)流,它們的原始幀速率通常是不一樣的,如何將兩種模態(tài)信息融合在一起則是一件具有挑戰(zhàn)性的問題。

在深度學習以前,傳統(tǒng)的方法通常是通過上采樣或者下采樣將兩者變成相同幀速率直接拼接。

這樣做的缺點是:(1)會造成信息損失;(2)會使聽覺特征在模型訓練過程中起主導作用,造成模型訓練難收斂,視覺信息對聽覺信息的提升有限;(3)由于原始特征的長度較長,直接拼接的方法容易帶來更大的計算量。

在深度學習時代,Noda等人在2015年提出了特征融合(而非之前數(shù)據(jù)拼接)的方式,即首先利用CNN將視覺特征提取出來,然后與語音特征進行融合成單一的特征。目前,這已成為AVSR的主流思路。


搜狗ICASSP論文:基于模態(tài)注意力的端到端音視覺語音識別來源:Noda, K., Yamaguchi, Y., Nakadai, K. et al. Appl Intell (2015) 42: 722. https://doi.org/10.1007/s10489-014-0629-7

但兩種特征如何融合才更有效呢?我們知道,唇語識別的準確率在大多數(shù)情況下是遠低于語音識別的,不恰當?shù)娜诤仙踔量赡軙驼Z音識別原本的效果。

DeepMind和牛津大學的研究人員在2017年發(fā)表的工作(WLAS)中采用的思路是:利用注意力編碼器解碼器框架,將相對應的聲音和唇部上下文向量進行拼接后輸入到輸出層進行預測,如下圖所示:


搜狗ICASSP論文:基于模態(tài)注意力的端到端音視覺語音識別來源:Joon Son Chung, Andrew W Senior, Oriol Vinyals, and An- drew Zisserman, “Lip reading sentences in the wild.,” in CVPR, 2017, pp. 3444–3453.


ADAPT中心的George等人(arXiv:1809.01728v3,AV_align)的思路是希望利用獲取的唇部特征對音頻特征進行補充修正,然后再用一個基于注意力的解碼器對這個修正后的融合音視覺信息的特征進行解碼:

搜狗ICASSP論文:基于模態(tài)注意力的端到端音視覺語音識別來源:George Sterpu, Christian Saam, and Naomi Harte, “Attention- based audio-visual fusion for robust automatic speech recognition,” in Proceedings of the 2018 on International Conference on Multimodal Interaction. ACM, 2018, pp. 111–115.


綜合考慮這兩種方法會發(fā)現(xiàn),它們本質的不同不過是在何處進行融合而已。前者在解碼器內部進行融合,后者在編碼器的輸出層采用注意力找到與當前聽覺向量相關的視覺向量后,與聽覺向量進行拼接。

另外一個難題是,在不同模態(tài)的特征融合過程中,該如何顯式賦予恰當?shù)臋嘀匾垣@得更加魯棒的融合信息。

我們知道,在噪聲不同、說話人發(fā)音清晰程度不同的情況下,聽覺和視覺所攜帶信息的比重是不固定的。因此,最好的方式自然應當是能夠根據(jù)模態(tài)的信息含量來顯式、自適應地賦予權重。

在上述兩項研究中都沒有顯式的對兩種模態(tài)信息賦予權重向量,模態(tài)之間的重要程度是在后續(xù)的網(wǎng)絡連接權重中學習得到的。搜狗的這篇文章主要解決的正是這個問題。

不同于前面兩者的是,研究人員周盼與搜狗研究員楊文文等共同設計了一個基于模態(tài)重要程度的注意力機制(模態(tài)注意力),使模型能夠自適應調整模態(tài)的權重來融合音視覺特征。


搜狗ICASSP論文:基于模態(tài)注意力的端到端音視覺語音識別


詳細來說,即,在第t個解碼步驟中,由解碼器狀態(tài)分別與音頻編碼器和視覺編碼器進行注意力得出相應的聲學context vector 和視覺context vector 后,不是將這兩個模態(tài)的信息進行拼接,而是基于模態(tài)注意力,將二者進行融合,得到融合的context vector ,進行輸出的預測。

這種在聲音和視覺注意力之后,再增加一個模態(tài)注意力進行融合的方法有以下好處:

  1. Context vector 已經(jīng)包含了與當前輸出相關的信息,比在原始特征進行融合更加清晰有效;

  2. 模態(tài)注意力得到的模態(tài)權重用來對二者進行融合,反應了模型認為不同模態(tài)在當前輸出時的相對重要程度;

  3. 模態(tài)間的融合系數(shù)可以依賴數(shù)據(jù)進行自動學習調整;

  4. 在每一個解碼步驟進行融合,相比在原始特征融合時,少了很多計算量。


二、訓練及結果


根據(jù)以上模型,他們在150h電視新聞類音視覺數(shù)據(jù)上進行了訓練。實驗表明,這種模態(tài)注意力方法在0dB噪聲情況下,可以對LAS的純語音識別取得相對36%的錯誤率下降。而且優(yōu)于其他的音視覺結合方法(WLAS,AV_align)。不同系統(tǒng)在不同信噪比情形下的識別錯誤率(CER)如下表:


搜狗ICASSP論文:基于模態(tài)注意力的端到端音視覺語音識別

注:

  • LAS,Listen, Attend and Spell,即純語音識別;

  • WAS,Watch, Attend and Spell,即純唇語識別,顯然它不受噪聲影響;

  • WLAS,Watch, Listen, Attend and Spell,即DeepMind與劍橋大學聯(lián)合提出的模型;

  • AV_align,即George等人提出的模型;

  • MD_ATT,基于模態(tài)注意力的AVSR系統(tǒng)

  • MD_ATT_MC,在MD_ATT基礎上增加Multi-condition數(shù)據(jù)


文章中也進一步分析了在不同噪聲下,模型對兩個不同模態(tài)間的依賴。隨著噪聲的提升,模型在融合音視覺時,對視覺信息的依賴比例在逐漸提升。


搜狗ICASSP論文:基于模態(tài)注意力的端到端音視覺語音識別


三、意義


這篇文章的意義在于提出了一個模態(tài)注意力的機制,動態(tài)地融合了音視覺模態(tài)特征,并在實驗上顯著提高了語音識別的準確性和魯棒性。值得注意的是,這種方法具有普遍性,完全可以遷移到任何種類的多模態(tài)信息融合當中。

另一方面,搜狗的技術畢竟是要用在產(chǎn)品當中的。業(yè)內在語音降噪的問題上大多采用麥克風陣列的方式,搜狗則在嘗試使用音視覺結合的方法,利用多模態(tài)識別技術來提升噪聲魯棒性。

據(jù)陳偉表示,這項技術的性能已經(jīng)達到了可以商用的水平,目前兩個可能的落地場景包括:1)語音輸入場景,通過調用攝像頭功能來提升嘈雜環(huán)境中語音識別效果,未來搜狗輸入法會上線該能力;2)落地到遠場人機交互系統(tǒng),特別提到了車載交互。據(jù)陳偉介紹,搜狗目前正在與一些車企洽談,通過增加攝像頭(而不是增加麥克風陣列)來解決車載噪聲場景(如開車窗下會有極大的噪聲)下的語音識別問題。

雷鋒網(wǎng)雷鋒網(wǎng)

原文鏈接:https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

搜狗ICASSP論文:基于模態(tài)注意力的端到端音視覺語音識別

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說