0
本文作者: camel | 2019-05-17 15:41 |
雷鋒網(wǎng)AI科技篇按:在近期舉辦的語(yǔ)音頂會(huì) ICASSP 2019上,搜狗聯(lián)合清華天工研究院發(fā)表了一篇有意思的論文:基于模態(tài)注意力的端到端音視覺(jué)語(yǔ)音識(shí)別。
簡(jiǎn)單來(lái)說(shuō),即引入「基于模態(tài)注意力的端到端」方法,有機(jī)地融合了語(yǔ)音和唇部動(dòng)作信息,顯著提高了嘈雜環(huán)境中語(yǔ)音識(shí)別的效果。
論文鏈接:https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649
我們知道,安靜環(huán)境下語(yǔ)音識(shí)別的正確率目前已經(jīng)可以達(dá)到98%以上,商業(yè)應(yīng)用基本沒(méi)太大問(wèn)題。但嘈雜環(huán)境(例如會(huì)廳、地鐵環(huán)境)中語(yǔ)音識(shí)別卻難以獲得理想的效果。
以0dB的噪聲環(huán)境(噪聲與信號(hào)強(qiáng)度相同)為例,DeepMind和牛津大學(xué)在CVPR2017上聯(lián)合發(fā)表的研究中,字符錯(cuò)誤率(CER)為29.8%;近兩年來(lái),其他研究在效果上也并沒(méi)有得到顯著地改善。而搜狗的這篇文章無(wú)論在方法上還是性能上都非常值得關(guān)注。
值得注意的是,這篇文章也是搜狗在唇語(yǔ)系列研究中的新成果。2017年搜狗在第四屆烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)上公開展示了遠(yuǎn)高于谷歌的唇語(yǔ)識(shí)別技術(shù),引起業(yè)界的廣泛關(guān)注。在當(dāng)時(shí)“智東西”的采訪中,搜狗語(yǔ)音交互中心技術(shù)總監(jiān)陳偉就已經(jīng)表示了將探索唇語(yǔ)與語(yǔ)音識(shí)別融合(而非采用麥克風(fēng)陣列降噪)來(lái)提升在嘈雜環(huán)境中語(yǔ)音識(shí)別性能的想法。這篇論文算是一個(gè)回應(yīng)。
一、創(chuàng)新點(diǎn)
任何創(chuàng)新都是站在前人的肩膀上。
想想我們?nèi)祟悺.?dāng)你聽不清對(duì)方講話時(shí),會(huì)很自然地盯緊講話者的嘴巴,這在一定程度上會(huì)幫助你明白講話者的意思,實(shí)質(zhì)上這便是利用了講話者唇部動(dòng)作所攜帶的信息(也即唇語(yǔ))。
在嘈雜環(huán)境下計(jì)算機(jī)該如何識(shí)別說(shuō)話內(nèi)容呢?正如人類一樣,解決方案是在語(yǔ)音基礎(chǔ)上加入視覺(jué)信息,通過(guò)視、聽模態(tài)信息的融合來(lái)增強(qiáng)語(yǔ)音識(shí)別的效果,這被稱為 AVSR(Automatic Visual Speech Recognition)。
利用唇部動(dòng)作所攜帶的信息增強(qiáng)語(yǔ)音識(shí)別的效果
這里面有兩個(gè)難題。首先,語(yǔ)音和視頻本質(zhì)上完全不同的數(shù)據(jù)流,它們的原始幀速率通常是不一樣的,如何將兩種模態(tài)信息融合在一起則是一件具有挑戰(zhàn)性的問(wèn)題。
在深度學(xué)習(xí)以前,傳統(tǒng)的方法通常是通過(guò)上采樣或者下采樣將兩者變成相同幀速率直接拼接。
這樣做的缺點(diǎn)是:(1)會(huì)造成信息損失;(2)會(huì)使聽覺(jué)特征在模型訓(xùn)練過(guò)程中起主導(dǎo)作用,造成模型訓(xùn)練難收斂,視覺(jué)信息對(duì)聽覺(jué)信息的提升有限;(3)由于原始特征的長(zhǎng)度較長(zhǎng),直接拼接的方法容易帶來(lái)更大的計(jì)算量。
在深度學(xué)習(xí)時(shí)代,Noda等人在2015年提出了特征融合(而非之前數(shù)據(jù)拼接)的方式,即首先利用CNN將視覺(jué)特征提取出來(lái),然后與語(yǔ)音特征進(jìn)行融合成單一的特征。目前,這已成為AVSR的主流思路。
來(lái)源:Noda, K., Yamaguchi, Y., Nakadai, K. et al. Appl Intell (2015) 42: 722. https://doi.org/10.1007/s10489-014-0629-7
但兩種特征如何融合才更有效呢?我們知道,唇語(yǔ)識(shí)別的準(zhǔn)確率在大多數(shù)情況下是遠(yuǎn)低于語(yǔ)音識(shí)別的,不恰當(dāng)?shù)娜诤仙踔量赡軙?huì)拉低語(yǔ)音識(shí)別原本的效果。
DeepMind和牛津大學(xué)的研究人員在2017年發(fā)表的工作(WLAS)中采用的思路是:利用注意力編碼器解碼器框架,將相對(duì)應(yīng)的聲音和唇部上下文向量進(jìn)行拼接后輸入到輸出層進(jìn)行預(yù)測(cè),如下圖所示:
來(lái)源:Joon Son Chung, Andrew W Senior, Oriol Vinyals, and An- drew Zisserman, “Lip reading sentences in the wild.,” in CVPR, 2017, pp. 3444–3453.
ADAPT中心的George等人(arXiv:1809.01728v3,AV_align)的思路是希望利用獲取的唇部特征對(duì)音頻特征進(jìn)行補(bǔ)充修正,然后再用一個(gè)基于注意力的解碼器對(duì)這個(gè)修正后的融合音視覺(jué)信息的特征進(jìn)行解碼:
來(lái)源:George Sterpu, Christian Saam, and Naomi Harte, “Attention- based audio-visual fusion for robust automatic speech recognition,” in Proceedings of the 2018 on International Conference on Multimodal Interaction. ACM, 2018, pp. 111–115.
綜合考慮這兩種方法會(huì)發(fā)現(xiàn),它們本質(zhì)的不同不過(guò)是在何處進(jìn)行融合而已。前者在解碼器內(nèi)部進(jìn)行融合,后者在編碼器的輸出層采用注意力找到與當(dāng)前聽覺(jué)向量相關(guān)的視覺(jué)向量后,與聽覺(jué)向量進(jìn)行拼接。
另外一個(gè)難題是,在不同模態(tài)的特征融合過(guò)程中,該如何顯式賦予恰當(dāng)?shù)臋?quán)重以獲得更加魯棒的融合信息。
我們知道,在噪聲不同、說(shuō)話人發(fā)音清晰程度不同的情況下,聽覺(jué)和視覺(jué)所攜帶信息的比重是不固定的。因此,最好的方式自然應(yīng)當(dāng)是能夠根據(jù)模態(tài)的信息含量來(lái)顯式、自適應(yīng)地賦予權(quán)重。
在上述兩項(xiàng)研究中都沒(méi)有顯式的對(duì)兩種模態(tài)信息賦予權(quán)重向量,模態(tài)之間的重要程度是在后續(xù)的網(wǎng)絡(luò)連接權(quán)重中學(xué)習(xí)得到的。搜狗的這篇文章主要解決的正是這個(gè)問(wèn)題。
不同于前面兩者的是,研究人員周盼與搜狗研究員楊文文等共同設(shè)計(jì)了一個(gè)基于模態(tài)重要程度的注意力機(jī)制(模態(tài)注意力),使模型能夠自適應(yīng)調(diào)整模態(tài)的權(quán)重來(lái)融合音視覺(jué)特征。
詳細(xì)來(lái)說(shuō),即,在第t個(gè)解碼步驟中,由解碼器狀態(tài)分別與音頻編碼器和視覺(jué)編碼器進(jìn)行注意力得出相應(yīng)的聲學(xué)context vector 和視覺(jué)context vector 后,不是將這兩個(gè)模態(tài)的信息進(jìn)行拼接,而是基于模態(tài)注意力,將二者進(jìn)行融合,得到融合的context vector ,進(jìn)行輸出的預(yù)測(cè)。
這種在聲音和視覺(jué)注意力之后,再增加一個(gè)模態(tài)注意力進(jìn)行融合的方法有以下好處:
Context vector 已經(jīng)包含了與當(dāng)前輸出相關(guān)的信息,比在原始特征進(jìn)行融合更加清晰有效;
模態(tài)注意力得到的模態(tài)權(quán)重用來(lái)對(duì)二者進(jìn)行融合,反應(yīng)了模型認(rèn)為不同模態(tài)在當(dāng)前輸出時(shí)的相對(duì)重要程度;
模態(tài)間的融合系數(shù)可以依賴數(shù)據(jù)進(jìn)行自動(dòng)學(xué)習(xí)調(diào)整;
在每一個(gè)解碼步驟進(jìn)行融合,相比在原始特征融合時(shí),少了很多計(jì)算量。
根據(jù)以上模型,他們?cè)?50h電視新聞?lì)愐粢曈X(jué)數(shù)據(jù)上進(jìn)行了訓(xùn)練。實(shí)驗(yàn)表明,這種模態(tài)注意力方法在0dB噪聲情況下,可以對(duì)LAS的純語(yǔ)音識(shí)別取得相對(duì)36%的錯(cuò)誤率下降。而且優(yōu)于其他的音視覺(jué)結(jié)合方法(WLAS,AV_align)。不同系統(tǒng)在不同信噪比情形下的識(shí)別錯(cuò)誤率(CER)如下表:
注:
LAS,Listen, Attend and Spell,即純語(yǔ)音識(shí)別;
WAS,Watch, Attend and Spell,即純唇語(yǔ)識(shí)別,顯然它不受噪聲影響;
WLAS,Watch, Listen, Attend and Spell,即DeepMind與劍橋大學(xué)聯(lián)合提出的模型;
AV_align,即George等人提出的模型;
MD_ATT,基于模態(tài)注意力的AVSR系統(tǒng)
MD_ATT_MC,在MD_ATT基礎(chǔ)上增加Multi-condition數(shù)據(jù)
文章中也進(jìn)一步分析了在不同噪聲下,模型對(duì)兩個(gè)不同模態(tài)間的依賴。隨著噪聲的提升,模型在融合音視覺(jué)時(shí),對(duì)視覺(jué)信息的依賴比例在逐漸提升。
這篇文章的意義在于提出了一個(gè)模態(tài)注意力的機(jī)制,動(dòng)態(tài)地融合了音視覺(jué)模態(tài)特征,并在實(shí)驗(yàn)上顯著提高了語(yǔ)音識(shí)別的準(zhǔn)確性和魯棒性。值得注意的是,這種方法具有普遍性,完全可以遷移到任何種類的多模態(tài)信息融合當(dāng)中。
另一方面,搜狗的技術(shù)畢竟是要用在產(chǎn)品當(dāng)中的。業(yè)內(nèi)在語(yǔ)音降噪的問(wèn)題上大多采用麥克風(fēng)陣列的方式,搜狗則在嘗試使用音視覺(jué)結(jié)合的方法,利用多模態(tài)識(shí)別技術(shù)來(lái)提升噪聲魯棒性。
據(jù)陳偉表示,這項(xiàng)技術(shù)的性能已經(jīng)達(dá)到了可以商用的水平,目前兩個(gè)可能的落地場(chǎng)景包括:1)語(yǔ)音輸入場(chǎng)景,通過(guò)調(diào)用攝像頭功能來(lái)提升嘈雜環(huán)境中語(yǔ)音識(shí)別效果,未來(lái)搜狗輸入法會(huì)上線該能力;2)落地到遠(yuǎn)場(chǎng)人機(jī)交互系統(tǒng),特別提到了車載交互。據(jù)陳偉介紹,搜狗目前正在與一些車企洽談,通過(guò)增加攝像頭(而不是增加麥克風(fēng)陣列)來(lái)解決車載噪聲場(chǎng)景(如開車窗下會(huì)有極大的噪聲)下的語(yǔ)音識(shí)別問(wèn)題。
雷鋒網(wǎng)雷鋒網(wǎng)
原文鏈接:https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。