丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給付靜
發(fā)送

0

人類讀不懂唇語?交給深度學(xué)習(xí),精度可達(dá) 84.41%

本文作者: 付靜 2020-03-20 18:14
導(dǎo)語:LRW 數(shù)據(jù)集表現(xiàn)出了迄今為止最佳的性能。

讀懂唇語,這是擺在我們面前的一道難題,大多數(shù)人平均只能讀對一句唇語的十分之一。那么 AI 能做到嗎?

早在 2016 年,牛津大學(xué)人工智能實驗室、谷歌 DeepMind 和加拿大高等研究院(CIFAR)就聯(lián)合開發(fā)了結(jié)合深度學(xué)習(xí)技術(shù)的唇讀程序 LipNet。隨后,提高計算機(jī)唇讀精度,便成為了該領(lǐng)域的一項重要挑戰(zhàn)。

近日,來自浙江工業(yè)大學(xué)、中科院計算技術(shù)研究所智能信息處理重點實驗室、中國科學(xué)院大學(xué)的研究團(tuán)隊更是共同提出了在局部特征層和全局序列層上引入互信息約束,增強(qiáng)口型特征與語音內(nèi)容的關(guān)系,將計算機(jī)唇讀精度提升至 84.41%。

當(dāng)?shù)貢r間 2020 年 3 月 13 日,相關(guān)論文 Mutual Information Maximization for Effective Lip Reading(有效唇讀的互信息最大化)發(fā)表于預(yù)印本網(wǎng)站 arXiv。

人類讀不懂唇語?交給深度學(xué)習(xí),精度可達(dá)  84.41%

解決詞匯級唇讀的“固有”問題

唇讀(lip-reading/speech-reading),簡單來講就是觀察說話者的口型變化,“讀出”其表達(dá)的內(nèi)容。實際上,唇讀的過程是利用視覺信道信息補(bǔ)充聽覺信道信息,這對聽力較弱的群體、嘈雜環(huán)境中的工作者以及執(zhí)法機(jī)構(gòu)具有實際應(yīng)用意義。

而在計算機(jī)視覺領(lǐng)域的語境下,唇讀作為一種基于深度學(xué)習(xí)的模型,更多地被用來推斷視頻中的語音內(nèi)容,可對基于音頻的語音識別、生物認(rèn)證等進(jìn)行輔助。

在論文中,研究團(tuán)隊提到了「詞匯級唇讀」(word-level lip reading)的概念。實際上,詞匯級唇讀是唇讀的一個分支,也是研究團(tuán)隊此次研究的主要關(guān)注方向,它存在一些“固有”問題。

第一,即使在同一視頻中存在其他單詞,每個輸入視頻都用單個詞標(biāo)簽來注釋。例如下圖中包括總共 29 個幀的視頻樣本被注釋為“ABOUT”,但是“ABOUT”一詞的實際幀僅包括在時間步 T=12~19 處的幀,即紅框中的部分,而紅框前后的幀對應(yīng)的詞匯分別為“JUST”和“TEN”。

人類讀不懂唇語?交給深度學(xué)習(xí),精度可達(dá)  84.41%

上面這個例子反映出詞匯級唇讀的一個問題——模型無法完全關(guān)注有效的關(guān)鍵幀,因此詞匯邊界劃分不準(zhǔn)確

第二,同一詞匯標(biāo)簽下的視頻樣本畫面經(jīng)常存在變化。例如下圖中的畫面都屬于以“ABOUT”為標(biāo)簽的視頻。

人類讀不懂唇語?交給深度學(xué)習(xí),精度可達(dá)  84.41%

上述 2 個詞匯級唇讀的特性要求唇讀模型能夠抵抗序列中的噪聲,從而在各種語音環(huán)境下捕獲一致的潛在模式。

此外,準(zhǔn)確捕捉口型的變化也并不容易——發(fā)音相似的詞匯口型相似,同音詞的識別也更是使難度升級。

實際上,確保計算機(jī)唇讀性能良好,很大程度上正是取決于 2 點:

  • 是否能有效地捕獲口型變化;

  • 是否能有效地抵抗由姿態(tài)、光線、揚聲器外觀等變化引起的噪聲。

引入不同層級的「互信息最大化」

雷鋒網(wǎng)了解到,互信息(mutual information,MI)是用于測量兩個隨機(jī)變量之間的關(guān)系的基本量,當(dāng)給定一個隨機(jī)變量時,它總是用來計算另一個隨機(jī)變量所擁有的信息量。基于此,兩個隨機(jī)變量的互信息總是被用來衡量兩變量間的相互依賴性。

為解決上述問題,此次研究團(tuán)隊主要從兩方面著手,引入了不同層級的「互信息最大化」(mutual information maximization,MIM),旨在使得模型同時具備較好的鑒別能力及魯棒性,保證唇讀更為有效。

人類讀不懂唇語?交給深度學(xué)習(xí),精度可達(dá)  84.41%

【雷鋒網(wǎng)注:基本架構(gòu)】

一方面,研究團(tuán)隊施加「局部互信息最大化」(local mutual information maximization,LMIM)約束,限制每個時間步生成的特征,以使它們能夠與語音內(nèi)容具有強(qiáng)關(guān)系,從而提高模型發(fā)現(xiàn)精細(xì)的口型變化及發(fā)音類似的詞之間的差異(例如“spend”和“spending”)的能力。

人類讀不懂唇語?交給深度學(xué)習(xí),精度可達(dá)  84.41%

【雷鋒網(wǎng)注:LMIM 訓(xùn)練基礎(chǔ)網(wǎng)絡(luò)】

另一方面,研究團(tuán)隊引入「全局互信息最大化」(global mutual information maximization,GMIM)約束,使得模型更多地關(guān)注對與語音內(nèi)容相關(guān)的關(guān)鍵幀的識別,同時更少地關(guān)注各種可能出現(xiàn)的噪聲。

人類讀不懂唇語?交給深度學(xué)習(xí),精度可達(dá)  84.41%

【GMIM 訓(xùn)練基礎(chǔ)網(wǎng)絡(luò)】

利用 LRW 和 LRW-1000 評估

為驗證這一方法,研究團(tuán)隊利用 2 個大規(guī)模詞匯水平的數(shù)據(jù)集對其進(jìn)行評估,將其與其他主流的唇語識別模型方法進(jìn)行了詳細(xì)的幾方面分析、比較,包括 LMIM 和 GMIM 與基線的比較、深度學(xué)習(xí)可視化等。

以下是 2 個數(shù)據(jù)集的具體信息:

  • LRW:于 2016 年發(fā)布,總樣本量為 488766,包括 500 個詞匯等級,涉及講者超 1000名,講話環(huán)境差異很大。該數(shù)據(jù)集被主流唇讀方法廣泛使用,具有挑戰(zhàn)性的數(shù)據(jù)集;

  • LRW-1000:總樣本量為 70000,總時長約 57 小時,包括 1000 個詞匯等級。該數(shù)據(jù)集旨在覆蓋不同的語音模式和畫面條件,從而結(jié)合在實際應(yīng)用中遇到的挑戰(zhàn)。

經(jīng)評估,研究團(tuán)隊發(fā)現(xiàn) GMIM 可將精度提高到 84.41%,這主要得益于它對不同幀關(guān)注不同的特性。與其他除視覺信息外務(wù)額外輸入的唇讀方法相比,研究團(tuán)隊在 LRW 數(shù)據(jù)集上得到了迄今為止最佳的性能(如下圖)。

人類讀不懂唇語?交給深度學(xué)習(xí),精度可達(dá)  84.41%

此外,通過引入 LMIM,模型對發(fā)音相似的詞匯的識別的確顯示出了更高的準(zhǔn)確性和明顯的改進(jìn),例如 Makes/making 和 Political/politics(如下圖)。

人類讀不懂唇語?交給深度學(xué)習(xí),精度可達(dá)  84.41%

同時,研究團(tuán)隊利用可視化對 GMIM 的效果進(jìn)行了進(jìn)一步探究。如下圖所示,下列這些詞之間的差異范圍從 -20 至 20 擴(kuò)大到 -40 至 60 之間——這意味著隨著 GMIM 的引入,區(qū)分詞匯變得更容易。

人類讀不懂唇語?交給深度學(xué)習(xí),精度可達(dá)  84.41%

可見,在不使用額外數(shù)據(jù)或額外預(yù)訓(xùn)練模型的前提下,該研究團(tuán)隊的上述方法相比其他主流唇讀模型性能的確較為突出,希望這一方法為其他模型提供借鑒。

參考資料:

https://arxiv.org/abs/2003.06439

http://www.ozgbdpf.cn/news/201611/lmrRpn2DdOUoex3E.html

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

關(guān)注前沿科技。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說