「眼」來助聽：谷歌視覺-音頻分離模型解決「雞尾酒會(huì)效應(yīng)」

本文作者：劉鵬

編輯：郭奕欣

2018-04-13 15:44

導(dǎo)語(yǔ)：昨日，Google Research 軟件工程師發(fā)表了可解決「雞尾酒會(huì)效應(yīng)」視覺-音頻語(yǔ)音識(shí)別分離模型。

雷鋒網(wǎng) AI 科技評(píng)論按：人類很擅長(zhǎng)在嘈雜的環(huán)境下將其他非重點(diǎn)的聲響「靜音」化，從而將注意力集中在某個(gè)特定人物身上。這也就是眾所周知的「雞尾酒會(huì)效應(yīng)」，這種能力是人類與生俱來的。然而，自動(dòng)化語(yǔ)音分離系統(tǒng)—將音頻信號(hào)分離至單獨(dú)的語(yǔ)音源—盡管這是一個(gè)已經(jīng)被深入研究過的問題，但是它依舊是計(jì)算機(jī)系統(tǒng)研究上的一項(xiàng)巨大挑戰(zhàn)。

Google Research 軟件工程師 Inbar Mosseri 和 Oran Lang 于 4 月 11 日發(fā)表了一篇關(guān)于視覺-音頻語(yǔ)音識(shí)別分離模型最新研究成果的博文，雷鋒網(wǎng) AI 科技評(píng)論編譯整理如下。

在解決了「雞尾酒會(huì)效應(yīng)」的《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》論文中，谷歌團(tuán)隊(duì)提供了一個(gè)深度視覺-音頻學(xué)習(xí)模型，來從其發(fā)聲者音頻和背景噪音的混合音頻場(chǎng)景中，為特定的發(fā)聲對(duì)象分離出一個(gè)匹配的單一音頻信號(hào)。在這次操作中，谷歌已經(jīng)能夠通過增強(qiáng)特定人物對(duì)象的音頻，抑制其他非重點(diǎn)音頻來計(jì)算生成針對(duì)特定發(fā)聲對(duì)象的單一音軌視頻了。該方法適用于具有單一（主）音軌的常見視頻，用戶也可以自行選擇傾聽對(duì)象來生成對(duì)其的單一音軌，或者基于語(yǔ)境由算法進(jìn)行對(duì)特定發(fā)聲對(duì)象進(jìn)行選擇。谷歌相信這種視覺-音頻語(yǔ)音識(shí)別分離技術(shù)擁有廣泛的應(yīng)用場(chǎng)景，識(shí)別視頻中的特定對(duì)象將其音頻增強(qiáng)，特別是在多人視頻會(huì)議的場(chǎng)景中對(duì)特定發(fā)言人進(jìn)行針對(duì)性音頻增強(qiáng)。

這項(xiàng)技術(shù)的獨(dú)特之處在于，其通過結(jié)合分析輸入視頻的音、視頻信號(hào)來識(shí)別分離所需的單一音軌。直觀來說，例如特定人物對(duì)象的音頻與其發(fā)聲時(shí)的嘴部動(dòng)作相關(guān)聯(lián)的，這也就幫助模型系統(tǒng)區(qū)分哪一部分音頻（軌）對(duì)應(yīng)著哪一個(gè)特定對(duì)象。對(duì)視頻中的視覺信號(hào)進(jìn)行分析，不僅能夠在多種音頻混合的場(chǎng)景下顯著提升語(yǔ)音識(shí)別分離質(zhì)量（相較于只借助音頻來進(jìn)行特定對(duì)象語(yǔ)音分離），同時(shí)，更加重要一點(diǎn)還在于，它還能將分離后的純凈單一音軌與視頻中的可視對(duì)象聯(lián)系起來。

「眼」來助聽：谷歌視覺-音頻分離模型解決「雞尾酒會(huì)效應(yīng)」

在本文的視覺-音頻語(yǔ)音分離識(shí)別方法中，輸入是一名或多名發(fā)聲對(duì)象，同時(shí)被其他對(duì)象或嘈雜背景所干擾的視頻。輸出是將前面輸入的視頻音軌分解成純凈的音軌，并對(duì)應(yīng)到特定的發(fā)聲對(duì)象身上。

視覺-音頻語(yǔ)音識(shí)別分離模型

為了生成視覺-音頻語(yǔ)音分離模型訓(xùn)練樣本，谷歌收集了 Youtube 上高達(dá) 10 萬份高質(zhì)量學(xué)術(shù)以及演講視頻。團(tuán)隊(duì)從中提取了音頻純凈的一些片段（例如無背景音樂，聽眾噪音以及其他發(fā)聲者音頻干擾），這些視頻片段中僅有一位可見的發(fā)聲對(duì)象。谷歌花費(fèi)了約 2000 個(gè)小時(shí)從中剪輯出，無背景噪音干擾，同時(shí)只有單一可見發(fā)聲對(duì)象的視頻數(shù)據(jù)，團(tuán)隊(duì)運(yùn)用這份純凈的數(shù)據(jù)來生成「合成雞尾酒會(huì)效應(yīng)（synthetic cocktail parties）」—將來自分離視頻源的臉部動(dòng)作視頻和對(duì)應(yīng)的音頻，以及從 AudioSet 獲取的無背景噪音的視頻混合在一起。

利用這些視頻數(shù)據(jù)，我們能夠訓(xùn)練一個(gè)多流卷積神經(jīng)網(wǎng)絡(luò)模型，為「合成雞尾酒會(huì)場(chǎng)景混合體」片段中每個(gè)發(fā)聲對(duì)象分離出對(duì)應(yīng)音頻流（音軌）。輸入到視覺-音頻網(wǎng)絡(luò)識(shí)別系統(tǒng)中的數(shù)據(jù)具體是指，視頻每一幀中被檢測(cè)到的發(fā)聲對(duì)象的臉部動(dòng)作縮略圖中提取的視覺特征，以及視頻音軌的頻譜圖信息。在模型的訓(xùn)練過程中，網(wǎng)絡(luò)系統(tǒng)學(xué)習(xí)分別學(xué)習(xí)視覺和音頻信號(hào)的編碼，然后將它們?nèi)诤铣梢粋€(gè)音頻-視覺表現(xiàn)。通過音頻-視覺表現(xiàn)，網(wǎng)絡(luò)系統(tǒng)學(xué)會(huì)了為每位發(fā)聲對(duì)象對(duì)應(yīng)輸出時(shí)頻掩碼。輸出的時(shí)頻掩碼與噪聲輸入頻譜圖相乘，隨后轉(zhuǎn)換成時(shí)域波形，從而為每一位發(fā)聲對(duì)象生成單獨(dú)的，純凈的音頻信號(hào)。更多詳細(xì)內(nèi)容，可以點(diǎn)擊參考谷歌團(tuán)隊(duì)的論文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》進(jìn)行查看。

「眼」來助聽：谷歌視覺-音頻分離模型解決「雞尾酒會(huì)效應(yīng)」

谷歌多串流，基于神經(jīng)網(wǎng)絡(luò)的模型架構(gòu)

下面是幾個(gè)谷歌團(tuán)隊(duì)通過最新視覺-音頻語(yǔ)音分離技術(shù)實(shí)現(xiàn)的音頻分離和增強(qiáng)的處理結(jié)果視頻示例，視頻中除所需的特定發(fā)聲對(duì)象外，其他對(duì)象（背景）聲音均被「靜音」化已達(dá)到所需效果。