0
雷鋒網(wǎng) AI 科技評論按:人類很擅長在嘈雜的環(huán)境下將其他非重點(diǎn)的聲響「靜音」化,從而將注意力集中在某個特定人物身上。這也就是眾所周知的「雞尾酒會效應(yīng)」,這種能力是人類與生俱來的。然而,自動化語音分離系統(tǒng)—將音頻信號分離至單獨(dú)的語音源—盡管這是一個已經(jīng)被深入研究過的問題,但是它依舊是計算機(jī)系統(tǒng)研究上的一項巨大挑戰(zhàn)。
Google Research 軟件工程師 Inbar Mosseri 和 Oran Lang 于 4 月 11 日發(fā)表了一篇關(guān)于視覺-音頻語音識別分離模型最新研究成果的博文,雷鋒網(wǎng) AI 科技評論編譯整理如下。
在解決了「雞尾酒會效應(yīng)」的《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》論文中,谷歌團(tuán)隊提供了一個深度視覺-音頻學(xué)習(xí)模型,來從其發(fā)聲者音頻和背景噪音的混合音頻場景中,為特定的發(fā)聲對象分離出一個匹配的單一音頻信號。在這次操作中,谷歌已經(jīng)能夠通過增強(qiáng)特定人物對象的音頻,抑制其他非重點(diǎn)音頻來計算生成針對特定發(fā)聲對象的單一音軌視頻了。該方法適用于具有單一(主)音軌的常見視頻,用戶也可以自行選擇傾聽對象來生成對其的單一音軌,或者基于語境由算法進(jìn)行對特定發(fā)聲對象進(jìn)行選擇。谷歌相信這種視覺-音頻語音識別分離技術(shù)擁有廣泛的應(yīng)用場景,識別視頻中的特定對象將其音頻增強(qiáng),特別是在多人視頻會議的場景中對特定發(fā)言人進(jìn)行針對性音頻增強(qiáng)。
這項技術(shù)的獨(dú)特之處在于,其通過結(jié)合分析輸入視頻的音、視頻信號來識別分離所需的單一音軌。直觀來說,例如特定人物對象的音頻與其發(fā)聲時的嘴部動作相關(guān)聯(lián)的,這也就幫助模型系統(tǒng)區(qū)分哪一部分音頻(軌)對應(yīng)著哪一個特定對象。對視頻中的視覺信號進(jìn)行分析,不僅能夠在多種音頻混合的場景下顯著提升語音識別分離質(zhì)量(相較于只借助音頻來進(jìn)行特定對象語音分離),同時,更加重要一點(diǎn)還在于,它還能將分離后的純凈單一音軌與視頻中的可視對象聯(lián)系起來。
為了生成視覺-音頻語音分離模型訓(xùn)練樣本,谷歌收集了 Youtube 上高達(dá) 10 萬份高質(zhì)量學(xué)術(shù)以及演講視頻。團(tuán)隊從中提取了音頻純凈的一些片段(例如無背景音樂,聽眾噪音以及其他發(fā)聲者音頻干擾),這些視頻片段中僅有一位可見的發(fā)聲對象。谷歌花費(fèi)了約 2000 個小時從中剪輯出,無背景噪音干擾,同時只有單一可見發(fā)聲對象的視頻數(shù)據(jù),團(tuán)隊運(yùn)用這份純凈的數(shù)據(jù)來生成「合成雞尾酒會效應(yīng)(synthetic cocktail parties)」—將來自分離視頻源的臉部動作視頻和對應(yīng)的音頻,以及從 AudioSet 獲取的無背景噪音的視頻混合在一起。
利用這些視頻數(shù)據(jù),我們能夠訓(xùn)練一個多流卷積神經(jīng)網(wǎng)絡(luò)模型,為「合成雞尾酒會場景混合體」片段中每個發(fā)聲對象分離出對應(yīng)音頻流(音軌)。輸入到視覺-音頻網(wǎng)絡(luò)識別系統(tǒng)中的數(shù)據(jù)具體是指,視頻每一幀中被檢測到的發(fā)聲對象的臉部動作縮略圖中提取的視覺特征,以及視頻音軌的頻譜圖信息。在模型的訓(xùn)練過程中,網(wǎng)絡(luò)系統(tǒng)學(xué)習(xí)分別學(xué)習(xí)視覺和音頻信號的編碼,然后將它們?nèi)诤铣梢粋€音頻-視覺表現(xiàn)。通過音頻-視覺表現(xiàn),網(wǎng)絡(luò)系統(tǒng)學(xué)會了為每位發(fā)聲對象對應(yīng)輸出時頻掩碼。輸出的時頻掩碼與噪聲輸入頻譜圖相乘,隨后轉(zhuǎn)換成時域波形,從而為每一位發(fā)聲對象生成單獨(dú)的,純凈的音頻信號。更多詳細(xì)內(nèi)容,可以點(diǎn)擊參考谷歌團(tuán)隊的論文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》進(jìn)行查看。
下面是幾個谷歌團(tuán)隊通過最新視覺-音頻語音分離技術(shù)實現(xiàn)的音頻分離和增強(qiáng)的處理結(jié)果視頻示例,視頻中除所需的特定發(fā)聲對象外,其他對象(背景)聲音均被「靜音」化已達(dá)到所需效果。
為了強(qiáng)調(diào)模型對視覺信息的利用,谷歌從 Google CEO Sundar Pichai 的同一視頻片段中截取了兩段截然不同的片段,并將它們進(jìn)行并排演示。在這個場景下,僅使用音頻中的特征語音頻率是很難實現(xiàn)音頻分離的,盡管在如此具有挑戰(zhàn)性的案例中,視覺-音頻模型依然能正確地分離視頻中的音頻。
視覺-音頻語音識別分離技術(shù)的相關(guān)應(yīng)用
本文的該方法也可應(yīng)用于語音識別和視頻自動字幕加載。對于視頻自動字幕加載系統(tǒng)而言,多名發(fā)生者同時發(fā)聲導(dǎo)致的語音重疊現(xiàn)象是一項已知的挑戰(zhàn),與此同時,將音頻分離至不同的源也有助于呈現(xiàn)更加準(zhǔn)確和易讀的字幕。
同時你也可以前往 YouTube 觀看本文中的同款視頻并打開字幕加載(cc 功能鍵),即可比較運(yùn)用了視覺-音頻語音識別分離技術(shù)的視頻字幕識別和 YouTube 原本視頻字幕加載系統(tǒng)表現(xiàn)的差異。
讀者還可以在谷歌視覺-音頻語音識別分離項目 GitHub 相關(guān)頁面查看更多的應(yīng)用場景,同時谷歌的視覺-音頻語音識別分離技術(shù)與純音頻識別分離的視頻結(jié)果示例對比,以及其他視覺-音頻語音識別分離技術(shù)上最新進(jìn)展。在谷歌團(tuán)隊看來,該技術(shù)將擁有更加廣泛的應(yīng)用,團(tuán)隊也在探索將其整合進(jìn)谷歌的其他產(chǎn)品中,所以敬請期待吧!
另外,AI科技評論于4月初也編譯Microsoft AI and Research 研究員的一篇利用多束深度吸引子網(wǎng)絡(luò)解決雞尾酒派對問題的論文,詳細(xì)內(nèi)容可查看《微軟研究員提出多束深度吸引子網(wǎng)絡(luò),解決語音識別“雞尾酒會問題”》。
更多資訊敬請關(guān)注雷鋒網(wǎng) AI 科技評論。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。