丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給劉鵬
發(fā)送

0

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會效應(yīng)」

本文作者: 劉鵬 編輯:郭奕欣 2018-04-13 15:44
導(dǎo)語:昨日,Google Research 軟件工程師發(fā)表了可解決「雞尾酒會效應(yīng)」視覺-音頻語音識別分離模型。

雷鋒網(wǎng) AI 科技評論按:人類很擅長在嘈雜的環(huán)境下將其他非重點(diǎn)的聲響「靜音」化,從而將注意力集中在某個特定人物身上。這也就是眾所周知的「雞尾酒會效應(yīng)」,這種能力是人類與生俱來的。然而,自動化語音分離系統(tǒng)—將音頻信號分離至單獨(dú)的語音源—盡管這是一個已經(jīng)被深入研究過的問題,但是它依舊是計算機(jī)系統(tǒng)研究上的一項巨大挑戰(zhàn)。

Google Research 軟件工程師 Inbar Mosseri 和 Oran Lang 于 4 月 11 日發(fā)表了一篇關(guān)于視覺-音頻語音識別分離模型最新研究成果的博文,雷鋒網(wǎng) AI 科技評論編譯整理如下。 

在解決了「雞尾酒會效應(yīng)」的《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》論文中,谷歌團(tuán)隊提供了一個深度視覺-音頻學(xué)習(xí)模型,來從其發(fā)聲者音頻和背景噪音的混合音頻場景中,為特定的發(fā)聲對象分離出一個匹配的單一音頻信號。在這次操作中,谷歌已經(jīng)能夠通過增強(qiáng)特定人物對象的音頻,抑制其他非重點(diǎn)音頻來計算生成針對特定發(fā)聲對象的單一音軌視頻了。該方法適用于具有單一(主)音軌的常見視頻,用戶也可以自行選擇傾聽對象來生成對其的單一音軌,或者基于語境由算法進(jìn)行對特定發(fā)聲對象進(jìn)行選擇。谷歌相信這種視覺-音頻語音識別分離技術(shù)擁有廣泛的應(yīng)用場景,識別視頻中的特定對象將其音頻增強(qiáng),特別是在多人視頻會議的場景中對特定發(fā)言人進(jìn)行針對性音頻增強(qiáng)。

這項技術(shù)的獨(dú)特之處在于,其通過結(jié)合分析輸入視頻的音、視頻信號來識別分離所需的單一音軌。直觀來說,例如特定人物對象的音頻與其發(fā)聲時的嘴部動作相關(guān)聯(lián)的,這也就幫助模型系統(tǒng)區(qū)分哪一部分音頻(軌)對應(yīng)著哪一個特定對象。對視頻中的視覺信號進(jìn)行分析,不僅能夠在多種音頻混合的場景下顯著提升語音識別分離質(zhì)量(相較于只借助音頻來進(jìn)行特定對象語音分離),同時,更加重要一點(diǎn)還在于,它還能將分離后的純凈單一音軌與視頻中的可視對象聯(lián)系起來。

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會效應(yīng)」

在本文的視覺-音頻語音分離識別方法中,輸入是一名或多名發(fā)聲對象,同時被其他對象或嘈雜背景所干擾的視頻。輸出是將前面輸入的視頻音軌分解成純凈的音軌,并對應(yīng)到特定的發(fā)聲對象身上。

視覺-音頻語音識別分離模型  

為了生成視覺-音頻語音分離模型訓(xùn)練樣本,谷歌收集了 Youtube 上高達(dá) 10 萬份高質(zhì)量學(xué)術(shù)以及演講視頻。團(tuán)隊從中提取了音頻純凈的一些片段(例如無背景音樂,聽眾噪音以及其他發(fā)聲者音頻干擾),這些視頻片段中僅有一位可見的發(fā)聲對象。谷歌花費(fèi)了約 2000 個小時從中剪輯出,無背景噪音干擾,同時只有單一可見發(fā)聲對象的視頻數(shù)據(jù),團(tuán)隊運(yùn)用這份純凈的數(shù)據(jù)來生成「合成雞尾酒會效應(yīng)(synthetic cocktail parties)」—將來自分離視頻源的臉部動作視頻和對應(yīng)的音頻,以及從 AudioSet 獲取的無背景噪音的視頻混合在一起。

利用這些視頻數(shù)據(jù),我們能夠訓(xùn)練一個多流卷積神經(jīng)網(wǎng)絡(luò)模型,為「合成雞尾酒會場景混合體」片段中每個發(fā)聲對象分離出對應(yīng)音頻流(音軌)。輸入到視覺-音頻網(wǎng)絡(luò)識別系統(tǒng)中的數(shù)據(jù)具體是指,視頻每一幀中被檢測到的發(fā)聲對象的臉部動作縮略圖中提取的視覺特征,以及視頻音軌的頻譜圖信息。在模型的訓(xùn)練過程中,網(wǎng)絡(luò)系統(tǒng)學(xué)習(xí)分別學(xué)習(xí)視覺和音頻信號的編碼,然后將它們?nèi)诤铣梢粋€音頻-視覺表現(xiàn)。通過音頻-視覺表現(xiàn),網(wǎng)絡(luò)系統(tǒng)學(xué)會了為每位發(fā)聲對象對應(yīng)輸出時頻掩碼。輸出的時頻掩碼與噪聲輸入頻譜圖相乘,隨后轉(zhuǎn)換成時域波形,從而為每一位發(fā)聲對象生成單獨(dú)的,純凈的音頻信號。更多詳細(xì)內(nèi)容,可以點(diǎn)擊參考谷歌團(tuán)隊的論文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》進(jìn)行查看。

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會效應(yīng)」

谷歌多串流,基于神經(jīng)網(wǎng)絡(luò)的模型架構(gòu)

下面是幾個谷歌團(tuán)隊通過最新視覺-音頻語音分離技術(shù)實現(xiàn)的音頻分離和增強(qiáng)的處理結(jié)果視頻示例,視頻中除所需的特定發(fā)聲對象外,其他對象(背景)聲音均被「靜音」化已達(dá)到所需效果。

視頻示例(截圖)

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會效應(yīng)」

視頻示例(截圖)

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會效應(yīng)」

視頻示例(截圖)

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會效應(yīng)」

為了強(qiáng)調(diào)模型對視覺信息的利用,谷歌從 Google CEO Sundar Pichai 的同一視頻片段中截取了兩段截然不同的片段,并將它們進(jìn)行并排演示。在這個場景下,僅使用音頻中的特征語音頻率是很難實現(xiàn)音頻分離的,盡管在如此具有挑戰(zhàn)性的案例中,視覺-音頻模型依然能正確地分離視頻中的音頻。

視覺-音頻語音識別分離技術(shù)的相關(guān)應(yīng)用   

本文的該方法也可應(yīng)用于語音識別和視頻自動字幕加載。對于視頻自動字幕加載系統(tǒng)而言,多名發(fā)生者同時發(fā)聲導(dǎo)致的語音重疊現(xiàn)象是一項已知的挑戰(zhàn),與此同時,將音頻分離至不同的源也有助于呈現(xiàn)更加準(zhǔn)確和易讀的字幕。

同時你也可以前往 YouTube 觀看本文中的同款視頻并打開字幕加載(cc 功能鍵),即可比較運(yùn)用了視覺-音頻語音識別分離技術(shù)的視頻字幕識別和 YouTube 原本視頻字幕加載系統(tǒng)表現(xiàn)的差異。

視頻示例(截圖)

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會效應(yīng)」

讀者還可以在谷歌視覺-音頻語音識別分離項目 GitHub 相關(guān)頁面查看更多的應(yīng)用場景,同時谷歌的視覺-音頻語音識別分離技術(shù)與純音頻識別分離的視頻結(jié)果示例對比,以及其他視覺-音頻語音識別分離技術(shù)上最新進(jìn)展。在谷歌團(tuán)隊看來,該技術(shù)將擁有更加廣泛的應(yīng)用,團(tuán)隊也在探索將其整合進(jìn)谷歌的其他產(chǎn)品中,所以敬請期待吧!

另外,AI科技評論于4月初也編譯Microsoft AI and Research 研究員的一篇利用多束深度吸引子網(wǎng)絡(luò)解決雞尾酒派對問題的論文,詳細(xì)內(nèi)容可查看《微軟研究員提出多束深度吸引子網(wǎng)絡(luò),解決語音識別“雞尾酒會問題”》

更多資訊敬請關(guān)注雷鋒網(wǎng) AI 科技評論。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會效應(yīng)」

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說