丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給劉鵬
發(fā)送

0

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會(huì)效應(yīng)」

本文作者: 劉鵬 編輯:郭奕欣 2018-04-13 15:44
導(dǎo)語(yǔ):昨日,Google Research 軟件工程師發(fā)表了可解決「雞尾酒會(huì)效應(yīng)」視覺-音頻語(yǔ)音識(shí)別分離模型。

雷鋒網(wǎng) AI 科技評(píng)論按:人類很擅長(zhǎng)在嘈雜的環(huán)境下將其他非重點(diǎn)的聲響「靜音」化,從而將注意力集中在某個(gè)特定人物身上。這也就是眾所周知的「雞尾酒會(huì)效應(yīng)」,這種能力是人類與生俱來的。然而,自動(dòng)化語(yǔ)音分離系統(tǒng)—將音頻信號(hào)分離至單獨(dú)的語(yǔ)音源—盡管這是一個(gè)已經(jīng)被深入研究過的問題,但是它依舊是計(jì)算機(jī)系統(tǒng)研究上的一項(xiàng)巨大挑戰(zhàn)。

Google Research 軟件工程師 Inbar Mosseri 和 Oran Lang 于 4 月 11 日發(fā)表了一篇關(guān)于視覺-音頻語(yǔ)音識(shí)別分離模型最新研究成果的博文,雷鋒網(wǎng) AI 科技評(píng)論編譯整理如下。 

在解決了「雞尾酒會(huì)效應(yīng)」的《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》論文中,谷歌團(tuán)隊(duì)提供了一個(gè)深度視覺-音頻學(xué)習(xí)模型,來從其發(fā)聲者音頻和背景噪音的混合音頻場(chǎng)景中,為特定的發(fā)聲對(duì)象分離出一個(gè)匹配的單一音頻信號(hào)。在這次操作中,谷歌已經(jīng)能夠通過增強(qiáng)特定人物對(duì)象的音頻,抑制其他非重點(diǎn)音頻來計(jì)算生成針對(duì)特定發(fā)聲對(duì)象的單一音軌視頻了。該方法適用于具有單一(主)音軌的常見視頻,用戶也可以自行選擇傾聽對(duì)象來生成對(duì)其的單一音軌,或者基于語(yǔ)境由算法進(jìn)行對(duì)特定發(fā)聲對(duì)象進(jìn)行選擇。谷歌相信這種視覺-音頻語(yǔ)音識(shí)別分離技術(shù)擁有廣泛的應(yīng)用場(chǎng)景,識(shí)別視頻中的特定對(duì)象將其音頻增強(qiáng),特別是在多人視頻會(huì)議的場(chǎng)景中對(duì)特定發(fā)言人進(jìn)行針對(duì)性音頻增強(qiáng)。

這項(xiàng)技術(shù)的獨(dú)特之處在于,其通過結(jié)合分析輸入視頻的音、視頻信號(hào)來識(shí)別分離所需的單一音軌。直觀來說,例如特定人物對(duì)象的音頻與其發(fā)聲時(shí)的嘴部動(dòng)作相關(guān)聯(lián)的,這也就幫助模型系統(tǒng)區(qū)分哪一部分音頻(軌)對(duì)應(yīng)著哪一個(gè)特定對(duì)象。對(duì)視頻中的視覺信號(hào)進(jìn)行分析,不僅能夠在多種音頻混合的場(chǎng)景下顯著提升語(yǔ)音識(shí)別分離質(zhì)量(相較于只借助音頻來進(jìn)行特定對(duì)象語(yǔ)音分離),同時(shí),更加重要一點(diǎn)還在于,它還能將分離后的純凈單一音軌與視頻中的可視對(duì)象聯(lián)系起來。

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會(huì)效應(yīng)」

在本文的視覺-音頻語(yǔ)音分離識(shí)別方法中,輸入是一名或多名發(fā)聲對(duì)象,同時(shí)被其他對(duì)象或嘈雜背景所干擾的視頻。輸出是將前面輸入的視頻音軌分解成純凈的音軌,并對(duì)應(yīng)到特定的發(fā)聲對(duì)象身上。

視覺-音頻語(yǔ)音識(shí)別分離模型  

為了生成視覺-音頻語(yǔ)音分離模型訓(xùn)練樣本,谷歌收集了 Youtube 上高達(dá) 10 萬份高質(zhì)量學(xué)術(shù)以及演講視頻。團(tuán)隊(duì)從中提取了音頻純凈的一些片段(例如無背景音樂,聽眾噪音以及其他發(fā)聲者音頻干擾),這些視頻片段中僅有一位可見的發(fā)聲對(duì)象。谷歌花費(fèi)了約 2000 個(gè)小時(shí)從中剪輯出,無背景噪音干擾,同時(shí)只有單一可見發(fā)聲對(duì)象的視頻數(shù)據(jù),團(tuán)隊(duì)運(yùn)用這份純凈的數(shù)據(jù)來生成「合成雞尾酒會(huì)效應(yīng)(synthetic cocktail parties)」—將來自分離視頻源的臉部動(dòng)作視頻和對(duì)應(yīng)的音頻,以及從 AudioSet 獲取的無背景噪音的視頻混合在一起。

利用這些視頻數(shù)據(jù),我們能夠訓(xùn)練一個(gè)多流卷積神經(jīng)網(wǎng)絡(luò)模型,為「合成雞尾酒會(huì)場(chǎng)景混合體」片段中每個(gè)發(fā)聲對(duì)象分離出對(duì)應(yīng)音頻流(音軌)。輸入到視覺-音頻網(wǎng)絡(luò)識(shí)別系統(tǒng)中的數(shù)據(jù)具體是指,視頻每一幀中被檢測(cè)到的發(fā)聲對(duì)象的臉部動(dòng)作縮略圖中提取的視覺特征,以及視頻音軌的頻譜圖信息。在模型的訓(xùn)練過程中,網(wǎng)絡(luò)系統(tǒng)學(xué)習(xí)分別學(xué)習(xí)視覺和音頻信號(hào)的編碼,然后將它們?nèi)诤铣梢粋€(gè)音頻-視覺表現(xiàn)。通過音頻-視覺表現(xiàn),網(wǎng)絡(luò)系統(tǒng)學(xué)會(huì)了為每位發(fā)聲對(duì)象對(duì)應(yīng)輸出時(shí)頻掩碼。輸出的時(shí)頻掩碼與噪聲輸入頻譜圖相乘,隨后轉(zhuǎn)換成時(shí)域波形,從而為每一位發(fā)聲對(duì)象生成單獨(dú)的,純凈的音頻信號(hào)。更多詳細(xì)內(nèi)容,可以點(diǎn)擊參考谷歌團(tuán)隊(duì)的論文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》進(jìn)行查看。

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會(huì)效應(yīng)」

谷歌多串流,基于神經(jīng)網(wǎng)絡(luò)的模型架構(gòu)

下面是幾個(gè)谷歌團(tuán)隊(duì)通過最新視覺-音頻語(yǔ)音分離技術(shù)實(shí)現(xiàn)的音頻分離和增強(qiáng)的處理結(jié)果視頻示例,視頻中除所需的特定發(fā)聲對(duì)象外,其他對(duì)象(背景)聲音均被「靜音」化已達(dá)到所需效果。

視頻示例(截圖)

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會(huì)效應(yīng)」

視頻示例(截圖)

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會(huì)效應(yīng)」

視頻示例(截圖)

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會(huì)效應(yīng)」

為了強(qiáng)調(diào)模型對(duì)視覺信息的利用,谷歌從 Google CEO Sundar Pichai 的同一視頻片段中截取了兩段截然不同的片段,并將它們進(jìn)行并排演示。在這個(gè)場(chǎng)景下,僅使用音頻中的特征語(yǔ)音頻率是很難實(shí)現(xiàn)音頻分離的,盡管在如此具有挑戰(zhàn)性的案例中,視覺-音頻模型依然能正確地分離視頻中的音頻。

視覺-音頻語(yǔ)音識(shí)別分離技術(shù)的相關(guān)應(yīng)用   

本文的該方法也可應(yīng)用于語(yǔ)音識(shí)別和視頻自動(dòng)字幕加載。對(duì)于視頻自動(dòng)字幕加載系統(tǒng)而言,多名發(fā)生者同時(shí)發(fā)聲導(dǎo)致的語(yǔ)音重疊現(xiàn)象是一項(xiàng)已知的挑戰(zhàn),與此同時(shí),將音頻分離至不同的源也有助于呈現(xiàn)更加準(zhǔn)確和易讀的字幕。

同時(shí)你也可以前往 YouTube 觀看本文中的同款視頻并打開字幕加載(cc 功能鍵),即可比較運(yùn)用了視覺-音頻語(yǔ)音識(shí)別分離技術(shù)的視頻字幕識(shí)別和 YouTube 原本視頻字幕加載系統(tǒng)表現(xiàn)的差異。

視頻示例(截圖)

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會(huì)效應(yīng)」

讀者還可以在谷歌視覺-音頻語(yǔ)音識(shí)別分離項(xiàng)目 GitHub 相關(guān)頁(yè)面查看更多的應(yīng)用場(chǎng)景,同時(shí)谷歌的視覺-音頻語(yǔ)音識(shí)別分離技術(shù)與純音頻識(shí)別分離的視頻結(jié)果示例對(duì)比,以及其他視覺-音頻語(yǔ)音識(shí)別分離技術(shù)上最新進(jìn)展。在谷歌團(tuán)隊(duì)看來,該技術(shù)將擁有更加廣泛的應(yīng)用,團(tuán)隊(duì)也在探索將其整合進(jìn)谷歌的其他產(chǎn)品中,所以敬請(qǐng)期待吧!

另外,AI科技評(píng)論于4月初也編譯Microsoft AI and Research 研究員的一篇利用多束深度吸引子網(wǎng)絡(luò)解決雞尾酒派對(duì)問題的論文,詳細(xì)內(nèi)容可查看《微軟研究員提出多束深度吸引子網(wǎng)絡(luò),解決語(yǔ)音識(shí)別“雞尾酒會(huì)問題”》

更多資訊敬請(qǐng)關(guān)注雷鋒網(wǎng) AI 科技評(píng)論。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

「眼」來助聽:谷歌視覺-音頻分離模型解決「雞尾酒會(huì)效應(yīng)」

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說