0
本文作者: camel | 2018-04-01 23:12 |
或許這也是一種方法論:當(dāng)針對一個問題有多種方法時,不妨將它們綜合起來,或能取各家之長,補各家之短。
本文所要介紹的工作正是采用了這種思路,在語音識別的雞尾酒會問題上取得了較大的突破。
雷鋒網(wǎng) AI 科技評論按:近日來自 Microsoft AI and Research 的研究員在 arXiv 上貼出一篇論文《Cracking the cocktail party problem by multi-beam deep attractor network》,即利用多束深度吸引子網(wǎng)絡(luò)解決雞尾酒派對問題。
所謂「雞尾酒會問題」是指人的一種聽力選擇能力,在這種情況下,注意力集中在某一個人的談話之中而忽略背景中其他的對話或噪音。雷鋒網(wǎng)做一個類比,雞尾酒會現(xiàn)象就是圖形-背景現(xiàn)象的聽覺版本。這里的「圖形」是我們所注意或引起我們注意的聲音,「背景」是其他的聲音。
具體來說,雞尾酒會問題的任務(wù)就是在高度重疊的音頻中將不同說話者的內(nèi)容分離和識別出來。我們?nèi)祟惪梢院苋菀淄瓿蛇@項任務(wù),但是要想建立一個有效的系統(tǒng)來模擬這個過程還是挺困難的。事實上這也是語音信號處理中最為困難的挑戰(zhàn)之一,對它已經(jīng)超過 60 年的研究,但由于混合源的變化很大,所以即使現(xiàn)在雞尾酒會問題仍未解決。
在「深度學(xué)習(xí)時代」之前,有一些學(xué)者在這個任務(wù)上也做了一些嘗試。事實上,雞尾酒會問題可以分成兩類:單通道系統(tǒng)和多通道系統(tǒng),兩者的區(qū)別就在于前者只有一個麥克風(fēng),而后者后多個。在單通道系統(tǒng)中,分離過程完全依賴于語音的頻譜屬性(例如音調(diào)的連續(xù)性、諧波結(jié)構(gòu)、常見的聲母等),這可以通過統(tǒng)計模型、基于規(guī)則的模型或者基于分解的模型。在多通道系統(tǒng)中,分離過程可以利用聲源的空間屬性。但是不管使用多少麥克風(fēng),大多數(shù)現(xiàn)有的系統(tǒng)只能用于相當(dāng)簡單的情況,例如固定揚聲器、有限詞匯表、不同性別的混合等,在一般的情況中則不能產(chǎn)生滿意的性能。
隨著深度學(xué)習(xí)的爆發(fā),雞尾酒會問題也有了較大的進(jìn)步。不過與大多數(shù)其他深度學(xué)習(xí)任務(wù)不同的的是,多人說話的分離有兩個獨特的問題:置換問題和輸出維度問題。
置換問題:大多數(shù)深度學(xué)習(xí)算法要求評估目標(biāo)是固定的,而在多人講話分離任務(wù)重,分離源的任意置換是等價的。
輸出維度問題:指混合說話的人數(shù)在不同樣本中是不同的,這就造成了學(xué)習(xí)的困難,因為神經(jīng)網(wǎng)絡(luò)通常要求其輸出層具有固定的維度。
目前有三種單通道神經(jīng)網(wǎng)絡(luò)模型,即深聚類(Deep Clustering)、深吸引子網(wǎng)絡(luò)(Deep Attractor Network)、置換不變訓(xùn)練(Permutation Invariant Training)。在深聚類和深吸引子網(wǎng)絡(luò)中,會將混合頻譜中每個時頻段映射到更高維度表示中,也即所謂的嵌入,這兩種模型能夠有效的解決上述兩個問題。而置換不變訓(xùn)練模型則通過掩碼學(xué)習(xí)框架(Mask Learning Framework),其中網(wǎng)絡(luò)受限為每個目標(biāo)說話者生成輸出掩碼,然后徹底搜索輸出與干凈的參考音源之間的組合來解決置換問題。這三種算法在很大程度上提高了語音分離領(lǐng)域的水平。對他們的評估結(jié)果顯示,它們在普通數(shù)據(jù)集的兩音源和三音源分離問題上具有相似的表現(xiàn)。
盡管以上基于深度學(xué)習(xí)的方法在雞尾酒會問題中取得了很大的突破,但是它們離應(yīng)用于真實世界的應(yīng)用程序中還存在很大困難。這主要有兩個原因:
首先,它們的分離能力有限。例如當(dāng)有四個講話者時(即使是最簡單的兩個男性和兩個女性的分離任務(wù)),由于聲音混合較為復(fù)雜,每個講話者的聲音大部分都會被其他講話者的聲音掩蓋住,上面提到的幾種單聲道模型幾乎無法完成這樣的任務(wù)。
其次,目前的單聲道系統(tǒng)通常容易受到混響的影響,這主要是因為混響會模糊掉單通道分離系統(tǒng)用來分離講話者的語音頻譜線索。
在多通道方法中,目前也有幾種基于神經(jīng)網(wǎng)絡(luò)的模型,例如聲學(xué)模型(Acoustic Modeling)和語音增強(Speech Enhancement)。但是現(xiàn)有的系統(tǒng)都還沒有解決雞尾酒會問題。例如在語音增強模型中,每個通道都需要一個預(yù)先學(xué)習(xí)的掩碼,這在當(dāng)前是不適用的,因為還沒有一個系統(tǒng)能夠自動獲取掩碼。而在聲學(xué)建模中,則需要多個匯集步驟,這不適用于多方講話者的場景。作者表示,就他們所知目前還沒有一種系統(tǒng)能夠處理復(fù)雜的多方講話者語音分離問題。
為了消除以上這些模型性能上的限制,將單通道和多通道方法進(jìn)行結(jié)合是一個很自然選擇方向,因為這兩種方法使用了不同的信息進(jìn)行分離,因此會起到相互補充的作用。
在作者所發(fā)表的這份工作中,他們提出了一種新穎、有效且簡單的多通道語音分離和識別系統(tǒng)。這個系統(tǒng)由多聲道部分和多聲道部分組成。
模型架構(gòu)
多通道處理 由 12 個固定束(beam)的差分波束形成器組成,它們在空間中進(jìn)行等價的采樣;然后進(jìn)行單通道處理,這通過錨定深度吸引子網(wǎng)絡(luò)(Anchored Deep Attractor Network)來實現(xiàn),其中每個通道都會學(xué)習(xí)比率掩碼(Ratio Mask)。
通過結(jié)合多聲道處理和單聲道處理,這種系統(tǒng)可以充分利用空間和頻譜信息,并且能夠克服大多數(shù)多聲道系統(tǒng)只能在封閉環(huán)境中運行的限制,從而使性能優(yōu)于單通道和多通道系統(tǒng)。該系統(tǒng)利用 beam 作為神經(jīng)網(wǎng)絡(luò)輸入,這可以消除神經(jīng)網(wǎng)絡(luò)的復(fù)雜域處理,并且將空間處理和頻譜處理單獨處理,這可以使系統(tǒng)獨立于麥克風(fēng)的位置分布。由于引入吸引子網(wǎng)絡(luò)結(jié)構(gòu),作者所提出的這個系統(tǒng)能夠執(zhí)行端到端的優(yōu)化過程,并且可以擴展到任意數(shù)目的音源,而不會有置換或者輸出維度的問題。
先來個直觀的感受:
在這個例子中,上面是原始混合頻譜,中間為根據(jù)模型分離并重構(gòu)出四個說話者的音頻頻譜,最下面則為原始無混合的參考音頻頻譜??梢钥闯龌旧弦恢隆T谒袦y試數(shù)據(jù)上都有類似的表現(xiàn)。再來看一下具體情況——
語音分離
這個表格中綠色背景的為對比模型,數(shù)據(jù)單位為dB,越大越好。其中:
MBBF——multi-beam beamformer,
OGEV——oracle generalized eigenvalueOMVDR——oracle minimum variance distortionless response
IRM——ideal-ratio-mask
DAN——deep attractor network
而 MBDAN、OMBDAN、MBIRM 則分別是依照作者所提出的系統(tǒng)對上面模型進(jìn)行的改造??梢钥闯?,這三種模型的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于其他模型。當(dāng)然從這個表中其實還可以看出蠻多信息的。
首先,我們可以看到,無論是在封閉環(huán)境還是開放環(huán)境,這三個模型在性能上并沒有太大變化。這說明這些模型可以在現(xiàn)實世界的場景中使用。
其次,與其他波束形成算法(例如 MBBF、OGEV)相比,性能上有 40% 以上的提升,并取得了與 OMVDR 類似的性能,但 OMVDR 模型的缺點是要求必須具有確切的位置信息。
再次,MBBF 和 MBDAN 的對比可以看出,多通道模型與單通道模型的結(jié)合能夠產(chǎn)生互利的結(jié)果。
最后,當(dāng)與單通道的模型比較式,我們可以看到有明顯的優(yōu)勢。這也是由于結(jié)合多通道后彌補了單通道模型混響問題。
語音識別
上表中顯示了用 OMBDAN 模型分離出語音后再做識別的性能,分別有 clean model 和 Far-field model 兩種??梢钥闯霰碇辛N條件的混合語音的 WER(word error rate)都接近 100%。但是經(jīng)過處理后,WER 在所有條件下均大幅下降。與凈化模型相比,相對凈增量分別為 62.80%,58.73%,45.59%,遠(yuǎn)場模型分別為 69.51%,64.19%,52.53%。由于混響和平穩(wěn)噪聲包含在訓(xùn)練數(shù)據(jù)中,遠(yuǎn)場模型取得了更好的性能。
最近神經(jīng)網(wǎng)絡(luò)的使用對單通道語音分離方法(或者更廣義地說,雞尾酒會問題)的性能有了顯著的提升,不過在多通道問題中的性能仍然不能讓人滿意。在這項工作中,我們提出了一種新的多通道框架來進(jìn)行多通道的分離。在所提出的模型中,我們首先將輸入的多聲道混合信號轉(zhuǎn)換為使用固定波束模式的一組波束形成信號。對于這種波束形成,我們建議使用差分波束形成器,因為它們更適合于語音分離。然后,每個波束形成的信號被送到單通道錨定深度吸引子網(wǎng)絡(luò)中來生成分離的信號。通過懸著每個光束的分離輸出來獲得最終的分離結(jié)果。
為了評估所提出的這個系統(tǒng),我們創(chuàng)建了一個具有挑戰(zhàn)性的數(shù)據(jù)集,其中包含 2、3、4 個說話者的混合。我們的結(jié)果表明,所提出的系統(tǒng)在很大程度上改善了語音分離領(lǐng)域的現(xiàn)狀,對于 4、3、2 個說話者的混合,實現(xiàn)了 11.5dB、11.76dB、11.02dB 的平均信號與失真比的改善,其性能與使用 oracle 位置、源和噪聲信息等信息的模型相近或更好。我們還使用干凈的訓(xùn)練好的聲學(xué)模型對分離后的語音進(jìn)行語音識別,在 4、3、2 個說話者完全重疊的語音上分別實現(xiàn)將相對詞錯誤率(WER)降低 45.76%、59.40%、62.80%。使用遠(yuǎn)場講話聲學(xué)模型,WER 會進(jìn)一步降低。
雷鋒網(wǎng)注:論文地址,https://arxiv.org/abs/1803.10924
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。