搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

本文作者：楊曉凡

2017-10-09 10:33

導(dǎo)語：“從雞尾酒問題”開始

雷鋒網(wǎng) AI 科技評論按：基于深度學(xué)習(xí)的有監(jiān)督語音分離在學(xué)術(shù)界和工業(yè)界越來越受到關(guān)注，也是深度學(xué)習(xí)在語音領(lǐng)域的應(yīng)用中重要的一部分。作為雷鋒網(wǎng)AI研習(xí)社近期組織的一系列語音領(lǐng)域應(yīng)用的分享會之一，本次我們請到了來自搜狗的研究員文仕學(xué)對語音分離方面主要的研究課題和相關(guān)方法做一些介紹。

文仕學(xué)，過去學(xué)物理，后來學(xué)EE，現(xiàn)在從事Deep Learning工作，未來投身AI和CM事業(yè)。他的研究興趣在于語音信號處理和深度學(xué)習(xí)。在加入搜狗之前，曾在中國科學(xué)技術(shù)大學(xué)學(xué)習(xí)，在該領(lǐng)域的期刊和會議上發(fā)表了若干篇論文?，F(xiàn)在在搜狗語音團(tuán)隊(duì)任副研究員。

雷鋒網(wǎng) AI 科技評論將本次分享的內(nèi)容整理如下。

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

分享主題：基于深度學(xué)習(xí)的語音分離

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

文仕學(xué)首先介紹了“語音分離”（Speech Separation）是怎么樣的一種任務(wù)。這個問題來自于“雞尾酒會問題”，采集的音頻信號中除了主說話人之外，還有其他人說話聲的干擾和噪音干擾。語音分離的目標(biāo)就是從這些干擾中分離出主說話人的語音。

根據(jù)干擾的不同，語音分離任務(wù)可以分為三類：

當(dāng)干擾為噪聲信號時，可以稱為“語音增強(qiáng)”（Speech Enhancement）
當(dāng)干擾為其他說話人時，可以稱為“多說話人分離”（Speaker Separation）
當(dāng)干擾為目標(biāo)說話人自己聲音的反射波時，可以稱為“解混響”（De-reverberation）

由于麥克風(fēng)采集到的聲音中可能包括噪聲、其他人說話的聲音、混響等干擾，不做語音分離、直接進(jìn)行識別的話，會影響到識別的準(zhǔn)確率。因此在語音識別的前端加上語音分離技術(shù)，把目標(biāo)說話人的聲音和其它干擾分開就可以提高語音識別系統(tǒng)的魯棒性，這從而也成為現(xiàn)代語音識別系統(tǒng)中不可或缺的一環(huán)。

基于深度學(xué)習(xí)的語音分離，主要是用基于深度學(xué)習(xí)的方法，從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)語音、說話人和噪音的特征，從而實(shí)現(xiàn)語音分離的目標(biāo)。

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

這次分享的內(nèi)容有以下這5個部分：分離使用的模型、訓(xùn)練目標(biāo)的設(shè)置、訓(xùn)練數(shù)據(jù)的生成、單通道語音分離算法的介紹和討論。

基于深度學(xué)習(xí)的語音分離方法使用的模型

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

第一類模型是多層感知機(jī)，DNN，可以先做RBM預(yù)訓(xùn)練，再做微調(diào)（fine-tune）；不過文仕學(xué)介紹，他們團(tuán)隊(duì)通過實(shí)驗(yàn)發(fā)現(xiàn)，在大數(shù)據(jù)集上不需要預(yù)訓(xùn)練也可以收斂。

LSTM（長短時記憶網(wǎng)絡(luò)）的方法中把語音作為一個隨時間變化的序列進(jìn)行建模，比較適合語音數(shù)據(jù)；CNN（卷積神經(jīng)網(wǎng)絡(luò)）通過共享權(quán)值，可以在減少訓(xùn)練參數(shù)的同時獲得比全連接的DNN更好的性能。

近些年也有人用GAN（對抗性生成式網(wǎng)絡(luò)）做語音增強(qiáng)。模型中通常會把生成器設(shè)置為全部是卷積層，為了減少訓(xùn)練參數(shù)從而縮短訓(xùn)練時間；判別器負(fù)責(zé)向生成器提供生成數(shù)據(jù)的真?zhèn)涡畔ⅲ瑤椭善飨蛑吧筛蓛袈曇簟钡姆较蛭⒄{(diào)。

訓(xùn)練目標(biāo)的設(shè)置

訓(xùn)練目標(biāo)包括兩類，一類是基于Mask的方法，另一類是基于頻譜映射的方法。

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

基于Mask的方法又可以分為幾類

“理想二值掩蔽”（Ideal Binary Mask）中的分離任務(wù)就成為了一個二分類問題。這類方法根據(jù)聽覺感知特性，把音頻信號分成不同的子帶，根據(jù)每個時頻單元上的信噪比，把對應(yīng)的時頻單元的能量設(shè)為0（噪音占主導(dǎo)的情況下）或者保持原樣（目標(biāo)語音占主導(dǎo)的情況下）。
第二類基于Mask的方法是IRM（Ideal Ratio Mask），它同樣對每個時頻單元進(jìn)行計(jì)算，但不同于IBM的“非零即一”，IRM中會計(jì)算語音信號和噪音之間的能量比，得到介于0到1之間的一個數(shù)，然后據(jù)此改變時頻單元的能量大小。IRM是對IBM的演進(jìn)，反映了各個時頻單元上對噪聲的抑制程度，可以進(jìn)一步提高分離后語音的質(zhì)量和可懂度。

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

TBM與IRM類似，但不是對每個時頻單元計(jì)算其中語音和噪聲的信噪比，而是計(jì)算其中語音和一個固定噪聲的信噪比
SMM是IRM在幅度上的一種形式
PSM中加入了干凈語音和帶噪語音中的相位差信息，有更高的自由度

雖然基于Mask的方法有這么多，但最常用的還是開頭的IBM和IRM兩種

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

如果使用頻譜映射，分離問題就成為了一個回歸問題。

頻譜映射可以使用幅度譜、功率譜、梅爾譜以及Gammatone功率譜。Gammatone是模擬人耳耳蝸濾波后的特征。為了壓縮參數(shù)的動態(tài)范圍以及考慮人耳的聽覺效應(yīng)，通常還會加上對數(shù)操作，比如對數(shù)功率譜。

基于頻譜映射的方法，是讓模型通過有監(jiān)督學(xué)習(xí)，自己學(xué)習(xí)有干擾的頻譜到無干擾的頻譜（干凈語音）之間的映射關(guān)系；模型可以是DNN、CNN、LSTM甚至GAN。

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

這一頁是使用相同的DNN模型、相同的輸入特征、不同的訓(xùn)練目標(biāo)得到的結(jié)果。

左邊的STOI指語音的可懂度，得分在0到1之間，越高越好；右邊的PESQ是語音的聽覺質(zhì)量、聽感，范圍為-0.5到4.5，也是越高越好。

基于Mask的方法STOI表現(xiàn)較好，原因是有共振峰的能量得到了較好的保留，而相鄰共振峰之間波谷處的聲音雖然失真較大，但人耳對這類失真并不敏感；兩類方法在PESQ中表現(xiàn)相當(dāng)。

訓(xùn)練數(shù)據(jù)的生成

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

針對語音分離中的語音增強(qiáng)任務(wù)，首先可以通過人為加噪的方法生成帶噪語音和干凈語音對，分別作為輸入和輸出（有標(biāo)注數(shù)據(jù)），對有監(jiān)督學(xué)習(xí)模型進(jìn)行訓(xùn)練。加入的噪聲可以是各種收集到的真實(shí)世界中的噪聲。

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

不過收集噪聲需要成本，而且人工能夠收集到的噪音總是有限的，最好能夠有一套完備、合理的方案，用仿真的方式生成任意需要的噪聲。在今年的MLSP（信號處理機(jī)器學(xué)習(xí)）會議上，搜狗語音團(tuán)隊(duì)就發(fā)表了一項(xiàng)關(guān)于噪聲基的工作，通過構(gòu)造一個噪聲基模型，在不使用任何真實(shí)噪音數(shù)據(jù)的情況下，生成帶噪語音對語音增強(qiáng)模型進(jìn)行訓(xùn)練，達(dá)到了與使用50種真實(shí)噪音的情況下相當(dāng)?shù)男阅埽ㄏ聢D）。

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

如果將這50種真實(shí)噪聲和噪聲基產(chǎn)生的數(shù)據(jù)混合在一起，性能可以比單獨(dú)使用真實(shí)噪音的情況得到進(jìn)一步提高。這也說明噪聲基生成的噪聲和真實(shí)噪聲數(shù)據(jù)之間有著互補(bǔ)性，在實(shí)際應(yīng)用中也可以解開一些真實(shí)噪聲數(shù)據(jù)不足帶來的限制。

單通道語音分離算法

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

如開頭所說，語音分離任務(wù)可以分為三類，語音增強(qiáng)、多說話人分離和解混響。不同任務(wù)的處理方法也有所不同。

對于語音增強(qiáng)，基于Mask的方法首先進(jìn)行耳蝸濾波，然后特征提取、時頻單元分類、二值掩蔽、后處理，就可以得到增強(qiáng)后的語音了。

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

語音增強(qiáng)的另一類基于頻譜映射的方法中，先特征提取，用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)帶噪語音和干凈語音的對數(shù)功率譜之間映射關(guān)系，再加上波形重建，就可以得到增強(qiáng)后的語音。

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

基于有監(jiān)督學(xué)習(xí)的算法都存在推廣性（generalization）的問題，語音增強(qiáng)這里也不例外。針對噪音類型、信噪比和說話人的推廣性都還有提升的空間。

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

對于解混響，同樣可以使用基于頻譜映射的方法。解混響中也需要生成訓(xùn)練數(shù)據(jù)，但不同于帶噪語音生成時做時域的相加，帶混響的語音是在時域上進(jìn)行卷積；同樣都把干凈語音作為帶標(biāo)注數(shù)據(jù)。

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

在基于頻譜映射的方法基礎(chǔ)上還可以加以改進(jìn)。對于不同的混響時間，深度神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的時間窗口長度是不一樣的，因而改進(jìn)方法中加入了告知混響時間的功能，根據(jù)幀移R和擴(kuò)幀數(shù)目N提特征后解碼，可以獲得更好的解混響效果。

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

多說話人分離分為三種情況

目標(biāo)說話人和干擾說話人都固定，Speaker dependent，有監(jiān)督分離
目標(biāo)說話人固定，訓(xùn)練階段和測試階段的干擾說話人可變，Target dependent，半監(jiān)督分離
目標(biāo)說話人和干擾說話人都可變，Speaker independent，無監(jiān)督分離

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

對于有監(jiān)督和半監(jiān)督分離，可以使用基于頻譜映射的方法，與前面使用基于頻譜映射的方法做語音增強(qiáng)類似。

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

對于無監(jiān)督分類，有無監(jiān)督聚類、深度聚類以及最近的序列不變訓(xùn)練（PIT）方法。PIT方法的核心是紅框中標(biāo)出的部分，在誤差回傳的時候，分別計(jì)算輸出序列和標(biāo)注序列間各種組合的均方誤差，然后從這些均方誤差中找到最小的那個作為回傳誤差，也就是根據(jù)自動找到的聲源間的最佳匹配進(jìn)行優(yōu)化，避免出現(xiàn)序列模糊的問題。

討論兩個問題

搜狗研究員講解基于深度學(xué)習(xí)的語音分離 | 分享總結(jié)

最后，文仕學(xué)給大家留了兩個思考題，歡迎大家在評論區(qū)給出自己的見解。

第一個問題是語音分離任務(wù)中，是按傳統(tǒng)思路先變換到頻域，然后在頻域上進(jìn)行處理，還是直接在時域上處理比較好？后者的好處是端到端訓(xùn)練，不用考慮頻域方法做傅立葉反變換時相位的問題。
第二個問題是對于語音增強(qiáng)任務(wù)，應(yīng)該使用真實(shí)噪聲加噪還是使用人工仿真生成的噪聲進(jìn)行降噪？

感謝文仕學(xué)此次的分享以及對文本的指正，也歡迎大家關(guān)注雷鋒網(wǎng) AI 研習(xí)社未來的更多分享活動！

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

17人收藏

相關(guān)文章

楊曉凡

讀論文為生

日常笑點(diǎn)滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章