0
本文作者: 付靜 | 2020-08-17 10:48 | 專題:CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì) |
2020 年 8 月 7 日-9 日,2020 全球人工智能和機(jī)器人峰會(huì)(CCF-GAIR 2020)于深圳舉行。
CCF-GAIR 2020 峰會(huì)是由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)聯(lián)合承辦,鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦的全球盛會(huì)。大會(huì)主題從 2016 年的學(xué)產(chǎn)結(jié)合,2017 年的產(chǎn)業(yè)落地,2018 年的垂直細(xì)分,2019 年的人工智能 40 周年,秉承打造國內(nèi)人工智能和機(jī)器人領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會(huì)。
8 月 8 日上午,在前沿語音技術(shù)專場(chǎng)中,滴滴 AI Labs 高級(jí)專家研究員、語音研究實(shí)驗(yàn)室負(fù)責(zé)人宋輝博士帶來了題為《基于深度學(xué)習(xí)的語音分離技術(shù)進(jìn)展》的主題演講。
宋輝博士在演講中介紹了語音分離的發(fā)展現(xiàn)狀,深入闡述了基于深度學(xué)習(xí)的單通道語音分離技術(shù)的發(fā)展脈絡(luò),各種技術(shù)方案的優(yōu)缺點(diǎn)與適用場(chǎng)景,以及未來面臨的挑戰(zhàn)。
首先,宋輝博士展示了當(dāng)下比較流行的單通道語音分離技術(shù)在兩個(gè)不同的公開數(shù)據(jù)集上的表現(xiàn)。
宋輝博士介紹,在 WSJ0-2mix 數(shù)據(jù)集上,近兩年單通道語音分離技術(shù)在 SI-SDRi 指標(biāo)上有比較大的進(jìn)步。而對(duì)于更復(fù)雜但更貼近真實(shí)環(huán)境的噪聲場(chǎng)景,目前的學(xué)術(shù)研究還不是特別完備,與安靜環(huán)境相比在 SI-SDRi 指標(biāo)上會(huì)有幾個(gè) dB 的落差。同時(shí),表現(xiàn)比較好的單通道方法在含噪數(shù)據(jù)集上還沒有通過完備的測(cè)試和評(píng)估。
當(dāng)前單通道語音分離的主流框架是“Encoder—Separator—Decoder”框架(如下圖所示),其中:
Encoder 用于將一維混合語音變換到另一個(gè)二維空間中;
Separator 用于在二維空間中學(xué)習(xí)相對(duì)于每個(gè)說話人的 Mask,并與混合語音進(jìn)行元素級(jí)別相乘,得到每一路分離后的變換域信號(hào);
Decoder 可將每一路信號(hào)反變換回到時(shí)域。
同時(shí),就分離方法而言,宋輝博士詳細(xì)介紹到了目前的兩種主流方法——基于頻域(Frequency-domain)和時(shí)域(Time-domain)的語音分離方法。
一方面,頻域方法的優(yōu)點(diǎn)在于可以與傳統(tǒng)的信號(hào)處理方法(如頻域波束形成)更好的相融,可以得到更加稀疏和結(jié)構(gòu)化的聲學(xué)特征表征。同時(shí)缺點(diǎn)也比較明顯,如精準(zhǔn)的相位重建比較困難、需要較長的窗長滿足頻率分辨率的要求而導(dǎo)致的長時(shí)延等。
就頻域語音分離和目標(biāo)說話人抽取任務(wù)而言,宋輝博士主要介紹了幾種比較有代表性的技術(shù)方法,包括 u-PIT、Deep CASA、Voice filter 和 SBF-MTSAL-Concat。
另一方面,基于時(shí)域的語音分離近兩年來受到了更多關(guān)注。時(shí)域方法能夠把混合語音變換到一個(gè)實(shí)數(shù)域潛空間中,用一種 data-driven 的形式學(xué)習(xí)其特征表示,例如,可以采用 1-D CNN 或更深的 Encoder 完成這種變換。
據(jù)介紹,時(shí)域方法不需要處理相位重建問題,可做到采樣點(diǎn)級(jí)別的時(shí)延,因而非常適用于對(duì)實(shí)時(shí)性要求高的場(chǎng)景。在此基礎(chǔ)上,宋輝博士接著介紹了 Conv-TasNet、DPRNN-TasNet、SpEx、SpEx+等幾種有代表性的時(shí)域語音分離和說話人抽取技術(shù)。
隨后,宋輝博士還介紹了單通道語音分離技術(shù)的幾個(gè)熱點(diǎn)研究方向,包括:
Separator 的改進(jìn);
Encoder/Decoder 的改進(jìn)和優(yōu)化;
訓(xùn)練機(jī)制的改進(jìn);
如何有效利用 speaker embedding 信息完成高質(zhì)量的說話人抽取任務(wù)等。
值得一提的是,宋輝博士向大家展示了一段音頻 demo,結(jié)合滴滴目前的業(yè)務(wù)場(chǎng)景,展現(xiàn)了噪聲環(huán)境下目標(biāo)說話人聲音抽取的具體操作細(xì)節(jié)和結(jié)果。
演講最后,宋輝博士進(jìn)行了總結(jié)和展望。他表示,目前在學(xué)術(shù)界和工業(yè)界中,基于時(shí)域的分離方式更受大家歡迎。
在對(duì)未來的展望上,宋輝博士表示:
希望不斷提升神經(jīng)網(wǎng)絡(luò)的泛化能力,使得各種分離網(wǎng)絡(luò)在真實(shí)的環(huán)境中可以取得滿意的結(jié)果;希望未來可以挖掘出更多語音分離的場(chǎng)景和應(yīng)用。
以下為宋輝博士的全部演講內(nèi)容,雷鋒網(wǎng)作了不改變?cè)獾恼砑熬庉嫞?/strong>
大家好,我是來自滴滴 AI Labs 的宋輝,我今天的報(bào)告內(nèi)容是基于深度學(xué)習(xí)的單通道語音分離技術(shù)。所謂語音分離,就是在一個(gè)有多個(gè)說話人同時(shí)說話的場(chǎng)景里,把不同說話人的聲音分離出來。
今天的報(bào)告主要從三個(gè)方面展開:一是語音分離技術(shù)的現(xiàn)狀和基本的技術(shù)框架;二是報(bào)告的重點(diǎn),即單通道語音分離技術(shù);三是結(jié)論以及對(duì)未來的展望。
第一部分,單通道語音分離技術(shù)的現(xiàn)狀和基本框架。
這張圖匯總了目前主流的語音分離技術(shù)在兩個(gè)不同的數(shù)據(jù)集上的性能,一個(gè)是 WSJ0-2mix 純凈數(shù)據(jù)集,只有兩個(gè)說話人同時(shí)說話,沒有噪聲和混響。WHAM 是與之相對(duì)應(yīng)的含噪數(shù)據(jù)集??梢钥吹?,對(duì)于純凈數(shù)據(jù)集,近兩年單通道分離技術(shù)在 SI-SDRi 指標(biāo)上有明顯的進(jìn)步,圖中已 PSM 方法為界,PSM 之前的方法都是基于頻域的語音分離技術(shù),而 PSM 之后的絕大多數(shù)(除了 Deep CASA)都是基于時(shí)域的語音分離方法。
噪聲場(chǎng)景相對(duì)更貼近于真實(shí)的環(huán)境。目前,對(duì)于噪聲場(chǎng)景下的分離技術(shù)性能的研究還不是特別完備,我們看到有一些在安靜環(huán)境下表現(xiàn)比較好的方法,在噪聲環(huán)境下性能下降比較明顯,大多存在幾個(gè) dB 的落差。同時(shí),與純凈數(shù)據(jù)集相比,噪聲集合下各種方法的性能統(tǒng)計(jì)也不是很完備。
通常來講,單通道語音分離可以用“Encoder-Separator-Decoder”框架來描述。其中, Encoder 可以理解為將觀測(cè)信號(hào)變換到另外的一個(gè)二維空間中,比如離散傅里葉變換將時(shí)域信號(hào)變換到頻域,1-D CNN 將時(shí)域信號(hào)變換到一個(gè)二維潛空間中;Separator 在變換域當(dāng)中進(jìn)行語音的分離,學(xué)習(xí)出針對(duì)不同聲源的 mask,與混合信號(hào)做一個(gè)元素級(jí)別相乘,由此實(shí)現(xiàn)變換域中的語音分離操作;Decoder 就是把分離后的信號(hào)反變換到一維時(shí)域信號(hào)。這套框架既可適用于頻域的分離方法,也可用于時(shí)域的分離方法。
大部分 Encoder 都是通過線性變換完成的,通過一組濾波器將時(shí)域混合語音變換到另外的一個(gè)二維空間當(dāng)中。濾波器組的設(shè)計(jì)是值得研究的。最簡單的方法是用固定的濾波器,比如短時(shí)傅里葉變換。此外,人們更愿意用 data-driven 的方式學(xué)習(xí)濾波器組的系數(shù),比如常用 1-D CNN。所以,單通道的語音分離,便可以依據(jù)此劃分為頻域和時(shí)域兩類方法。
第一類是基于頻域的語音分離方法。這種方法的優(yōu)點(diǎn)是可以與傳統(tǒng)的信號(hào)處理方法更好的相融。頻域法中的 encoder 多數(shù)情況下由傅里葉變換實(shí)現(xiàn)。在多通道場(chǎng)景下,可以與后端的頻域波束形成更好的配合。第二個(gè)優(yōu)點(diǎn)就是 Separator 中 Mask 的可解釋性比較強(qiáng),即通過網(wǎng)絡(luò)學(xué)出來的特征更加稀疏和結(jié)構(gòu)化。
這種方法的缺點(diǎn)也比較明顯。第一,傅里葉變換本身是一種通用的變換,也是信號(hào)處理當(dāng)中的經(jīng)典變換,但它并不一定適用于分離任務(wù)。第二個(gè)比較明顯的問題是相位重建比較困難。Separator 中學(xué)習(xí) Mask 通常利用的是幅度譜,而在語音重構(gòu)的時(shí)候會(huì)利用混合語音的相位,所以會(huì)有語音失真的產(chǎn)生。第三,因?yàn)橐龈道锶~變換需要有足夠的采樣點(diǎn)保證頻率分辨率,所以延時(shí)比較長,對(duì)于對(duì)時(shí)延要求比較高的場(chǎng)景,頻域分離法會(huì)有限制。
第二類方法是時(shí)域分離法。它的第一個(gè)優(yōu)點(diǎn)是用一種 data-driven 的形式完成 Encoder 變換,比較常用的是 1-D CNN 或是更深的 Encoder 來完成這種變換。另外,時(shí)域方法不需要處理相位重建。第三,它的延時(shí)比較短,比如 Conv-TasNet 可以做到兩毫秒的延時(shí),DPRNN-TasNet 可以做到采樣點(diǎn)級(jí)別的延時(shí)。
時(shí)域方法的缺點(diǎn)是 Mask 可解釋性比較差,我們并不知道信號(hào)會(huì)變換到什么樣的域當(dāng)中,也不知道在這個(gè)域當(dāng)中 Mask 到底有什么物理含義。此外,時(shí)域法和傳統(tǒng)的頻域信號(hào)處理方法相結(jié)合也稍顯復(fù)雜。
需要提到的是,語音分離是將所有說話人的聲音全部分離出來。有的時(shí)候,我們只想得到我們感興趣的說話人的聲音,而不需要分離出每一個(gè)說話人,這就是目標(biāo)說話人抽取。它可以解決盲源分離中的兩大痛點(diǎn),即輸出維度問題和置換問題。此外,由于只需要抽取出一路信號(hào),因此不需要在分離出的多路信號(hào)中進(jìn)行選擇,從而節(jié)省運(yùn)算量。它的附加條件是需要一個(gè)參考,既然要抽取特定的說話人,那么必須要事先知道關(guān)于這個(gè)說話人的信息,也就是 speaker-embedding,將這些信息作為參考輸入給抽取網(wǎng)絡(luò)。在一些實(shí)際場(chǎng)景中,獲取參考并不困難。
第二部分,介紹單通道語音分離和說話人抽取的主流技術(shù)路線。
早期的語音分離多采用基于頻域的方法,比如 u-PIT,這是一種比較流行的訓(xùn)練方法,很多時(shí)域的分離網(wǎng)絡(luò)依然沿用了這種訓(xùn)練思路。
Deep CASA 是頻域方法當(dāng)中性能比較突出的一種方法。它是基于 CASA 框架。CASA 的基本框架分為兩部分:第一步是基于幀級(jí)別的分離;第二步則是對(duì)上一步的結(jié)果聚合得到輸出。Deep CASA 顧名思義是將上述兩步用更深的網(wǎng)絡(luò)來實(shí)現(xiàn),這是近兩年在頻域算法中表現(xiàn)比較突出的方法。
再來看目標(biāo)說話人抽取技術(shù)。比較有代表性的是谷歌提出的 Voice filter,它利用目標(biāo)說話人的聲紋信息,將 d-vector 作為參考輸入到抽取網(wǎng)絡(luò)中,抽取網(wǎng)絡(luò)可以只抽取出與該聲紋信息相匹配的信號(hào)。
另一種更為常用的抽取方式是引入一個(gè)聲紋輔助網(wǎng)絡(luò),通過聯(lián)合學(xué)習(xí)的方式得到高質(zhì)量的 speaker-embedding,幫助抽取網(wǎng)絡(luò)完成目標(biāo)說話人聲音的提取。
基于時(shí)域的語音分離技術(shù),比較有代表性的包括 Conv-TasNet 和 DPRNN-TasNet。對(duì)于時(shí)域目標(biāo)說話人抽取任務(wù)來講,SpEx 和 SpEx+目前的表現(xiàn)比較好,它們的基本框架也是借助于輔助網(wǎng)絡(luò)提取聲紋信息,SpEx 和 SpEx+ 的不同點(diǎn)在于,后者的 speech encoder 和 speaker decoder 是權(quán)值共享的。此外,多尺度輸入對(duì)于抽取性能提升也是有幫助的。
目前大家對(duì)于單通道語音分離技術(shù)的關(guān)注點(diǎn)主要集中在以下四個(gè)方面。
首先是 Separator。早期的頻域方法中,人們更愿意用雙向 RNN 做分離器,在時(shí)域方法中大家開始用 TCN,到現(xiàn)在 DPRNN 用的更多一些,它的模型相對(duì)比較小,分離效果也比較好。還有一種方式是直接用 UNet 或是 WaveNet 實(shí)現(xiàn)從波形到波形的端到端分離,這種方法多用于音樂分離任務(wù)。
其次是 Encoder/Decoder。前面講過,Encoder 可以是由一組固定濾波器實(shí)現(xiàn),比如傅里葉變換,也可以通過一種完全學(xué)習(xí)出來的 1-D CNN 網(wǎng)絡(luò)實(shí)現(xiàn),其實(shí)還有一種選擇,即參數(shù)化的濾波器組。也就是說,并不需要學(xué)習(xí)濾波器的每個(gè)系數(shù),而是學(xué)習(xí)其中的關(guān)鍵參數(shù),由這些關(guān)鍵參數(shù)可以算出濾波器組的結(jié)構(gòu)。還有一種思路是將 Encoder/Decoder 變得更深,以及采用多尺度輸入的方式。實(shí)驗(yàn)表明,多尺度輸入可以帶來平均 0.3dB 的 SI-SDR 的提升。
第三是訓(xùn)練機(jī)制。在訓(xùn)練機(jī)制上的發(fā)揮空間也比較大。比如兩步訓(xùn)練法(two-step training),由于 1-D CNN 作為 Encoder/Decoder 的風(fēng)險(xiǎn)是信號(hào)不一定能夠精確重構(gòu),也就是說可能無法像傅里葉正反變換那樣完美復(fù)現(xiàn)原始信號(hào),所以兩步法就是在第一步先只訓(xùn)練 Encoder/Decoder,希望它們引入的誤差盡可能??;在第二步當(dāng)中訓(xùn)練中間的分離網(wǎng)絡(luò),需要注意的是,訓(xùn)練分離網(wǎng)絡(luò)的損失函數(shù)也是定義在潛空間中的。
還有一個(gè)比較有用的方法是 Dynamic mixing,它是一種數(shù)據(jù)增廣的方式,在訓(xùn)練的時(shí)候人為追加一些不同的混合比例的混合語音來擴(kuò)充訓(xùn)練數(shù)據(jù),這種方式非常簡單,卻非常有效。
另一種擴(kuò)充訓(xùn)練數(shù)據(jù)的方式是半監(jiān)督訓(xùn)練,它利用大量的無標(biāo)注數(shù)據(jù),通過一個(gè) Teacher 網(wǎng)絡(luò)先把它們分解成兩路信號(hào)的混合,然后通過 Student 網(wǎng)絡(luò)將其分離出來,它的學(xué)習(xí)目標(biāo)是使得 Teacher 網(wǎng)絡(luò)和 Student 網(wǎng)絡(luò)盡可能相似。
還有一種 Conditional chain model,這種方法并不是把每個(gè)人的聲音同時(shí)分離出來,而是一個(gè)接一個(gè)分離。這樣,在分離后面的說話人聲音的時(shí)候,就可以利用前面的輸出作為條件,再配合一定的截止條件,一定程度上可以緩解分離網(wǎng)絡(luò)對(duì)說話人個(gè)數(shù)的限制。此外,我們最近也在嘗試?yán)脤?duì)抗學(xué)習(xí)的方法,直接將生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練機(jī)制引入到分離網(wǎng)絡(luò)當(dāng)中,也取得了不錯(cuò)的效果。
最后,如何更好的利用聲紋輔助信息完成高質(zhì)量的說話人抽取任務(wù)也很關(guān)鍵。說話人抽取效果好壞的關(guān)鍵點(diǎn)在于 speaker embedding 的質(zhì)量能給予分離網(wǎng)絡(luò)多大的輔助。至于 speaker embedding 如何獲得,既可以像 Voice filter 一樣用固定的聲紋 embedding 作為 reference,比如 x-vector、d-vector 等等,也可以通過輔助網(wǎng)絡(luò)與分離網(wǎng)絡(luò)聯(lián)合訓(xùn)練的方式獲得可學(xué)習(xí)的聲紋 embedding,后者相對(duì)用的更多一些。
滴滴在這方面也在嘗試通過引入 Iterative refined adaptation(IRA)機(jī)制來提煉高質(zhì)量的 speaker embedding。它本質(zhì)上是一種 adaptation 方法,受人類聽覺感知過程的啟發(fā),在分離之初,我們可能并不知道確切的聲紋信息,但隨著分離過程的進(jìn)行,我們對(duì)于目標(biāo)說話人越來越熟悉,獲得了更多的目標(biāo)說話人的聲紋信息,這些信息可以反過來指導(dǎo)分離網(wǎng)絡(luò)更好的抽取出與之相匹配的聲音。實(shí)驗(yàn)表明,對(duì)于相同的分離網(wǎng)絡(luò),引入 IRA 機(jī)制能夠帶來分離性能的一致提升,而且能夠比較有效的減少含噪場(chǎng)景下的性能損失。
第三部分是一些結(jié)論和對(duì)未來的展望。
第一,目前在學(xué)術(shù)界和工業(yè)界,基于時(shí)域的分離方式更受大家歡迎。第二,如何提升模型的泛化能力是一個(gè)比較關(guān)鍵的問題,我們更希望一個(gè)分離網(wǎng)絡(luò)或抽取網(wǎng)絡(luò)在通用場(chǎng)景下可以取得滿意的結(jié)果,而不是過擬合于某些特定的場(chǎng)景。第三,未來希望可以盡可能的挖掘出更多語音分離的場(chǎng)景和應(yīng)用。最后,是前端語音分離和后端 ASR 系統(tǒng)的聯(lián)合訓(xùn)練,這也是目前的一個(gè)研究熱點(diǎn)。
以上是我報(bào)告的全部內(nèi)容,謝謝大家。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章