0
本文作者: 奕欣 | 2018-05-04 11:42 |
雷鋒網(wǎng) AI 科技評(píng)論按:為期 5 天的 ICASSP 2018,已于當(dāng)?shù)貢r(shí)間 4 月 20 日在加拿大卡爾加里(Calgary)正式落下帷幕。ICASSP 全稱 International Conference on Acoustics, Speech and Signal Processing(國(guó)際聲學(xué)、語(yǔ)音與信號(hào)處理會(huì)議),是由 IEEE 主辦的全世界最大的,也是最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)學(xué)術(shù)會(huì)議。今年 ICASSP 的大會(huì)主題是「Signal Processing and Artificial Intelligence: Challenges andOpportunities」,共收到論文投稿 2830 篇,最終接受論文 1406 篇。其中,思必馳-上海交大智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室最終發(fā)表論文 14 篇,創(chuàng)國(guó)內(nèi)之最。
14 篇論文內(nèi)容概述如下:
1.抗噪魯棒語(yǔ)音識(shí)別在 Aurora4 基準(zhǔn)上的機(jī)器與人類對(duì)比
NoiseRobust Speech Recognition on Aurora4 by Humans and Machines.
By Yanmin Qian, Tian Tan, Hu Hu and Qi Liu.
本篇 paper 已發(fā)表在 2018 年的 IEEE/ACM TASLP 上,感興趣的朋友可關(guān)注如下信息:
Adaptivevery deep convolutional residual network for noise robust speech recognition.IEEE/ACM Transactions on Audio, Speech, and Language Processing.
By Tian Tan, Yanmin Qian, Hu Hu, Ying Zhou, Wen Ding, Kai Yu.
DOI:10.1109/TASLP.2018.2825432,2018.
噪聲環(huán)境下的語(yǔ)音識(shí)別一直是一個(gè)巨大挑戰(zhàn)。在我們實(shí)驗(yàn)室之前開發(fā)的極深卷積神經(jīng)網(wǎng)絡(luò) VDCNN 基礎(chǔ)上,通過引入殘差學(xué)習(xí)得到 VDCRN 模型以進(jìn)一步提升模型魯棒性,同時(shí)在 VDCRN 模型上開發(fā)聚類自適應(yīng)訓(xùn)練方法來減少模型在噪聲環(huán)境下的訓(xùn)練和測(cè)試間失配。此外,還使用基于未來信息預(yù)測(cè)向量的新型 LSTM-RNNLM 來改善系統(tǒng)性能。最終所開發(fā)的抗噪語(yǔ)音識(shí)別系統(tǒng),在噪聲標(biāo)準(zhǔn)數(shù)據(jù)集 Aurora4 上達(dá)到了 3.09%的詞錯(cuò)誤率,也是目前在此任務(wù)上報(bào)道的最好結(jié)果。經(jīng)過分析對(duì)比,這個(gè)錯(cuò)誤率已經(jīng)非常接近真實(shí)人類在這個(gè)任務(wù)上的性能,在抗噪魯棒語(yǔ)音識(shí)別研究上具有里程碑意義。
圖2:極深卷積殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖VDCRN
圖3:CAT-VDCRN上聚類自適應(yīng)訓(xùn)練,包括以特征圖為基和卷積核為基
圖4:不同系統(tǒng)下的WER(錯(cuò)詞率)比較
如上圖,我們的 5-gram+LSTM+FV-LSTM 的錯(cuò)詞率已經(jīng)與人類真實(shí)情況非常接近。
2.基于 Focal-KLD 空洞卷積神經(jīng)網(wǎng)絡(luò)模型的單信道多說話人識(shí)別
FocalKL-Divergence based Dilated Convolutional Neural Networks for Co-ChannelSpeaker Identification.
By Shuai Wang, Yanmin Qian and Kai Yu.
本篇 paper 獲得 IEEE N.Ramaswamy MemorialStudent Travel Grant 獎(jiǎng)項(xiàng),今年僅 2 篇論文獲得該獎(jiǎng)項(xiàng)。在 2017 年 9 月,思必馳曾兩次登上大型人工智能科普類節(jié)目《機(jī)智過人》,其中一期展示的是聲紋識(shí)別技術(shù),而這一片論文,則是對(duì)該技術(shù)的詳細(xì)剖析。
單通道多說話人識(shí)別目的在于識(shí)別出一段有語(yǔ)音重疊的所有說話人,這也是著名的「雞尾酒問題」的一個(gè)子問題。我們針對(duì)基于神經(jīng)網(wǎng)絡(luò)的單通道多說話人識(shí)別框架進(jìn)行了多種改進(jìn):
1)采用空洞卷積學(xué)習(xí)到更魯棒、區(qū)分性更好的深度特征。
2) 提出了 Focal-KLD 使得訓(xùn)練過程中給與 hard samples 更多的權(quán)重。
3)提出了一種后處理方法來將幀級(jí)別的預(yù)測(cè)匯總為句子級(jí)別的預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明我們提出的系統(tǒng)相對(duì)于基線系統(tǒng)取得了明顯的性能提升,在兩個(gè)說話人情況下達(dá)到 92.47%的正確率,三個(gè)說話人時(shí)正確率為 55.83%。
圖5:基于RSR 數(shù)據(jù)庫(kù)的人工混合的單信道多說話人數(shù)據(jù)
3.用于自適應(yīng)波束成形的結(jié)合神經(jīng)網(wǎng)絡(luò)與聚類方法的魯棒隱蔽值估計(jì)
RobustMask Estimation by Integrating Neural Network-based and Clustering-basedApproaches for Adaptive Acoustic Beamforming.
By Ying Zhou, Yanmin Qian.
思必馳擁有國(guó)內(nèi)非常領(lǐng)先的前端聲學(xué)處理能力,在多麥陣列和前端信號(hào)處理、asr方面均有不錯(cuò)的表現(xiàn)。在前端做了說話人自適應(yīng),后端輔以聲學(xué)模型的自適應(yīng),在不同環(huán)境下不同說話人的識(shí)別結(jié)果有提高。目前思必馳陣列方案包括線性四麥、雙麥等方案,成為聯(lián)想電視、熊貓電視、阿里天貓精靈、騰訊聽聽等智能終端設(shè)備的共同選擇。
基于隱蔽值(mask-based)的波束形成(beamforming)方法現(xiàn)在在多通道噪聲魯棒自動(dòng)語(yǔ)音識(shí)別研究中受到了廣泛的關(guān)注。在已有的 mask 估計(jì)模型中,基于神經(jīng)網(wǎng)絡(luò) mask 估計(jì)方法有較好的性能,但是這種方法由于需要仿真的數(shù)據(jù)進(jìn)行訓(xùn)練,因此在真實(shí)應(yīng)用場(chǎng)景下存在著訓(xùn)練與測(cè)試不匹配的問題。本文針對(duì)這個(gè)問題,提出了一個(gè)新的非監(jiān)督框架,利用復(fù)數(shù)混合高斯模型(CGMM,Complex Gaussian mixture model),估計(jì)真實(shí)無標(biāo)簽數(shù)據(jù)的軟標(biāo)簽,使得真實(shí)數(shù)據(jù)可以用于mask 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;除此以外,利用復(fù)數(shù)混合高斯模型,本文將說話人自適應(yīng)技術(shù)從后端的聲學(xué)模型建模引入到基于 mask 估計(jì)的波束形成技術(shù),實(shí)現(xiàn)了一個(gè)說話人相關(guān)的波束形成技術(shù)。我們提出的方法在 CHIME-4 數(shù)據(jù)集上進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),在真實(shí)帶噪的測(cè)試條件下,語(yǔ)音識(shí)別性能有明顯提升,這種基于非監(jiān)督方法的神經(jīng)網(wǎng)絡(luò) mask 波束形成技術(shù)可以顯著減小訓(xùn)練與測(cè)試的不匹配問題。
圖 6:不同方法進(jìn)行自適應(yīng)的錯(cuò)詞率結(jié)果
如上圖,引入了說話人相關(guān)參數(shù)的自適應(yīng)方法進(jìn)一步降低了幾乎所有集合的識(shí)別錯(cuò)誤率。經(jīng)過這兩個(gè)方法優(yōu)化之后最終得到最好的結(jié)果比 BLSTM-IBM 系統(tǒng)提升了近 15%。
圖7:前端mask神經(jīng)網(wǎng)絡(luò)與后端聲學(xué)模型的自適應(yīng)結(jié)合情況下的錯(cuò)詞率情況
如上圖,即使前端做了說話人自適應(yīng),后端聲學(xué)模型的自適應(yīng)仍舊有效。我們提出的與復(fù)數(shù)混合高斯模型結(jié)合的神經(jīng)網(wǎng)絡(luò) mask 估計(jì)框架,由于引入了真實(shí)的訓(xùn)練數(shù)據(jù)可以有效減小仿真與實(shí)際環(huán)境的不匹配情況,并且由于加入了說話人自適應(yīng)技術(shù),可以針對(duì)特定的說話人得到更好的多麥降噪以及識(shí)別效果。
4.用對(duì)抗多任務(wù)學(xué)習(xí)的口語(yǔ)語(yǔ)義理解半監(jiān)督訓(xùn)練方法
Semi-SupervisedTraining Using Adversarial Multi-Task Learning For Spoken LanguageUnderstanding.
By Ouyu Lan, Su Zhu, Kai Yu.
口語(yǔ)語(yǔ)義理解(Spoken Language Understanding, SLU)通常需要在收集的數(shù)據(jù)集上進(jìn)行人工語(yǔ)義標(biāo)注。為了更好地將無標(biāo)注數(shù)據(jù)用于 SLU 任務(wù),我們提出了一種針對(duì) SLU 半監(jiān)督訓(xùn)練的對(duì)抗對(duì)任務(wù)學(xué)習(xí)方法,把一個(gè)雙向語(yǔ)言模型和語(yǔ)義標(biāo)注模型結(jié)合在一起,這就減輕了對(duì)標(biāo)注數(shù)據(jù)的依賴性。作為第二目標(biāo),雙向語(yǔ)言模型被用于從大量未標(biāo)注數(shù)據(jù)中學(xué)習(xí)廣泛的無監(jiān)督知識(shí),從而提高語(yǔ)義標(biāo)注模型在測(cè)試數(shù)據(jù)上的性能。我們?yōu)閮蓚€(gè)任務(wù)構(gòu)建了一個(gè)共享空間,并為每個(gè)任務(wù)分別構(gòu)建了獨(dú)立私有空間。此外,對(duì)抗任務(wù)判別器也被用于獲取更多任務(wù)無關(guān)的共享信息。在實(shí)驗(yàn)中,我們提出的方法在 ATIS 數(shù)據(jù)集上達(dá)到了最好的性能,并在 LARGE 數(shù)據(jù)集上顯著提高了半監(jiān)督學(xué)習(xí)性能。我們的模型使得語(yǔ)義標(biāo)注模型更具一般性,且當(dāng)標(biāo)注數(shù)據(jù)顯著多余無標(biāo)注數(shù)據(jù)時(shí),半監(jiān)督學(xué)習(xí)方法更加有效。
圖8:在不同數(shù)據(jù)集下的不同任務(wù)模型的實(shí)驗(yàn)結(jié)果
如上圖,我們提出的 BSPM 和 BSPM+D 始終比其他方法取得更好的性能結(jié)果。與傳統(tǒng) STM 相比,我們的方法在全部數(shù)據(jù)集上顯著提高 99.9%。與簡(jiǎn)單多任務(wù)模型 MTLe 相比,我們的方法在5k數(shù)據(jù)集上提升 99.9%,在 10k 數(shù)據(jù)集上提升 99.5%。與 PSEUDO 方法相比,在 5k 和 10k 數(shù)據(jù)集上提升 99.8%,在 15k 數(shù)據(jù)集上提升 95%。實(shí)驗(yàn)表明,當(dāng)標(biāo)注數(shù)據(jù)有限而無標(biāo)注數(shù)據(jù)十分充足時(shí),我們的半監(jiān)督學(xué)習(xí)模型要更加有效。當(dāng)語(yǔ)言模型學(xué)習(xí)無監(jiān)督知識(shí)時(shí),共享-私有框架和對(duì)抗訓(xùn)練使得語(yǔ)義標(biāo)注模型泛化,在未見過的數(shù)據(jù)上表現(xiàn)更好。
5.基于深度強(qiáng)化學(xué)習(xí)的對(duì)話管理中的策略自適應(yīng)
Policy Adaption For Deep Reinforcement Learning-Based Dialogue Management.
By LuChen, Cheng Chang, Zhi Chen, Bowen Tan, Milica Gasic, Kai Yu.
對(duì)話策略優(yōu)化是統(tǒng)計(jì)對(duì)話管理的核心。深度強(qiáng)化學(xué)習(xí)被成功應(yīng)用于提前定義好的固定領(lǐng)域中,但是當(dāng)領(lǐng)域動(dòng)態(tài)發(fā)生變化,例如有新的語(yǔ)義槽被添加到當(dāng)前領(lǐng)域的本體中,或者策略被遷移到其它領(lǐng)域時(shí),對(duì)話狀態(tài)空間和對(duì)話動(dòng)作集合都會(huì)發(fā)生變化,因而表示對(duì)話策略的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也會(huì)發(fā)生變化。這將使得對(duì)話策略的自適應(yīng)變得十分困難。本文提出一種多智能體對(duì)話策略 MADP(Multi-AgentDialogue Policy), 相比于普通的基于深度強(qiáng)化學(xué)習(xí)的對(duì)話策略,MADP不僅學(xué)習(xí)更快,也更適合于領(lǐng)域擴(kuò)展和遷移。MADP 包括一個(gè)語(yǔ)義槽無關(guān)的智能體(G-Agent)和一些語(yǔ)義槽相關(guān)的智能體(S-Agent)。每個(gè) S-Agent 除了有私有參數(shù)外,還有相互之間共享的參數(shù)。當(dāng)策略進(jìn)行遷移時(shí),S-Agent 中的共享參數(shù)和 G-Agent 中的參數(shù)可以直接遷移到新領(lǐng)域中。模擬實(shí)驗(yàn)表明 MADP 可以顯著提升對(duì)話策略的學(xué)習(xí)速度,而且有利于策略自適應(yīng)。
圖9:基于DQN的多智能體對(duì)話策略(MADQN)
6.單通道多說話人語(yǔ)音識(shí)別中基于排列不變訓(xùn)練的知識(shí)遷移
Knowledge Transfer in Permutation Invatiant Training for Single-Channel Multi-TalkerSpeech Recognition.
By Tian Tan, Yanmin Qian and Dong Yu
本文提出了一種結(jié)合師生訓(xùn)練 TS(teacher-student training)和排列不變性訓(xùn)練 PIT(permutationinvariant training)的單通道多說話人語(yǔ)音識(shí)別的框架。通過使用循序漸進(jìn)的訓(xùn)練的方法將多個(gè)教師的知識(shí)進(jìn)行集成用于進(jìn)一步完善系統(tǒng),利用沒有標(biāo)注的數(shù)據(jù)為多說話者語(yǔ)音識(shí)別進(jìn)行領(lǐng)域自適應(yīng)。實(shí)驗(yàn)表明,TS 可以將錯(cuò)詞率(WER)相對(duì)于基線 PIT 模型降低了相對(duì) 20%。我們還在人工混合的 WSJ0 語(yǔ)料庫(kù)上進(jìn)行了評(píng)估,相對(duì)于使用 AMI 訓(xùn)練的 PIT 模型實(shí)現(xiàn)了相對(duì) 30%的WER降低。
7.單通道多說話人語(yǔ)音識(shí)別中基于輔助信息的自適應(yīng)性排列不變訓(xùn)練
Adaptive Permutation Invariant Training with Auxiliary Information for MonauralMulti-Talker Speech Recognition.
By Xuankai Chang, Yanmin Qian and Dong Yu.
本文提出了在之前的 PIT 語(yǔ)音識(shí)別模型上利用輔助信息做說話人自適應(yīng),提升單聲道多說話人語(yǔ)音識(shí)別的性能。利用混合語(yǔ)音的音調(diào)和 i-vector 做為輔助輸入,用說話人組合的性別信息做為輔助任務(wù),使用輔助特征和多任務(wù)學(xué)習(xí)方法對(duì)置換不變量訓(xùn)練模型進(jìn)行訓(xùn)練,讓語(yǔ)音分離和識(shí)別模型自適應(yīng)于不同的說話人組合。另外,我們使用了 CNN-BLSTM 模型,結(jié)果證明排列不變性訓(xùn)練 (PIT)可以容易地與先進(jìn)的技術(shù)相結(jié)合,達(dá)到提高性能的目的,最終系統(tǒng)相對(duì)提升 10%。
8.基于深度混疊生成網(wǎng)絡(luò)的聲學(xué)模型快速自適應(yīng)方法
FastAdaptation on Deep Mixture Generative Network based Acoustic Modeling.
By WenDing, Tian Tan and Yanmin Qian
深度神經(jīng)網(wǎng)絡(luò)的正則化和自適應(yīng)比較困難。我們深度混合生成網(wǎng)絡(luò),提出更高效的自適應(yīng)方法:首先采用無監(jiān)督模式提出自適應(yīng)均值;提出鑒別性線性回歸,當(dāng)缺乏自適應(yīng)數(shù)據(jù)時(shí),能夠估算出一個(gè)更魯棒的均值。實(shí)驗(yàn)表明,我們提出的方法均比說話人無關(guān)的基線要好;此外對(duì)深度混合生成網(wǎng)絡(luò)自適應(yīng)結(jié)果的可視化標(biāo)明,鑒別性線性回歸的確幫助了均值從一個(gè)全局的點(diǎn)轉(zhuǎn)換到說話人自身的中心點(diǎn)。
9.基于生成對(duì)抗網(wǎng)絡(luò)數(shù)據(jù)生成的抗噪魯棒語(yǔ)音識(shí)別
GenerativeAdversarial Networks based Data Augmentation for Noise Robust SpeechRecognition.
By HuHu, Tian Tan and Yanmin Qian.
我們提出了利用生成對(duì)抗網(wǎng)絡(luò)生成新的訓(xùn)練數(shù)據(jù)來提升魯棒語(yǔ)音識(shí)別系統(tǒng)識(shí)別性能的方法。利用現(xiàn)有噪聲數(shù)據(jù),通過生成對(duì)抗網(wǎng)絡(luò)生成不帶標(biāo)注的新的訓(xùn)練數(shù)據(jù),并提出了一種無監(jiān)督的訓(xùn)練方法來利用這些數(shù)據(jù)輔助聲學(xué)模型的訓(xùn)練。本文在標(biāo)準(zhǔn)噪聲數(shù)據(jù)集 Aurara4 上獲得了較為顯著的提升效果。
10.聯(lián)合 i-Vector 的端到端短時(shí)文本不相關(guān)說話人確認(rèn)
Jointi-Vector with End-to-End System for Short Duration Text-Independent SpeakerVerification.
By Zili Huang, Shuai Wang and Yanmin Qian.
我們嘗試在基于三元組損失函數(shù)的端到端聲紋識(shí)別系統(tǒng)中引入 i-vector 嵌入。在短時(shí)文本無關(guān)任務(wù)上取得了 31.0%的提升。除此之外,我們提出了困難樣本采樣的方法提升基于三元組損失函數(shù)的端到端聲紋識(shí)別系統(tǒng)的性能。
11.神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型中利用結(jié)構(gòu)化詞向量的快速集外詞合并
Fast OOV Words Incorporation Using Structured Word Embedding For Neural NetworkLanguage Model.
By Ruinian Chen, Kai Yu.
利用句法和形態(tài)層面的參數(shù)共享來解決神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型中的集外詞問題。每個(gè)詞的embedding分成兩個(gè)部分: syntactic embedding 和 morphological embedding, 而集外詞的 syntactic 和 morphological 的信息可以通過知識(shí)獲得,因此可以利用神經(jīng)網(wǎng)絡(luò)中已經(jīng)訓(xùn)練好的參數(shù),而無需重新訓(xùn)練模型。實(shí)驗(yàn)表明我們的模型在 PPL 和 CER 指標(biāo)上均優(yōu)于基線模型。
12.基于無監(jiān)督語(yǔ)音識(shí)別錯(cuò)誤自適應(yīng)的魯棒自然語(yǔ)言理解
Robust Spoken Language Understanding With Unsupervised ASR-Error Adaption.
By Su Zhu, Quyu Lan, Kai Yu.
立足口語(yǔ)對(duì)話系統(tǒng)中的語(yǔ)義理解模塊,重點(diǎn)解決后端語(yǔ)義理解對(duì)于前端語(yǔ)音識(shí)別錯(cuò)誤的魯棒性不足的問題。我們利用部分參數(shù)共享的 BLSTM 架構(gòu),提出無監(jiān)督的語(yǔ)音識(shí)別錯(cuò)誤自適應(yīng)訓(xùn)練方法來提升語(yǔ)義理解的魯棒性。本文提出的方法不需要對(duì)語(yǔ)音識(shí)別結(jié)果進(jìn)行語(yǔ)義標(biāo)注就可以取得與之匹配的性能水平,可以大大減少人工標(biāo)注的工作量。
13.音頻到詞語(yǔ)端到端語(yǔ)音識(shí)別中的模塊化訓(xùn)練框架
On Modular Training of Neural Acoustics-to-Word Model For LVCSR.
By Zhehuai Chen, Qi Liu, Hao Li, Kai Yu.
傳統(tǒng)的端到端系統(tǒng)不能使用文本數(shù)據(jù)進(jìn)行訓(xùn)練,導(dǎo)致需要大量標(biāo)注的聲學(xué)數(shù)據(jù)進(jìn)行訓(xùn)練。我們率先提出模塊化的端到端模型訓(xùn)練框架。一個(gè)音頻到音素的聲學(xué)模型和一個(gè)音素到詞語(yǔ)的語(yǔ)言模型分別基于聲學(xué)和語(yǔ)言數(shù)據(jù)進(jìn)行訓(xùn)練,然后進(jìn)行基于音素同步解碼的聲學(xué)和語(yǔ)言模型聯(lián)合訓(xùn)練。實(shí)驗(yàn)顯示,這一框架下訓(xùn)練得到的端到端模型在取得傳統(tǒng)系統(tǒng)相似準(zhǔn)確率的情況下,大幅降低了推測(cè)復(fù)雜度。
14.雞尾酒會(huì)的序列建模
Sequence Modeling in Unsupervised Single-Channel Overlapped Speech Recognition.
By Zhehuai Chen, Jasha Droppo.
雞尾酒會(huì)問題的解決需要聲學(xué)模型具有強(qiáng)大的序列建模能力。我們?cè)谟?xùn)練階段為 PIT 模型添加了顯式的序列依賴性,將語(yǔ)言模型信息融入 PIT 模型的組合決策過程中。實(shí)驗(yàn)結(jié)果顯示,這兩項(xiàng)技術(shù)的加入能夠顯著提升現(xiàn)有系統(tǒng)的準(zhǔn)確率,與序列鑒別性訓(xùn)練和遷移學(xué)習(xí)相結(jié)合,能使最終系統(tǒng)的準(zhǔn)確率提升 30%以上。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。