思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

本文作者：奕欣

2018-05-04 11:42

導語：思必馳-上海交大智能人機交互聯(lián)合實驗室最終發(fā)表 ICASSP 論文 14 篇。

思必馳

+31

AI影響因子

論文

名稱：?ICASSP

時間：2018

企業(yè)：思必馳

雷鋒網(wǎng) AI 科技評論按：為期 5 天的 ICASSP 2018，已于當?shù)貢r間 4 月 20 日在加拿大卡爾加里（Calgary）正式落下帷幕。ICASSP 全稱 International Conference on Acoustics, Speech and Signal Processing（國際聲學、語音與信號處理會議），是由 IEEE 主辦的全世界最大的，也是最全面的信號處理及其應用方面的頂級學術會議。今年 ICASSP 的大會主題是「Signal Processing and Artificial Intelligence: Challenges andOpportunities」，共收到論文投稿 2830 篇，最終接受論文 1406 篇。其中，思必馳-上海交大智能人機交互聯(lián)合實驗室最終發(fā)表論文 14 篇，創(chuàng)國內之最。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

14 篇論文內容概述如下：

1.抗噪魯棒語音識別在 Aurora4 基準上的機器與人類對比

NoiseRobust Speech Recognition on Aurora4 by Humans and Machines.

By Yanmin Qian, Tian Tan, Hu Hu and Qi Liu.

本篇 paper 已發(fā)表在 2018 年的 IEEE/ACM TASLP 上，感興趣的朋友可關注如下信息：

Adaptivevery deep convolutional residual network for noise robust speech recognition.IEEE/ACM Transactions on Audio, Speech, and Language Processing.
By Tian Tan, Yanmin Qian, Hu Hu, Ying Zhou, Wen Ding, Kai Yu.
DOI:10.1109/TASLP.2018.2825432，2018.

噪聲環(huán)境下的語音識別一直是一個巨大挑戰(zhàn)。在我們實驗室之前開發(fā)的極深卷積神經(jīng)網(wǎng)絡 VDCNN 基礎上，通過引入殘差學習得到 VDCRN 模型以進一步提升模型魯棒性，同時在 VDCRN 模型上開發(fā)聚類自適應訓練方法來減少模型在噪聲環(huán)境下的訓練和測試間失配。此外，還使用基于未來信息預測向量的新型 LSTM-RNNLM 來改善系統(tǒng)性能。最終所開發(fā)的抗噪語音識別系統(tǒng)，在噪聲標準數(shù)據(jù)集 Aurora4 上達到了 3.09%的詞錯誤率，也是目前在此任務上報道的最好結果。經(jīng)過分析對比，這個錯誤率已經(jīng)非常接近真實人類在這個任務上的性能，在抗噪魯棒語音識別研究上具有里程碑意義。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖2：極深卷積殘差神經(jīng)網(wǎng)絡結構圖VDCRN

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖3：CAT-VDCRN上聚類自適應訓練，包括以特征圖為基和卷積核為基

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖4：不同系統(tǒng)下的WER（錯詞率）比較

如上圖，我們的 5-gram+LSTM+FV-LSTM 的錯詞率已經(jīng)與人類真實情況非常接近。

2.基于 Focal-KLD 空洞卷積神經(jīng)網(wǎng)絡模型的單信道多說話人識別

FocalKL-Divergence based Dilated Convolutional Neural Networks for Co-ChannelSpeaker Identification.

By Shuai Wang, Yanmin Qian and Kai Yu.

本篇 paper 獲得 IEEE N.Ramaswamy MemorialStudent Travel Grant 獎項，今年僅 2 篇論文獲得該獎項。在 2017 年 9 月，思必馳曾兩次登上大型人工智能科普類節(jié)目《機智過人》，其中一期展示的是聲紋識別技術，而這一片論文，則是對該技術的詳細剖析。

單通道多說話人識別目的在于識別出一段有語音重疊的所有說話人，這也是著名的「雞尾酒問題」的一個子問題。我們針對基于神經(jīng)網(wǎng)絡的單通道多說話人識別框架進行了多種改進：

1）采用空洞卷積學習到更魯棒、區(qū)分性更好的深度特征。

2) 提出了 Focal-KLD 使得訓練過程中給與 hard samples 更多的權重。

3）提出了一種后處理方法來將幀級別的預測匯總為句子級別的預測。實驗結果表明我們提出的系統(tǒng)相對于基線系統(tǒng)取得了明顯的性能提升，在兩個說話人情況下達到 92.47%的正確率，三個說話人時正確率為 55.83%。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖5：基于RSR 數(shù)據(jù)庫的人工混合的單信道多說話人數(shù)據(jù)

3.用于自適應波束成形的結合神經(jīng)網(wǎng)絡與聚類方法的魯棒隱蔽值估計

RobustMask Estimation by Integrating Neural Network-based and Clustering-basedApproaches for Adaptive Acoustic Beamforming.

By Ying Zhou, Yanmin Qian.

思必馳擁有國內非常領先的前端聲學處理能力，在多麥陣列和前端信號處理、asr方面均有不錯的表現(xiàn)。在前端做了說話人自適應，后端輔以聲學模型的自適應，在不同環(huán)境下不同說話人的識別結果有提高。目前思必馳陣列方案包括線性四麥、雙麥等方案，成為聯(lián)想電視、熊貓電視、阿里天貓精靈、騰訊聽聽等智能終端設備的共同選擇。

基于隱蔽值（mask-based）的波束形成（beamforming）方法現(xiàn)在在多通道噪聲魯棒自動語音識別研究中受到了廣泛的關注。在已有的 mask 估計模型中，基于神經(jīng)網(wǎng)絡 mask 估計方法有較好的性能，但是這種方法由于需要仿真的數(shù)據(jù)進行訓練，因此在真實應用場景下存在著訓練與測試不匹配的問題。本文針對這個問題，提出了一個新的非監(jiān)督框架，利用復數(shù)混合高斯模型（CGMM，Complex Gaussian mixture model），估計真實無標簽數(shù)據(jù)的軟標簽，使得真實數(shù)據(jù)可以用于mask 神經(jīng)網(wǎng)絡的訓練；除此以外，利用復數(shù)混合高斯模型，本文將說話人自適應技術從后端的聲學模型建模引入到基于 mask 估計的波束形成技術，實現(xiàn)了一個說話人相關的波束形成技術。我們提出的方法在 CHIME-4 數(shù)據(jù)集上進行了驗證，實驗結果可以發(fā)現(xiàn)，在真實帶噪的測試條件下，語音識別性能有明顯提升，這種基于非監(jiān)督方法的神經(jīng)網(wǎng)絡 mask 波束形成技術可以顯著減小訓練與測試的不匹配問題。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖 6：不同方法進行自適應的錯詞率結果

如上圖，引入了說話人相關參數(shù)的自適應方法進一步降低了幾乎所有集合的識別錯誤率。經(jīng)過這兩個方法優(yōu)化之后最終得到最好的結果比 BLSTM-IBM 系統(tǒng)提升了近 15%。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖7：前端mask神經(jīng)網(wǎng)絡與后端聲學模型的自適應結合情況下的錯詞率情況

如上圖，即使前端做了說話人自適應，后端聲學模型的自適應仍舊有效。我們提出的與復數(shù)混合高斯模型結合的神經(jīng)網(wǎng)絡 mask 估計框架，由于引入了真實的訓練數(shù)據(jù)可以有效減小仿真與實際環(huán)境的不匹配情況，并且由于加入了說話人自適應技術，可以針對特定的說話人得到更好的多麥降噪以及識別效果。

4.用對抗多任務學習的口語語義理解半監(jiān)督訓練方法

Semi-SupervisedTraining Using Adversarial Multi-Task Learning For Spoken LanguageUnderstanding.

By Ouyu Lan, Su Zhu, Kai Yu.

口語語義理解（Spoken Language Understanding, SLU）通常需要在收集的數(shù)據(jù)集上進行人工語義標注。為了更好地將無標注數(shù)據(jù)用于 SLU 任務，我們提出了一種針對 SLU 半監(jiān)督訓練的對抗對任務學習方法，把一個雙向語言模型和語義標注模型結合在一起，這就減輕了對標注數(shù)據(jù)的依賴性。作為第二目標，雙向語言模型被用于從大量未標注數(shù)據(jù)中學習廣泛的無監(jiān)督知識，從而提高語義標注模型在測試數(shù)據(jù)上的性能。我們?yōu)閮蓚€任務構建了一個共享空間，并為每個任務分別構建了獨立私有空間。此外，對抗任務判別器也被用于獲取更多任務無關的共享信息。在實驗中，我們提出的方法在 ATIS 數(shù)據(jù)集上達到了最好的性能，并在 LARGE 數(shù)據(jù)集上顯著提高了半監(jiān)督學習性能。我們的模型使得語義標注模型更具一般性，且當標注數(shù)據(jù)顯著多余無標注數(shù)據(jù)時，半監(jiān)督學習方法更加有效。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖8：在不同數(shù)據(jù)集下的不同任務模型的實驗結果

如上圖，我們提出的 BSPM 和 BSPM+D 始終比其他方法取得更好的性能結果。與傳統(tǒng) STM 相比，我們的方法在全部數(shù)據(jù)集上顯著提高 99.9%。與簡單多任務模型 MTLe 相比，我們的方法在5k數(shù)據(jù)集上提升 99.9%，在 10k 數(shù)據(jù)集上提升 99.5%。與 PSEUDO 方法相比，在 5k 和 10k 數(shù)據(jù)集上提升 99.8%，在 15k 數(shù)據(jù)集上提升 95%。實驗表明，當標注數(shù)據(jù)有限而無標注數(shù)據(jù)十分充足時，我們的半監(jiān)督學習模型要更加有效。當語言模型學習無監(jiān)督知識時，共享-私有框架和對抗訓練使得語義標注模型泛化，在未見過的數(shù)據(jù)上表現(xiàn)更好。

5.基于深度強化學習的對話管理中的策略自適應

Policy Adaption For Deep Reinforcement Learning-Based Dialogue Management.

By LuChen, Cheng Chang, Zhi Chen, Bowen Tan, Milica Gasic, Kai Yu.

對話策略優(yōu)化是統(tǒng)計對話管理的核心。深度強化學習被成功應用于提前定義好的固定領域中，但是當領域動態(tài)發(fā)生變化，例如有新的語義槽被添加到當前領域的本體中，或者策略被遷移到其它領域時，對話狀態(tài)空間和對話動作集合都會發(fā)生變化，因而表示對話策略的神經(jīng)網(wǎng)絡結構也會發(fā)生變化。這將使得對話策略的自適應變得十分困難。本文提出一種多智能體對話策略 MADP(Multi-AgentDialogue Policy), 相比于普通的基于深度強化學習的對話策略，MADP不僅學習更快，也更適合于領域擴展和遷移。MADP 包括一個語義槽無關的智能體（G-Agent）和一些語義槽相關的智能體（S-Agent）。每個 S-Agent 除了有私有參數(shù)外，還有相互之間共享的參數(shù)。當策略進行遷移時，S-Agent 中的共享參數(shù)和 G-Agent 中的參數(shù)可以直接遷移到新領域中。模擬實驗表明 MADP 可以顯著提升對話策略的學習速度，而且有利于策略自適應。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

圖9：基于DQN的多智能體對話策略（MADQN）

6.單通道多說話人語音識別中基于排列不變訓練的知識遷移

Knowledge Transfer in Permutation Invatiant Training for Single-Channel Multi-TalkerSpeech Recognition.

By Tian Tan, Yanmin Qian and Dong Yu

本文提出了一種結合師生訓練 TS(teacher-student training)和排列不變性訓練 PIT（permutationinvariant training）的單通道多說話人語音識別的框架。通過使用循序漸進的訓練的方法將多個教師的知識進行集成用于進一步完善系統(tǒng)，利用沒有標注的數(shù)據(jù)為多說話者語音識別進行領域自適應。實驗表明，TS 可以將錯詞率（WER）相對于基線 PIT 模型降低了相對 20％。我們還在人工混合的 WSJ0 語料庫上進行了評估，相對于使用 AMI 訓練的 PIT 模型實現(xiàn)了相對 30％的WER降低。

7.單通道多說話人語音識別中基于輔助信息的自適應性排列不變訓練

Adaptive Permutation Invariant Training with Auxiliary Information for MonauralMulti-Talker Speech Recognition.

By Xuankai Chang, Yanmin Qian and Dong Yu.

本文提出了在之前的 PIT 語音識別模型上利用輔助信息做說話人自適應，提升單聲道多說話人語音識別的性能。利用混合語音的音調和 i-vector 做為輔助輸入，用說話人組合的性別信息做為輔助任務，使用輔助特征和多任務學習方法對置換不變量訓練模型進行訓練，讓語音分離和識別模型自適應于不同的說話人組合。另外，我們使用了 CNN-BLSTM 模型，結果證明排列不變性訓練 (PIT)可以容易地與先進的技術相結合，達到提高性能的目的，最終系統(tǒng)相對提升 10%。

8.基于深度混疊生成網(wǎng)絡的聲學模型快速自適應方法

FastAdaptation on Deep Mixture Generative Network based Acoustic Modeling.

By WenDing, Tian Tan and Yanmin Qian

深度神經(jīng)網(wǎng)絡的正則化和自適應比較困難。我們深度混合生成網(wǎng)絡，提出更高效的自適應方法：首先采用無監(jiān)督模式提出自適應均值；提出鑒別性線性回歸，當缺乏自適應數(shù)據(jù)時，能夠估算出一個更魯棒的均值。實驗表明，我們提出的方法均比說話人無關的基線要好；此外對深度混合生成網(wǎng)絡自適應結果的可視化標明，鑒別性線性回歸的確幫助了均值從一個全局的點轉換到說話人自身的中心點。

9.基于生成對抗網(wǎng)絡數(shù)據(jù)生成的抗噪魯棒語音識別

GenerativeAdversarial Networks based Data Augmentation for Noise Robust SpeechRecognition.

By HuHu, Tian Tan and Yanmin Qian.

我們提出了利用生成對抗網(wǎng)絡生成新的訓練數(shù)據(jù)來提升魯棒語音識別系統(tǒng)識別性能的方法。利用現(xiàn)有噪聲數(shù)據(jù)，通過生成對抗網(wǎng)絡生成不帶標注的新的訓練數(shù)據(jù)，并提出了一種無監(jiān)督的訓練方法來利用這些數(shù)據(jù)輔助聲學模型的訓練。本文在標準噪聲數(shù)據(jù)集 Aurara4 上獲得了較為顯著的提升效果。

10.聯(lián)合 i-Vector 的端到端短時文本不相關說話人確認

Jointi-Vector with End-to-End System for Short Duration Text-Independent SpeakerVerification.

By Zili Huang, Shuai Wang and Yanmin Qian.

我們嘗試在基于三元組損失函數(shù)的端到端聲紋識別系統(tǒng)中引入 i-vector 嵌入。在短時文本無關任務上取得了 31.0%的提升。除此之外，我們提出了困難樣本采樣的方法提升基于三元組損失函數(shù)的端到端聲紋識別系統(tǒng)的性能。

11.神經(jīng)網(wǎng)絡語言模型中利用結構化詞向量的快速集外詞合并

Fast OOV Words Incorporation Using Structured Word Embedding For Neural NetworkLanguage Model.

By Ruinian Chen, Kai Yu.

利用句法和形態(tài)層面的參數(shù)共享來解決神經(jīng)網(wǎng)絡語言模型中的集外詞問題。每個詞的embedding分成兩個部分: syntactic embedding 和 morphological embedding, 而集外詞的 syntactic 和 morphological 的信息可以通過知識獲得，因此可以利用神經(jīng)網(wǎng)絡中已經(jīng)訓練好的參數(shù)，而無需重新訓練模型。實驗表明我們的模型在 PPL 和 CER 指標上均優(yōu)于基線模型。

12.基于無監(jiān)督語音識別錯誤自適應的魯棒自然語言理解

Robust Spoken Language Understanding With Unsupervised ASR-Error Adaption.

By Su Zhu, Quyu Lan, Kai Yu.

立足口語對話系統(tǒng)中的語義理解模塊，重點解決后端語義理解對于前端語音識別錯誤的魯棒性不足的問題。我們利用部分參數(shù)共享的 BLSTM 架構，提出無監(jiān)督的語音識別錯誤自適應訓練方法來提升語義理解的魯棒性。本文提出的方法不需要對語音識別結果進行語義標注就可以取得與之匹配的性能水平，可以大大減少人工標注的工作量。

13.音頻到詞語端到端語音識別中的模塊化訓練框架

On Modular Training of Neural Acoustics-to-Word Model For LVCSR.

By Zhehuai Chen, Qi Liu, Hao Li, Kai Yu.

傳統(tǒng)的端到端系統(tǒng)不能使用文本數(shù)據(jù)進行訓練，導致需要大量標注的聲學數(shù)據(jù)進行訓練。我們率先提出模塊化的端到端模型訓練框架。一個音頻到音素的聲學模型和一個音素到詞語的語言模型分別基于聲學和語言數(shù)據(jù)進行訓練，然后進行基于音素同步解碼的聲學和語言模型聯(lián)合訓練。實驗顯示，這一框架下訓練得到的端到端模型在取得傳統(tǒng)系統(tǒng)相似準確率的情況下，大幅降低了推測復雜度。

14.雞尾酒會的序列建模

Sequence Modeling in Unsupervised Single-Channel Overlapped Speech Recognition.

By Zhehuai Chen, Jasha Droppo.

雞尾酒會問題的解決需要聲學模型具有強大的序列建模能力。我們在訓練階段為 PIT 模型添加了顯式的序列依賴性，將語言模型信息融入 PIT 模型的組合決策過程中。實驗結果顯示，這兩項技術的加入能夠顯著提升現(xiàn)有系統(tǒng)的準確率，與序列鑒別性訓練和遷移學習相結合，能使最終系統(tǒng)的準確率提升 30%以上。

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

3人收藏

奕欣

初心者

掃描關注作者微信

發(fā)私信

當月熱門文章