丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

本文作者: 奕欣 2018-05-04 11:42
導(dǎo)語:思必馳-上海交大智能人機(jī)交互聯(lián)合實驗室最終發(fā)表 ICASSP 論文 14 篇。
論文
名稱:?ICASSP
時間:2018
企業(yè):思必馳

雷鋒網(wǎng) AI 科技評論按:為期 5 天的 ICASSP 2018,已于當(dāng)?shù)貢r間 4 月 20 日在加拿大卡爾加里(Calgary)正式落下帷幕。ICASSP 全稱 International Conference on Acoustics, Speech and Signal Processing(國際聲學(xué)、語音與信號處理會議),是由 IEEE 主辦的全世界最大的,也是最全面的信號處理及其應(yīng)用方面的頂級學(xué)術(shù)會議。今年 ICASSP 的大會主題是「Signal Processing and Artificial Intelligence: Challenges andOpportunities」,共收到論文投稿 2830 篇,最終接受論文 1406 篇。其中,思必馳-上海交大智能人機(jī)交互聯(lián)合實驗室最終發(fā)表論文 14 篇,創(chuàng)國內(nèi)之最。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀


14 篇論文內(nèi)容概述如下:

1.抗噪魯棒語音識別在 Aurora4 基準(zhǔn)上的機(jī)器與人類對比

NoiseRobust Speech Recognition on Aurora4 by Humans and Machines.  

By Yanmin Qian, Tian Tan, Hu Hu and Qi Liu.

本篇 paper 已發(fā)表在 2018 年的 IEEE/ACM TASLP 上,感興趣的朋友可關(guān)注如下信息:

Adaptivevery deep convolutional residual network for noise robust speech recognition.IEEE/ACM Transactions on Audio, Speech, and Language Processing.

By Tian Tan, Yanmin Qian, Hu Hu, Ying Zhou, Wen Ding, Kai Yu. 

DOI:10.1109/TASLP.2018.2825432,2018.

噪聲環(huán)境下的語音識別一直是一個巨大挑戰(zhàn)。在我們實驗室之前開發(fā)的極深卷積神經(jīng)網(wǎng)絡(luò) VDCNN 基礎(chǔ)上,通過引入殘差學(xué)習(xí)得到 VDCRN 模型以進(jìn)一步提升模型魯棒性,同時在 VDCRN 模型上開發(fā)聚類自適應(yīng)訓(xùn)練方法來減少模型在噪聲環(huán)境下的訓(xùn)練和測試間失配。此外,還使用基于未來信息預(yù)測向量的新型 LSTM-RNNLM 來改善系統(tǒng)性能。最終所開發(fā)的抗噪語音識別系統(tǒng),在噪聲標(biāo)準(zhǔn)數(shù)據(jù)集 Aurora4 上達(dá)到了 3.09%的詞錯誤率,也是目前在此任務(wù)上報道的最好結(jié)果。經(jīng)過分析對比,這個錯誤率已經(jīng)非常接近真實人類在這個任務(wù)上的性能,在抗噪魯棒語音識別研究上具有里程碑意義。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀


圖2:極深卷積殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖VDCRN

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀


圖3:CAT-VDCRN上聚類自適應(yīng)訓(xùn)練,包括以特征圖為基和卷積核為基

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀


圖4:不同系統(tǒng)下的WER(錯詞率)比較

如上圖,我們的 5-gram+LSTM+FV-LSTM 的錯詞率已經(jīng)與人類真實情況非常接近。

2.基于 Focal-KLD 空洞卷積神經(jīng)網(wǎng)絡(luò)模型的單信道多說話人識別

FocalKL-Divergence based Dilated Convolutional Neural Networks for Co-ChannelSpeaker Identification.   

By Shuai Wang, Yanmin Qian and Kai Yu.

本篇 paper 獲得 IEEE N.Ramaswamy MemorialStudent Travel Grant 獎項,今年僅 2 篇論文獲得該獎項。在 2017 年 9 月,思必馳曾兩次登上大型人工智能科普類節(jié)目《機(jī)智過人》,其中一期展示的是聲紋識別技術(shù),而這一片論文,則是對該技術(shù)的詳細(xì)剖析。

單通道多說話人識別目的在于識別出一段有語音重疊的所有說話人,這也是著名的「雞尾酒問題」的一個子問題。我們針對基于神經(jīng)網(wǎng)絡(luò)的單通道多說話人識別框架進(jìn)行了多種改進(jìn):

1)采用空洞卷積學(xué)習(xí)到更魯棒、區(qū)分性更好的深度特征。

2) 提出了 Focal-KLD  使得訓(xùn)練過程中給與 hard samples 更多的權(quán)重。

3)提出了一種后處理方法來將幀級別的預(yù)測匯總為句子級別的預(yù)測。實驗結(jié)果表明我們提出的系統(tǒng)相對于基線系統(tǒng)取得了明顯的性能提升,在兩個說話人情況下達(dá)到 92.47%的正確率,三個說話人時正確率為 55.83%。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀


圖5:基于RSR 數(shù)據(jù)庫的人工混合的單信道多說話人數(shù)據(jù)

3.用于自適應(yīng)波束成形的結(jié)合神經(jīng)網(wǎng)絡(luò)與聚類方法的魯棒隱蔽值估計

RobustMask Estimation by Integrating Neural Network-based and Clustering-basedApproaches for Adaptive Acoustic Beamforming.  

By Ying Zhou, Yanmin Qian.

思必馳擁有國內(nèi)非常領(lǐng)先的前端聲學(xué)處理能力,在多麥陣列和前端信號處理、asr方面均有不錯的表現(xiàn)。在前端做了說話人自適應(yīng),后端輔以聲學(xué)模型的自適應(yīng),在不同環(huán)境下不同說話人的識別結(jié)果有提高。目前思必馳陣列方案包括線性四麥、雙麥等方案,成為聯(lián)想電視、熊貓電視、阿里天貓精靈、騰訊聽聽等智能終端設(shè)備的共同選擇。

基于隱蔽值(mask-based)的波束形成(beamforming)方法現(xiàn)在在多通道噪聲魯棒自動語音識別研究中受到了廣泛的關(guān)注。在已有的 mask 估計模型中,基于神經(jīng)網(wǎng)絡(luò) mask 估計方法有較好的性能,但是這種方法由于需要仿真的數(shù)據(jù)進(jìn)行訓(xùn)練,因此在真實應(yīng)用場景下存在著訓(xùn)練與測試不匹配的問題。本文針對這個問題,提出了一個新的非監(jiān)督框架,利用復(fù)數(shù)混合高斯模型(CGMM,Complex Gaussian mixture model),估計真實無標(biāo)簽數(shù)據(jù)的軟標(biāo)簽,使得真實數(shù)據(jù)可以用于mask 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;除此以外,利用復(fù)數(shù)混合高斯模型,本文將說話人自適應(yīng)技術(shù)從后端的聲學(xué)模型建模引入到基于 mask 估計的波束形成技術(shù),實現(xiàn)了一個說話人相關(guān)的波束形成技術(shù)。我們提出的方法在 CHIME-4 數(shù)據(jù)集上進(jìn)行了驗證,實驗結(jié)果可以發(fā)現(xiàn),在真實帶噪的測試條件下,語音識別性能有明顯提升,這種基于非監(jiān)督方法的神經(jīng)網(wǎng)絡(luò) mask 波束形成技術(shù)可以顯著減小訓(xùn)練與測試的不匹配問題。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀


圖 6:不同方法進(jìn)行自適應(yīng)的錯詞率結(jié)果

如上圖,引入了說話人相關(guān)參數(shù)的自適應(yīng)方法進(jìn)一步降低了幾乎所有集合的識別錯誤率。經(jīng)過這兩個方法優(yōu)化之后最終得到最好的結(jié)果比 BLSTM-IBM 系統(tǒng)提升了近 15%。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀


圖7:前端mask神經(jīng)網(wǎng)絡(luò)與后端聲學(xué)模型的自適應(yīng)結(jié)合情況下的錯詞率情況

如上圖,即使前端做了說話人自適應(yīng),后端聲學(xué)模型的自適應(yīng)仍舊有效。我們提出的與復(fù)數(shù)混合高斯模型結(jié)合的神經(jīng)網(wǎng)絡(luò) mask 估計框架,由于引入了真實的訓(xùn)練數(shù)據(jù)可以有效減小仿真與實際環(huán)境的不匹配情況,并且由于加入了說話人自適應(yīng)技術(shù),可以針對特定的說話人得到更好的多麥降噪以及識別效果。

4.用對抗多任務(wù)學(xué)習(xí)的口語語義理解半監(jiān)督訓(xùn)練方法

Semi-SupervisedTraining Using Adversarial Multi-Task Learning For Spoken LanguageUnderstanding.  

By Ouyu Lan, Su Zhu, Kai Yu. 

口語語義理解(Spoken Language Understanding, SLU)通常需要在收集的數(shù)據(jù)集上進(jìn)行人工語義標(biāo)注。為了更好地將無標(biāo)注數(shù)據(jù)用于 SLU 任務(wù),我們提出了一種針對 SLU 半監(jiān)督訓(xùn)練的對抗對任務(wù)學(xué)習(xí)方法,把一個雙向語言模型和語義標(biāo)注模型結(jié)合在一起,這就減輕了對標(biāo)注數(shù)據(jù)的依賴性。作為第二目標(biāo),雙向語言模型被用于從大量未標(biāo)注數(shù)據(jù)中學(xué)習(xí)廣泛的無監(jiān)督知識,從而提高語義標(biāo)注模型在測試數(shù)據(jù)上的性能。我們?yōu)閮蓚€任務(wù)構(gòu)建了一個共享空間,并為每個任務(wù)分別構(gòu)建了獨立私有空間。此外,對抗任務(wù)判別器也被用于獲取更多任務(wù)無關(guān)的共享信息。在實驗中,我們提出的方法在 ATIS 數(shù)據(jù)集上達(dá)到了最好的性能,并在 LARGE 數(shù)據(jù)集上顯著提高了半監(jiān)督學(xué)習(xí)性能。我們的模型使得語義標(biāo)注模型更具一般性,且當(dāng)標(biāo)注數(shù)據(jù)顯著多余無標(biāo)注數(shù)據(jù)時,半監(jiān)督學(xué)習(xí)方法更加有效。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀


圖8:在不同數(shù)據(jù)集下的不同任務(wù)模型的實驗結(jié)果

如上圖,我們提出的 BSPM 和 BSPM+D 始終比其他方法取得更好的性能結(jié)果。與傳統(tǒng) STM 相比,我們的方法在全部數(shù)據(jù)集上顯著提高 99.9%。與簡單多任務(wù)模型 MTLe 相比,我們的方法在5k數(shù)據(jù)集上提升 99.9%,在 10k 數(shù)據(jù)集上提升 99.5%。與 PSEUDO 方法相比,在 5k 和 10k 數(shù)據(jù)集上提升 99.8%,在 15k 數(shù)據(jù)集上提升 95%。實驗表明,當(dāng)標(biāo)注數(shù)據(jù)有限而無標(biāo)注數(shù)據(jù)十分充足時,我們的半監(jiān)督學(xué)習(xí)模型要更加有效。當(dāng)語言模型學(xué)習(xí)無監(jiān)督知識時,共享-私有框架和對抗訓(xùn)練使得語義標(biāo)注模型泛化,在未見過的數(shù)據(jù)上表現(xiàn)更好。

5.基于深度強化學(xué)習(xí)的對話管理中的策略自適應(yīng)

Policy Adaption For Deep Reinforcement Learning-Based Dialogue Management.

By LuChen, Cheng Chang, Zhi Chen, Bowen Tan, Milica Gasic, Kai Yu. 

對話策略優(yōu)化是統(tǒng)計對話管理的核心。深度強化學(xué)習(xí)被成功應(yīng)用于提前定義好的固定領(lǐng)域中,但是當(dāng)領(lǐng)域動態(tài)發(fā)生變化,例如有新的語義槽被添加到當(dāng)前領(lǐng)域的本體中,或者策略被遷移到其它領(lǐng)域時,對話狀態(tài)空間和對話動作集合都會發(fā)生變化,因而表示對話策略的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也會發(fā)生變化。這將使得對話策略的自適應(yīng)變得十分困難。本文提出一種多智能體對話策略 MADP(Multi-AgentDialogue Policy), 相比于普通的基于深度強化學(xué)習(xí)的對話策略,MADP不僅學(xué)習(xí)更快,也更適合于領(lǐng)域擴(kuò)展和遷移。MADP 包括一個語義槽無關(guān)的智能體(G-Agent)和一些語義槽相關(guān)的智能體(S-Agent)。每個 S-Agent 除了有私有參數(shù)外,還有相互之間共享的參數(shù)。當(dāng)策略進(jìn)行遷移時,S-Agent 中的共享參數(shù)和 G-Agent 中的參數(shù)可以直接遷移到新領(lǐng)域中。模擬實驗表明 MADP 可以顯著提升對話策略的學(xué)習(xí)速度,而且有利于策略自適應(yīng)。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀


圖9:基于DQN的多智能體對話策略(MADQN)

6.單通道多說話人語音識別中基于排列不變訓(xùn)練的知識遷移

Knowledge Transfer in Permutation Invatiant Training for Single-Channel Multi-TalkerSpeech Recognition.  

By Tian Tan, Yanmin Qian and Dong Yu

本文提出了一種結(jié)合師生訓(xùn)練 TS(teacher-student training)和排列不變性訓(xùn)練 PIT(permutationinvariant training)的單通道多說話人語音識別的框架。通過使用循序漸進(jìn)的訓(xùn)練的方法將多個教師的知識進(jìn)行集成用于進(jìn)一步完善系統(tǒng),利用沒有標(biāo)注的數(shù)據(jù)為多說話者語音識別進(jìn)行領(lǐng)域自適應(yīng)。實驗表明,TS 可以將錯詞率(WER)相對于基線 PIT 模型降低了相對 20%。我們還在人工混合的 WSJ0 語料庫上進(jìn)行了評估,相對于使用 AMI 訓(xùn)練的 PIT 模型實現(xiàn)了相對 30%的WER降低。

7.單通道多說話人語音識別中基于輔助信息的自適應(yīng)性排列不變訓(xùn)練

Adaptive Permutation Invariant Training with Auxiliary Information for MonauralMulti-Talker Speech Recognition.   

By Xuankai Chang, Yanmin Qian and Dong Yu.

本文提出了在之前的 PIT 語音識別模型上利用輔助信息做說話人自適應(yīng),提升單聲道多說話人語音識別的性能。利用混合語音的音調(diào)和 i-vector 做為輔助輸入,用說話人組合的性別信息做為輔助任務(wù),使用輔助特征和多任務(wù)學(xué)習(xí)方法對置換不變量訓(xùn)練模型進(jìn)行訓(xùn)練,讓語音分離和識別模型自適應(yīng)于不同的說話人組合。另外,我們使用了 CNN-BLSTM 模型,結(jié)果證明排列不變性訓(xùn)練 (PIT)可以容易地與先進(jìn)的技術(shù)相結(jié)合,達(dá)到提高性能的目的,最終系統(tǒng)相對提升 10%。

8.基于深度混疊生成網(wǎng)絡(luò)的聲學(xué)模型快速自適應(yīng)方法

FastAdaptation on Deep Mixture Generative Network based Acoustic Modeling.  

By  WenDing, Tian Tan and Yanmin Qian

深度神經(jīng)網(wǎng)絡(luò)的正則化和自適應(yīng)比較困難。我們深度混合生成網(wǎng)絡(luò),提出更高效的自適應(yīng)方法:首先采用無監(jiān)督模式提出自適應(yīng)均值;提出鑒別性線性回歸,當(dāng)缺乏自適應(yīng)數(shù)據(jù)時,能夠估算出一個更魯棒的均值。實驗表明,我們提出的方法均比說話人無關(guān)的基線要好;此外對深度混合生成網(wǎng)絡(luò)自適應(yīng)結(jié)果的可視化標(biāo)明,鑒別性線性回歸的確幫助了均值從一個全局的點轉(zhuǎn)換到說話人自身的中心點。

9.基于生成對抗網(wǎng)絡(luò)數(shù)據(jù)生成的抗噪魯棒語音識別

GenerativeAdversarial Networks based Data Augmentation for Noise Robust SpeechRecognition.  

By HuHu, Tian Tan and Yanmin Qian.

我們提出了利用生成對抗網(wǎng)絡(luò)生成新的訓(xùn)練數(shù)據(jù)來提升魯棒語音識別系統(tǒng)識別性能的方法。利用現(xiàn)有噪聲數(shù)據(jù),通過生成對抗網(wǎng)絡(luò)生成不帶標(biāo)注的新的訓(xùn)練數(shù)據(jù),并提出了一種無監(jiān)督的訓(xùn)練方法來利用這些數(shù)據(jù)輔助聲學(xué)模型的訓(xùn)練。本文在標(biāo)準(zhǔn)噪聲數(shù)據(jù)集 Aurara4 上獲得了較為顯著的提升效果。

10.聯(lián)合 i-Vector 的端到端短時文本不相關(guān)說話人確認(rèn)

Jointi-Vector with End-to-End System for Short Duration Text-Independent SpeakerVerification. 

By Zili Huang, Shuai Wang and Yanmin Qian.

我們嘗試在基于三元組損失函數(shù)的端到端聲紋識別系統(tǒng)中引入 i-vector 嵌入。在短時文本無關(guān)任務(wù)上取得了 31.0%的提升。除此之外,我們提出了困難樣本采樣的方法提升基于三元組損失函數(shù)的端到端聲紋識別系統(tǒng)的性能。

11.神經(jīng)網(wǎng)絡(luò)語言模型中利用結(jié)構(gòu)化詞向量的快速集外詞合并

Fast OOV Words Incorporation Using Structured Word Embedding For Neural NetworkLanguage Model.  

By Ruinian Chen, Kai Yu.

利用句法和形態(tài)層面的參數(shù)共享來解決神經(jīng)網(wǎng)絡(luò)語言模型中的集外詞問題。每個詞的embedding分成兩個部分: syntactic embedding 和 morphological embedding, 而集外詞的 syntactic 和 morphological 的信息可以通過知識獲得,因此可以利用神經(jīng)網(wǎng)絡(luò)中已經(jīng)訓(xùn)練好的參數(shù),而無需重新訓(xùn)練模型。實驗表明我們的模型在 PPL 和 CER 指標(biāo)上均優(yōu)于基線模型。

12.基于無監(jiān)督語音識別錯誤自適應(yīng)的魯棒自然語言理解

Robust Spoken Language Understanding With Unsupervised ASR-Error Adaption.  

By Su Zhu, Quyu Lan, Kai Yu.

立足口語對話系統(tǒng)中的語義理解模塊,重點解決后端語義理解對于前端語音識別錯誤的魯棒性不足的問題。我們利用部分參數(shù)共享的 BLSTM 架構(gòu),提出無監(jiān)督的語音識別錯誤自適應(yīng)訓(xùn)練方法來提升語義理解的魯棒性。本文提出的方法不需要對語音識別結(jié)果進(jìn)行語義標(biāo)注就可以取得與之匹配的性能水平,可以大大減少人工標(biāo)注的工作量。

13.音頻到詞語端到端語音識別中的模塊化訓(xùn)練框架

On Modular Training of Neural Acoustics-to-Word Model For LVCSR. 

By Zhehuai Chen, Qi Liu, Hao Li, Kai Yu.

傳統(tǒng)的端到端系統(tǒng)不能使用文本數(shù)據(jù)進(jìn)行訓(xùn)練,導(dǎo)致需要大量標(biāo)注的聲學(xué)數(shù)據(jù)進(jìn)行訓(xùn)練。我們率先提出模塊化的端到端模型訓(xùn)練框架。一個音頻到音素的聲學(xué)模型和一個音素到詞語的語言模型分別基于聲學(xué)和語言數(shù)據(jù)進(jìn)行訓(xùn)練,然后進(jìn)行基于音素同步解碼的聲學(xué)和語言模型聯(lián)合訓(xùn)練。實驗顯示,這一框架下訓(xùn)練得到的端到端模型在取得傳統(tǒng)系統(tǒng)相似準(zhǔn)確率的情況下,大幅降低了推測復(fù)雜度。

14.雞尾酒會的序列建模

Sequence Modeling in Unsupervised Single-Channel Overlapped Speech Recognition.  

By Zhehuai Chen, Jasha Droppo.

雞尾酒會問題的解決需要聲學(xué)模型具有強大的序列建模能力。我們在訓(xùn)練階段為 PIT 模型添加了顯式的序列依賴性,將語言模型信息融入 PIT 模型的組合決策過程中。實驗結(jié)果顯示,這兩項技術(shù)的加入能夠顯著提升現(xiàn)有系統(tǒng)的準(zhǔn)確率,與序列鑒別性訓(xùn)練和遷移學(xué)習(xí)相結(jié)合,能使最終系統(tǒng)的準(zhǔn)確率提升 30%以上。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說