0
本文作者: 黃善清 | 2018-09-07 18:00 |
雷鋒網(wǎng)AI科技評論按:Interspeech 會議是全球最大的綜合性語音信號處理領(lǐng)域的科技盛會,首次參加的騰訊 AI Lab共有8篇論文入選,居國內(nèi)企業(yè)前列。這些論文有哪些值得一提的亮點(diǎn)?一起看看這篇由騰訊 AI Lab供稿的總結(jié)文章。 另外,以上事件在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評論數(shù)據(jù)庫產(chǎn)品「AI 影響因子」中有相應(yīng)加分。
9 月 2 到 6 日,Interspeech 會議在印度海得拉巴舉辦,騰訊 AI Lab 首次參加,有 8 篇論文入選,位居國內(nèi)企業(yè)前列。該年度會議由國際語音通信協(xié)會 ISCA(International Speech Communication Association)組織,是全球最大的綜合性語音信號處理領(lǐng)域的科技盛會。
騰訊 AI Lab 也在業(yè)界分享語音方面的研究成果,今年已在多個國際頂級會議和期刊上發(fā)表了系列研究成果,涵蓋從語音前端處理到后端識別及合成等整個技術(shù)流程。比如今年 4 月舉辦的 IEEE 聲學(xué)、語音與信號處理國際會議(ICASSP 2018),是由 IEEE 主辦、全球最大、最全面的信號處理及其應(yīng)用方面的頂級學(xué)術(shù)會議,騰訊 AI Lab 也入選論文 4 篇,介紹了其在多說話人語音識別、神經(jīng)網(wǎng)絡(luò)語言模型建模和說話風(fēng)格合成自適應(yīng)方面的研究進(jìn)展。
在研究方面,騰訊 AI Lab 提出了一些新的方法和改進(jìn),在語音增強(qiáng)、語音分離、語音識別、語音合成等技術(shù)方向都取得了一些不錯的進(jìn)展。在落地應(yīng)用上,語音識別中心為多個騰訊產(chǎn)品提供技術(shù)支持,比如「騰訊聽聽音箱」、「騰訊極光電視盒子」,并融合內(nèi)外部合作伙伴的先進(jìn)技術(shù),在語音控制、語義解析、語音合成(TTS)等方面都達(dá)到了業(yè)內(nèi)領(lǐng)先水平。
本文將基于智能音箱的基本工作流程介紹騰訊 AI Lab 在語音方面的近期研究進(jìn)展。
首先,我們先了解一下音箱語音交互技術(shù)鏈條。
智能音箱的最典型應(yīng)用場景是家庭,在這種場景中用戶與音箱設(shè)備的距離通常比用戶在智能手機(jī)上使用語音應(yīng)用的距離遠(yuǎn)很多,因此會引入較明顯的室內(nèi)混響、回聲,音樂、電視等環(huán)境噪聲,也會出現(xiàn)多說話人同時(shí)說話,有較強(qiáng)背景人聲的問題。要在這樣的場景中獲取、增強(qiáng)、分離得到質(zhì)量較好的語音信號并準(zhǔn)確識別是智能音箱達(dá)到好的用戶體驗(yàn)所要攻克的第一道難關(guān)。
麥克風(fēng)陣列是這一步最常用的解決方案之一,比如騰訊聽聽就采用了由 6 個麥克風(fēng)組成的環(huán)形陣列,能夠很好地捕捉來自各個方位的聲音。
麥克風(fēng)采集到聲音之后,就需要對這些聲音進(jìn)行處理,對多麥克風(fēng)采集到的聲音信號進(jìn)行處理,得到清晰的人聲以便進(jìn)一步識別。這里涉及的技術(shù)包括語音端點(diǎn)檢測、回聲消除、聲源定位和去混響、語音增強(qiáng)等。另外,對于通常處于待機(jī)狀態(tài)的智能音箱,通常都會配備語音喚醒功能。為了保證用戶體驗(yàn),語音喚醒必須要足夠靈敏和快速地做出響應(yīng),同時(shí)盡量減少非喚醒語音誤觸發(fā)引起的誤喚醒。
經(jīng)過麥克風(fēng)陣列前端處理,接下來要做的是識別說話人的身份和理解說話內(nèi)容,這方面涉及到聲紋識別、語音識別和模型自適應(yīng)等方面的問題。
之后,基于對說話內(nèi)容的理解執(zhí)行任務(wù)操作,并通過語音合成系統(tǒng)合成相應(yīng)語音來進(jìn)行回答響應(yīng)。如何合成高質(zhì)量、更自然、更有特色的語音也一直是語音領(lǐng)域的一大重點(diǎn)研究方向。
騰訊 AI Lab 的研究范圍涵蓋了上圖中總結(jié)的音箱語音交互技術(shù)鏈條的所有 5 個步驟,接下來將依此鏈條介紹騰訊 AI Lab 近期的語音研究進(jìn)展。
1)前端
采集到聲音之后,首先需要做的是消除噪聲和分離人聲,并對喚醒詞做出快速響應(yīng)。
在拾音和噪聲消除方面,騰訊 AI Lab 的 Voice Processing(簡稱 AIVP)解決方案集成了語音檢測、聲源測向、麥克風(fēng)陣列波束形成、定向拾音、噪聲抑制、混響消除、回聲消除、自動增益等多種遠(yuǎn)場語音處理模塊,能有效地為后續(xù)過程提供增強(qiáng)過的清晰語音。發(fā)表于 Symmetry 的論文《一種用于塊稀疏系統(tǒng)的改進(jìn)型集合-元素比例自適應(yīng)算法(An Improved Set-membership Proportionate Adaptive Algorithm For A Block-sparse System)》是在回聲消除方面的研究。
遠(yuǎn)場語音處理的各個模塊
在語音喚醒方面,騰訊 AI Lab 的 Interspeech 2018 研究《基于文本相關(guān)語音增強(qiáng)的小型高魯棒性的關(guān)鍵詞檢測(Text-Dependent Speech Enhancement for Small-Footprint Robust Keyword Detection)》針對語音喚醒的誤喚醒、噪聲環(huán)境中喚醒、快語速喚醒和兒童喚醒等問題提出了一種新的語音喚醒模型——使用 LSTM RNN 的文本相關(guān)語音增強(qiáng)(TDSE)技術(shù),能顯著提升關(guān)鍵詞檢測的質(zhì)量,并且在有噪聲環(huán)境下也表現(xiàn)突出,同時(shí)還能顯著降低前端和關(guān)鍵詞檢測模塊的功耗需求。
基于文本相關(guān)語音增強(qiáng)的關(guān)鍵詞檢測架構(gòu)
2)聲紋識別
聲紋識別是指根據(jù)說話人的聲波特性進(jìn)行身份辨識。這種技術(shù)有非常廣泛的應(yīng)用范圍,比如根據(jù)不同家庭用戶的偏好定制個性化的應(yīng)用組合。聲紋系統(tǒng)還可用于判斷新用戶的性別和年齡信息,以便在之后的互動中根據(jù)用戶屬性進(jìn)行相關(guān)推薦。
聲紋識別也存在一些有待攻克的挑戰(zhàn)。在技術(shù)上存在信道失配、環(huán)境噪聲、短語音、遠(yuǎn)場等難題,在應(yīng)用上還有錄音冒認(rèn)、兼容能力、交互設(shè)計(jì)等挑戰(zhàn)。聲紋模型還應(yīng)當(dāng)具備兼容確認(rèn)和辨別功能,支持隱式更新和隱式注冊,以便隨用戶使用時(shí)間的增長而逐步提升性能。
支持隱式注冊的聲紋模型的性能隨用戶使用時(shí)長增長而提升
騰訊 AI Lab 除了應(yīng)用已實(shí)現(xiàn)的經(jīng)典聲紋識別算法外(GMM-UBM、GMM/Ivector、DNN/Ivector、GSV),也在探索和開發(fā)基于 DNN embedding 的新方法,且在短語音方面已經(jīng)實(shí)現(xiàn)了優(yōu)于主流方法的識別效果。騰訊 AI Lab 也在進(jìn)行多系統(tǒng)融合的開發(fā)工作——通過合理布局全局框架,使具有較好互補(bǔ)性的聲紋算法協(xié)同工作以實(shí)現(xiàn)更精準(zhǔn)的識別。相關(guān)部分核心自研算法及系統(tǒng)性能已經(jīng)在語音頂級期刊上發(fā)表。
其中,被 Interspeech 2018 接收的論文《基于深度區(qū)分特征的變時(shí)長說話人確認(rèn)(Deep Discriminative Embeddings for Duration Robust Speaker Verification)》提出了一種基于 Inception-ResNet 的聲紋識別系統(tǒng)框架,可學(xué)習(xí)更加魯棒且更具有區(qū)分性的嵌入特征。
同樣入選 Interspeech 2018 的論文《從單通道混合語音中還原目標(biāo)說話人的深度提取網(wǎng)絡(luò)(Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures)》提出了一種深度提取網(wǎng)絡(luò)(如下圖所示),可在規(guī)范的高維嵌入空間中通過嵌入式特征計(jì)算為目標(biāo)說話人創(chuàng)建一個錨點(diǎn),并將對應(yīng)于目標(biāo)說話人的時(shí)間頻率點(diǎn)提取出來。
實(shí)驗(yàn)結(jié)果表明,給定某一說話人一段非常短的語音,如給定該說話人的喚醒詞語音(通常 1S 左右),所提出的模型就可以有效地從后續(xù)混合語音中高質(zhì)量地分離恢復(fù)出該目標(biāo)說話人的語音,其分離性能優(yōu)于多種基線模型。同時(shí),研究者還證明它可以很好地泛化到一個以上干擾說話人的情況。
深度提取網(wǎng)絡(luò)示意圖
3)語音識別
語音識別技術(shù)已經(jīng)經(jīng)歷過長足的發(fā)展,現(xiàn)在已大體能應(yīng)對人們的日常使用場景了,但在噪聲環(huán)境、多說話人場景、「雞尾酒會問題」、多語言混雜等方面仍還存在一些有待解決的難題。
騰訊 AI Lab 的語音識別解決方案是結(jié)合了說話人特征的個性化識別模型,能夠?yàn)槊课挥脩籼崛〔⒈4孀约簜€性化聲學(xué)信息特征。隨著用戶數(shù)據(jù)積累,個性化特征會自動更新,用戶識別準(zhǔn)確率可獲得顯著提升。
另外,騰訊 AI Lab 還創(chuàng)新地提出了多類單元集合融合建模方案,這是一種實(shí)現(xiàn)了不同程度單元共享、參數(shù)共享、多任務(wù)的中英混合建模方案。這種方案能在基本不影響漢語識別準(zhǔn)確度的情況下提升英語的識別水平。
騰訊 AI Lab 有多篇 Interspeech 2018 論文都針對的是這個階段的問題。
在論文《基于生成對抗網(wǎng)絡(luò)置換不變訓(xùn)練的單通道語音分離(Permutation Invariant Training of Generative Adversarial Network for Monaural Speech Separation)》中,研究者提出使用生成對抗網(wǎng)絡(luò)(GAN)來實(shí)現(xiàn)同時(shí)增強(qiáng)多個聲源的語音分離,并且在訓(xùn)練生成網(wǎng)絡(luò)時(shí)通過基于句子層級的 PIT 解決多個說話人在訓(xùn)練過程順序置換問題。實(shí)驗(yàn)也證明了這種被稱為 SSGAN-PIT 的方法的優(yōu)越性,下面給出了其訓(xùn)練過程示意圖:
SSGAN-PIT 的訓(xùn)練過程示意圖
論文《使用注意機(jī)制和門控卷積網(wǎng)絡(luò)的單聲道多說話人語音識別(Monaural Multi-Talker Speech Recognition with Attention Mechanism and Gated Convolutional Networks)》將注意機(jī)制和門控卷積網(wǎng)絡(luò)(GCN)整合進(jìn)了研究者之前開發(fā)的基于排列不變訓(xùn)練的多說話人語音識別系統(tǒng)(PIT-ASR)中,從而進(jìn)一步降低了詞錯率。如下左圖展示了用于多說話人語音識別的帶有注意機(jī)制的 PIT 框架,而右圖則為其中的注意機(jī)制:
在論文《提升基于注意機(jī)制的端到端英語會話語音識別(Improving Attention Based Sequence-to-Sequence Models for End-to-End English Conversational Speech Recognition)》中,研究者提出了兩項(xiàng)用于端到端語音識別系統(tǒng)的基于注意的序列到序列模型改進(jìn)方法。第一項(xiàng)改進(jìn)是使用一種輸入饋送架構(gòu)——其不僅會饋送語境向量,而且還會饋送之前解碼器的隱藏狀態(tài)信息,并將它們作為解碼器的輸入。第二項(xiàng)改進(jìn)基于一種用于序列到序列模型的序列最小貝葉斯風(fēng)險(xiǎn)(MBR)訓(xùn)練的更好的假設(shè)集合生成方法,其中在 MBR 訓(xùn)練階段為 N-best 生成引入了 softmax 平滑。實(shí)驗(yàn)表明這兩項(xiàng)改進(jìn)能為模型帶來顯著的增益。下表展示了實(shí)驗(yàn)結(jié)果,可以看到在不使用外部語言模型的條件下,新提出的系統(tǒng)達(dá)到了比其它使用外部模型的最新端到端系統(tǒng)顯著低的字錯誤率。
論文《詞為建模單元的端到端語音識別系統(tǒng)多階段訓(xùn)練方法(A Multistage Training Framework For Acoustic-to-Word Model)》研究了如何利用更好的模型訓(xùn)練方法在只有 300 小時(shí)的 Switchboard 數(shù)據(jù)集上也能得到具有競爭力的語音識別性能。最終,研究者將 Hierarchical-CTC、Curriculum Training、Joint CTC-CE 這三種模型訓(xùn)練方法結(jié)合到了一起,在無需使用任何語言模型和解碼器的情況下取得了優(yōu)良的表現(xiàn)。
另外,在今年 4 月舉辦的 IEEE ICASSP 2018 上,騰訊 AI Lab 有 3 篇自動語音識別方面的論文和 1 篇語音合成方面的論文(隨后將介紹)入選。
在語音合成方面,其中 2 篇都是在用于多說話人的置換不變訓(xùn)練方面的研究。
其中論文《用于單聲道多說話人語音識別的使用輔助信息的自適應(yīng)置換不變訓(xùn)練(Adaptive Permutation Invariant Training With Auxiliary Information For Monaural Multi-talker Speech Recognition)》基于騰訊 AI Lab 之前在置換不變訓(xùn)練(PIT)方面的研究提出使用音高(pitch)和 i-vector 等輔助特征來適應(yīng) PIT 模型,以及使用聯(lián)合優(yōu)化語音識別和說話人對預(yù)測的多任務(wù)學(xué)習(xí)來利用性別信息。研究結(jié)果表明 PIT 技術(shù)能與其它先進(jìn)技術(shù)結(jié)合起來提升多說話人語音識別的性能。
論文《用于單通道多說話人語音識別的置換不變訓(xùn)練中知識遷移(Knowledge Transfer In Permutation Invariant Training For Single-channel Multi-talker Speech Recognition)》則將 teacher-student 訓(xùn)練和置換不變訓(xùn)練結(jié)合到了一起,可將單說話人模型中提取出的知識用于改進(jìn) PIT 框架中的多說話人模型。實(shí)驗(yàn)結(jié)果也證明了這種方法的優(yōu)越性。下圖展示了這種加上了知識提取架構(gòu)的置換不變訓(xùn)練架構(gòu)。
另外一篇語音識別方面的 ICASSP 2018 論文《使用基于字母的特征和重要度采樣的神經(jīng)網(wǎng)絡(luò)語言建模(Neural Network Language Modeling With Letter-based Features And Importance Sampling)》則提出了一種 Kaldi 語音識別工具套件的擴(kuò)展 Kaldi-RNNLM 以支持神經(jīng)語言建模,可用于自動語音識別等相關(guān)任務(wù)。
在語音識別方面最后值得一提的是,騰訊 AI Lab 還在《Frontiers of Information Technology & Electronic Engineering》(FITEE)上發(fā)表了一篇關(guān)于「雞尾酒會問題」的綜述論文《雞尾酒會問題的過去回顧、當(dāng)前進(jìn)展和未來難題(Past Review, Current Progress, And Challenges Ahead On The Cocktail Party Problem)》,對針對這一問題的技術(shù)思路和方法做了全面的總結(jié)。
4)自然語言處理/理解
在智能音箱的工作流程中,自然語言處理是一個至關(guān)重要的階段,這涉及到對用戶意圖的理解和響應(yīng)。騰訊 AI Lab 在自然語言的處理和理解方面已有很多突破性的研究進(jìn)展,融合騰訊公司多樣化的應(yīng)用場景和生態(tài),能為騰訊的語音應(yīng)用和聽聽音箱用戶帶來良好的用戶體驗(yàn)和實(shí)用價(jià)值。
在將于當(dāng)?shù)貢r(shí)間 7 月 15-20 日在澳大利亞墨爾本舉辦的 ACL 2018 會議上,騰訊 AI Lab 有 5 篇與語言處理相關(guān)的論文入選,涉及到神經(jīng)機(jī)器翻譯、情感分類和自動評論等研究方向。騰訊 AI Lab 之前推送的文章《ACL 2018 | 解讀騰訊 AI Lab 五篇入選論文》已對這些研究成果進(jìn)行了介紹。另外在 IJCAI 2018(共 11 篇,其中語言處理方向 4 篇)和 NAACL 2018(4 篇)等國際頂級會議上也能看到騰訊 AI Lab 在語言處理方面的研究成果。
5)語音合成
對智能音箱而言,語音答復(fù)是用戶對音箱能力的最直觀感知。最好的合成語音必定要清晰、流暢、準(zhǔn)確、自然,個性化的音色還能提供進(jìn)一步的加成。
騰訊在語音合成方面有深厚的技術(shù)積累,開發(fā)了可實(shí)現(xiàn)端到端合成和重音語調(diào)合成的新技術(shù),并且在不同風(fēng)格的語音合成上也取得了亮眼的新進(jìn)展。下面展示了一些不同風(fēng)格的合成語音:
在 Interspeech 2018 上,騰訊 AI Lab 的論文《面向表現(xiàn)力語音合成采用殘差嵌入向量的快速風(fēng)格自適應(yīng)(Rapid Style Adaptation Using Residual Error Embedding for Expressive Speech Synthesis)》探索了利用殘差作為條件屬性來合成具有適當(dāng)?shù)捻嵚勺兓谋憩F(xiàn)力語音的方法。該方法有兩大優(yōu)勢:1)能自動學(xué)習(xí)獲得風(fēng)格嵌入向量,不需要人工標(biāo)注信息,從而能克服數(shù)據(jù)的不足和可靠性低的問題;2)對于訓(xùn)練集中沒有出現(xiàn)的參考語音,風(fēng)格嵌入向量可以快速生成,從而使得模型僅用一個語音片段就可以快速自適應(yīng)到目標(biāo)的風(fēng)格上。下圖展示了該論文提出的殘差編碼網(wǎng)絡(luò)的架構(gòu)(左圖)以及其中殘差編碼器的結(jié)構(gòu)(右圖)。
騰訊 AI Lab 在 ICASSP 2018 上也有一篇關(guān)于風(fēng)格適應(yīng)的論文《基于特征的說話風(fēng)格合成適應(yīng)(Feature Based Adaptation For Speaking Style Synthesis)》。這項(xiàng)研究對傳統(tǒng)的基于模型的風(fēng)格適應(yīng)(如下左圖)進(jìn)行了改進(jìn),提出了基于特征的說話風(fēng)格適應(yīng)(如下右圖)。實(shí)驗(yàn)結(jié)果證明了這種方法的有效性,并且表明這種方法能在保證合成語音質(zhì)量的同時(shí)提升其疑問語氣風(fēng)格的表現(xiàn)力。
總結(jié)
智能語音被廣泛認(rèn)為是「下一代人機(jī)交互入口」,同時(shí)也能和騰訊公司廣泛的應(yīng)用生態(tài)相結(jié)合,為用戶提供更加方便快捷的服務(wù)。騰訊 AI Lab 的技術(shù)已能為更多產(chǎn)品提供更高效更智能的解決方案。
騰訊 AI Lab 在語音方面的主攻方向包括結(jié)合說話人個性化信息語音識別、前后端聯(lián)合優(yōu)化、結(jié)合語音分離技術(shù)、語音語義的聯(lián)合識別。
騰訊 AI Lab 未來還將繼續(xù)探索語音方面的前沿技術(shù),創(chuàng)造能與人類更自然交流的語音應(yīng)用。也許未來的「騰訊聽聽音箱」也能以輕松的語調(diào)回答這個問題:
「9420,生命、宇宙以及一切的答案是什么?」
注:9420 是「騰訊聽聽音箱」的喚醒詞,而在《銀河系漫游指南》中上面這個終極問題的答案是 42,而 9420 的諧音也剛好為「就是愛你」(42=是愛),看起來是個很合適的答案。
雷鋒網(wǎng)AI科技評論
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。