騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

本文作者：黃善清

2018-09-07 18:00

導(dǎo)語(yǔ)：在研究方面，騰訊 AI Lab 提出了一些新的方法和改進(jìn)，在語(yǔ)音增強(qiáng)、語(yǔ)音分離、語(yǔ)音識(shí)別、語(yǔ)音合成等技術(shù)方向都取得了一些不錯(cuò)的進(jìn)展。

騰訊AI Lab

+24

AI影響因子

論文

名稱：Interspeech

時(shí)間：2018

企業(yè)：騰訊

雷鋒網(wǎng)AI科技評(píng)論按：Interspeech 會(huì)議是全球最大的綜合性語(yǔ)音信號(hào)處理領(lǐng)域的科技盛會(huì)，首次參加的騰訊 AI Lab共有8篇論文入選，居國(guó)內(nèi)企業(yè)前列。這些論文有哪些值得一提的亮點(diǎn)？一起看看這篇由騰訊 AI Lab供稿的總結(jié)文章。另外，以上事件在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評(píng)論數(shù)據(jù)庫(kù)產(chǎn)品「AI 影響因子」中有相應(yīng)加分。

9 月 2 到 6 日，Interspeech 會(huì)議在印度海得拉巴舉辦，騰訊 AI Lab 首次參加，有 8 篇論文入選，位居國(guó)內(nèi)企業(yè)前列。該年度會(huì)議由國(guó)際語(yǔ)音通信協(xié)會(huì) ISCA（International Speech Communication Association）組織，是全球最大的綜合性語(yǔ)音信號(hào)處理領(lǐng)域的科技盛會(huì)。

騰訊 AI Lab 也在業(yè)界分享語(yǔ)音方面的研究成果，今年已在多個(gè)國(guó)際頂級(jí)會(huì)議和期刊上發(fā)表了系列研究成果，涵蓋從語(yǔ)音前端處理到后端識(shí)別及合成等整個(gè)技術(shù)流程。比如今年 4 月舉辦的 IEEE 聲學(xué)、語(yǔ)音與信號(hào)處理國(guó)際會(huì)議（ICASSP 2018），是由 IEEE 主辦、全球最大、最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)學(xué)術(shù)會(huì)議，騰訊 AI Lab 也入選論文 4 篇，介紹了其在多說(shuō)話人語(yǔ)音識(shí)別、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型建模和說(shuō)話風(fēng)格合成自適應(yīng)方面的研究進(jìn)展。

在研究方面，騰訊 AI Lab 提出了一些新的方法和改進(jìn)，在語(yǔ)音增強(qiáng)、語(yǔ)音分離、語(yǔ)音識(shí)別、語(yǔ)音合成等技術(shù)方向都取得了一些不錯(cuò)的進(jìn)展。在落地應(yīng)用上，語(yǔ)音識(shí)別中心為多個(gè)騰訊產(chǎn)品提供技術(shù)支持，比如「騰訊聽(tīng)聽(tīng)音箱」、「騰訊極光電視盒子」，并融合內(nèi)外部合作伙伴的先進(jìn)技術(shù)，在語(yǔ)音控制、語(yǔ)義解析、語(yǔ)音合成（TTS）等方面都達(dá)到了業(yè)內(nèi)領(lǐng)先水平。

本文將基于智能音箱的基本工作流程介紹騰訊 AI Lab 在語(yǔ)音方面的近期研究進(jìn)展。

首先，我們先了解一下音箱語(yǔ)音交互技術(shù)鏈條。

騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

智能音箱的最典型應(yīng)用場(chǎng)景是家庭，在這種場(chǎng)景中用戶與音箱設(shè)備的距離通常比用戶在智能手機(jī)上使用語(yǔ)音應(yīng)用的距離遠(yuǎn)很多，因此會(huì)引入較明顯的室內(nèi)混響、回聲，音樂(lè)、電視等環(huán)境噪聲，也會(huì)出現(xiàn)多說(shuō)話人同時(shí)說(shuō)話，有較強(qiáng)背景人聲的問(wèn)題。要在這樣的場(chǎng)景中獲取、增強(qiáng)、分離得到質(zhì)量較好的語(yǔ)音信號(hào)并準(zhǔn)確識(shí)別是智能音箱達(dá)到好的用戶體驗(yàn)所要攻克的第一道難關(guān)。

麥克風(fēng)陣列是這一步最常用的解決方案之一，比如騰訊聽(tīng)聽(tīng)就采用了由 6 個(gè)麥克風(fēng)組成的環(huán)形陣列，能夠很好地捕捉來(lái)自各個(gè)方位的聲音。

麥克風(fēng)采集到聲音之后，就需要對(duì)這些聲音進(jìn)行處理，對(duì)多麥克風(fēng)采集到的聲音信號(hào)進(jìn)行處理，得到清晰的人聲以便進(jìn)一步識(shí)別。這里涉及的技術(shù)包括語(yǔ)音端點(diǎn)檢測(cè)、回聲消除、聲源定位和去混響、語(yǔ)音增強(qiáng)等。另外，對(duì)于通常處于待機(jī)狀態(tài)的智能音箱，通常都會(huì)配備語(yǔ)音喚醒功能。為了保證用戶體驗(yàn)，語(yǔ)音喚醒必須要足夠靈敏和快速地做出響應(yīng)，同時(shí)盡量減少非喚醒語(yǔ)音誤觸發(fā)引起的誤喚醒。

經(jīng)過(guò)麥克風(fēng)陣列前端處理，接下來(lái)要做的是識(shí)別說(shuō)話人的身份和理解說(shuō)話內(nèi)容，這方面涉及到聲紋識(shí)別、語(yǔ)音識(shí)別和模型自適應(yīng)等方面的問(wèn)題。

之后，基于對(duì)說(shuō)話內(nèi)容的理解執(zhí)行任務(wù)操作，并通過(guò)語(yǔ)音合成系統(tǒng)合成相應(yīng)語(yǔ)音來(lái)進(jìn)行回答響應(yīng)。如何合成高質(zhì)量、更自然、更有特色的語(yǔ)音也一直是語(yǔ)音領(lǐng)域的一大重點(diǎn)研究方向。

騰訊 AI Lab 的研究范圍涵蓋了上圖中總結(jié)的音箱語(yǔ)音交互技術(shù)鏈條的所有 5 個(gè)步驟，接下來(lái)將依此鏈條介紹騰訊 AI Lab 近期的語(yǔ)音研究進(jìn)展。

1）前端

采集到聲音之后，首先需要做的是消除噪聲和分離人聲，并對(duì)喚醒詞做出快速響應(yīng)。

在拾音和噪聲消除方面，騰訊 AI Lab 的 Voice Processing（簡(jiǎn)稱 AIVP）解決方案集成了語(yǔ)音檢測(cè)、聲源測(cè)向、麥克風(fēng)陣列波束形成、定向拾音、噪聲抑制、混響消除、回聲消除、自動(dòng)增益等多種遠(yuǎn)場(chǎng)語(yǔ)音處理模塊，能有效地為后續(xù)過(guò)程提供增強(qiáng)過(guò)的清晰語(yǔ)音。發(fā)表于 Symmetry 的論文《一種用于塊稀疏系統(tǒng)的改進(jìn)型集合-元素比例自適應(yīng)算法（An Improved Set-membership Proportionate Adaptive Algorithm For A Block-sparse System）》是在回聲消除方面的研究。

騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

遠(yuǎn)場(chǎng)語(yǔ)音處理的各個(gè)模塊

在語(yǔ)音喚醒方面，騰訊 AI Lab 的 Interspeech 2018 研究《基于文本相關(guān)語(yǔ)音增強(qiáng)的小型高魯棒性的關(guān)鍵詞檢測(cè)（Text-Dependent Speech Enhancement for Small-Footprint Robust Keyword Detection）》針對(duì)語(yǔ)音喚醒的誤喚醒、噪聲環(huán)境中喚醒、快語(yǔ)速喚醒和兒童喚醒等問(wèn)題提出了一種新的語(yǔ)音喚醒模型——使用 LSTM RNN 的文本相關(guān)語(yǔ)音增強(qiáng)（TDSE）技術(shù)，能顯著提升關(guān)鍵詞檢測(cè)的質(zhì)量，并且在有噪聲環(huán)境下也表現(xiàn)突出，同時(shí)還能顯著降低前端和關(guān)鍵詞檢測(cè)模塊的功耗需求。

騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

基于文本相關(guān)語(yǔ)音增強(qiáng)的關(guān)鍵詞檢測(cè)架構(gòu)

2）聲紋識(shí)別

聲紋識(shí)別是指根據(jù)說(shuō)話人的聲波特性進(jìn)行身份辨識(shí)。這種技術(shù)有非常廣泛的應(yīng)用范圍，比如根據(jù)不同家庭用戶的偏好定制個(gè)性化的應(yīng)用組合。聲紋系統(tǒng)還可用于判斷新用戶的性別和年齡信息，以便在之后的互動(dòng)中根據(jù)用戶屬性進(jìn)行相關(guān)推薦。

聲紋識(shí)別也存在一些有待攻克的挑戰(zhàn)。在技術(shù)上存在信道失配、環(huán)境噪聲、短語(yǔ)音、遠(yuǎn)場(chǎng)等難題，在應(yīng)用上還有錄音冒認(rèn)、兼容能力、交互設(shè)計(jì)等挑戰(zhàn)。聲紋模型還應(yīng)當(dāng)具備兼容確認(rèn)和辨別功能，支持隱式更新和隱式注冊(cè)，以便隨用戶使用時(shí)間的增長(zhǎng)而逐步提升性能。

騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

支持隱式注冊(cè)的聲紋模型的性能隨用戶使用時(shí)長(zhǎng)增長(zhǎng)而提升

騰訊 AI Lab 除了應(yīng)用已實(shí)現(xiàn)的經(jīng)典聲紋識(shí)別算法外（GMM-UBM、GMM/Ivector、DNN/Ivector、GSV），也在探索和開(kāi)發(fā)基于 DNN embedding 的新方法，且在短語(yǔ)音方面已經(jīng)實(shí)現(xiàn)了優(yōu)于主流方法的識(shí)別效果。騰訊 AI Lab 也在進(jìn)行多系統(tǒng)融合的開(kāi)發(fā)工作——通過(guò)合理布局全局框架，使具有較好互補(bǔ)性的聲紋算法協(xié)同工作以實(shí)現(xiàn)更精準(zhǔn)的識(shí)別。相關(guān)部分核心自研算法及系統(tǒng)性能已經(jīng)在語(yǔ)音頂級(jí)期刊上發(fā)表。

其中，被 Interspeech 2018 接收的論文《基于深度區(qū)分特征的變時(shí)長(zhǎng)說(shuō)話人確認(rèn)（Deep Discriminative Embeddings for Duration Robust Speaker Verification）》提出了一種基于 Inception-ResNet 的聲紋識(shí)別系統(tǒng)框架，可學(xué)習(xí)更加魯棒且更具有區(qū)分性的嵌入特征。

騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

同樣入選 Interspeech 2018 的論文《從單通道混合語(yǔ)音中還原目標(biāo)說(shuō)話人的深度提取網(wǎng)絡(luò)（Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures）》提出了一種深度提取網(wǎng)絡(luò)（如下圖所示），可在規(guī)范的高維嵌入空間中通過(guò)嵌入式特征計(jì)算為目標(biāo)說(shuō)話人創(chuàng)建一個(gè)錨點(diǎn)，并將對(duì)應(yīng)于目標(biāo)說(shuō)話人的時(shí)間頻率點(diǎn)提取出來(lái)。

實(shí)驗(yàn)結(jié)果表明，給定某一說(shuō)話人一段非常短的語(yǔ)音，如給定該說(shuō)話人的喚醒詞語(yǔ)音（通常 1S 左右），所提出的模型就可以有效地從后續(xù)混合語(yǔ)音中高質(zhì)量地分離恢復(fù)出該目標(biāo)說(shuō)話人的語(yǔ)音，其分離性能優(yōu)于多種基線模型。同時(shí)，研究者還證明它可以很好地泛化到一個(gè)以上干擾說(shuō)話人的情況。

騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

深度提取網(wǎng)絡(luò)示意圖

3）語(yǔ)音識(shí)別

語(yǔ)音識(shí)別技術(shù)已經(jīng)經(jīng)歷過(guò)長(zhǎng)足的發(fā)展，現(xiàn)在已大體能應(yīng)對(duì)人們的日常使用場(chǎng)景了，但在噪聲環(huán)境、多說(shuō)話人場(chǎng)景、「雞尾酒會(huì)問(wèn)題」、多語(yǔ)言混雜等方面仍還存在一些有待解決的難題。

騰訊 AI Lab 的語(yǔ)音識(shí)別解決方案是結(jié)合了說(shuō)話人特征的個(gè)性化識(shí)別模型，能夠?yàn)槊课挥脩籼崛〔⒈４孀约簜€(gè)性化聲學(xué)信息特征。隨著用戶數(shù)據(jù)積累，個(gè)性化特征會(huì)自動(dòng)更新，用戶識(shí)別準(zhǔn)確率可獲得顯著提升。

另外，騰訊 AI Lab 還創(chuàng)新地提出了多類單元集合融合建模方案，這是一種實(shí)現(xiàn)了不同程度單元共享、參數(shù)共享、多任務(wù)的中英混合建模方案。這種方案能在基本不影響漢語(yǔ)識(shí)別準(zhǔn)確度的情況下提升英語(yǔ)的識(shí)別水平。

騰訊 AI Lab 有多篇 Interspeech 2018 論文都針對(duì)的是這個(gè)階段的問(wèn)題。

在論文《基于生成對(duì)抗網(wǎng)絡(luò)置換不變訓(xùn)練的單通道語(yǔ)音分離（Permutation Invariant Training of Generative Adversarial Network for Monaural Speech Separation）》中，研究者提出使用生成對(duì)抗網(wǎng)絡(luò)（GAN）來(lái)實(shí)現(xiàn)同時(shí)增強(qiáng)多個(gè)聲源的語(yǔ)音分離，并且在訓(xùn)練生成網(wǎng)絡(luò)時(shí)通過(guò)基于句子層級(jí)的 PIT 解決多個(gè)說(shuō)話人在訓(xùn)練過(guò)程順序置換問(wèn)題。實(shí)驗(yàn)也證明了這種被稱為 SSGAN-PIT 的方法的優(yōu)越性，下面給出了其訓(xùn)練過(guò)程示意圖：

騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

SSGAN-PIT 的訓(xùn)練過(guò)程示意圖

論文《使用注意機(jī)制和門控卷積網(wǎng)絡(luò)的單聲道多說(shuō)話人語(yǔ)音識(shí)別（Monaural Multi-Talker Speech Recognition with Attention Mechanism and Gated Convolutional Networks）》將注意機(jī)制和門控卷積網(wǎng)絡(luò)（GCN）整合進(jìn)了研究者之前開(kāi)發(fā)的基于排列不變訓(xùn)練的多說(shuō)話人語(yǔ)音識(shí)別系統(tǒng)（PIT-ASR）中，從而進(jìn)一步降低了詞錯(cuò)率。如下左圖展示了用于多說(shuō)話人語(yǔ)音識(shí)別的帶有注意機(jī)制的 PIT 框架，而右圖則為其中的注意機(jī)制：

騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

在論文《提升基于注意機(jī)制的端到端英語(yǔ)會(huì)話語(yǔ)音識(shí)別（Improving Attention Based Sequence-to-Sequence Models for End-to-End English Conversational Speech Recognition）》中，研究者提出了兩項(xiàng)用于端到端語(yǔ)音識(shí)別系統(tǒng)的基于注意的序列到序列模型改進(jìn)方法。第一項(xiàng)改進(jìn)是使用一種輸入饋送架構(gòu)——其不僅會(huì)饋送語(yǔ)境向量，而且還會(huì)饋送之前解碼器的隱藏狀態(tài)信息，并將它們作為解碼器的輸入。第二項(xiàng)改進(jìn)基于一種用于序列到序列模型的序列最小貝葉斯風(fēng)險(xiǎn)（MBR）訓(xùn)練的更好的假設(shè)集合生成方法，其中在 MBR 訓(xùn)練階段為 N-best 生成引入了 softmax 平滑。實(shí)驗(yàn)表明這兩項(xiàng)改進(jìn)能為模型帶來(lái)顯著的增益。下表展示了實(shí)驗(yàn)結(jié)果，可以看到在不使用外部語(yǔ)言模型的條件下，新提出的系統(tǒng)達(dá)到了比其它使用外部模型的最新端到端系統(tǒng)顯著低的字錯(cuò)誤率。

騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

論文《詞為建模單元的端到端語(yǔ)音識(shí)別系統(tǒng)多階段訓(xùn)練方法（A Multistage Training Framework For Acoustic-to-Word Model）》研究了如何利用更好的模型訓(xùn)練方法在只有 300 小時(shí)的 Switchboard 數(shù)據(jù)集上也能得到具有競(jìng)爭(zhēng)力的語(yǔ)音識(shí)別性能。最終，研究者將 Hierarchical-CTC、Curriculum Training、Joint CTC-CE 這三種模型訓(xùn)練方法結(jié)合到了一起，在無(wú)需使用任何語(yǔ)言模型和解碼器的情況下取得了優(yōu)良的表現(xiàn)。

另外，在今年 4 月舉辦的 IEEE ICASSP 2018 上，騰訊 AI Lab 有 3 篇自動(dòng)語(yǔ)音識(shí)別方面的論文和 1 篇語(yǔ)音合成方面的論文（隨后將介紹）入選。

在語(yǔ)音合成方面，其中 2 篇都是在用于多說(shuō)話人的置換不變訓(xùn)練方面的研究。

其中論文《用于單聲道多說(shuō)話人語(yǔ)音識(shí)別的使用輔助信息的自適應(yīng)置換不變訓(xùn)練（Adaptive Permutation Invariant Training With Auxiliary Information For Monaural Multi-talker Speech Recognition）》基于騰訊 AI Lab 之前在置換不變訓(xùn)練（PIT）方面的研究提出使用音高（pitch）和 i-vector 等輔助特征來(lái)適應(yīng) PIT 模型，以及使用聯(lián)合優(yōu)化語(yǔ)音識(shí)別和說(shuō)話人對(duì)預(yù)測(cè)的多任務(wù)學(xué)習(xí)來(lái)利用性別信息。研究結(jié)果表明 PIT 技術(shù)能與其它先進(jìn)技術(shù)結(jié)合起來(lái)提升多說(shuō)話人語(yǔ)音識(shí)別的性能。

論文《用于單通道多說(shuō)話人語(yǔ)音識(shí)別的置換不變訓(xùn)練中知識(shí)遷移（Knowledge Transfer In Permutation Invariant Training For Single-channel Multi-talker Speech Recognition）》則將 teacher-student 訓(xùn)練和置換不變訓(xùn)練結(jié)合到了一起，可將單說(shuō)話人模型中提取出的知識(shí)用于改進(jìn) PIT 框架中的多說(shuō)話人模型。實(shí)驗(yàn)結(jié)果也證明了這種方法的優(yōu)越性。下圖展示了這種加上了知識(shí)提取架構(gòu)的置換不變訓(xùn)練架構(gòu)。

騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

另外一篇語(yǔ)音識(shí)別方面的 ICASSP 2018 論文《使用基于字母的特征和重要度采樣的神經(jīng)網(wǎng)絡(luò)語(yǔ)言建模（Neural Network Language Modeling With Letter-based Features And Importance Sampling）》則提出了一種 Kaldi 語(yǔ)音識(shí)別工具套件的擴(kuò)展 Kaldi-RNNLM 以支持神經(jīng)語(yǔ)言建模，可用于自動(dòng)語(yǔ)音識(shí)別等相關(guān)任務(wù)。

在語(yǔ)音識(shí)別方面最后值得一提的是，騰訊 AI Lab 還在《Frontiers of Information Technology & Electronic Engineering》（FITEE）上發(fā)表了一篇關(guān)于「雞尾酒會(huì)問(wèn)題」的綜述論文《雞尾酒會(huì)問(wèn)題的過(guò)去回顧、當(dāng)前進(jìn)展和未來(lái)難題（Past Review, Current Progress, And Challenges Ahead On The Cocktail Party Problem）》，對(duì)針對(duì)這一問(wèn)題的技術(shù)思路和方法做了全面的總結(jié)。

4）自然語(yǔ)言處理／理解

在智能音箱的工作流程中，自然語(yǔ)言處理是一個(gè)至關(guān)重要的階段，這涉及到對(duì)用戶意圖的理解和響應(yīng)。騰訊 AI Lab 在自然語(yǔ)言的處理和理解方面已有很多突破性的研究進(jìn)展，融合騰訊公司多樣化的應(yīng)用場(chǎng)景和生態(tài)，能為騰訊的語(yǔ)音應(yīng)用和聽(tīng)聽(tīng)音箱用戶帶來(lái)良好的用戶體驗(yàn)和實(shí)用價(jià)值。

在將于當(dāng)?shù)貢r(shí)間 7 月 15-20 日在澳大利亞墨爾本舉辦的 ACL 2018 會(huì)議上，騰訊 AI Lab 有 5 篇與語(yǔ)言處理相關(guān)的論文入選，涉及到神經(jīng)機(jī)器翻譯、情感分類和自動(dòng)評(píng)論等研究方向。騰訊 AI Lab 之前推送的文章《ACL 2018 | 解讀騰訊 AI Lab 五篇入選論文》已對(duì)這些研究成果進(jìn)行了介紹。另外在 IJCAI 2018（共 11 篇，其中語(yǔ)言處理方向 4 篇）和 NAACL 2018（4 篇）等國(guó)際頂級(jí)會(huì)議上也能看到騰訊 AI Lab 在語(yǔ)言處理方面的研究成果。

5）語(yǔ)音合成

對(duì)智能音箱而言，語(yǔ)音答復(fù)是用戶對(duì)音箱能力的最直觀感知。最好的合成語(yǔ)音必定要清晰、流暢、準(zhǔn)確、自然，個(gè)性化的音色還能提供進(jìn)一步的加成。

騰訊在語(yǔ)音合成方面有深厚的技術(shù)積累，開(kāi)發(fā)了可實(shí)現(xiàn)端到端合成和重音語(yǔ)調(diào)合成的新技術(shù)，并且在不同風(fēng)格的語(yǔ)音合成上也取得了亮眼的新進(jìn)展。下面展示了一些不同風(fēng)格的合成語(yǔ)音：

騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

在 Interspeech 2018 上，騰訊 AI Lab 的論文《面向表現(xiàn)力語(yǔ)音合成采用殘差嵌入向量的快速風(fēng)格自適應(yīng)（Rapid Style Adaptation Using Residual Error Embedding for Expressive Speech Synthesis）》探索了利用殘差作為條件屬性來(lái)合成具有適當(dāng)?shù)捻嵚勺兓谋憩F(xiàn)力語(yǔ)音的方法。該方法有兩大優(yōu)勢(shì)：1）能自動(dòng)學(xué)習(xí)獲得風(fēng)格嵌入向量，不需要人工標(biāo)注信息，從而能克服數(shù)據(jù)的不足和可靠性低的問(wèn)題；2）對(duì)于訓(xùn)練集中沒(méi)有出現(xiàn)的參考語(yǔ)音，風(fēng)格嵌入向量可以快速生成，從而使得模型僅用一個(gè)語(yǔ)音片段就可以快速自適應(yīng)到目標(biāo)的風(fēng)格上。下圖展示了該論文提出的殘差編碼網(wǎng)絡(luò)的架構(gòu)（左圖）以及其中殘差編碼器的結(jié)構(gòu)（右圖）。

騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

騰訊 AI Lab 在 ICASSP 2018 上也有一篇關(guān)于風(fēng)格適應(yīng)的論文《基于特征的說(shuō)話風(fēng)格合成適應(yīng)（Feature Based Adaptation For Speaking Style Synthesis）》。這項(xiàng)研究對(duì)傳統(tǒng)的基于模型的風(fēng)格適應(yīng)（如下左圖）進(jìn)行了改進(jìn)，提出了基于特征的說(shuō)話風(fēng)格適應(yīng)（如下右圖）。實(shí)驗(yàn)結(jié)果證明了這種方法的有效性，并且表明這種方法能在保證合成語(yǔ)音質(zhì)量的同時(shí)提升其疑問(wèn)語(yǔ)氣風(fēng)格的表現(xiàn)力。

騰訊AI Lab 8篇論文入選，從0到1解讀語(yǔ)音交互能力 | InterSpeech 2018

總結(jié)

智能語(yǔ)音被廣泛認(rèn)為是「下一代人機(jī)交互入口」，同時(shí)也能和騰訊公司廣泛的應(yīng)用生態(tài)相結(jié)合，為用戶提供更加方便快捷的服務(wù)。騰訊 AI Lab 的技術(shù)已能為更多產(chǎn)品提供更高效更智能的解決方案。

騰訊 AI Lab 在語(yǔ)音方面的主攻方向包括結(jié)合說(shuō)話人個(gè)性化信息語(yǔ)音識(shí)別、前后端聯(lián)合優(yōu)化、結(jié)合語(yǔ)音分離技術(shù)、語(yǔ)音語(yǔ)義的聯(lián)合識(shí)別。

騰訊 AI Lab 未來(lái)還將繼續(xù)探索語(yǔ)音方面的前沿技術(shù)，創(chuàng)造能與人類更自然交流的語(yǔ)音應(yīng)用。也許未來(lái)的「騰訊聽(tīng)聽(tīng)音箱」也能以輕松的語(yǔ)調(diào)回答這個(gè)問(wèn)題：

「9420，生命、宇宙以及一切的答案是什么？」

注：9420 是「騰訊聽(tīng)聽(tīng)音箱」的喚醒詞，而在《銀河系漫游指南》中上面這個(gè)終極問(wèn)題的答案是 42，而 9420 的諧音也剛好為「就是愛(ài)你」（42=是愛(ài)），看起來(lái)是個(gè)很合適的答案。

雷鋒網(wǎng)AI科技評(píng)論

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

5人收藏

相關(guān)文章

黃善清

編輯

發(fā)私信

當(dāng)月熱門文章