丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給劉琳
發(fā)送

0

昆山杜克大學(xué)大數(shù)據(jù)研究中心 SMIIP 實驗室李明博士:為什么說聲紋深度編碼把聲紋識別和其他語音關(guān)聯(lián)任務(wù)有機聯(lián)系起來?| CCF-GAIR 2020

導(dǎo)語:加上聲紋識別,語音交互才算真智能。

雷鋒網(wǎng)按:2020 年 8 月 7 日,全球人工智能和機器人峰會(CCF-GAIR 2020)正式開幕。CCF-GAIR 2020 峰會由中國計算機學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦。

從 2016 年的學(xué)產(chǎn)結(jié)合,2017 年的產(chǎn)業(yè)落地,2018 年的垂直細分,2019 年的人工智能 40 周年,峰會一直致力于打造國內(nèi)人工智能和機器人領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資平臺。

8 月 8 日上午,昆山杜克大學(xué)大數(shù)據(jù)研究中心 SMIP 實驗室李明博士為前沿語音專場做了題為《基于深度編碼的聲紋識別及其關(guān)聯(lián)任務(wù)》的主題演講分享。

昆山杜克大學(xué)大數(shù)據(jù)研究中心 SMIIP 實驗室李明博士:為什么說聲紋深度編碼把聲紋識別和其他語音關(guān)聯(lián)任務(wù)有機聯(lián)系起來?| CCF-GAIR 2020

語音交互日趨成為人機交互的重要入口。語言自帶指令屬性,是人類最自然、最日常的溝通方式之一。從通過按鍵、觸控與機器交互過渡到語音人機交互,無疑是一大飛躍。但只能識別指令內(nèi)容是不夠的,真正的智能交互產(chǎn)生的基礎(chǔ)是機器能識別、區(qū)分人的身份,能像朋友一樣根據(jù)你的身份鑒別權(quán)限和提供個性化的服務(wù),否則語音交互就只是高配版遙控器,本質(zhì)還是單向的命令輸出工具——要實現(xiàn)真正智能的交互就需要加上聲紋識別這點料。

在演講中,李明副教授先是從特征提取,建立模型,魯棒性處理,分類器設(shè)計等幾個步驟介紹傳統(tǒng)聲紋方法,并隨后引出基于端到端深度學(xué)習(xí)框架的聲紋識別網(wǎng)絡(luò)設(shè)計。

李明副教授提到,基于深度編碼的聲紋識別與傳統(tǒng)的參數(shù)化建模方法從結(jié)構(gòu)上有一定的類比性,比如卷積神經(jīng)網(wǎng)絡(luò)用于特征提取,編碼層網(wǎng)絡(luò)用于計算統(tǒng)計量并得到固定維度的特征向量,全連接網(wǎng)絡(luò)用于后端分類等。

在李明副教授看來,基于深度編碼的聲紋識別是在傳統(tǒng)技術(shù)上的升級:一方面,基于深度編碼的聲紋識別更準確,效果更好;另一方面,聲紋深度編碼還可以被用于說話人日志,多說話人合成,特定人變聲,特定人語音分離等一系列關(guān)聯(lián)任務(wù)中。

最后,李明博士也介紹了幾個基于聲紋深度編碼的語音處理關(guān)聯(lián)任務(wù)。

以下為昆山杜克大學(xué)李明博士的全部演講內(nèi)容,雷鋒網(wǎng)作了不改變原意的整理及編輯:

李明:我今天的報告的題目是《基于深度編碼的聲紋識別及其關(guān)聯(lián)任務(wù)》。

我們研究中心包含了很多研究方向,我主要做的是語音處理和多模態(tài)行為信號分析。

今天主要講聲紋識別。

聲紋識別是副語言語音屬性識別問題的一個具體任務(wù),它和語種,性別、年齡、情感等標簽的識別任務(wù)是一致的,主要的核心技術(shù)問題是針對不定長文本無關(guān)語音有監(jiān)督地預(yù)測句子級別標簽。

深度學(xué)習(xí)之前的傳統(tǒng)方法一般有以下幾個步驟:信號預(yù)處理、特征提取、特征表示,魯棒性處理,以及分類器。

副語言語音屬性識別任務(wù)通常都是針對不定長的文本無關(guān)語音特征序列,因為文本內(nèi)容是不一樣的,所以很難直接進行兩個序列的對比,一般是通過生成模型,把不定長輸入特征序列的信息轉(zhuǎn)化到模型的參數(shù)向量或投影到模型上得到統(tǒng)計量特征,得到固定維度特征向量,以便于后端有監(jiān)督分類器的建模。

昆山杜克大學(xué)大數(shù)據(jù)研究中心 SMIIP 實驗室李明博士:為什么說聲紋深度編碼把聲紋識別和其他語音關(guān)聯(lián)任務(wù)有機聯(lián)系起來?| CCF-GAIR 2020

傳統(tǒng)方法我不細講,基本上傳統(tǒng)方法是 GMM 做生成模型,然后迭代GMM模型的均值向量去自適應(yīng)匹配輸入特征序列或者把數(shù)據(jù)投到模型上計算零階及一階二階統(tǒng)計量。傳統(tǒng)方法可以用非監(jiān)督的方式通過背景數(shù)據(jù)學(xué)習(xí)到 GMM 的高斯分量,把特征投影到各個高斯分量上計算統(tǒng)計量,也可以通過音素識別器,直接把特征識別到音素單元,在音素單元上計算統(tǒng)計量。

通常需要把不定常的特征序列轉(zhuǎn)變成定常、定維度的向量,當我們有固定維度的向量,比如說我們把各個高斯分量或各個音素單元上的統(tǒng)計量并聯(lián)排列到一起,它的維度是相當高的,我們的數(shù)據(jù)量一般不支持直接在高維上建模,這個時候需要降維,一般選用因子分析。也可以投影到不同的正交子空間里,這樣可以得到多個低緯度向量,比如說 JFA 把信道和空間分開。

之前說 GMM 作為生成模型,是非監(jiān)督的,也就是說語音里面可能包含了聲紋、語種、情感和各種各樣的副語言語音屬性信息,都在這幾百維的向量中,通常會有參數(shù)化的方法,如LDA,WCCN等,也有非參數(shù)化的,比如說 NDA、LSDA等做有監(jiān)督魯棒性處理,提取我要的信息,抑制其他信息。

昆山杜克大學(xué)大數(shù)據(jù)研究中心 SMIIP 實驗室李明博士:為什么說聲紋深度編碼把聲紋識別和其他語音關(guān)聯(lián)任務(wù)有機聯(lián)系起來?| CCF-GAIR 2020

由于聲紋識別的訓(xùn)練集和測試集中的人是不同的,通常我們采用和人臉識別類似的確認任務(wù)。我們會檢驗兩條語音是否為同一個人說的,這里后端一般會用 PLDA 進行打分。

傳統(tǒng)方法里有特征提取、特征表示、魯棒性處理、后端分類器建模等幾個步驟。

今天主要講基于深度學(xué)習(xí)的聲紋識別,現(xiàn)在我們可以在前端用 CNN、TDNN等網(wǎng)絡(luò)結(jié)構(gòu)提取特征,我們提取到這些特征之后,可以使用各種池化策略和編碼層設(shè)計,變成固定緯度的向量,最后全連接網(wǎng)絡(luò)代替了原來的后端分類工作,我們平時說的聲紋深度編碼就是在全連接網(wǎng)絡(luò)這里的瓶頸層向量。

如果做的是語種識別訓(xùn)練,輸出層對應(yīng)的就是不同的語種。如果做聲紋任務(wù),訓(xùn)練時輸出層對應(yīng)的是訓(xùn)練數(shù)據(jù)的說話人標簽,測試的時候要抽出來聲紋深度編碼,把注冊和測試兩個語音對應(yīng)的深度編碼比一比,看是不是同一個人。

基于深度神經(jīng)網(wǎng)絡(luò)的端到端聲紋識別可以是幀級別的也可以是句子級別的。幀級別建模方法把訓(xùn)練和測試數(shù)據(jù),切成多個短時片斷,把當前幀和前后的幾十幀放在一起做成固定維度的輸入,直接用全連接網(wǎng)絡(luò)建模,在測試時,幀級別輸出結(jié)果會被整合為句子級別輸出結(jié)果。

現(xiàn)在主流的框架是句子級別的建模,輸入是不定長的的語音信號,輸出是整個句子的聲紋標簽,可以輸出深度編碼,用于測試時做說話人確認。代表性的工作像Deep Speaker 和 X-vector。

我們提出在線的 Data Loader,把各個不定長的輸入語音句子進行隨機長度截取,并在內(nèi)存中直接展開豐富的多種在線數(shù)據(jù)增強處理,然后壓入隊列中。GPU從這個隊列抽取數(shù)據(jù)進行訓(xùn)練。 

編碼層的設(shè)計有平均池化,注意力池化,LDE池化,循環(huán)神經(jīng)網(wǎng)絡(luò)等方法。循環(huán)神經(jīng)網(wǎng)絡(luò)通常采用最后一幀的輸出作為固定維度向量。LDE,為可學(xué)習(xí)字典單元映射,把前端CNN網(wǎng)絡(luò)輸出的特征投影到不同的字典單元上計算池化,而不是全局的的平均池化。我們做文本無關(guān)的聲紋識別,希望能把投影單元分解地更細致一些?,F(xiàn)在用得比較多的是注意力池化,如Self-Attentive Pooling,在計算統(tǒng)計量的時候引入權(quán)重信息,進行加權(quán)平均。

長度歸一化(Length normalization)一般在訓(xùn)練的時候是沒有加在網(wǎng)絡(luò)里面,是得到深度編碼后再做長度歸一化和PLDA。如果我們做超大量數(shù)據(jù)或模板的打分,發(fā)現(xiàn)是比較慢的,我們能不能打分的時候用一個內(nèi)積就可以完成操作,提高速度。損失函數(shù)(Loss)設(shè)計也是非常重要的,由于同是確認問題,聲紋識別任務(wù)完全可以直接用人臉識別研究中性能好的 Loss,也是非常實用、管用的方法。

這里我列一下我們實驗室復(fù)現(xiàn)的幾個主流系統(tǒng)在Voxceleb數(shù)據(jù)集上的性能,供大家參考。第四個Resnet34是我們自己的系統(tǒng),E-TDNN、F-TDNN、Resnet-BAM,和Ecapa-TDNN都是目前國際主流的方法。

昆山杜克大學(xué)大數(shù)據(jù)研究中心 SMIIP 實驗室李明博士:為什么說聲紋深度編碼把聲紋識別和其他語音關(guān)聯(lián)任務(wù)有機聯(lián)系起來?| CCF-GAIR 2020

目前來自于智能音響、智能家居的聲紋產(chǎn)品需求量是非常大的,近場做的很好,遠場還有一些問題。比如說我們近期主辦的Interspeech FFSVC20比賽,比賽是涵蓋了文本相關(guān)和文本無關(guān)的兩個賽道,數(shù)據(jù)加在一起也有大幾百人的數(shù)據(jù)是開源的,可以用近場的開源語音大數(shù)據(jù),用一些遠場的仿真?zhèn)鬟f函數(shù),或是仿真軟件,把近場的數(shù)據(jù)增強為遠場的數(shù)據(jù)訓(xùn)練一個基本模型,再拿少量幾百人的實際遠場數(shù)據(jù)做微調(diào)(fine tuning),實際效果不錯。同時,我們也再注冊語音的數(shù)據(jù)增強,多通道以及分布式陣列的聯(lián)合建模等方面做了點工作,發(fā)表在近期的Interspeech和ICASSP會議上。

下面跟大家分享一下我們組最近的一些聲紋深度編碼的關(guān)聯(lián)應(yīng)用。聲紋識別最相關(guān)聯(lián)的任務(wù)就是說話人日志,就是給你一個涵蓋多個人說話的單通道語音,但是可能混疊的問題沒那么強,有一些混疊,核心的問題是誰在什么時間點說了什么話。首先是模塊化框架,這個方法在去年Dihard比賽中第一、第二名都是這樣的思路,先做語音端點檢測,做完后均勻分段切片,然后每個分段切片上提取聲紋深度編碼。由于是超短時語音的深度編碼,它并不能很好的把音素信息過濾掉,可能要做一些多任務(wù)學(xué)習(xí),提高魯棒性。后面打分這里我們展開講,主要講的是打分的策略,打分的方法傳統(tǒng)的是用 PLDA 進行點對點的打分,相似度矩陣里的某個點(i,j),只反應(yīng)切片片段i和j之間的相似度,沒有考慮上下文信息。我們這里引入LSTM和Vector-to-Sequence兩種方法結(jié)合上下文來計算相似度矩陣。提高相似度矩陣的準確性。

另外大家可以看到說話人日志中的端到端方法,還是有很大的潛力的,尤其是在沒有理想的聲音活動檢測的前提下。我們在損失函數(shù)上針對PIT Loss做了一些改進,降低了復(fù)雜度,可以輕松做到十幾個說話人的訓(xùn)練。在 Dihard2019的Task2測試集上,模塊化框架目前最好的系統(tǒng)結(jié)果是 27.1%,而目前端到端方法以及達到32%,未來端到端方法在task2這種實際場景是非常有潛力的。

另外,傳統(tǒng)的多說話人TTS方法比較難控制合成出來的聲音與目標聲音的相似度,我們在傳統(tǒng)的多說話人TTS結(jié)構(gòu)的基礎(chǔ)上,在輸出端額外內(nèi)嵌一個聲紋網(wǎng)絡(luò),把合成輸出的頻譜特征的聲紋深度編碼特征提取出來,然后要求輸出端和輸入的目標說話人編碼需要保持高度一致,這樣可以提高合成語音的目標人相似度,并保持基本一致的聲紋深度編碼信息。我們最近還有一個工作是 Cross-lingual multi-speaker TTS,可以把說不同語言的多個說話人的數(shù)據(jù)混合在一起訓(xùn)練多人多語言TTS系統(tǒng),比如可以讓純中文語料說話人學(xué)會合成英文,純英文語料說話人學(xué)會合成中文,非常適合混合語言多人及特定人合成任務(wù)。

時間關(guān)系,我就講到這里,謝謝大家!

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說