丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給skura
發(fā)送

0

「2019 年聲紋識(shí)別研究與應(yīng)用學(xué)術(shù)討論會(huì)」成功舉辦,18 位特邀嘉賓,60 名企業(yè)代表探討聲紋識(shí)別技術(shù)

本文作者: skura 2019-04-30 15:09
導(dǎo)語(yǔ):嘉賓們分享了很多干貨

雷鋒網(wǎng) AI 科技評(píng)論按,近日,「2019 年聲紋識(shí)別研究與應(yīng)用學(xué)術(shù)討論會(huì)」在昆山杜克大學(xué)學(xué)術(shù)樓一樓報(bào)告廳舉辦。本次會(huì)議由中國(guó)計(jì)算機(jī)學(xué)會(huì)和昆山杜克大學(xué)聯(lián)合舉辦,由昆山市科學(xué)技術(shù)協(xié)會(huì)提供支持,協(xié)辦方包括昆山杜克大學(xué)大數(shù)據(jù)研究中心、清華大學(xué)媒體大數(shù)據(jù)認(rèn)知計(jì)算研究中心和中國(guó)計(jì)算機(jī)學(xué)會(huì)語(yǔ)音對(duì)話與聽(tīng)覺(jué)專業(yè)工作組。大會(huì)主席由昆山杜克大學(xué)電子與計(jì)算機(jī)工程副教授,美國(guó)杜克大學(xué)電子與計(jì)算機(jī)工程系客座研究員、博士生導(dǎo)師,武漢大學(xué)人工智能研究所兼職教授李明和清華大學(xué)媒體大數(shù)據(jù)認(rèn)知計(jì)算研究中心副研究員何亮共同擔(dān)任。

上午 9:00,昆山杜克大學(xué)學(xué)術(shù)事物副校長(zhǎng),美國(guó)杜克大學(xué)講席教授高海燕參加了開幕式并進(jìn)行了開場(chǎng)致辭。

隨后,中國(guó)計(jì)算機(jī)學(xué)會(huì)語(yǔ)音對(duì)話及聽(tīng)覺(jué)專業(yè)組副主任,上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系教授俞凱老師進(jìn)行了致辭,他給大家介紹了本次會(huì)議的基本情況,感謝各位參會(huì)嘉賓的支持,呼吁語(yǔ)音界團(tuán)結(jié)合作,舉辦更多的高水平學(xué)術(shù)活動(dòng)。

「2019 年聲紋識(shí)別研究與應(yīng)用學(xué)術(shù)討論會(huì)」成功舉辦,18 位特邀嘉賓,60 名企業(yè)代表探討聲紋識(shí)別技術(shù)

本次會(huì)議分為四個(gè)環(huán)節(jié),第一個(gè)環(huán)節(jié)是關(guān)于深度學(xué)習(xí)的討論,第二個(gè)環(huán)節(jié)是對(duì)抗學(xué)習(xí)、說(shuō)話人日志相關(guān)技術(shù)的討論,第三個(gè)環(huán)節(jié)的主題是說(shuō)話人編碼,第四個(gè)環(huán)節(jié)的討論內(nèi)容是聯(lián)合學(xué)習(xí)。

第一個(gè)環(huán)節(jié):深度學(xué)習(xí)

首先上臺(tái)報(bào)告的是本次會(huì)議主席之一,昆山杜克大學(xué)電子與計(jì)算機(jī)工程副教授,美國(guó)杜克大學(xué)電子與計(jì)算機(jī)工程系客座研究員、博士生導(dǎo)師,武漢大學(xué)人工智能研究所兼職教授李明,他的分享主題是「基于端到端深度學(xué)習(xí)的說(shuō)話人和語(yǔ)種識(shí)別」。

他表示,語(yǔ)音作為語(yǔ)言的聲音表現(xiàn)形式,不僅包含了語(yǔ)言語(yǔ)義信息,同時(shí)也傳達(dá)了說(shuō)話人語(yǔ)種,性別,年齡,情感,信道,嗓音,病理,生理,心理等多種豐富的副語(yǔ)言語(yǔ)音屬性信息。以上這些語(yǔ)言語(yǔ)音屬性識(shí)別問(wèn)題從整體來(lái)看,其核心都是針對(duì)不定時(shí)長(zhǎng)文本無(wú)關(guān)的句子層面語(yǔ)音信號(hào)的有監(jiān)督學(xué)習(xí)問(wèn)題,只是要識(shí)別的屬性標(biāo)注有不同。

李明介紹了其團(tuán)隊(duì)近期在 ICASSP,INTERSEECH 等語(yǔ)音領(lǐng)域重要國(guó)際會(huì)議上發(fā)表的工作:(1)提出基于字典池化的編碼層代替原有的平均池化層,效果顯著;(2)提出一種結(jié)合注意力機(jī)制的 CNN-BLSTM 網(wǎng)絡(luò)框架,能有效地結(jié)合 CNN 和 BLSTM 各自的優(yōu)勢(shì),達(dá)到更好的系統(tǒng)性能;(3)引入 Center loss 和 Angular Softmax 以學(xué)習(xí)得到更具鑒別性的說(shuō)話人特征,后端僅僅使用余弦相似度打分即可得到較好的說(shuō)話人驗(yàn)證性能;(4)提出在網(wǎng)絡(luò)學(xué)習(xí)階段便引入長(zhǎng)度歸一化機(jī)制,后端僅僅使用簡(jiǎn)單的內(nèi)積即可得到較好的說(shuō)話人驗(yàn)證性能。

最后,李明總結(jié)說(shuō),近年來(lái),聲紋識(shí)別的研究趨勢(shì)正在快速朝著深度學(xué)習(xí)和端到端方向發(fā)展,其中最典型的就是基于句子層面的做法。他認(rèn)為,在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),數(shù)據(jù)增強(qiáng),損失函數(shù)設(shè)計(jì)等方面還有很多工作去做,還有很大的提升空間。

第二個(gè)演講嘉賓是中國(guó)科學(xué)院聲學(xué)研究所研究員、博士生導(dǎo)師,中國(guó)科學(xué)院大學(xué)崗位教授,英國(guó)謝菲爾德大學(xué)公派訪問(wèn)學(xué)者張鵬遠(yuǎn),他討論的內(nèi)容是「基于深度學(xué)習(xí)的短時(shí)聲紋識(shí)別技術(shù)」。

他認(rèn)為,在實(shí)際應(yīng)用中,由于對(duì)基于語(yǔ)音的訪問(wèn)控制需求的不斷增長(zhǎng),提升聲紋識(shí)別系統(tǒng)在短時(shí)語(yǔ)音情況下的性能變得尤為迫切。短時(shí)語(yǔ)音中說(shuō)話人信息不足以及注冊(cè)和測(cè)試語(yǔ)音的文本內(nèi)容不匹配,對(duì)于主流的基于統(tǒng)計(jì)建模的聲紋識(shí)別系統(tǒng)是一個(gè)嚴(yán)峻的挑戰(zhàn)。

為了從短時(shí)語(yǔ)音中精確提取表征說(shuō)話人個(gè)性信息的說(shuō)話人特征向量,他們團(tuán)隊(duì)提出了一種雙路神經(jīng)網(wǎng)絡(luò),從多個(gè)時(shí)間尺度來(lái)對(duì)說(shuō)話人信息進(jìn)行建模,并融合不同時(shí)間尺度的特征來(lái)進(jìn)行建模尺度的互補(bǔ),顯著提升了短時(shí)語(yǔ)音條件下的系統(tǒng)性能。

團(tuán)隊(duì)進(jìn)一步針對(duì)說(shuō)話人低維向量如 i-vector,embedding 等進(jìn)行了后端建模的研究,提出了基于區(qū)分性學(xué)習(xí)方法的神經(jīng)網(wǎng)絡(luò)來(lái)最大化說(shuō)話人的類間方差,同時(shí)最小化類內(nèi)方差,網(wǎng)絡(luò)將說(shuō)話人的低維向量映射到更具說(shuō)話人區(qū)分性的空間,從而使最終得到的低維向量能更好的進(jìn)行說(shuō)話人判決。

上午的第三個(gè)演講嘉賓是中國(guó)科學(xué)技術(shù)大學(xué)語(yǔ)音及語(yǔ)言信息處理國(guó)家工程實(shí)驗(yàn)室副教授宋彥。宋彥老師長(zhǎng)期從事人工智能和語(yǔ)音信號(hào)智能處理研究,他的演講題目是「基于深度學(xué)習(xí)的說(shuō)話人識(shí)別方法」。

他說(shuō),目前采用的深度說(shuō)話人識(shí)別方法首先利用神經(jīng)網(wǎng)絡(luò)提取前端的幀級(jí)特征,然后通過(guò)池化映射獲得可以表示說(shuō)話人特性的段級(jí)向量,最后采用 LDA/PLDA 等后端建模方法進(jìn)行度量計(jì)算。
相對(duì)于傳統(tǒng)的 i-vector 生成過(guò)程,基于深度學(xué)習(xí)的說(shuō)話人識(shí)別方法優(yōu)勢(shì)主要體現(xiàn)在區(qū)分性訓(xùn)練和利用多層網(wǎng)絡(luò)結(jié)構(gòu)對(duì)局部多幀聲學(xué)特征的有效表示上。如何進(jìn)一步改進(jìn)現(xiàn)有的深度說(shuō)話人學(xué)習(xí)方法是現(xiàn)階段的一個(gè)研究熱點(diǎn)。

對(duì)于這一問(wèn)題,他介紹了三種方法:結(jié)合密集空洞卷積和注意力機(jī)制的幀級(jí)特征提取方法、基于跨層雙線性池化操作的段級(jí)特征映射方法和基于深度判別分析優(yōu)化目標(biāo)實(shí)現(xiàn)的端到端的說(shuō)話人識(shí)別方法。

第二個(gè)環(huán)節(jié):對(duì)抗學(xué)習(xí)、說(shuō)話人日志

首先上臺(tái)的是西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師謝磊。他和大家分享了「深度對(duì)抗學(xué)習(xí)在說(shuō)話人識(shí)別中的應(yīng)用」有關(guān)的內(nèi)容。

他提及,對(duì)抗學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用非常廣泛,在語(yǔ)音領(lǐng)域也用到的很多,近兩年來(lái),和語(yǔ)音相關(guān)對(duì)抗學(xué)習(xí)研究的文章數(shù)量明顯增長(zhǎng)。

生成式對(duì)抗網(wǎng)絡(luò) (GAN) 的主要目的是用在數(shù)據(jù)生成、降噪、等很多場(chǎng)景里面。它還被用在領(lǐng)域自適應(yīng)里面,形成一個(gè)新的分布。第三個(gè)廣泛的應(yīng)用是生成對(duì)抗樣本,這會(huì)對(duì)分類系統(tǒng)產(chǎn)生大的困擾。很多研究者用對(duì)抗樣本攻擊機(jī)器學(xué)習(xí)的系統(tǒng),在原始數(shù)據(jù)上增加一些擾動(dòng),生成樣本,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)之后就有可能識(shí)別成完全不同的結(jié)果。這個(gè)思想在圖像處理領(lǐng)域非?;钴S,會(huì)造成錯(cuò)誤識(shí)別,引起了自動(dòng)駕駛,安全等領(lǐng)域的研究人員的廣泛關(guān)注。

在語(yǔ)音領(lǐng)域,GAN 可以用在語(yǔ)音識(shí)別、口音自適應(yīng)上,通過(guò)多任務(wù)學(xué)習(xí)和梯度反轉(zhuǎn)層來(lái)進(jìn)行口音或信道的自適應(yīng),然后加上其他方法可以得到較好的效果。聲紋識(shí)別也存在各種不匹配的問(wèn)題,在聲紋識(shí)別上也可以使用這一思想。同樣的思想也用在了 TTS 語(yǔ)音合成領(lǐng)域,目的是把不同的音素解耦成說(shuō)話人,風(fēng)格等,去除噪聲對(duì)建模的影響。

隨后,廈門大學(xué)副教授,全國(guó)人機(jī)語(yǔ)音通訊會(huì)議(NCMMSC)常設(shè)委員,福建省杰出青年基金獲得者洪青陽(yáng)和聽(tīng)眾探討了「基于對(duì)抗多任務(wù)學(xué)習(xí)的抗噪魯棒說(shuō)話人識(shí)別」相關(guān)的經(jīng)驗(yàn)。

洪青陽(yáng)表示,聲紋識(shí)別是比較小眾的研究,對(duì)很多人來(lái)說(shuō)是比較陌生的領(lǐng)域,但隨著技術(shù)的發(fā)展,現(xiàn)在學(xué)術(shù)界和工業(yè)界越來(lái)越重視這方面的研究。最開始研究用的是早期的英語(yǔ)數(shù)據(jù),現(xiàn)在數(shù)據(jù)處理的難度越來(lái)越大,有中文數(shù)據(jù)、長(zhǎng)語(yǔ)音,數(shù)據(jù)中還可能有短語(yǔ)音、噪聲等。

針對(duì)噪聲環(huán)境下說(shuō)話人識(shí)別系統(tǒng)下降問(wèn)題,洪青陽(yáng)團(tuán)隊(duì)設(shè)計(jì)對(duì)抗多任務(wù)網(wǎng)絡(luò)來(lái)提取具有高噪聲魯棒性的說(shuō)話人特征。該網(wǎng)絡(luò)結(jié)構(gòu)包含有三個(gè)部分:一個(gè)編碼器(encoder), 一個(gè)說(shuō)話人分類器(speaker classifier)和一個(gè)判別器(discriminator)。在訓(xùn)練過(guò)程中,編碼器和說(shuō)話人分類器聯(lián)合訓(xùn)練使 speaker embedding 更具有說(shuō)話個(gè)體與個(gè)體之間的區(qū)分性,判別器和編碼器進(jìn)行對(duì)抗訓(xùn)練使得編碼器映射得到的 embedding 包含更少的噪聲信息。通過(guò)這種對(duì)抗多任務(wù)訓(xùn)練,他們能夠得到具有噪聲魯棒性的 speaker embedding,實(shí)驗(yàn)結(jié)果表明,新的 embedding 在不同噪聲干擾的情況下均獲得較好的性能提升。

上午最后一個(gè)演講的是中國(guó)科學(xué)技術(shù)大學(xué)副教授杜俊,他的演講題目是「Recent Progress on Speech Enhancement for Speaker Diarization in Realistic Environments」。

他透露,他們團(tuán)隊(duì)做了一些說(shuō)話人日志相關(guān)的研究。例如開會(huì)的語(yǔ)音,怎么區(qū)分每個(gè)發(fā)言人。目前主流的方法是對(duì)數(shù)據(jù)進(jìn)行加噪處理,但是他們采用的方法是降噪,加噪后分類的區(qū)分度會(huì)降低。2018 年,團(tuán)隊(duì)在 Github 上開源了一個(gè)工具,可以用來(lái)降噪。他們的網(wǎng)絡(luò)和主流神經(jīng)網(wǎng)絡(luò)的區(qū)別在于中間層的設(shè)計(jì)不一樣。

他提及,語(yǔ)音降噪里面最重要的是信噪比,而深度學(xué)習(xí)的方法傾向于降噪,由此帶來(lái)的問(wèn)題是可能會(huì)把語(yǔ)音層度給破壞掉。于是他們?cè)O(shè)計(jì)了一個(gè)將信噪比分為多個(gè)階段去學(xué)習(xí)的網(wǎng)絡(luò),分而治之,這樣的好處是在每個(gè)過(guò)程中,在干什么比較清晰。隨后他們做了一些測(cè)試,在兩個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試,發(fā)現(xiàn)他們的方法在增強(qiáng)效果上獲得了提升。除了噪聲問(wèn)題之外,語(yǔ)音重疊是目前最有挑戰(zhàn)性的問(wèn)題,很多說(shuō)話人日志問(wèn)題都是由于 overlap 的影響沒(méi)有得到很好的解決。

最后他總結(jié)說(shuō),可以使用更多的訓(xùn)練數(shù)據(jù)來(lái)增強(qiáng)泛化能力;尤其是在高度不匹配的情況下,用「分層級(jí)分階段」的語(yǔ)音增強(qiáng)方法來(lái)處理數(shù)據(jù)。

他還談到,他們目前正在做的工作有:充分利用所有的學(xué)習(xí)目標(biāo)探索后處理;在去噪架構(gòu)中加入去混響;檢測(cè)重疊語(yǔ)音,分離說(shuō)話人等。

第三個(gè)環(huán)節(jié):說(shuō)話人編碼

下午第一個(gè)演講的是清華大學(xué)語(yǔ)音語(yǔ)言中心副研究員,中心常務(wù)副主任王東,他演講的主題是「說(shuō)話人識(shí)別中的嵌入向量歸一化」。

他介紹道,PLDA 和 LDA 的基本思路一樣,都用到了 speaker 的信息。LDA 和 PLDA 都能得到很好的效果,雖然 PLDA 包含 LDA,但是 LDA 和 PLDA 加在一起效果會(huì)更好,產(chǎn)生這種現(xiàn)象的原因可能是因?yàn)闅w一化的問(wèn)題。

然后,他又接著講了 LDA,PLDA 和 PCA 在三種方法的特點(diǎn),介紹了他們的工作。最后,他總結(jié)說(shuō),VAE 可以得到更好的 embedding;基于 VAE 的編碼在邊緣上是高斯約束的;約束邊緣可以導(dǎo)致更好的歸一化先驗(yàn);在只有自己或者采用 PLDA 的時(shí)候,正規(guī)化 embedding 的表現(xiàn)更好等。

下午第二個(gè)做報(bào)告的是上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系副教授,博士生導(dǎo)師,上海交大-思必馳聯(lián)合實(shí)驗(yàn)室副主任錢彥旻,他的分享主題是「Recent Advances in Deep Embedding Learning for Speaker Identification and Spoofing Detection」。

他表示,說(shuō)話人識(shí)別和欺騙檢測(cè)近年來(lái)受到學(xué)術(shù)界和業(yè)界的廣泛關(guān)注,人們希望在實(shí)際應(yīng)用中設(shè)計(jì)出高性能的系統(tǒng)。基于深度學(xué)習(xí)的方法在該領(lǐng)域得到了廣泛的應(yīng)用,在說(shuō)話人識(shí)別和反欺騙方面取得了新的里程碑。

然而,在真實(shí)復(fù)雜的場(chǎng)景下,面對(duì)短語(yǔ)音、噪聲的破壞、信道失配、大規(guī)模等困難,開發(fā)一個(gè)魯棒的系統(tǒng)仍然是非常困難的。深度嵌入學(xué)習(xí)是進(jìn)行說(shuō)話人識(shí)別和反欺騙的一個(gè)重要途徑,在這方面已有一些著名的研究成果。如之前的 d-vector 特征和當(dāng)前普遍使用的的 x-vector 特征。

他說(shuō),從 2013 年到現(xiàn)在,他們團(tuán)隊(duì)發(fā)表了 20 多篇說(shuō)話人識(shí)別和反欺騙方面的論文,這些文章大部分是關(guān)于說(shuō)話人識(shí)別的。隨后,他介紹了他們的一些論文。他們的第一個(gè)工作,是 speaker embedding 的數(shù)據(jù)增強(qiáng),第二個(gè)工作是 speaker embedding 的后處理。目前存在的問(wèn)題的較大的模型表現(xiàn)很好但是需要的計(jì)算資源大,較小的模型需要的資源少但是效果太差。改進(jìn)的方法是構(gòu)建性能良好的小型說(shuō)話人識(shí)別嵌入模型。

第三個(gè)環(huán)節(jié)以西北工業(yè)大學(xué)教授,博士生導(dǎo)師張曉雷的演講作為結(jié)尾。

張曉雷表示,傳統(tǒng)聲紋識(shí)別算法通常首先優(yōu)化代理?yè)p失函數(shù),例如分類錯(cuò)誤率,然后使用 DET 曲線或 EER 作為評(píng)價(jià)指標(biāo),這造成了優(yōu)化目標(biāo)和評(píng)價(jià)指標(biāo)之間的不匹配。

隨后,他介紹了兩種直接優(yōu)化評(píng)價(jià)指標(biāo)的度量學(xué)習(xí)后端算法。第一種算法在余弦相似度框架下最小化 EER,第二種算法在馬氏距離相似度量框架下最大化部分 ROC 曲線下面積(pAUC);這兩種后端算法都可作為深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化目標(biāo)。

基于余弦相似度量的方法存在局部最優(yōu)化的問(wèn)題,需要提供好的初始點(diǎn)。在優(yōu)化損失度量的時(shí)候,高斯分布之間的方差也會(huì)變大,需要讓這個(gè)方差在可控的范圍內(nèi)。這個(gè)算法的缺陷是,對(duì)參數(shù)的調(diào)節(jié)比較敏感,造成這個(gè)現(xiàn)象的原因是,其優(yōu)化目標(biāo)是非凸的。

為了解決這三個(gè)問(wèn)題,他們團(tuán)隊(duì)提出了基于馬氏距離相似度量框架。(1) 優(yōu)化目標(biāo) pAUC 是聲紋識(shí)別的全局評(píng)價(jià)指標(biāo),AUC 是 pAUC 的特例; (2) 基于馬氏距離,所構(gòu)造的目標(biāo)函數(shù)是凸函數(shù)。該方法有很多優(yōu)點(diǎn),可以通過(guò)參數(shù)設(shè)定,輕松的選擇難分的樣本對(duì); 也可以靈活與不同前端結(jié)合,如 i-vector / x-vector; 還可以很容易推廣到 End-to-End 的框架下。

第四個(gè)環(huán)節(jié):聯(lián)合學(xué)習(xí)。

首先上臺(tái)的是清華大學(xué)媒體大數(shù)據(jù)認(rèn)知計(jì)算研究中心,副研究員何亮。

他告訴我們,語(yǔ)音是日常生活中簡(jiǎn)潔高效的自然溝通方式,承載了大量信息。主流研究常從單一角度切入,忽視不同屬性間相互影響。從語(yǔ)音產(chǎn)生機(jī)制來(lái)看,語(yǔ)音的多維屬性是緊耦合的;從聽(tīng)感知理論來(lái)看,語(yǔ)音的多維屬性信息是共同感知,相互存進(jìn)。

基于上面的認(rèn)知,他們團(tuán)隊(duì)進(jìn)行聯(lián)合識(shí)別研究,利用貝葉斯公式將目標(biāo)問(wèn)題轉(zhuǎn)化為數(shù)學(xué)表述,推導(dǎo)五種聯(lián)合識(shí)別方法,探索論證網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)化策略和迭代收斂性等?;谇捌诘?I-vector 和潛在類別模型等研究基礎(chǔ),他和大家探討了如下工作:

  1. 基于通用語(yǔ)音識(shí)別數(shù)據(jù)庫(kù),構(gòu)建并開源聯(lián)合識(shí)別數(shù)據(jù)集;

  2. 基于 DNN-HMM、CTC 語(yǔ)音識(shí)別系統(tǒng),x-vector、DNN i-vector 說(shuō)話人識(shí)別系統(tǒng),實(shí)現(xiàn)并驗(yàn)證聯(lián)合識(shí)別系統(tǒng),重點(diǎn)是網(wǎng)絡(luò)共享和迭代優(yōu)化方法;

  3. 基于分解層次化變分自動(dòng)編碼器和多目標(biāo)優(yōu)化對(duì)抗生成網(wǎng)絡(luò),設(shè)計(jì)通用聯(lián)合識(shí)別網(wǎng)絡(luò)。
    未來(lái),我們的技術(shù)應(yīng)該是什么方向?他對(duì)此進(jìn)行了思考。

他認(rèn)為,未來(lái)有 3 個(gè)技術(shù)方向可以進(jìn)行深入研究,一是沿著深度神經(jīng)網(wǎng)絡(luò)的主線,利用對(duì)抗生成、端到端、網(wǎng)絡(luò)結(jié)構(gòu),代價(jià)函數(shù)等技術(shù)對(duì)系統(tǒng)性能進(jìn)一步提升;二是和語(yǔ)音合成相結(jié)合的聯(lián)合學(xué)習(xí)以及對(duì)抗識(shí)別;三是和語(yǔ)音識(shí)別結(jié)合的聯(lián)合學(xué)習(xí)。

隨后演講的是清華大學(xué)電子系教授歐智堅(jiān),他的報(bào)告題目是「簡(jiǎn)潔的說(shuō)話人識(shí)別及語(yǔ)音識(shí)別」。

他給大家分享了他們團(tuán)隊(duì) 3 個(gè)方面的工作:

1)引入 Joint Bayesian 鑒別分析替代現(xiàn)在主流的 PLDA(Probabilistic Linear Discriminant Analysis),不需要指定子空間的維數(shù)且提高了說(shuō)話人識(shí)別的性能。

2)引入 Angular Softmax Loss 到說(shuō)話人驗(yàn)證,不需要 Triplet 數(shù)據(jù)選擇,更容易使用且訓(xùn)練穩(wěn)定,取得了同等實(shí)驗(yàn)條件下優(yōu)異識(shí)別性能,對(duì)類別空間為開集的模式識(shí)別研究具有指導(dǎo)意義。

3)提出使用神經(jīng)時(shí)序分類(CTC)狀態(tài)拓?fù)涞臈l件隨機(jī)場(chǎng)(CRF)方法,簡(jiǎn)稱 CTC-CRF。在 WSJ、Switchboard、Librispeech 三個(gè)常用基準(zhǔn)數(shù)據(jù)集上,CTC-CRF 的性能表現(xiàn)均超過(guò)了標(biāo)準(zhǔn) CTC 模型、基于注意力的模型以及現(xiàn)在廣為流行的 Kaldi 工具包中的端對(duì)端模型(End-to-end Chain-model),同時(shí)具有訓(xùn)練流程簡(jiǎn)潔、能充分利用詞典及語(yǔ)言模型從而數(shù)據(jù)利用效率高等優(yōu)勢(shì),展示出巨大潛力。

最后,中國(guó)科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系副教授郭武、清華大學(xué)電子工程系老師張衛(wèi)強(qiáng)做了主題為「復(fù)雜環(huán)境下語(yǔ)音數(shù)據(jù)的說(shuō)話人識(shí)別及關(guān)鍵詞檢索初探」的報(bào)告。

他們認(rèn)為,說(shuō)話人識(shí)別和關(guān)鍵詞檢索目前有 3 個(gè)瓶頸問(wèn)題還沒(méi)有很好地解決:(1)數(shù)據(jù)來(lái)源廣泛,大量語(yǔ)音數(shù)據(jù)不再是安靜環(huán)境或合作方式下采集,這使得聲學(xué)條件非常復(fù)雜,傳統(tǒng)的特征提取與表征方式受到挑戰(zhàn);(2)多種語(yǔ)種混雜,數(shù)據(jù)中含有多種語(yǔ)種/方言/口音的數(shù)據(jù)混合或切換,這使得單一語(yǔ)種關(guān)鍵詞檢索系統(tǒng)的無(wú)法湊效,說(shuō)話人識(shí)別系統(tǒng)的性能顯著降低;(3)有效資源稀缺,對(duì)于小語(yǔ)種或方言,標(biāo)注數(shù)據(jù)極其有限,發(fā)音字典難以獲取,并且普遍缺少專家知識(shí),這使得傳統(tǒng)的依靠大量資源的建模方法根本無(wú)法使用,必須探索新的范式。

針對(duì)以上問(wèn)題,他們兩個(gè)課題組聯(lián)合做了一系列的攻關(guān)。針對(duì)說(shuō)話人識(shí)別,他們從兩方面進(jìn)行了改進(jìn)。(1)他們針對(duì)傳統(tǒng)的 TDNN 或者 CNN 對(duì)語(yǔ)音特征層的編碼信息提取不足的問(wèn)題,提出采用門控的 CNN(GCNN)來(lái)對(duì)語(yǔ)音特征層進(jìn)行編碼提取說(shuō)話人底層信息;進(jìn)一步,他們將門控的信息引入到注意力機(jī)制中,從而可以保證最有說(shuō)話人區(qū)分性的信息用來(lái)形成表達(dá)說(shuō)話人的 x-vector。(2)得分規(guī)整可有效調(diào)整說(shuō)話人測(cè)試得分分布,使得分分布接近正態(tài)分布,從而提升整體判決的準(zhǔn)確率。在測(cè)試集與訓(xùn)練集或者開發(fā)集不匹配的情況下,如何從大量不匹配的數(shù)據(jù)中選擇得分得到規(guī)整參數(shù)是保證系統(tǒng)性能的關(guān)鍵。他們利用無(wú)監(jiān)督聚類手段對(duì)這些得分進(jìn)行聚類,采用混合高斯模型來(lái)擬合得分分布,只挑選均值最大的一個(gè)高斯單元來(lái)作為得分規(guī)整的參數(shù)并將其應(yīng)用于說(shuō)話人的得分規(guī)整。

針對(duì)關(guān)鍵詞檢索,他們主要針對(duì)低資源場(chǎng)景進(jìn)行研究。(1)對(duì)于有幾十小時(shí)訓(xùn)練數(shù)據(jù)的情況,他們分別對(duì)特征序列和文本序列進(jìn)行 embedding,然后進(jìn)行端到端的建模,可以擺脫對(duì)語(yǔ)音識(shí)別系統(tǒng)的依賴。(2)對(duì)于有若干樣例的情況,我們采用關(guān)鍵詞-填充詞的思路,為每個(gè)關(guān)鍵詞建立模型和搜索路徑,可以進(jìn)行語(yǔ)種無(wú)關(guān)的關(guān)鍵詞檢索。(3)對(duì)于僅有一個(gè)樣例的,我們先用神經(jīng)網(wǎng)絡(luò)提取合適的特征表示,然后進(jìn)行模板匹配,可以進(jìn)行「零資源」關(guān)鍵詞檢索。

在這四個(gè)演講環(huán)節(jié)結(jié)束后,企業(yè)嘉賓上臺(tái)與學(xué)術(shù)界老師們共同探討了聲紋識(shí)別技術(shù)目前的發(fā)展現(xiàn)狀,未來(lái)可能的發(fā)展趨勢(shì)以及自己的學(xué)習(xí)經(jīng)歷等等。最后,嘉賓們討論了下次會(huì)議相關(guān)事宜。

至此,本次會(huì)議圓滿結(jié)束。

本次會(huì)議到場(chǎng)的校外聽(tīng)眾超過(guò) 130 人,特邀演講嘉賓 18 人,參會(huì)高校教師 15 人,參會(huì)企業(yè)代表 60 人,參會(huì)研究生 36 人,在線觀看直播的人數(shù)也達(dá)到了幾千人。在每個(gè)環(huán)節(jié)中,聽(tīng)眾們的討論都非常激烈,同學(xué)們的提問(wèn)異常踴躍,嘉賓們學(xué)識(shí)淵博,不厭其煩地解答相關(guān)技術(shù)問(wèn)題,到場(chǎng)的聽(tīng)眾都受益匪淺。相信明年的學(xué)術(shù)研討會(huì)一定會(huì)更加精彩,期待!

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

「2019 年聲紋識(shí)別研究與應(yīng)用學(xué)術(shù)討論會(huì)」成功舉辦,18 位特邀嘉賓,60 名企業(yè)代表探討聲紋識(shí)別技術(shù)

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)