聲紋識(shí)別技術(shù)的現(xiàn)狀、局限與趨勢(shì)丨雷鋒網(wǎng)公開(kāi)課

本文作者：金紅

2016-11-30 17:08

導(dǎo)語(yǔ)：本文內(nèi)容來(lái)自聲智科技創(chuàng)始人陳孝良在雷鋒網(wǎng)硬創(chuàng)公開(kāi)課的分享

編者注：本文內(nèi)容來(lái)自聲智科技創(chuàng)始人陳孝良在雷鋒網(wǎng)硬創(chuàng)公開(kāi)課的分享，由雷鋒網(wǎng)旗下欄目“新智造”整理。

嘉賓簡(jiǎn)介：陳孝良，博士，聲智科技創(chuàng)始人，曾任中科院聲學(xué)所副研究員和信息化辦公室主任，中科院上海高等研究院客座，北京市公安局首屆網(wǎng)絡(luò)應(yīng)急專(zhuān)家，主要從事聲學(xué)信號(hào)處理和 GPU 深度學(xué)習(xí)算法研究工作。

聲紋識(shí)別還是一個(gè)比較窄的學(xué)科，應(yīng)用也相對(duì)較少，在此之前，先給大家看幾個(gè)聲紋的例子。

聲紋識(shí)別技術(shù)的現(xiàn)狀、局限與趨勢(shì)丨雷鋒網(wǎng)公開(kāi)課

1個(gè)月大嬰兒的哭聲聲紋

聲紋識(shí)別技術(shù)的現(xiàn)狀、局限與趨勢(shì)丨雷鋒網(wǎng)公開(kāi)課

男人的口哨聲聲紋

聲紋識(shí)別技術(shù)的現(xiàn)狀、局限與趨勢(shì)丨雷鋒網(wǎng)公開(kāi)課

下雨打雷聲聲紋

聲紋識(shí)別技術(shù)的現(xiàn)狀、局限與趨勢(shì)丨雷鋒網(wǎng)公開(kāi)課

接吻聲聲紋

聲紋識(shí)別技術(shù)的現(xiàn)狀、局限與趨勢(shì)丨雷鋒網(wǎng)公開(kāi)課

人聲和槍聲聲紋

每個(gè)例子都代表了不同的聲音特征，從表面上來(lái)看還是非常容易區(qū)分的。直觀就是看亮色的曲線差別，具體就是基音頻譜及包絡(luò)、基音幀的能量、基音共振峰的出現(xiàn)頻率及其軌跡，有條件的可以實(shí)時(shí)看自己的聲紋。

現(xiàn)狀

那我們就從聲紋識(shí)別的基本原理談起，聲紋識(shí)別是通過(guò)對(duì)一種或多種語(yǔ)音信號(hào)的特征分析來(lái)達(dá)到對(duì)未知聲音辨別的目的，簡(jiǎn)單的說(shuō)就是辨別某一句話是否是某一個(gè)人說(shuō)的技術(shù)。

該項(xiàng)技術(shù)最早是在40年代末由貝爾實(shí)驗(yàn)室開(kāi)發(fā)，主要用于軍事情報(bào)領(lǐng)域。隨著該項(xiàng)技術(shù)的逐步發(fā)展，60年代末后期在美國(guó)的法醫(yī)鑒定、法庭證據(jù)等領(lǐng)域都使用了該項(xiàng)技術(shù)，從1967年到現(xiàn)在，美國(guó)至少5000多個(gè)案件包括謀殺、強(qiáng)奸、敲詐勒索、走私毒品、賭博，政治腐敗等都通過(guò)聲紋識(shí)別技術(shù)提供了有效的線索和有力的證據(jù)。特別強(qiáng)調(diào)的是，聲紋鑒別目前已經(jīng)是公安部的標(biāo)準(zhǔn)，是可以作為證據(jù)進(jìn)行鑒定的。

聲紋識(shí)別的理論基礎(chǔ)是每一個(gè)聲音都具有獨(dú)特的特征，通過(guò)該特征能將不同人的聲音進(jìn)行有效的區(qū)分。

這種獨(dú)特的特征主要由兩個(gè)因素決定，第一個(gè)是聲腔的尺寸，具體包括咽喉、鼻腔和口腔等，這些器官的形狀、尺寸和位置決定了聲帶張力的大小和聲音頻率的范圍。因此不同的人雖然說(shuō)同樣的話，但是聲音的頻率分布是不同的，聽(tīng)起來(lái)有的低沉有的洪亮。每個(gè)人的發(fā)聲腔都是不同的，就像指紋一樣，每個(gè)人的聲音也就有獨(dú)特的特征。

第二個(gè)決定聲音特征的因素是發(fā)聲器官被操縱的方式，發(fā)聲器官包括唇、齒、舌、軟腭及腭肌肉等，他們之間相互作用就會(huì)產(chǎn)生清晰的語(yǔ)音。而他們之間的協(xié)作方式是人通過(guò)后天與周?chē)说慕涣髦须S機(jī)學(xué)習(xí)到的。人在學(xué)習(xí)說(shuō)話的過(guò)程中，通過(guò)模擬周?chē)煌说恼f(shuō)話方式，就會(huì)逐漸形成自己的聲紋特征。

因此，理論上來(lái)說(shuō)，聲紋就像指紋一樣，很少會(huì)有兩個(gè)人具有相同的聲紋特征。

美國(guó)研究機(jī)構(gòu)已經(jīng)表明在某些特點(diǎn)的環(huán)境下聲紋可以用來(lái)作為有效的證據(jù)。并且美國(guó)聯(lián)邦調(diào)查局對(duì)2000例與聲紋相關(guān)的案件進(jìn)行統(tǒng)計(jì)，利用聲紋作為證據(jù)只有0.31%的錯(cuò)誤率。目前利用聲紋來(lái)區(qū)分不同人這項(xiàng)技術(shù)已經(jīng)被廣泛認(rèn)可，并且在各個(gè)領(lǐng)域中都有應(yīng)用。

聲紋識(shí)別是個(gè)寬泛的概念，技術(shù)方面有分為兩類(lèi)：即說(shuō)話人確認(rèn)技術(shù)和說(shuō)話人辨認(rèn)技術(shù)，說(shuō)話人確認(rèn)技術(shù)是用于判斷未知說(shuō)話人是否為某個(gè)指定人；后者則是用于辨認(rèn)未知說(shuō)話人是已記錄說(shuō)話人中的哪一位。

我們通常理解的都是說(shuō)話人辨認(rèn)技術(shù)，常常應(yīng)用于刑偵破案、罪犯跟蹤、國(guó)防監(jiān)聽(tīng)、個(gè)性化應(yīng)用等等，說(shuō)話人確認(rèn)技術(shù)常常應(yīng)用于證券交易、銀行交易、公安取證、個(gè)人電腦聲控鎖、汽車(chē)聲控鎖、身份證、信用卡的識(shí)別等。

目前來(lái)看，聲紋識(shí)別常用的方法包括模板匹配法、最近鄰方法、神經(jīng)元網(wǎng)絡(luò)方法，VQ聚類(lèi)法等。

這些方法雖然處理手段不同，但基本原理是類(lèi)似的，比如剛開(kāi)始給大家展示的語(yǔ)譜圖。語(yǔ)譜圖是聲音信號(hào)的一種圖像化的表示方式，它的橫軸代表時(shí)間，縱軸代表頻率，語(yǔ)音在各個(gè)頻率點(diǎn)的幅值大小用顏色來(lái)區(qū)分。說(shuō)話人的聲音的基頻及諧頻在語(yǔ)譜圖上表現(xiàn)為一條一條的亮線，再通過(guò)不同的處理手段就可以得到不同語(yǔ)譜圖之間的相似度，最終達(dá)到聲紋識(shí)別的目的。

目前公安部聲紋鑒別就采用類(lèi)似方法，而且語(yǔ)譜圖還是用的灰度來(lái)表示。主要抽取說(shuō)話人聲音的基音頻譜及包絡(luò)、基音幀的能量、基音共振峰的出現(xiàn)頻率及其軌跡等參數(shù)表征，然后再與模式識(shí)別等傳統(tǒng)匹配方法結(jié)合進(jìn)行聲紋識(shí)別。

美國(guó)和國(guó)內(nèi)都有不少企業(yè)生產(chǎn)聲紋識(shí)別的設(shè)備，公安部為采購(gòu)這些設(shè)備還正式頒布了《安防聲紋識(shí)別應(yīng)用系統(tǒng)技術(shù)要求》的行業(yè)標(biāo)準(zhǔn)。

但是這種方法是一種靜態(tài)檢測(cè)的方法，存在很大的弊端，實(shí)時(shí)性不好，動(dòng)態(tài)檢測(cè)聲紋的需求實(shí)際上更大。

局限

現(xiàn)在的大部分研究都是有關(guān)動(dòng)態(tài)實(shí)時(shí)檢測(cè)方面的，動(dòng)態(tài)檢測(cè)的方法自然要利用靜態(tài)檢測(cè)的各種原理方法，同時(shí)也需要增加其他很多算法，比如VAD、降噪、去混響等。VAD的目的是檢測(cè)是不是人的聲音，降噪和去混響是排除環(huán)境干擾，這不僅對(duì)于聲紋檢測(cè)很中重要，對(duì)于語(yǔ)音識(shí)別更加重要。

VAD常用兩個(gè)方法，基于能量檢測(cè)和LTSD（Long-Term Spectral Divergence)，當(dāng)前用的較多是LTSD，另外特征提取方面還需要：動(dòng)態(tài)時(shí)間規(guī)整 (DTW)、矢量量化 (VQ)、支持向量機(jī) (SVM)，模型方面則需要隱馬爾可夫模型 (HMM)和高斯混合模型 (GMM)。

聲紋識(shí)別技術(shù)的現(xiàn)狀、局限與趨勢(shì)丨雷鋒網(wǎng)公開(kāi)課

這是聲紋識(shí)別常用算法的結(jié)構(gòu)圖，所有的聲紋識(shí)別，不管是用傳統(tǒng)算法還是深度學(xué)習(xí)，都需要事先建立聲紋庫(kù)，目前最全的應(yīng)該是公安部的聲紋鑒別庫(kù)。

從上面模型不難看出，聲紋識(shí)別還是一種基于數(shù)據(jù)驅(qū)動(dòng)的模式識(shí)別問(wèn)題，因?yàn)樗心Ｊ阶R(shí)別存在的問(wèn)題聲紋都存在，而且聲紋識(shí)別還有一些不太好解決的物理和計(jì)算問(wèn)題。

雖然聲紋識(shí)別的唯一性很好，但實(shí)際上我們現(xiàn)有的設(shè)備和技術(shù)仍然很難做出準(zhǔn)確分辨，特別是人的聲音還具有易變性，易受身體狀況、年齡、情緒等的影響。剛才也提到，若在環(huán)境噪音較大和混合說(shuō)話人的環(huán)境下，聲紋特征也是很難提取和建模的。

雖然深度學(xué)習(xí)帶給模式識(shí)別極大的提升，甚至還有開(kāi)源的相關(guān)算法，但是聲紋識(shí)別的研究進(jìn)展仍然不大，這仍然受制于聲紋的采集和特征的建立。

另外就是真實(shí)環(huán)境下的各種影響，包括：

1、噪音問(wèn)題
2、多人說(shuō)話
3、音樂(lè)噪聲
4、身體狀況
5、情緒影響

先看噪聲問(wèn)題，下圖是Mitchell McLaren在論文中做的研究，噪聲對(duì)不同模型的聲紋識(shí)別影響。

聲紋識(shí)別技術(shù)的現(xiàn)狀、局限與趨勢(shì)丨雷鋒網(wǎng)公開(kāi)課

從這個(gè)圖中可以看出，混響和噪聲對(duì)各類(lèi)模型和方法都有非常大的影響，這和人類(lèi)似，嘈雜環(huán)境中確實(shí)很難分辨出某個(gè)人的聲音，但是人耳比較奇特，我們可以很好的處理這種“雞尾酒會(huì)”效應(yīng)，但是目前機(jī)器還做不到。

音樂(lè)噪聲很好理解，因?yàn)橐魳?lè)通常是寬帶信號(hào)，完全覆蓋了人聲的頻段，這會(huì)非常影響聲紋的特征表現(xiàn)，動(dòng)態(tài)檢測(cè)的時(shí)候更是難以提取，我們目前在語(yǔ)音識(shí)別中采用的是回聲抵消的方法（嚴(yán)格來(lái)說(shuō)是自噪聲去除），同樣也可以用到聲紋識(shí)別，但是面對(duì)其他設(shè)備音樂(lè)也很難處理，當(dāng)前僅有波束形成這一方法。

多人說(shuō)話是聲紋識(shí)別和語(yǔ)音識(shí)別都面臨的問(wèn)題，當(dāng)前的所有模型都無(wú)法盲分離兩個(gè)以上的人聲并且同時(shí)進(jìn)行識(shí)別。

身體狀況和情緒影響是我們每個(gè)人的主要個(gè)體差異，這種差異是基于時(shí)間變化的，所以聲紋特征會(huì)出現(xiàn)某些變化，聲紋鑒別可以通過(guò)反復(fù)取樣避免這個(gè)問(wèn)題，但是動(dòng)態(tài)檢測(cè)目前還沒(méi)有好辦法。

從上面幾點(diǎn)分析，也和我們主題相關(guān)，就是華帝的小V機(jī)器人，通過(guò)記錄歌手的聲紋信息進(jìn)行判斷歌手，理論上是沒(méi)有問(wèn)題的。但是難的就是，這是聲紋識(shí)別最復(fù)雜的情況，不僅是要保證實(shí)時(shí)性，還要解決噪聲問(wèn)題、音樂(lè)干擾、兩人識(shí)別以及歌手刻意隱藏的問(wèn)題，至少目前來(lái)看，這項(xiàng)技術(shù)還遠(yuǎn)遠(yuǎn)沒(méi)有成熟。

即便從應(yīng)用來(lái)看也是這樣，除了聲紋鑒別，聲紋識(shí)別基本上就是在應(yīng)用中充當(dāng)娛樂(lè)的功能。另外，聲紋可以作為認(rèn)證手段，但是不應(yīng)該放在第一位獨(dú)立使用，而是配合其他認(rèn)證手段同時(shí)使用。

趨勢(shì)

聲紋識(shí)別也和其他識(shí)別一樣，也向著深度學(xué)習(xí)的方向發(fā)展，但是又和語(yǔ)音識(shí)別稍有差異，傳統(tǒng)算法和模型在聲紋識(shí)別中還占有相當(dāng)大的比重。

下圖是Fred Richardson在論文中提出的聲紋識(shí)別的深度學(xué)習(xí)模型示意

聲紋識(shí)別技術(shù)的現(xiàn)狀、局限與趨勢(shì)丨雷鋒網(wǎng)公開(kāi)課

深度學(xué)習(xí)的效果還是有的，下圖就是各種方法的一種比較，也就說(shuō)，將來(lái)實(shí)時(shí)聲紋識(shí)別將會(huì)有比較大的突破。

聲紋識(shí)別技術(shù)的現(xiàn)狀、局限與趨勢(shì)丨雷鋒網(wǎng)公開(kāi)課

但是難度也很大，因?yàn)樯疃葘W(xué)習(xí)是基于數(shù)據(jù)驅(qū)動(dòng)的模型，需要龐大的數(shù)據(jù)，這些數(shù)據(jù)最好是真實(shí)場(chǎng)景的數(shù)據(jù)，以及對(duì)數(shù)據(jù)的精確標(biāo)注，這些都是很費(fèi)錢(qián)很費(fèi)人的事情。而且聲紋識(shí)別訓(xùn)練庫(kù)的建立，至少要保證性別比例分布為50%±5%，包含有不同年齡段、不同地域、不同口音、不同職業(yè)。同時(shí)，測(cè)試樣本應(yīng)該涵蓋文本內(nèi)容是否相關(guān)、采集設(shè)備、傳輸信道、環(huán)境噪音、錄音回放、聲音模仿、時(shí)間跨度、采樣時(shí)長(zhǎng)、健康狀況和情感因素等影響聲紋識(shí)別性能的主要因素。

也就是說(shuō)，聲紋識(shí)別對(duì)數(shù)據(jù)的要求其實(shí)比語(yǔ)音識(shí)別還要高很多，這本身就是個(gè)很大的門(mén)檻，也是突破聲紋識(shí)別，真正能讓聲紋識(shí)別落地千家萬(wàn)戶的核心因素。

讀者提問(wèn)：

現(xiàn)在的聲紋識(shí)別能夠做到多人的同時(shí)識(shí)別嗎？比如一個(gè)場(chǎng)景有一群人，可以識(shí)別區(qū)分出有哪些人或者人數(shù)嗎？

聲紋識(shí)別和語(yǔ)音識(shí)別從技術(shù)上目前都還無(wú)法做到多人同時(shí)識(shí)別，上面第二個(gè)問(wèn)題是聲紋區(qū)分，這是可以做到的，不同人說(shuō)話的聲紋是不一樣的，采用傳統(tǒng)的方法即可區(qū)分出來(lái)，當(dāng)然也可計(jì)算人數(shù)，但是有的聲音仍然可能會(huì)被漏過(guò)。人耳有個(gè)掩蔽效應(yīng)，簡(jiǎn)單說(shuō)就是強(qiáng)的聲音會(huì)淹沒(méi)弱的聲音，當(dāng)前的聲學(xué)模型還無(wú)法很好的解決。

微信的搖一搖功能的電視語(yǔ)音識(shí)別技術(shù)使用的什么技術(shù)？

微信搖一搖是聲波通信技術(shù)，這和識(shí)別差異較大，聲波通信和無(wú)線通信類(lèi)似，特別是在水中，基本只能依賴聲音進(jìn)行信息傳輸。

Adobe VoCo利用ml合成的音頻，聲紋識(shí)別是否還有效？

合成的音頻仍然是可以鑒別的，公安部的檢測(cè)首先就要排除是否合成，但是當(dāng)前動(dòng)態(tài)檢測(cè)的方法，特別是DNN訓(xùn)練的模型可能無(wú)法區(qū)分。

根據(jù)語(yǔ)譜圖使用CNN提取特征，會(huì)比使用常用的短時(shí)聲學(xué)特征組合更有效嗎? 長(zhǎng)時(shí)聲學(xué)特征，比如常用語(yǔ)，語(yǔ)速，口音特征，詞法特征等，一般會(huì)被用來(lái)輔助進(jìn)行聲紋識(shí)別嗎？

長(zhǎng)時(shí)特征比短時(shí)特征效果會(huì)提升，但是目前來(lái)看，計(jì)算的壓力會(huì)非常大，所以長(zhǎng)時(shí)特征現(xiàn)在實(shí)時(shí)檢測(cè)中用的還較少，聲紋鑒別基本都是20秒以上，而實(shí)時(shí)檢測(cè)每幀還是20毫秒居多。

剛剛在分享中有提到聲波是有機(jī)器學(xué)習(xí)的，如果黑客一開(kāi)始就去誘騙數(shù)據(jù)庫(kù)怎么辦？

這個(gè)問(wèn)題非常好，是所有深度學(xué)習(xí)都無(wú)法回避的問(wèn)題，如果保證采樣數(shù)據(jù)的真實(shí)性，將來(lái)肯定是大問(wèn)題，但是現(xiàn)在連如何保證數(shù)據(jù)的完整性都還沒(méi)做到。實(shí)際上，我們采集的數(shù)據(jù)問(wèn)題就非常多，標(biāo)注的數(shù)據(jù)準(zhǔn)確性就更難保證了，這是個(gè)困擾深度學(xué)習(xí)，也是深度學(xué)習(xí)研究人員盡量避免談及的問(wèn)題。

做聲紋識(shí)別這類(lèi)聲學(xué)研究，需要用到哪些基礎(chǔ)的軟硬件環(huán)境才能快速上手？能否推薦一些給初學(xué)者。

聲學(xué)研究因?yàn)槠锢硪恍孕枰恍┪锢韺?shí)驗(yàn)環(huán)境，比如聲學(xué)方面的消聲室，混響室，這可以幫助更好地理解聲音，另外還需要精密的采集設(shè)備，軟件方面倒是要求不高，有一些聲學(xué)方面計(jì)算模擬的軟件，信號(hào)處理方面的就是matlab為主。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

4人收藏

相關(guān)文章