“老婆，開門”，如果隔壁老王對你的聲音模仿到出神入化

本文作者：李勤

2017-08-07 16:11

導(dǎo)語：“老婆，開門?！比绻舯诶贤醪粦押靡?，刻意練習(xí)你的口音……

“老婆，開門?！?/p>

如果隔壁老王不懷好意，刻意練習(xí)你的口音，相信你能感受到“京中有善口技者。會賓客大宴,于廳事之東北角施八尺屏障,口技人坐屏障中,一桌、一椅、一扇、一撫尺而已”的同等效果。

“老婆，開門”，如果隔壁老王對你的聲音模仿到出神入化

▲隔壁王叔叔

不過，如果你家安裝的是擁有聲紋識別的智能門鎖，就算隔壁老王將你的聲音模仿到出神入化，這扇門也是開不了的。

雖然，雷鋒網(wǎng)編輯早就聽說過聲紋識別技術(shù)可以應(yīng)用于智能門鎖，但是不親見，還真不能感受到它的威力。

幾天前，雷鋒網(wǎng)在清華大學(xué)的一棟大樓內(nèi)，參加人工智能與信息安全論壇暨得意音通信息技術(shù)研究院成立大會時(shí)，演講聽到一半，得意音通董事長鄭方突然讓工作人員把一張門和相關(guān)設(shè)備搬上了演講臺。

“老婆，開門”，如果隔壁老王對你的聲音模仿到出神入化

這是要搞事?。?/p>

然后，兩個(gè)漂亮的小姐姐走上臺，一個(gè)扮演主人，一個(gè)扮演盜竊者。

“老婆，開門”，如果隔壁老王對你的聲音模仿到出神入化

主人在手機(jī) App 中錄入了自己的聲音與門進(jìn)行綁定后，開始了第一個(gè)回合：

小姐姐主人逛街回到家，打開 App，按照彈出來的數(shù)字密碼（實(shí)際生活中是隨機(jī)密碼，在演示過程中密碼簡化成了 12345678），直接念了密碼，順利開門了。

第二回合：手機(jī)丟了，被“小偷”撿到了。盜竊者用自己的聲音念密碼，嗯，門在意料之中地沒有反應(yīng)。

第三回合：盜竊者不死心，在偷手機(jī)之前，就悄悄尾隨過主人，并錄下了她的聲音。然后播放給門“聽”——就算此時(shí)采用的是固定密碼，盜竊者播放了好幾次主人的聲音，門依然沒有開。

不過，第一，前文也提到過，聲音門鎖此前也有落地；第二，受眾接受度還有待考驗(yàn)，畢竟還有指紋識別和人臉識別這種更方便的識別手段。

但是，鄭方和得意音通副總經(jīng)理兼首席架構(gòu)師肖永明介紹的以下這個(gè)場景，就讓雷鋒網(wǎng)編輯十分期待了：

“像‘給張三轉(zhuǎn)1000元’一句話，馬上可以做語音識別、意圖理解，得出指令，進(jìn)行身份確認(rèn)，最后進(jìn)行銀行轉(zhuǎn)帳。一句話就可以銀行轉(zhuǎn)帳或購物等，非常方便?！?/strong>

肖永明還告訴雷鋒網(wǎng)，目前他們正與汽車廠商合作，研制用于汽車的聲紋鎖和聲紋防盜。

這里有一個(gè)背景需要交待：

得意音通和清華大學(xué)共同負(fù)責(zé)國家頒布所有聲紋識別相關(guān)行業(yè)標(biāo)準(zhǔn)的制定，涉及行業(yè)包括公安、金融等不同行業(yè)。手機(jī)銀行現(xiàn)在設(shè)定唯一一個(gè)生物特征識別的標(biāo)準(zhǔn)就是聲紋的標(biāo)準(zhǔn)，也主要由他們起草。

其實(shí)，聲紋識別作為密碼驗(yàn)證手段之一，早就在銀行服務(wù)中出現(xiàn)過。2015年，已有語音識別廠商與銀行聯(lián)合發(fā)布“聲紋+人臉”p2p轉(zhuǎn)賬產(chǎn)品。

2016年，建行手機(jī)銀行推出了聲紋驗(yàn)證服務(wù)。

2015年，螞蟻金服技術(shù)團(tuán)隊(duì)相關(guān)負(fù)責(zé)人稱，人臉登陸有希望在年內(nèi)上線，同時(shí)，螞蟻金服研發(fā)的聲紋技術(shù)也很有可能繼人臉識別之后應(yīng)用于登陸、轉(zhuǎn)賬等場景中。

后來，大家都知道，今年支付寶果真推出了“刷臉”服務(wù)。當(dāng)然，還沒推出聲紋服務(wù)。

綜合來看，這意味著，鄭方提出的未來一句話可以轉(zhuǎn)賬這種事情還是靠譜的，而肖永明提到的汽車聲紋鎖，也在 2015 年時(shí)見諸報(bào)道，只是也是作為未來應(yīng)用的展望領(lǐng)域之一。

但是，回到問題最初，雖然看上去都是酷炫的黑科技，我能相信聲紋識的安全性嗎？為什么上面這種智能門能認(rèn)出老王是老王，你是你？為什么就算是你的聲音，錄音播放也無法開門？

－－下面才是技術(shù)秀－－

在雷鋒網(wǎng)的的一次硬創(chuàng)公開課中，曾有專家給出了以下不同聲音的聲紋圖，可以看到，不同的聲音，呈現(xiàn)出的畫面是迥異的：

▲1個(gè)月大嬰兒的哭聲聲紋

▲男人的口哨聲聲紋

▲下雨打雷聲聲紋

▲人聲和槍聲聲紋

真是不好意思，專家還給出了一張接吻聲的聲紋圖，就說你們接吻時(shí)不要咂巴嘴，你看這小畫面，是不是特別像日出時(shí)的海面：

還有，被視為軍事機(jī)密的核潛艇聲紋：

不同的物體發(fā)出的聲音有不同的聲紋，不同的人聲音的聲紋更是頗具奧秘，科學(xué)家的目的，就是在各種人聲中找出一個(gè)人的聲音特性，從而判定“你是你”。

接下來問題來了，第一，用什么方法可以判定“你是你”？

鄭方告訴雷鋒網(wǎng)，聲紋識別是一類典型的模式識別問題。完成聲紋特征提取后，接下來就需要選擇合理的聲紋建模和識別方法。

上述是一張聲紋識別技術(shù)發(fā)展簡圖。

從1930年開始，科學(xué)家用最樸素的語音波形進(jìn)行比對，看誰“浪”得不一樣。

現(xiàn)在的主流方法是高斯混合模型-通用背景模型（GMM-UBM）、基于GMM-UBM發(fā)展起來的i-vector，以及深度神經(jīng)網(wǎng)絡(luò)等。

所謂高斯混合模型（GMM），就是用高斯概率密度函數(shù)（正態(tài)分布曲線）精確地量化事物，它是一個(gè)將事物分解為若干的基于高斯概率密度函數(shù)（正態(tài)分布曲線）形成的模型。

哎呀，學(xué)渣聽上去還是不懂，怎么破？

借用某網(wǎng)友的一個(gè)生動(dòng)解釋是：

GMM——道生一一生二二生三三生萬物。
GMM是人們認(rèn)識自然萬物相生相克的規(guī)律，是大腦對自然認(rèn)識后的長時(shí)間歸納與沉淀。
GMM的核心思想就是任意形態(tài)的函數(shù)形式（不管是可見的光，圖像，還是抽象的多維度變量模型，比如經(jīng)濟(jì)金融危機(jī)模型），都可以用多個(gè)高斯函數(shù)加權(quán)混合得到。
那么什么是GMM-UBM？它是對傳統(tǒng)GMM模型的改進(jìn)，因?yàn)樵趯?shí)際應(yīng)用中不可能采集到足夠的語音以覆蓋所有的聲學(xué)現(xiàn)象，因此在背景模型（UBM）的基礎(chǔ)上通過MAP自適應(yīng)得到新說話人的GMM模型。

如果看上去實(shí)在有點(diǎn)復(fù)雜，你就簡單地把它理解為幾種不同的算法吧……

看上去簡單得不能更簡單的聲紋識別門鎖其實(shí)很“復(fù)雜”。

鄭方說，上述演示的智能門鎖將聲紋識別和語音識別結(jié)合起來，實(shí)現(xiàn)了對“Who Spoke What”的識別判斷，也就是說，“門”不但知道你是誰，還知道你說了什么。

他們還利用了新老技術(shù)的結(jié)合，比如，將GMM-UBM與i-vector方法結(jié)合起來，利用動(dòng)態(tài)時(shí)序信息在文本提示聲紋識別中得以應(yīng)用，基于深度學(xué)習(xí)的聲紋特征提取方法與傳統(tǒng)動(dòng)態(tài)時(shí)間規(guī)整算法結(jié)合起來，對文本進(jìn)行相關(guān)聲紋識別。

第二，不小心感冒了怎么辦？家里的小朋友長大了幾歲，聲音發(fā)生了變化怎么辦？開門的時(shí)候心情不好，哭著想開門怎么辦？再或者，好不容易下定決心去了趟泰國，回家想開門怎么辦？

“門”還能認(rèn)出誰是親生主人嗎？

（年度最佳戲精，花式來開門）

人的聲音還具有易變性，易受身體狀況、年齡、情緒等的影響。若在環(huán)境噪音較大和混合說話人的環(huán)境下，聲紋特征也是很難提取和建模的。

鄭方說，他們一直以來都在努力地克服這些難題，全方位地提升聲紋識別系統(tǒng)的魯棒性。

魯棒性是什么？和魯班是親戚嗎？

NONONO

魯棒是Robust的音譯，也就是健壯和強(qiáng)壯的意思。它是在異常和危險(xiǎn)情況下系統(tǒng)生存的關(guān)鍵。比如說，計(jì)算機(jī)軟件在輸入錯(cuò)誤、磁盤故障、網(wǎng)絡(luò)過載或有意攻擊情況下，能否不死機(jī)、不崩潰，就是該軟件的魯棒性。所謂“魯棒性”，是指控制系統(tǒng)在一定（結(jié)構(gòu)，大?。┑膮?shù)攝動(dòng)下，維持其它某些性能的特性。

鄭方解釋，科學(xué)家通常從技術(shù)和工程兩個(gè)角度并行處理。

例如，對于聲紋時(shí)變問題（人的聲紋隨時(shí)間變化），一方面從人類發(fā)音機(jī)理和人耳聽覺感知出發(fā)，尋找語音信號中對時(shí)間魯棒的信息，從中提取時(shí)變魯棒的聲紋特征；另一方面根據(jù)用戶使用情況，設(shè)計(jì)了多種聲紋模型自動(dòng)重建與更新的框架，時(shí)刻保證聲紋識別系統(tǒng)的穩(wěn)定性與準(zhǔn)確性。

針對情感和噪音問題，其也進(jìn)行了相關(guān)研究，例如，采用特征映射與補(bǔ)償、降噪自動(dòng)編碼器等方法在一定程度上解決了其所帶來的困擾。

還有，你以為為什么在密碼設(shè)定過程中，要用數(shù)字的動(dòng)態(tài)驗(yàn)證碼形式而不是隨便叫一聲“老婆”？

因?yàn)樵诼暭y認(rèn)證應(yīng)用中使用動(dòng)態(tài)數(shù)字密碼形式，以及其他一些專利技術(shù)（如聲紋時(shí)變魯棒性、聯(lián)合因子分析等），可以有效抵消身體狀況、年齡、情緒等的影響。

你哭就哭吧，記得念準(zhǔn)數(shù)字就好。

這樣還不夠，為了確保不會因?yàn)樯鲜鲎児拾l(fā)生認(rèn)不出親生主人的幺蛾子，鄭方和他的科研團(tuán)隊(duì)想出了這些辦法：

1.研究了十余種典型發(fā)音方式變化對聲紋的影響，“你滴鵝幾在我搜上”也許也在分析行列中；

2.錄制了全世界規(guī)模最大、時(shí)間跨度最長的用于研究年齡變化對聲紋影響的語音數(shù)據(jù)庫，用于研究解決年齡對聲紋的影響；

3.開展情感語音的聲紋識別技術(shù)研究。比如，一個(gè)妹子說你“討厭”，一定要根據(jù)語境和語氣來分析：她到底是叫你起開，還是叫你過來。

4.環(huán)境噪聲、混合說話等對一般性的聲紋識別影響較大，所以要通過多次測試保證識別的穩(wěn)定性。

雖然已經(jīng)進(jìn)行了這么多研究工作，讓“門”能認(rèn)出你是你，隔壁老王是隔壁老王也并非易事。

鄭方稱，未來聲紋識別有三個(gè)有意思的研究方向。

第一，如何解決聲紋黑客攻擊問題，我們雖然已經(jīng)有了針對錄音重放的檢測技術(shù)，但是黑客的手段也會不斷增多、水平不斷提高，需要更全方位的研究黑客對聲紋識別系統(tǒng)的攻擊手段，并提前研究出有效的防攻擊措施。

第二，如何構(gòu)建互聯(lián)網(wǎng)復(fù)雜環(huán)境下的統(tǒng)一聲紋平臺。當(dāng)前整個(gè)互聯(lián)網(wǎng)中充斥著各種編碼格式、信道、噪音的語音，因此如何在此類復(fù)雜環(huán)境下準(zhǔn)確高效的完成聲紋識別和身份認(rèn)證也是一項(xiàng)巨大的挑戰(zhàn)。

第三，如何解決“雞尾酒舞會”（多說話人）問題。在實(shí)際應(yīng)用中，語音信號通常會同時(shí)夾雜著多個(gè)說話人，因此如何實(shí)現(xiàn)多說話人場景下的實(shí)時(shí)說話人檢測也將是一大研究難點(diǎn)。若該問題得以解決，其將在許多領(lǐng)域得以應(yīng)用，如公安刑偵中的快速目標(biāo)說話人檢測。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

分享：

相關(guān)文章

聲紋聲紋識別門禁智能門鎖網(wǎng)絡(luò)安全黑客

天貓精靈今天推出 Sound 系列，沉淀四年的智能聲學(xué)有 ...

AI 平臺第一股！云從科技，AI 后來者的逆襲路

區(qū)別于行業(yè)！三翼鳥發(fā)布全屋智慧全場景解決方案

中科院創(chuàng)業(yè)往事：作業(yè)、基業(yè)與功業(yè)

李勤

編輯、作者

跟蹤互聯(lián)網(wǎng)安全、黑客、極客。微信：qinqin0511。

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

最新文章

以AI對抗AI，補(bǔ)天鍛造人工智能時(shí)代白帽人才“熔爐”

黑客已經(jīng)有數(shù)十種攻擊大模型的手段，如何用AI對抗AI？

獨(dú)家丨360集團(tuán)副總裁、首席安全官杜躍進(jìn)將離職

獨(dú)家丨騰訊副總裁丁珂退休

安全大模型層出不窮，網(wǎng)安行業(yè)也忍不住了

超800億日志、2600萬+次攻擊...這份杭州亞運(yùn)會網(wǎng)絡(luò)安?！傲闶鹿省背煽儐纬鰻t

熱門搜索

銀行微博惠普小米手機(jī) 谷歌眼鏡 tiktok kinect AI教育語音助手任正非人機(jī)交互

“老婆，開門”，如果隔壁老王對你的聲音模仿到出神入化

－－下面才是技術(shù)秀－－

“老婆，開門”，如果隔壁老王對你的聲音模仿到出神入化