0
“老婆,開門?!?/p>
如果隔壁老王不懷好意,刻意練習(xí)你的口音,相信你能感受到“京中有善口技者。會賓客大宴,于廳事之東北角施八尺屏障,口技人坐屏障中,一桌、一椅、一扇、一撫尺而已”的同等效果。
▲隔壁王叔叔
不過,如果你家安裝的是擁有聲紋識別的智能門鎖,就算隔壁老王將你的聲音模仿到出神入化,這扇門也是開不了的。
雖然,雷鋒網(wǎng)編輯早就聽說過聲紋識別技術(shù)可以應(yīng)用于智能門鎖,但是不親見,還真不能感受到它的威力。
幾天前,雷鋒網(wǎng)在清華大學(xué)的一棟大樓內(nèi),參加人工智能與信息安全論壇暨得意音通信息技術(shù)研究院成立大會時,演講聽到一半,得意音通董事長鄭方突然讓工作人員把一張門和相關(guān)設(shè)備搬上了演講臺。
這是要搞事?。?/p>
然后,兩個漂亮的小姐姐走上臺,一個扮演主人,一個扮演盜竊者。
主人在手機 App 中錄入了自己的聲音與門進行綁定后,開始了第一個回合:
小姐姐主人逛街回到家,打開 App,按照彈出來的數(shù)字密碼(實際生活中是隨機密碼,在演示過程中密碼簡化成了 12345678),直接念了密碼,順利開門了。
第二回合:手機丟了,被“小偷”撿到了。盜竊者用自己的聲音念密碼,嗯,門在意料之中地沒有反應(yīng)。
第三回合:盜竊者不死心,在偷手機之前,就悄悄尾隨過主人,并錄下了她的聲音。然后播放給門“聽”——就算此時采用的是固定密碼,盜竊者播放了好幾次主人的聲音,門依然沒有開。
不過,第一,前文也提到過,聲音門鎖此前也有落地;第二,受眾接受度還有待考驗,畢竟還有指紋識別和人臉識別這種更方便的識別手段。
但是,鄭方和得意音通副總經(jīng)理兼首席架構(gòu)師肖永明介紹的以下這個場景,就讓雷鋒網(wǎng)編輯十分期待了:
“像‘給張三轉(zhuǎn)1000元’一句話,馬上可以做語音識別、意圖理解,得出指令,進行身份確認,最后進行銀行轉(zhuǎn)帳。一句話就可以銀行轉(zhuǎn)帳或購物等,非常方便。”
肖永明還告訴雷鋒網(wǎng),目前他們正與汽車廠商合作,研制用于汽車的聲紋鎖和聲紋防盜。
這里有一個背景需要交待:
得意音通和清華大學(xué)共同負責(zé)國家頒布所有聲紋識別相關(guān)行業(yè)標準的制定,涉及行業(yè)包括公安、金融等不同行業(yè)。手機銀行現(xiàn)在設(shè)定唯一一個生物特征識別的標準就是聲紋的標準,也主要由他們起草。
其實,聲紋識別作為密碼驗證手段之一,早就在銀行服務(wù)中出現(xiàn)過。2015年,已有語音識別廠商與銀行聯(lián)合發(fā)布“聲紋+人臉”p2p轉(zhuǎn)賬產(chǎn)品。
2016年,建行手機銀行推出了聲紋驗證服務(wù)。
2015年,螞蟻金服技術(shù)團隊相關(guān)負責(zé)人稱,人臉登陸有希望在年內(nèi)上線,同時,螞蟻金服研發(fā)的聲紋技術(shù)也很有可能繼人臉識別之后應(yīng)用于登陸、轉(zhuǎn)賬等場景中。
后來,大家都知道,今年支付寶果真推出了“刷臉”服務(wù)。當然,還沒推出聲紋服務(wù)。
綜合來看,這意味著,鄭方提出的未來一句話可以轉(zhuǎn)賬這種事情還是靠譜的,而肖永明提到的汽車聲紋鎖,也在 2015 年時見諸報道,只是也是作為未來應(yīng)用的展望領(lǐng)域之一。
但是,回到問題最初,雖然看上去都是酷炫的黑科技,我能相信聲紋識的安全性嗎?為什么上面這種智能門能認出老王是老王,你是你?為什么就算是你的聲音,錄音播放也無法開門?
在雷鋒網(wǎng)的的一次硬創(chuàng)公開課中,曾有專家給出了以下不同聲音的聲紋圖,可以看到,不同的聲音,呈現(xiàn)出的畫面是迥異的:
▲1個月大嬰兒的哭聲聲紋
▲男人的口哨聲聲紋
▲下雨打雷聲聲紋
▲人聲和槍聲聲紋
真是不好意思,專家還給出了一張接吻聲的聲紋圖,就說你們接吻時不要咂巴嘴,你看這小畫面,是不是特別像日出時的海面:
還有,被視為軍事機密的核潛艇聲紋:
不同的物體發(fā)出的聲音有不同的聲紋,不同的人聲音的聲紋更是頗具奧秘,科學(xué)家的目的,就是在各種人聲中找出一個人的聲音特性,從而判定“你是你”。
接下來問題來了,第一,用什么方法可以判定“你是你”?
鄭方告訴雷鋒網(wǎng),聲紋識別是一類典型的模式識別問題。完成聲紋特征提取后,接下來就需要選擇合理的聲紋建模和識別方法。
上述是一張聲紋識別技術(shù)發(fā)展簡圖。
從1930年開始,科學(xué)家用最樸素的語音波形進行比對,看誰“浪”得不一樣。
現(xiàn)在的主流方法是高斯混合模型-通用背景模型(GMM-UBM)、基于GMM-UBM發(fā)展起來的i-vector,以及深度神經(jīng)網(wǎng)絡(luò)等。
所謂高斯混合模型(GMM),就是用高斯概率密度函數(shù)(正態(tài)分布曲線)精確地量化事物,它是一個將事物分解為若干的基于高斯概率密度函數(shù)(正態(tài)分布曲線)形成的模型。
哎呀,學(xué)渣聽上去還是不懂,怎么破?
借用某網(wǎng)友的一個生動解釋是:
GMM——道生一一生二二生三三生萬物。
GMM是人們認識自然萬物相生相克的規(guī)律,是大腦對自然認識后的長時間歸納與沉淀。
GMM的核心思想就是任意形態(tài)的函數(shù)形式(不管是可見的光,圖像,還是抽象的多維度變量模型,比如經(jīng)濟金融危機模型),都可以用多個高斯函數(shù)加權(quán)混合得到。
那么什么是GMM-UBM?它是對傳統(tǒng)GMM模型的改進,因為在實際應(yīng)用中不可能采集到足夠的語音以覆蓋所有的聲學(xué)現(xiàn)象,因此在背景模型(UBM)的基礎(chǔ)上通過MAP自適應(yīng)得到新說話人的GMM模型。
如果看上去實在有點復(fù)雜,你就簡單地把它理解為幾種不同的算法吧……
看上去簡單得不能更簡單的聲紋識別門鎖其實很“復(fù)雜”。
鄭方說,上述演示的智能門鎖將聲紋識別和語音識別結(jié)合起來,實現(xiàn)了對“Who Spoke What”的識別判斷,也就是說,“門”不但知道你是誰,還知道你說了什么。
他們還利用了新老技術(shù)的結(jié)合,比如,將GMM-UBM與i-vector方法結(jié)合起來,利用動態(tài)時序信息在文本提示聲紋識別中得以應(yīng)用,基于深度學(xué)習(xí)的聲紋特征提取方法與傳統(tǒng)動態(tài)時間規(guī)整算法結(jié)合起來,對文本進行相關(guān)聲紋識別。
第二,不小心感冒了怎么辦?家里的小朋友長大了幾歲,聲音發(fā)生了變化怎么辦?開門的時候心情不好,哭著想開門怎么辦?再或者,好不容易下定決心去了趟泰國,回家想開門怎么辦?
“門”還能認出誰是親生主人嗎?
(年度最佳戲精,花式來開門)
人的聲音還具有易變性,易受身體狀況、年齡、情緒等的影響。若在環(huán)境噪音較大和混合說話人的環(huán)境下,聲紋特征也是很難提取和建模的。
鄭方說,他們一直以來都在努力地克服這些難題,全方位地提升聲紋識別系統(tǒng)的魯棒性。
魯棒性是什么?和魯班是親戚嗎?
NONONO
魯棒是Robust的音譯,也就是健壯和強壯的意思。它是在異常和危險情況下系統(tǒng)生存的關(guān)鍵。比如說,計算機軟件在輸入錯誤、磁盤故障、網(wǎng)絡(luò)過載或有意攻擊情況下,能否不死機、不崩潰,就是該軟件的魯棒性。所謂“魯棒性”,是指控制系統(tǒng)在一定(結(jié)構(gòu),大?。┑膮?shù)攝動下,維持其它某些性能的特性。
鄭方解釋,科學(xué)家通常從技術(shù)和工程兩個角度并行處理。
例如,對于聲紋時變問題(人的聲紋隨時間變化),一方面從人類發(fā)音機理和人耳聽覺感知出發(fā),尋找語音信號中對時間魯棒的信息,從中提取時變魯棒的聲紋特征;另一方面根據(jù)用戶使用情況,設(shè)計了多種聲紋模型自動重建與更新的框架,時刻保證聲紋識別系統(tǒng)的穩(wěn)定性與準確性。
針對情感和噪音問題,其也進行了相關(guān)研究,例如,采用特征映射與補償、降噪自動編碼器等方法在一定程度上解決了其所帶來的困擾。
還有,你以為為什么在密碼設(shè)定過程中,要用數(shù)字的動態(tài)驗證碼形式而不是隨便叫一聲“老婆”?
因為在聲紋認證應(yīng)用中使用動態(tài)數(shù)字密碼形式,以及其他一些專利技術(shù)(如聲紋時變魯棒性、聯(lián)合因子分析等),可以有效抵消身體狀況、年齡、情緒等的影響。
你哭就哭吧,記得念準數(shù)字就好。
這樣還不夠,為了確保不會因為上述變故發(fā)生認不出親生主人的幺蛾子,鄭方和他的科研團隊想出了這些辦法:
1.研究了十余種典型發(fā)音方式變化對聲紋的影響,“你滴鵝幾在我搜上”也許也在分析行列中;
2.錄制了全世界規(guī)模最大、時間跨度最長的用于研究年齡變化對聲紋影響的語音數(shù)據(jù)庫,用于研究解決年齡對聲紋的影響;
3.開展情感語音的聲紋識別技術(shù)研究。比如,一個妹子說你“討厭”,一定要根據(jù)語境和語氣來分析:她到底是叫你起開,還是叫你過來。
4.環(huán)境噪聲、混合說話等對一般性的聲紋識別影響較大,所以要通過多次測試保證識別的穩(wěn)定性。
雖然已經(jīng)進行了這么多研究工作,讓“門”能認出你是你,隔壁老王是隔壁老王也并非易事。
鄭方稱,未來聲紋識別有三個有意思的研究方向。
第一,如何解決聲紋黑客攻擊問題,我們雖然已經(jīng)有了針對錄音重放的檢測技術(shù),但是黑客的手段也會不斷增多、水平不斷提高,需要更全方位的研究黑客對聲紋識別系統(tǒng)的攻擊手段,并提前研究出有效的防攻擊措施。
第二,如何構(gòu)建互聯(lián)網(wǎng)復(fù)雜環(huán)境下的統(tǒng)一聲紋平臺。當前整個互聯(lián)網(wǎng)中充斥著各種編碼格式、信道、噪音的語音,因此如何在此類復(fù)雜環(huán)境下準確高效的完成聲紋識別和身份認證也是一項巨大的挑戰(zhàn)。
第三,如何解決“雞尾酒舞會”(多說話人)問題。在實際應(yīng)用中,語音信號通常會同時夾雜著多個說話人,因此如何實現(xiàn)多說話人場景下的實時說話人檢測也將是一大研究難點。若該問題得以解決,其將在許多領(lǐng)域得以應(yīng)用,如公安刑偵中的快速目標說話人檢測。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。