3
本文作者: 宮雅卓 | 2015-09-30 08:30 |
【編者按】雷鋒網(wǎng)專欄特約作者宮雅卓,聚虹光電創(chuàng)始人,上海交大博士,主攻生物識(shí)別領(lǐng)域,在虹膜識(shí)別領(lǐng)域有15年的專研。本文是《碟中諜5》背后的生物識(shí)別技術(shù)系列科普的下篇——語(yǔ)音識(shí)別篇。
電影中,伊森.亨特重復(fù)播放由若干單詞組成的一小段英國(guó)首相的錄音,就輕松騙過了語(yǔ)音識(shí)別系統(tǒng)??此戚p松的破解過程,只需要一臺(tái)錄音機(jī)就能完成的攻擊手段,讓“語(yǔ)音識(shí)別技術(shù)”在黑科技云集的科幻大片中并不那么耀眼。
日常生活中,我們也有接觸到各種形式的語(yǔ)音識(shí)別技術(shù),用來(lái)取代鍵盤輸入,或者變身成Siri一般的智能小助手,與人類進(jìn)行簡(jiǎn)單的對(duì)話。
語(yǔ)音識(shí)別技術(shù),到底在研究什么?能多大程度改變我們的生活?
我為各位一一道來(lái)。
(“碟中諜5”中的語(yǔ)音識(shí)別系統(tǒng))
語(yǔ)音識(shí)別的特點(diǎn)
語(yǔ)音識(shí)別,是一種結(jié)合了生理和行為兩種成分的生物認(rèn)證技術(shù)。氣管、鼻腔、咽喉、舌頭等組織的相互配合,影響了聲音的音調(diào)、音強(qiáng)和音色,從而形成了每個(gè)人聲音的獨(dú)特性,這構(gòu)成語(yǔ)音的生理基礎(chǔ);而每個(gè)人不同的說(shuō)話內(nèi)容,則構(gòu)成了語(yǔ)音的行為基礎(chǔ)。
因此,語(yǔ)音識(shí)別是一種很有趣的過程,既要知道你在說(shuō)什么內(nèi)容(行為特征),又要知道你在以什么樣的方式說(shuō)(生理特征)。
語(yǔ)音識(shí)別,是成本最低的生物識(shí)別技術(shù)。
因?yàn)椴恍枰蕾嚢嘿F的成像芯片和光學(xué)鏡頭,也沒有臺(tái)式PC和移動(dòng)終端的限制,只需要一枚麥克風(fēng)即可采集語(yǔ)音,因此在各種身份認(rèn)證產(chǎn)品中都可以集成該功能。用戶對(duì)著麥克風(fēng)說(shuō)出特定的短語(yǔ),系統(tǒng)將用戶的語(yǔ)音樣本過濾后,與先前存儲(chǔ)的語(yǔ)音樣本比較,達(dá)到一定的近似度閾值,用戶就通過了身份認(rèn)證。
語(yǔ)音識(shí)別的應(yīng)用
語(yǔ)音識(shí)別技術(shù),分為“語(yǔ)義識(shí)別”和“語(yǔ)音身份識(shí)別”兩大類應(yīng)用模式。
語(yǔ)義識(shí)別,也被稱作話語(yǔ)識(shí)別、非特定人語(yǔ)音識(shí)別,其目的在于理解話語(yǔ)中的單詞和句子——也就是話語(yǔ)中的內(nèi)容。
由于幾乎可以被任何人使用,語(yǔ)義識(shí)別技術(shù)的應(yīng)用場(chǎng)景非常多樣化,被集成到各種設(shè)備上,已經(jīng)成為智能硬件發(fā)展的主流趨勢(shì)。
手機(jī)的進(jìn)化歷史,就是文本輸入技術(shù)的發(fā)展史,也是語(yǔ)義識(shí)別技術(shù)的革命史。最早的功能手機(jī)屏幕很小,帶有26鍵或9鍵實(shí)體鍵盤;隨著智能手機(jī)發(fā)展,實(shí)體按鍵越來(lái)越少,甚至整合進(jìn)入屏幕成為虛擬鍵盤。實(shí)體鍵消失的大趨勢(shì),讓文本輸入技術(shù)發(fā)生著改變,而手環(huán)、手表、眼鏡等小屏或無(wú)屏可穿戴式設(shè)備的興起,人們不得不尋找比鍵盤更有效的文本輸入方式。于是,語(yǔ)音識(shí)別技術(shù),成為文本輸入的最輕松、最自然方式。
正如Siri為我們展示的那樣,我們已經(jīng)習(xí)慣于通過語(yǔ)音撥打電話、打開應(yīng)用、查詢天氣,也能不動(dòng)一根手指,用語(yǔ)音輸入法發(fā)送消息,但這些語(yǔ)義應(yīng)用,依然借助了屏幕這一載體。未來(lái),智能設(shè)備幾乎是沒有屏幕可以觸摸,最終只能通過語(yǔ)音這種采集成本低、容易集成的方式來(lái)實(shí)現(xiàn)人機(jī)交互。
(蘋果的Siri是語(yǔ)義識(shí)別技術(shù)的應(yīng)用典范)
語(yǔ)音身份識(shí)別,也稱說(shuō)話者識(shí)別,將語(yǔ)音作為一種穩(wěn)定的生物特征來(lái)識(shí)別說(shuō)話者的身份。
早期的身份識(shí)別精度很低,缺乏特定的語(yǔ)音處理和特征提取技術(shù),只能判斷一個(gè)人的種族。二戰(zhàn)時(shí),美日雙方經(jīng)常夜戰(zhàn),黑暗中無(wú)法判斷對(duì)方是敵是友。美國(guó)人根據(jù)“日本人對(duì)l,r發(fā)音不準(zhǔn)確”這一聲音特性,制定了一個(gè)口令“l(fā)ollapalooza(意為:非常出色的人)”,一旦對(duì)方發(fā)音不準(zhǔn)確,就直接開火。
今天的語(yǔ)音識(shí)別精度,已經(jīng)可以判斷一個(gè)人的身份。用戶對(duì)著麥克風(fēng)說(shuō)出特定的短語(yǔ),系統(tǒng)將用戶的語(yǔ)音樣本進(jìn)行背景噪音過濾、特征提取,再與先前存儲(chǔ)的語(yǔ)音樣本比較,達(dá)到一定的近似度閾值,用戶就通過了身份認(rèn)證。
(語(yǔ)音身份識(shí)別的流程)
語(yǔ)音識(shí)別的缺陷
語(yǔ)音的采集成本雖然低,但在身份識(shí)別中并未大規(guī)模應(yīng)用。目前看來(lái),主要是因?yàn)檎Z(yǔ)音識(shí)別面臨著不易提取、不夠穩(wěn)定、容易模仿三大問題。
缺乏多樣性和噪音影響,是語(yǔ)音特征不易提取的兩大原因。
語(yǔ)音是一維線性特征,與指紋、人臉、虹膜等二維圖像特征相比,信息量更少,精度也更低。此外,語(yǔ)音識(shí)別的性能,還會(huì)受到外界環(huán)境的影響,如同時(shí)有多個(gè)說(shuō)話者,或者環(huán)境噪音嘈雜,也會(huì)導(dǎo)致語(yǔ)音識(shí)別精度降低。
語(yǔ)音會(huì)受時(shí)間、年齡、身體狀況影響而發(fā)生改變,是導(dǎo)致語(yǔ)音特征不穩(wěn)定的重要原因。
每個(gè)人在青春期都會(huì)經(jīng)歷“變聲”的過程,常見的感冒、鼻塞、咽喉炎、聲帶疲勞都會(huì)影響語(yǔ)音識(shí)別的性能。因此,語(yǔ)音識(shí)別的穩(wěn)定性并不好。
語(yǔ)音是一種較易模仿的生物特征,如果口技演員改行做聲音竊取,破解成功率將非常驚人。錄音是攻破語(yǔ)音系統(tǒng)的另一種常用方法,“諜5”對(duì)此有準(zhǔn)確描繪:伊森·亨特只用一臺(tái)錄音機(jī)就輕松竊取到英國(guó)首相的語(yǔ)音。為防止錄音攻擊,一些語(yǔ)音識(shí)別系統(tǒng)從較小的詞匯表中隨機(jī)產(chǎn)生一個(gè)變化的短語(yǔ)讓用戶朗讀。這種方式能夠阻擋一般的攻擊者,但經(jīng)驗(yàn)豐富和準(zhǔn)備充分的老手僅需多花一點(diǎn)時(shí)間而已。
綜上所述,不易提取、不夠穩(wěn)定、容易模仿這三大問題困擾著語(yǔ)音識(shí)別技術(shù),難道它注定只能在低端徘徊,無(wú)法滿足更高安全等級(jí)、更高識(shí)別精度的要求嗎?
魚和熊掌:價(jià)格最低 & 性能最好
語(yǔ)音用于身份識(shí)別,無(wú)法回避識(shí)別精度過低的先天缺陷,但是將語(yǔ)音和其他高精確度、高穩(wěn)定性的生物特征相結(jié)合,既保留語(yǔ)音的低成本優(yōu)勢(shì),又彌補(bǔ)其低精度的弱點(diǎn),打造出一種“魚和熊掌”兼得的完美生物特征。
為了彌補(bǔ)語(yǔ)音的缺陷,我們選擇哪一種最高精確度、最高穩(wěn)定性的生物特征呢?學(xué)術(shù)界早有結(jié)論:虹膜識(shí)別,在精確度和穩(wěn)定性兩方面,是所有生物特征中最好的,目前最優(yōu)秀的虹膜識(shí)別算法甚至將誤識(shí)率降低到1/500萬(wàn)以下。
虹膜位于眼球前部,表面覆蓋角膜,是一種隱藏在身體內(nèi)部的特征。虹膜是瞳孔周圍具有多種顏色的環(huán)狀組織,呈現(xiàn)出一種復(fù)雜的放射狀紋理。虹膜在出生之前隨機(jī)發(fā)育產(chǎn)生,因此所有的虹膜都是獨(dú)一無(wú)二的,從出生6個(gè)月直到死亡都保持不變。
將“價(jià)格最低廉的語(yǔ)音識(shí)別”與“識(shí)別精度最高的虹膜識(shí)別”組合,可以依據(jù)不同的需要進(jìn)行精度調(diào)整,使系統(tǒng)安全等級(jí)具有更大的彈性。特別針對(duì)用戶規(guī)模達(dá)到數(shù)十萬(wàn)、甚至上百萬(wàn)的大型身份識(shí)別應(yīng)用,“語(yǔ)音+虹膜”的組合已經(jīng)成為最具競(jìng)爭(zhēng)力的技術(shù)方案。
比如,國(guó)內(nèi)已經(jīng)推出集成虹膜和語(yǔ)音兩種識(shí)別技術(shù)的社保支付終端,用戶可以根據(jù)支付金額及環(huán)境情況,選擇更具靈活性的身份認(rèn)證方式,如小額支付用語(yǔ)音識(shí)別,大額支付用虹膜識(shí)別;安靜環(huán)境使用語(yǔ)音識(shí)別,嘈雜環(huán)境使用虹膜識(shí)別。
“語(yǔ)音+虹膜”的組合,將兩者的優(yōu)點(diǎn)(低成本、高精度)集于一身,正是《碟中諜5》啟發(fā)我們提出的最具技術(shù)前瞻性的身份識(shí)別方案。
作者系列科普文章參考:
1、《碟中諜5》背后的生物識(shí)別技術(shù)有哪些?(上)
2、碟5中讓阿湯哥頭疼的“步態(tài)分析”,究竟神在哪里?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。