0
本文作者: 李勤 | 2017-10-24 15:29 |
10月23日,2017年極棒大賽舉辦的前一天,一個 H5 悄無聲息地在朋友圈上線了,這個 H5 可以讓玩家上傳自己的聲音與妲己、武則天、諸葛亮等人的聲音比對,給出比對結(jié)果。
宅客頻道中了這個套路,在模仿一個角色的聲音中,相似度達到了94%,于是迅速轉(zhuǎn)發(fā)了PK 結(jié)果,并在酒店里自嗨了很久,覺得要再模仿幾次突破自己。室友編輯小田迅速關(guān)上了房門和窗子,緊張地問了句:如果隔音不好,別人不會以為我們在干什么不可描述的事情吧?
是的,編輯在模仿妲己說的這句臺詞:“主人,我能為你做點什么?”然后又變身武則天,瞬間霸氣上身,儼然精分的深井冰。
終于,編輯和妲己達到了 97 %的相似度,有種分分鐘要迷倒紂王的良好感覺。萬萬沒想到,后來朋友圈里出現(xiàn)了 99 %的相似者,還不止一個。
我不服!
10月24日,極棒大會一個工作人員告訴宅客,因為是一個H5,所以聲音比對沒那么嚴格,采用了微信后端的技術(shù)。要看真的比對PK,你還是看極棒上的五組選手實打?qū)嵉谋荣惏伞?/p>
10月24日,極棒大賽的仿聲項目中,五組一共十幾個選手,只有一個組有唯一一個妹子,居然要模仿妲己?
當然,他們不止模仿妲己。
賽制是這樣的:
選手預(yù)先得到被模仿人物的錄音文件并從中學習語音特征,每個隊的攻破目標4個,前一天隊伍拿到其中2個人物的語料訓練內(nèi)容(該內(nèi)容只做訓練用,不在現(xiàn)場給出的正式比賽語音物料中),進行一個小時的調(diào)試,并提交技術(shù)報告。決賽時間20分鐘,組委對不同設(shè)備指定不同內(nèi)容,選手分別合成語音,如果合成的語音被設(shè)備誤認為是被模仿人物,則攻破成功。至少攻破一個設(shè)備的隊伍有資格獲獎,以被攻破數(shù)量進行排名,數(shù)量相同則用時少的隊伍獲勝。
因為現(xiàn)場藍牙通訊干擾很大,導(dǎo)致POS機項目組選手第一次挑戰(zhàn)破解失敗。一位工作人員特地來到雷鋒網(wǎng)所在的媒體區(qū)告訴大家,跟上述項目一樣殘酷的是,現(xiàn)場有上百號觀眾,而選手們要避開嗡嗡的雜音,讀取指定的剩下2個被模仿人物的原聲。
如果原聲讀取有問題,勢必影響接下來的比賽。
雷鋒網(wǎng)了解到,這個原聲樣本中,有兩句妲己的為比賽特別錄制的聲音,另外兩句是評委徐昊的聲音。剩余17分11秒時,一個隊伍(左起第一組)已經(jīng)率先亮起了兩盞燈,這意味著他已經(jīng)攻破了兩個目標。
這位選手,你可是一個人作戰(zhàn)的藍孩子??!
還剩13分05秒時,包含一個女選手的隊伍smartparrot (左起第三組)也亮起了一盞燈。還剩下9分04秒時,左起第四組和第五組選手開始亮燈,第五組亮了兩個燈。剩余6分20秒時,第五組亮起了第三盞燈。
只要第五組率先亮起最后一盞燈,他們就贏了!
懂套路的主辦方立馬切入了第一組(2燈)和第五組(3燈)選手的對比實時PK 視頻,第一組(神牛gogo)選手緊張地回了下頭。
剩余 57秒時,戰(zhàn)局沒有變化。
比賽結(jié)束時,第五組(清晨李唐王)獲勝,達成了三個目標!
現(xiàn)場評委稱,有幾個仿聲攻擊方式:人模仿(技藝精湛的配音人員可以做到)、語音合成(相對比較容易抓包)、語音轉(zhuǎn)換(比合成難防,相對比較難)、錄音。
“清晨李唐王”中的黃雨晨和王木均來自清華大學,他們告訴雷鋒網(wǎng),賽前收到了妲己的一條語音測試數(shù)據(jù),另外一條測試數(shù)據(jù)是“評委隨便說的一句話”。在此次比賽中,“清晨李唐王”成功破解了兩句妲己的原聲以及一條徐昊錄制的智能音箱的開機語,另一條徐昊錄制的語音“更上一層樓”沒有被“破解”。
雷鋒網(wǎng)宅客頻道獨家采訪了冠軍隊伍中的黃雨晨、王木以及極棒該項目的一位評委鄭方。有意思的是,鄭方也在清華大學任語音和語言技術(shù)中心主任,同時是北京得意音通公司的董事長。該公司兩個月前發(fā)布了一款聲紋識別門鎖新品,為的就是防黑客。
[王木(左)、黃雨晨(右)]
但這卻是鄭方和獲勝隊伍的第一次正式見面,黃雨晨和王木甚至不知道得意音通在兩個月前的清華某禮堂內(nèi)舉辦過發(fā)布會。
黃雨晨和王木隸屬于清華的深圳研究所,兩人專注的方向都是語音合成,不太涉及聲紋識別領(lǐng)域,不過,“清晨李唐王”在賽前準備了兩種語音仿制模式的三個模型,分別為拼接合成和參數(shù)合成。
讓鄭方出乎意料的是,他在賽前一天曾預(yù)判過所有的選手的破解模式,本來以為拼接合成會更容易讓選手達到目標,仿真成功,沒有想到,促使“清晨李唐王”達到三個目標的卻是參數(shù)合成模式。
“其實拼接合成模式合成出來的語音也不錯,但是通過外放設(shè)備放出來時效果不對了,與設(shè)備有關(guān)?!?黃雨晨介紹。
王木解釋:“拼接是用原聲的聲紋,做出來的語音會一模一樣,參數(shù)模式更難,需要‘打補丁’,音色可能不一樣,需要看原聲語調(diào)和參數(shù)模型,所以做起來還挺難的。”
得意音通之前的發(fā)布會上也曾上演過單純的最難防的錄音攻擊,當時智能門禁曾成功識別到底是用戶的真人聲音還是錄音。
雷鋒網(wǎng)提出,為什么此次比賽中沒有選手直接使用原聲的錄音,甚至直接使用原聲再次錄音版進行攻擊?鄭方認為,恰恰這最簡單的攻擊方法,卻是最有效的攻擊手段,也是最難防的,不過在此次比賽中,默認沒有防的措施,以及沒有錄音檢測措施。
另一位獲得第三名的團隊的選手稱,錄播的話,在現(xiàn)場雜音如此大的情況下,就算把現(xiàn)場主辦方給的錄音再轉(zhuǎn)錄一遍,聲紋圖像和原來差距會很大。
雷鋒網(wǎng)提出一個終極疑問:“雖然你們和評委徐昊不熟,你們沒玩過王者榮耀嗎?為什么你們不拿妲己的聲音訓練?”兩位誠實的選手表示,絕不能作弊違反規(guī)則。
兩位選手還稱,在現(xiàn)實生活中,只要沒有針對錄音攻擊的防范措施,跟蹤一個聲紋識別的用戶,錄制其半個小時的語料,并了解用戶開聲紋鎖的漢字密碼,這種攻擊方式可以復(fù)現(xiàn)。
不過,鄭方稱,還好他家生產(chǎn)的門鎖有應(yīng)對這種錄音攻擊的方式,并在幾年前就針對現(xiàn)場選手的一些攻擊方式進行了防范。
鄭方介紹,應(yīng)對這類攻擊,無論合成還是轉(zhuǎn)換,仿真語音和原聲在連貫性(時域、頻譜)上均有區(qū)別,現(xiàn)場演示的其實都算錄音攻擊,聲紋、信號會被破壞,波形圖有肉眼看不見但機器能識別的區(qū)別。
看來,道高一尺、魔高一丈,到底在現(xiàn)實生活中,能否成功實現(xiàn)此類攻擊,完全取決于攻防雙方是不是都是上述級別的對手。
注:GeekPwn由國內(nèi)頂尖信息安全團隊碁震(KEEN)于2014年發(fā)起并主辦,至今已成功舉辦三年。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。