丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳孝良
發(fā)送

4

詳解聲紋識別:如何正確評價小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨家解析

本文作者: 陳孝良 2017-01-15 19:50
導(dǎo)語:百度小度的聲紋識別真的超過人類大腦了嗎?為何最強(qiáng)大腦節(jié)目組的布局和所追求的理念又顯得不太搭配?

雷鋒網(wǎng)按:作者陳孝良,博士,聲智科技創(chuàng)始人,曾任中科院聲學(xué)所副研究員和信息化辦公室主任,中科院上海高等研究院客座,北京市公安局首屆網(wǎng)絡(luò)應(yīng)急專家,主要從事聲學(xué)信號處理和 GPU 深度學(xué)習(xí)算法研究工作。本文系雷鋒網(wǎng)獨家首發(fā)文章。

百度小度在“最強(qiáng)大腦”比賽中以1:1戰(zhàn)平名人堂公認(rèn)最擅長聲音辨別的選手孫亦廷,引發(fā)了一些媒體的追蹤報道,我們驚喜的同時也發(fā)現(xiàn)有些文章的報道是不準(zhǔn)確的,這種漫無邊際的夸大實質(zhì)上對百度口碑是不利的。我們始終應(yīng)該清晰的認(rèn)識到:人工智能經(jīng)過半個多世紀(jì)的起起伏伏,到如今開始落地到應(yīng)用場景,確實是一件非常令人興奮的事情,但這不代表著人工智能就真的智能了,并且超越人類了。事實上,這才只是剛剛開始,人工智能還有很長的路要走。

1、小度聲紋識別挑戰(zhàn)的是深度學(xué)習(xí),繞過了物理感知的難題

我們先看“最強(qiáng)大腦”比賽中設(shè)定的場景,首先由嘉賓周杰倫在21位專業(yè)合唱團(tuán)成員中任選三位歌唱者,并與其進(jìn)行現(xiàn)場通話,通話錄音被截取成片段,然后人機(jī)共同根據(jù)這些通話片段,在隨后的合唱表演中一次找出這三位歌唱者。這其中有一個小插曲,周杰倫在介紹環(huán)節(jié)讓觀眾和其他嘉賓現(xiàn)場去試驗,沒有觀眾能從合唱中正確辨別出缺少了哪位歌唱者,這其實是根本不公平的。現(xiàn)場觀眾聽到的是演播室場景下通過音響系統(tǒng)擴(kuò)放的聲音,這些聲音受到了建筑環(huán)境、音響系統(tǒng)的多次污染,而且是混音后的聲音,其難度完全挑戰(zhàn)了物理極限。但是真實比賽中,從電視畫面的場景分析來看其實完全不是這個情況,“最強(qiáng)大腦”節(jié)目組所設(shè)定的難度和追求的理念在實際執(zhí)行過程中是大大折扣了,這非常容易產(chǎn)生誤導(dǎo)。

詳解聲紋識別:如何正確評價小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨家解析

詳解聲紋識別:如何正確評價小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨家解析

我們從兩幅視頻截圖中可以看出,每位歌唱者面前都擺放了獨立的麥克風(fēng),這種麥克風(fēng)從外觀來看動圈式的可能性更大,動圈式麥克風(fēng)的靈敏度要低于電容麥克風(fēng),其可拾取的聲音頻段也不如電容麥克風(fēng)。動圈式麥克風(fēng)常常應(yīng)用于舞臺錄音,主要就是為了避免噪聲干擾。并且,孫亦廷面前擺放了21個按鍵可以放大任意一位演唱者的聲音,同時孫亦廷也是戴著耳罩式耳機(jī)來聽聲音。

因此節(jié)目組特意安排的這種聲學(xué)場景布局就產(chǎn)生了兩個疑問:

  • 其一:每個歌唱者的聲音其實是單獨錄制的,不存在每個歌唱者之間的互相干擾和現(xiàn)場噪音干擾的問題,而孫亦廷聽到的聲音和現(xiàn)場觀眾聽到的聲音,以及電視面前各位聽到的聲音也是不一樣的。

孫亦廷聽到的聲音是每位合唱者的獨立音軌通過演播室音響系統(tǒng)混音后的聲音(這也有待于確認(rèn)混音方法),至于孫亦廷的耳機(jī)是否包含音樂的混音我們還無法從電視畫面中確認(rèn)。而現(xiàn)場觀眾聽到的聲音則會受到演播室音響擴(kuò)聲系統(tǒng)和演播室建筑聲學(xué)設(shè)計的嚴(yán)重影響。電視觀眾所聽到的聲音還會受到電視音頻編解碼系統(tǒng)的嚴(yán)重影響。

  • 其二:就是百度的小度機(jī)器人所獲得的音頻是怎樣的?若是直接獲取到21個歌唱者的獨立音軌,則就完全繞過了物理感知中的所有難題,僅僅只是比拼深度學(xué)習(xí)算法而已。

即便和現(xiàn)場演示一樣也是獲得的混音數(shù)據(jù),由于機(jī)器人可以比人類更方便的放大每一位歌唱者的音頻,也是極大減弱了挑戰(zhàn)的難度,這對于人類反而不公平了。凡是學(xué)過信號處理的同學(xué)都清楚,信號處理其實不在意絕對噪聲的干擾,理想場景的物理世界是不存在的,只要符合“信噪比”這個指標(biāo)就能滿足機(jī)器處理的要求。

所以有篇文章中所提到的“低質(zhì)量的語音數(shù)據(jù),又要在強(qiáng)噪聲干擾下對歌唱數(shù)據(jù)進(jìn)行識別,對小度來說確實挑戰(zhàn)很大”這句話實際上是不準(zhǔn)確的。即便“合唱發(fā)聲差異性極小且互相影響”這句話也不是確定的。小度機(jī)器人聽到的聲音,孫亦廷聽到的聲音,現(xiàn)場觀眾聽到的聲音和電視機(jī)觀眾聽到的聲音其實都是不一樣的,而且這個難度也是逐漸增加的。后面兩種聲音其實才是真正的挑戰(zhàn)極限,而且這兩種極限挑戰(zhàn)還存在無解的問題。因為物理世界和人耳機(jī)理存在一些特性,即便現(xiàn)場觀眾所聽到的聲音也有兩個難點必須考慮到:

(1)演播室音響系統(tǒng),對于聲音的渲染處理會損失原始聲音特性或者增強(qiáng)無關(guān)特性,這將會加重人耳聽到聲音的誤差。

(2)現(xiàn)場聽到的聲音,也會收到演播室的建筑聲學(xué)設(shè)計和擴(kuò)聲系統(tǒng)設(shè)計的影響,這其中還包括了聲學(xué)兩個特殊效應(yīng)的制約:

其一就是哈斯效應(yīng)(Haas effect; Precedence effect),這是一種雙耳心理聲學(xué)效應(yīng),聲音延遲對人類方向聽覺的影響要比能量大小的影響更大的效應(yīng),故此也被稱為優(yōu)先效應(yīng)。


哈斯效應(yīng)是亥爾姆·哈斯于1949年在他的博士論文中描述的,常常利用哈斯效應(yīng)來調(diào)整會場和音樂廳的聲音和諧。舉個簡單的例子,若你到電影院坐到了靠近音箱的位置,那幾乎聽到的聲音幾乎都是附近這個喇叭發(fā)出的了。事實上現(xiàn)場觀眾根本就無法區(qū)分21位歌唱者在合唱時候的差別。



其二就是掩蔽效應(yīng)(Masking Effect),簡單說是環(huán)境中的其他聲音會使人類聽覺對某一個聲音的聽力降低。


當(dāng)一個聲音的強(qiáng)度遠(yuǎn)比另一個聲音大,當(dāng)大到一定程度而這兩個聲音同時存在時,人們只能聽到音量更大的那個聲音存在,而覺察不到另一個聲音存在。其中,低頻聲的掩蔽范圍大于高頻聲的掩蔽范圍。也就說,現(xiàn)場觀眾可能根本就無法辨認(rèn)出到底有幾個歌唱者的聲音,何談再從中識別出特征了。

當(dāng)然還有更多物理定律和聲學(xué)模型的制約,即便上面的哈斯效應(yīng)和掩蔽效應(yīng)實際上也造成了現(xiàn)場聽眾可能無解的情況,因為可能壓根就沒有獲取到所需要的物理信號。這對于電視機(jī)前面的觀眾就更為苛刻了,因為即便數(shù)字電視的音頻編解碼也是有損壓縮的,這實際上又損失了眾多聲學(xué)特征信息,不管是MP3還是AAC都利用了人耳的掩蔽效應(yīng)進(jìn)行了壓縮,何況電視在家里的擺放同樣也無法避免建筑聲學(xué)和音響系統(tǒng)的制約。

因此,“最強(qiáng)大腦”節(jié)目組所追求的難度和效果實際上在執(zhí)行過程中已經(jīng)嚴(yán)重折扣了,這次比賽更是考驗深度學(xué)習(xí)算法和人腦識別的差異,而刻意回避了物理感知中的難題,和深度學(xué)習(xí)在測試集的測試結(jié)果沒有本質(zhì)上的差別。

事實上,百度科學(xué)家對于這個問題是清晰認(rèn)識的,百度語音識別技術(shù)負(fù)責(zé)人李先剛坦言:

就現(xiàn)在的深度學(xué)習(xí)或者相關(guān)技術(shù)來說,處理同一個麥克風(fēng)捕捉的多人同時說話的數(shù)據(jù)確實很難做,還有很多地方值得我們?nèi)ヌ魬?zhàn)。但就實際應(yīng)用場景來說,有其他方法可以較好地解決該問題,比如強(qiáng)化定位,正如人有兩個耳朵可以定位聲音源,在實際應(yīng)用中我們可以采用多個麥克風(fēng)來加強(qiáng)目標(biāo)聲源的聲音,這樣就能較好地分辨目標(biāo)聲源和周圍嘈雜。

吳恩達(dá)老師也表示,此次百度在CES上推出的小魚(Little Fish)機(jī)器人中配置了2個麥克風(fēng),可以一定程度解決多人說話的問題,未來還可以用4個、7個甚至更多麥克風(fēng)來處理該問題。這也正是為何我們聲智科技一直追求提升聲學(xué)傳感技術(shù)的原因所在。

因此,這里小結(jié)一下,以觀眾所感受的難度來描述實際挑戰(zhàn)的難度是有夸大成分的,夸大宣傳會誤解大家對于技術(shù)發(fā)展的正確認(rèn)知,從而拉大了人們預(yù)期,這對于國內(nèi)的研究和產(chǎn)業(yè)進(jìn)步都是非常不利的。我們從國外媒體中所看到的文章,其風(fēng)格相比國內(nèi)都是比較嚴(yán)肅保守的,包括極其風(fēng)光的谷歌和亞馬遜,谷歌選用AlphaGo挑戰(zhàn)圍棋非常聰明,避過了人工智能的缺點,即便如此也仍然非常謹(jǐn)慎。亞馬遜的Echo其實已經(jīng)非常成功了,但是Echo幾乎不提語音識別率的問題,即便對于遠(yuǎn)場識別尤為關(guān)鍵的麥克風(fēng)陣列也是排在了次要位置甚少強(qiáng)調(diào),這都是非常聰明的。因為技術(shù)的發(fā)展還遠(yuǎn)沒有達(dá)到國內(nèi)宣傳所夸大的程度。

另外還要補(bǔ)充說下聰明的蘋果,大家不要忽視了這位低調(diào)的巨頭,Siri積累了那么多年,優(yōu)勢是在近場語音交互,而智能耳機(jī)就是最好的落地,蘋果并沒有缺席人工智能,也不會錯過下一個計算平臺,而是悄悄的把握住了另外一個巨大的市場機(jī)會。

2、孫亦廷的挑戰(zhàn)更大,小度機(jī)器人也展現(xiàn)了百度深度學(xué)習(xí)的水平

綜合上面分析來看,若電視場景中所表現(xiàn)出來的和實際工作過程都是準(zhǔn)確如實的(抱歉畢竟只是娛樂節(jié)目,而不是公開論文可驗證,谷歌的AlphaGo再次聰明的避過了這個驗證難題),孫亦廷其實面臨的難度要超過百度的小度機(jī)器人,若公平來說,人類和機(jī)器人所面臨的挑戰(zhàn)難度都是極大的,百度的小度機(jī)器人也展現(xiàn)出來了吳恩達(dá)老師帶領(lǐng)百度人工智能團(tuán)隊領(lǐng)先的水平。

這個挑戰(zhàn)最大的難度在于:節(jié)目組設(shè)計的挑戰(zhàn)是從片段的說話聲中辨認(rèn)出歌唱者。周杰倫給3個歌唱者的對話都是比較簡短的,而且這個對話又被簡單處理了(只是截取,和加密也沒啥關(guān)系),我們從愛奇藝的視頻中抽取了這三段視頻,其聲紋特征如下(非現(xiàn)場原始音頻,已經(jīng)被壓縮很大,僅供參考):

詳解聲紋識別:如何正確評價小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨家解析

從圖中可以看出,三個人的聲紋特征差異還是非常明顯的。但是這僅僅只是說話的聲紋,大部分唱歌的聲音和說話的聲音都是不同的。我在雷鋒網(wǎng)《聲紋識別技術(shù)的現(xiàn)狀、局限與趨勢》公開課中提到過,聲紋識別的理論基礎(chǔ)是每一個聲音都具有獨特的特征,通過該特征能將不同人的聲音進(jìn)行有效的區(qū)分,這種獨特的特征主要由兩個因素決定:

第一個是聲腔的尺寸,具體包括咽喉、鼻腔和口腔等,這些器官的形狀、尺寸和位置決定了聲帶張力的大小和聲音頻率的范圍。因此不同的人雖然說同樣的話,但是聲音的頻率分布是不同的,聽起來有的低沉有的洪亮。每個人的發(fā)聲腔都是不同的,就像指紋一樣,每個人的聲音也就有獨特的特征。

第二個決定聲音特征的因素是發(fā)聲器官被操縱的方式,發(fā)聲器官包括唇、齒、舌、軟腭及腭肌肉等,他們之間相互作用就會產(chǎn)生清晰的語音。而他們之間的協(xié)作方式是人通過后天與周圍人的交流中隨機(jī)學(xué)習(xí)到的。人在學(xué)習(xí)說話的過程中,通過模擬周圍不同人的說話方式,就會逐漸形成自己的聲紋特征。

顯然,說話和唱歌的時候無法改變?nèi)祟惏l(fā)聲的器官,這也是聲紋識別挑戰(zhàn)所能辨認(rèn)的基礎(chǔ),否則真就成了Mission Impossible。但是人類操縱發(fā)聲器官的方式是不同的,這就是很大的難度。和上面的方法一樣,我們也將第一位歌唱者的說話片段和唱歌片段從愛奇藝視頻中抽取如下: 

詳解聲紋識別:如何正確評價小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨家解析

從圖中仍然可以看出,歌唱者說話和唱歌的聲紋沒有本質(zhì)的差別,但是對于基于深度學(xué)習(xí)技術(shù)的小度機(jī)器人來說,這項挑戰(zhàn)確實難度是極大的。節(jié)目中截取后的錄音片段,一整條語音不超過10個字,有效時間小于 3s,而且斷斷續(xù)續(xù),這容易造成聲紋特征的缺失。更加困難的是,必須從這有限的數(shù)據(jù)中推斷出唱歌時候的聲紋是否匹配。

之所以說孫亦廷的挑戰(zhàn)更大,是因為除了人類自身感知記憶的缺陷,還有就是孫亦廷必須手動按鍵來放大聲音進(jìn)行比對確認(rèn),這個過程是必不可少的,而上面提到了,小度機(jī)器人的處理方式肯定要比人類更簡單,否則也沒有必要在每個歌唱者面前放置麥克風(fēng)。

另外,百度IDL實驗室主任林元慶的描述還欠缺一些關(guān)鍵信息:“在此基礎(chǔ)上,我們收集少量的,比如1000個人在特殊場景下的聲音,比如說唱歌。在比賽之前我們知道有唱歌內(nèi)容,但是不知道要唱什么歌,于是去收集一些歌來訓(xùn)練模型,讓模型能夠更準(zhǔn)確的識別說話和唱歌時的聲音差異?!?/p>

這沒有準(zhǔn)確說出這次訓(xùn)練的數(shù)據(jù)來源是不是包含了21位歌唱者的唱歌數(shù)據(jù),這非常關(guān)鍵,孫亦廷很難同時記憶21位歌唱者的唱歌聲紋,但如果機(jī)器事先訓(xùn)練了,則事實上比人類提前積累了特征數(shù)據(jù)。

詳解聲紋識別:如何正確評價小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨家解析

這里小結(jié)一下:百度小度機(jī)器人的挑戰(zhàn)難度確實是很大的,也展現(xiàn)出了百度在吳恩達(dá)老師帶領(lǐng)下深度學(xué)習(xí)的積累和水平,但是相對于Google的AlphaGo來說還是欠缺一些說服力,百度應(yīng)該公開可以測試或者應(yīng)用的技術(shù),而不僅僅只在娛樂節(jié)目中展現(xiàn)技術(shù)水平。當(dāng)然節(jié)目組可以繼續(xù)加大這項節(jié)目挑戰(zhàn)的難度,比如將21個人增加到100個人,同時考慮人聲的差異分布,還可以考慮加入現(xiàn)場的影響等等。

3、計算機(jī)識別能力超過人類毋庸置疑,但仍然有局限性

我們知道,機(jī)器的計算和存儲能力都已經(jīng)超越了人類,識別能力超過人類也是毋庸置疑的事情。但是當(dāng)前的語音識別能力還沒有全面超越人類,至于遠(yuǎn)場的語音識別,因為還涉及了物理世界模型的問題,這個過程更加長遠(yuǎn)一些。我們估計,憑借現(xiàn)在數(shù)據(jù)的增長和新算法的迭代,3~5年內(nèi)出現(xiàn)人類普遍應(yīng)用的語音交互產(chǎn)品還是很有可能的。至于圖像識別,從當(dāng)前ImageNet的測試來看,從樣本測試精度已經(jīng)超過了人類,但是若落地到實際場景,這個方面機(jī)器相比人類還有非常大的差距,比如大家經(jīng)常忽略了圖像識別的核心攝像頭光學(xué)模組,而到當(dāng)前為止,我們的核心光學(xué)模組還都是國外所供應(yīng)的。

人工智能時代,是不是可以邁過PC時代和移動時代的局限,不再是從器件、芯片、OS、算法清一色的國外技術(shù),而真正誕生出我們國家自己的核心技術(shù)?我們期望著國內(nèi)的研究機(jī)構(gòu)和巨頭公司能在基礎(chǔ)研究和核心技術(shù)上積累優(yōu)勢,而在模式營銷少花點精力,也不要浪費(fèi)資源搶占創(chuàng)業(yè)公司的應(yīng)用類小市場,因為巨頭的對手應(yīng)該是國外的Google、Facebook、Apple、Tesla等等這些雄心改變?nèi)祟惖木揞^。

理念和價值觀決定了一家公司的走向,賺錢不是成功唯一的標(biāo)準(zhǔn),貢獻(xiàn)一點為人類發(fā)展有價值的事情,即便失敗了也是值得懷念和歷史記憶的,這也是我?guī)е值軅兂鰜韯?chuàng)業(yè)的核心動力。

4、單憑計算機(jī)領(lǐng)域的進(jìn)步無法完全解決物理世界的問題

深度學(xué)習(xí)帶給了我們無限的想象力,但是我們仰望星空的同時,也要腳踏實地,正確認(rèn)識計算機(jī)進(jìn)步帶給我們的便利和局限。計算機(jī)學(xué)科的方法論進(jìn)步,其實沒有改變這個世界的物理模型,也不代表計算機(jī)領(lǐng)域的符號主義就此衰落,因為深度學(xué)習(xí)的舉萬反一和人類的舉一反三還是背道而馳的。深度學(xué)習(xí)更應(yīng)該結(jié)合符號表示和推理模型融合發(fā)展,只不過這是喜馬拉雅山的北坡,技術(shù)的難度更加巨大。

現(xiàn)在的深度學(xué)習(xí)確實帶來了極大的進(jìn)步,主要是在識別領(lǐng)域的突飛猛進(jìn),因為物理研究總是想弄明白“為什么”,然后再據(jù)此構(gòu)建模型和推理。但是現(xiàn)在深度學(xué)習(xí)幾乎不用花費(fèi)精力探討這個問題,只要擁有了海量數(shù)據(jù),不必關(guān)心“為什么”,也不用深究特征,數(shù)據(jù)的規(guī)模和精度才是關(guān)鍵。從這個層面來看,我們就能非常容易理解這種方法的局限,深度學(xué)習(xí)當(dāng)前還僅適用具有確定的規(guī)則和目標(biāo),并且基于現(xiàn)有知識結(jié)構(gòu),其答案也是封閉鏈條的場景,也就是我們常常提到的一些垂直場景。從這個層面來看,通用的語音識別就存在極大的不確定性,很難達(dá)到人類的程度,而且語義理解(NLP)顯然僅僅依靠大數(shù)據(jù)和深度學(xué)習(xí)是無法解決理解人類語言問題的。

但是未來終究是人工智能的時代,因此建議投身于人工智能領(lǐng)域的廣大學(xué)子,除了奉獻(xiàn)于計算機(jī)的進(jìn)步,也要關(guān)注物理領(lǐng)域的進(jìn)展,圖靈獎和諾貝獎都是推動這個世界進(jìn)步的動力,而未來更多的獎項應(yīng)該是我們中國學(xué)子的。

最后,我想用張鈸院士的一句話作為總結(jié):

五十年后的事情可能我說不清楚,但是我可以說說三五年之后的事情。很多人說究竟現(xiàn)在是人工智能的春天還是夏天?有人說春天,因為正在蓬勃發(fā)展。有人說夏天,因為有點熱過頭了。但是我說現(xiàn)在是人工智能的秋天。秋天有兩個含義:一是秋天是收獲的季節(jié),我們有很多成果。二是說秋天,是因為冬天就在前頭。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

詳解聲紋識別:如何正確評價小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨家解析

分享:
相關(guān)文章

專欄作者

聲智科技創(chuàng)始人兼CEO,中科院聲學(xué)所博士
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說