最強大腦“人機大戰(zhàn)”第二輪戰(zhàn)平，吳恩達詳解背后技術(shù)原理

本文作者：謝幺

2017-01-14 12:23

導(dǎo)語：相對于第一場比賽，本場實打?qū)嵉妮^量似乎對于業(yè)界和公眾都更有意義。

如果說在上一輪人機大戰(zhàn)的人臉識別對決中，由于小度對陣了并不擅長人臉識別的王峰，令比賽意義打了折扣，那么昨天進行的第二輪聲音識別的人機大戰(zhàn)，雖然最終只是戰(zhàn)平，但對于AI 界的意義卻似乎更大。

原因有兩點：一、公認實力頂尖的對手；二、業(yè)界公認困難的比賽內(nèi)容。

在對手上，此次迎戰(zhàn)百度小度的是名人堂公認最擅長聲音辨別的選手孫亦廷，他辨別聲音細節(jié)的能力在名人堂無出其右，能通過水球從0~70米高空墜地破碎的聲音，來準確辨別水球下落時的高度。這相當(dāng)于在一根70米長的琴弦上拉奏任意位置，他都通過音高準確辨別拉弦的位置，甚至比這更困難。

在比賽內(nèi)容上，存在當(dāng)前聲紋識別領(lǐng)域公認的幾大難點。我們不妨先看看比賽規(guī)則：

由嘉賓周杰倫在21位專業(yè)合唱團成員中任選三位歌唱者，并與其進行現(xiàn)場通話，通話錄音被截取成片段，人機共同根據(jù)這些“只言片語”的童話片段，在隨后的合唱表演中一次找出這三位歌唱者。

看完比賽規(guī)則后，連專業(yè)人士也認為這對目前的聲紋識別技術(shù)有較大的難度，極限元的聯(lián)合創(chuàng)始人、人工智能專家馬驥告訴雷鋒網(wǎng)：

影響聲紋識別的聲音特征參數(shù)比如韻律、節(jié)奏、基頻、速度等等因素，這些在說話和唱歌時是完全不同的。對于小度來說，學(xué)習(xí)訓(xùn)練建模用的語音數(shù)據(jù)和最終進行識別的語音數(shù)據(jù)，生物特征差別太大就會導(dǎo)致判斷失誤。

低質(zhì)量的語音數(shù)據(jù)，又要在強噪聲干擾下對歌唱數(shù)據(jù)進行識別，對小度來說確實挑戰(zhàn)很大。

據(jù)以往對聲紋識別技術(shù)的了解，雷鋒網(wǎng)發(fā)現(xiàn)百度小度此次至少面臨聲紋識別領(lǐng)域中的3個困擾：

一、收集正常說話聲，卻需要辨別唱歌

我們知道，聲紋識別的基本原理其實是特征值比對，通過之前收集的聲音中提取特征值來形成特征庫，之后將需要辨別的聲音與特征庫中的數(shù)據(jù)進行比對。問題就在于，專業(yè)合唱者的歌聲和正常說話時聲音的特征是有明顯區(qū)別的。

實際上，對于專業(yè)合唱者來說，在唱歌時發(fā)聲部位靠后，正常說話時發(fā)生部位靠前，從物理上看，發(fā)聲部位都不一樣。這就要求機器學(xué)習(xí)算法具有極強的「泛化能力」，能夠準確處理學(xué)習(xí)時沒有遇到過的樣本。

小度如果想要成功辨別，就必須具備在較少的數(shù)據(jù)（只言片語）中辨別同一個人在說話和唱歌時差距的能力。

二、合唱發(fā)聲差異性極小且互相影響

目前聲紋識別技術(shù)尚未完全解決的一大難題就是對抗環(huán)境噪音干擾，以及在多人同時發(fā)聲條件下對聲音的識別。在現(xiàn)場除了有環(huán)境底噪之外，每個合唱隊員在發(fā)聲時或多或少都會混進一些別人的聲音。

最強大腦“人機大戰(zhàn)”第二輪戰(zhàn)平，吳恩達詳解背后技術(shù)原理

此外，在聲紋識別中也存在類似于人臉識別中的”雙胞胎難題”——聲音的趨同效應(yīng)。此次嘉賓周杰倫在合唱團中挑選的人的聲音差異性非常小，而大合唱本身又要求聲音整齊和諧，這又進一步提高了辨別的難度——大家會刻意通過改變發(fā)音習(xí)慣等來使得合唱達到更好的效果。

三、聲音片段不完整且時間過短

人在發(fā)音時，存在著協(xié)同發(fā)音效應(yīng)，即一句話前后相連的語音總是彼此影響，而這些特性會被機器以數(shù)據(jù)驅(qū)動的方式學(xué)習(xí)到模型中。

而在本次比賽中，語音被特意處理為了不連續(xù)的信號，人的一些發(fā)音習(xí)慣就很可能被損壞掉，加大了小度機器人對原本說話人特征提取表征的難度。

對于機器學(xué)習(xí)算法來說，一段語音的時間越長，那么捕捉的有效特征就越多，如果語音過短則會大大降級識別率，這就是聲紋識別領(lǐng)域中的短時語音聲紋驗證難題。而在節(jié)目中截取后的錄音片段，一整條語音不超過10個字，有效時間小于 3s。這就給小度的算法帶來了極大的難度——它需要更有效地從短時的、斷斷續(xù)續(xù)的線人說話聲中提取出所能表征的個人信息。

最強大腦“人機大戰(zhàn)”第二輪戰(zhàn)平，吳恩達詳解背后技術(shù)原理

本文暫且不討論這些條件對于人類的困難程度，因為孫亦廷擁有的辨音能力并非通過后天訓(xùn)練可獲得，天賦就占據(jù)了主導(dǎo)因素。單就對于機器而言這也是前所未有的挑戰(zhàn)，使得百度語音技術(shù)部總監(jiān)高亮在現(xiàn)場多次出現(xiàn)咬唇、皺眉等緊張狀態(tài)。

最強大腦“人機大戰(zhàn)”第二輪戰(zhàn)平，吳恩達詳解背后技術(shù)原理

小度兩次辨別失誤的背后發(fā)生了什么？

最終，三個環(huán)節(jié)的較量雙方以1:1平局告終。人類選手孫亦廷也成功辨別第二位歌唱者，而小度也只成功辨別了第三位歌唱者。有趣的是，第一次人機均辨別錯誤，而錯誤答案竟出乎意料的一致。小度在前兩次失敗和一次成功中究竟經(jīng)歷什么？負責(zé)百度人工智能技術(shù)研究的核心專家向雷鋒網(wǎng)透露其中的奧秘。

百度首席科學(xué)家吳恩達(Andrew Ng)表示，“在此次人機大戰(zhàn)之前，我們使用了2萬個人的數(shù)據(jù)和超過5000個小時的訓(xùn)練時間來訓(xùn)練我們的模型。”

最強大腦“人機大戰(zhàn)”第二輪戰(zhàn)平，吳恩達詳解背后技術(shù)原理

【吳恩達和林元慶正在講解節(jié)目背后的原理】

兩個模型出現(xiàn)“分歧”

吳恩達說，在本次比賽中，小度使用了兩套聲紋識別領(lǐng)域比較經(jīng)典的算法來進行聲音識別，一是基于 DNN-ivector 的系統(tǒng)，一是基于端對端深度神經(jīng)網(wǎng)絡(luò)的說話人特征提取。同時使用兩套系統(tǒng)能分別從不同角度對說話人的特征進行提取，最后再將兩個模型進行融合，這樣能有效提升系統(tǒng)的魯棒性（Robustness）。

他說，實際上兩個模型都在三次辨別中正確辨別了兩次，但是當(dāng)兩個模型的結(jié)果融合在一起的時候，反而最終只辨別對了一個。原因主要在于辨別難度較高，兩套算法模型在前兩輪出現(xiàn)了“分歧”。

吳恩達說，第一個模型判斷正確了一、三輪，第二個模型判斷正確了二三輪，當(dāng)兩個模型在出現(xiàn)“分歧”時，哪一個算法表現(xiàn)地更 “自信”，就取用誰的答案。這就好比人們在考數(shù)學(xué)題時用了兩種解題思路，解出了不同的答案，由于時間緊迫只能選擇一個“相對靠譜”的答案。

最強大腦“人機大戰(zhàn)”第二輪戰(zhàn)平，吳恩達詳解背后技術(shù)原理

他坦言，兩個模型都判斷對了兩個，但是最終的結(jié)果反倒只對了一個，這確實有些"unlucky"(不湊巧），存在一定概率問題。但也確實讓看到了優(yōu)化的空間，未來希望能使用更優(yōu)的方法，比如使用更多數(shù)量的模型來進行綜合計算。

通過自適應(yīng)調(diào)整來辨別唱歌

百度小度是如何通過說話聲來“聽懂”歌聲的，這讓許多人疑惑不解。百度深度學(xué)習(xí)實驗室（IDL）主任林元慶告訴雷鋒網(wǎng)：

第一步，我們會利用大量的標準化數(shù)據(jù)來進行底座訓(xùn)練，得到一個基本的模型，這個是沒有特殊處理的，比如在我們采取20000個人的語音數(shù)據(jù)都是從語音搜索引擎抽取出來的，通過這些數(shù)據(jù)我們就可以訓(xùn)練出一個非常好的模型。

在此基礎(chǔ)上，我們收集少量的，比如1000個人在特殊場景下的聲音，比如說唱歌。在比賽之前我們知道有唱歌內(nèi)容，但是不知道要唱什么歌，于是去收集一些歌來訓(xùn)練模型，讓模型能夠更準確的識別說話和唱歌時的聲音差異。

最強大腦“人機大戰(zhàn)”第二輪戰(zhàn)平，吳恩達詳解背后技術(shù)原理

【DNN-ivector 算法如何辨別唱歌】

如何解決底噪和多人同時說話

對于如何解決背景噪音的問題上，吳恩達表示，通常在訓(xùn)練模型時會刻意加入一些背景噪音的數(shù)據(jù)，我們可以通過疊加兩段聲音的疊加來得到一段新的帶噪音的語音，將這些噪音放入到我們的深度神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，就可以在一定程度上解決背景噪音的問題。

在和環(huán)境底噪相比，聲紋識別更大的難題是多人同時發(fā)聲音。當(dāng)兩（多）個人同時說話，且聲音的音色、頻率相近時，機器很難區(qū)分哪一個是自己想要聽的，哪一個是噪音。而人的耳朵經(jīng)過多年的進化，已經(jīng)獲得了一種叫做“雞尾酒會效應(yīng)”的神奇能力，能自動屏蔽不想聽到的聲音。

對此，百度語音識別技術(shù)負責(zé)人李先剛坦言，

就現(xiàn)在的深度學(xué)習(xí)或者相關(guān)技術(shù)來說，處理同一個麥克風(fēng)捕捉的多人同時說話的數(shù)據(jù)確實很難做，還有很多地方值得我們?nèi)ヌ魬?zhàn)。但就實際應(yīng)用場景來說，有其他方法可以較好地解決該問題，比如強化定位，正如人有兩個耳朵可以定位聲音源，在實際應(yīng)用中我們可以采用多個麥克風(fēng)來加強目標聲源的聲音，這樣就能較好地分辨目標聲源和周圍嘈雜。

吳恩達告訴雷鋒網(wǎng)，此次百度在CES上推出的最近推出的小魚（Little Fish）機器人中配置了2個麥克風(fēng)，可以一定程度解決多人說話的問題，未來還可以用4個、7個甚至更多麥克風(fēng)來處理該問題。

由此我們發(fā)現(xiàn)，雖然21位歌唱者是以合唱的形式進行發(fā)聲，但節(jié)目組“很有心機”地為每個人都配備了高指向型的，這正是為了盡可能避免相互聲音干擾的問題。

最強大腦“人機大戰(zhàn)”第二輪戰(zhàn)平，吳恩達詳解背后技術(shù)原理

從比賽的結(jié)果來看，雖然小度前兩次均識別失敗，且節(jié)目組有些“雞賊”地以合唱之名來突出辨別的難度，事實上由于每個選手都單獨配備了麥克風(fēng)，小度獲取的語音數(shù)據(jù)也許幾乎無異于單獨錄制。但總體看來，各個因素造成的聲紋識別難度是業(yè)界有目共睹的，且拋開所謂技術(shù)理想，百度大腦“秀肌肉”的目的就已然達到。

隨著人工智能的發(fā)展，未來這樣的“人機大戰(zhàn)”可能會更加頻繁的上演，人類智慧天賦的極限在短時間內(nèi)幾乎很難上升，但機器進步的空間卻依然很大。正如當(dāng)年第一臺蒸汽火車被發(fā)明出來時，有人駕著馬車譏笑火車沒有馬車快一樣，那些譏笑火車的人最終受到歷史的譏笑。如果人們在看待人機大戰(zhàn)之時，只關(guān)心“誰戰(zhàn)勝了誰”，那么總有一天人機大戰(zhàn)也會失去意義。

下周五，再次出山的“水哥”王昱珩和小度機器人據(jù)說依然會進行圖像識別相關(guān)的比拼。具有頂尖觀察力、腦力的人類，和世界一流的人工智能之間還會碰撞出怎樣的火花？還需拭目以待。雷鋒網(wǎng)將繼續(xù)為您帶來報道和技術(shù)分析，也希望更多人的關(guān)注點不再僅僅聚焦于輸贏。

最強大腦“人機大戰(zhàn)”第二輪戰(zhàn)平，吳恩達詳解背后技術(shù)原理