丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給謝幺
發(fā)送

1

最強(qiáng)大腦“人機(jī)大戰(zhàn)”第二輪戰(zhàn)平,吳恩達(dá)詳解背后技術(shù)原理

本文作者: 謝幺 2017-01-14 12:23
導(dǎo)語(yǔ):相對(duì)于第一場(chǎng)比賽,本場(chǎng)實(shí)打?qū)嵉妮^量似乎對(duì)于業(yè)界和公眾都更有意義。

如果說(shuō)在上一輪人機(jī)大戰(zhàn)的人臉識(shí)別對(duì)決中,由于小度對(duì)陣了并不擅長(zhǎng)人臉識(shí)別的王峰,令比賽意義打了折扣,那么昨天進(jìn)行的第二輪聲音識(shí)別的人機(jī)大戰(zhàn),雖然最終只是戰(zhàn)平,但對(duì)于AI 界的意義卻似乎更大。

原因有兩點(diǎn):一、公認(rèn)實(shí)力頂尖的對(duì)手;二、業(yè)界公認(rèn)困難的比賽內(nèi)容。

在對(duì)手上,此次迎戰(zhàn)百度小度的是名人堂公認(rèn)最擅長(zhǎng)聲音辨別的選手孫亦廷,他辨別聲音細(xì)節(jié)的能力在名人堂無(wú)出其右,能通過(guò)水球從0~70米高空墜地破碎的聲音,來(lái)準(zhǔn)確辨別水球下落時(shí)的高度。這相當(dāng)于在一根70米長(zhǎng)的琴弦上拉奏任意位置,他都通過(guò)音高準(zhǔn)確辨別拉弦的位置,甚至比這更困難。

在比賽內(nèi)容上,存在當(dāng)前聲紋識(shí)別領(lǐng)域公認(rèn)的幾大難點(diǎn)。我們不妨先看看比賽規(guī)則:

由嘉賓周杰倫在21位專(zhuān)業(yè)合唱團(tuán)成員中任選三位歌唱者,并與其進(jìn)行現(xiàn)場(chǎng)通話,通話錄音被截取成片段,人機(jī)共同根據(jù)這些“只言片語(yǔ)”的童話片段,在隨后的合唱表演中一次找出這三位歌唱者。

看完比賽規(guī)則后,連專(zhuān)業(yè)人士也認(rèn)為這對(duì)目前的聲紋識(shí)別技術(shù)有較大的難度,極限元的聯(lián)合創(chuàng)始人、人工智能專(zhuān)家馬驥告訴雷鋒網(wǎng):

影響聲紋識(shí)別的聲音特征參數(shù)比如韻律、節(jié)奏、基頻、速度等等因素,這些在說(shuō)話和唱歌時(shí)是完全不同的。對(duì)于小度來(lái)說(shuō),學(xué)習(xí)訓(xùn)練建模用的語(yǔ)音數(shù)據(jù)和最終進(jìn)行識(shí)別的語(yǔ)音數(shù)據(jù),生物特征差別太大就會(huì)導(dǎo)致判斷失誤。


低質(zhì)量的語(yǔ)音數(shù)據(jù),又要在強(qiáng)噪聲干擾下對(duì)歌唱數(shù)據(jù)進(jìn)行識(shí)別,對(duì)小度來(lái)說(shuō)確實(shí)挑戰(zhàn)很大。

據(jù)以往對(duì)聲紋識(shí)別技術(shù)的了解,雷鋒網(wǎng)發(fā)現(xiàn)百度小度此次至少面臨聲紋識(shí)別領(lǐng)域中的3個(gè)困擾:

一、收集正常說(shuō)話聲,卻需要辨別唱歌

我們知道,聲紋識(shí)別的基本原理其實(shí)是特征值比對(duì),通過(guò)之前收集的聲音中提取特征值來(lái)形成特征庫(kù),之后將需要辨別的聲音與特征庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì)。問(wèn)題就在于,專(zhuān)業(yè)合唱者的歌聲和正常說(shuō)話時(shí)聲音的特征是有明顯區(qū)別的。

實(shí)際上,對(duì)于專(zhuān)業(yè)合唱者來(lái)說(shuō),在唱歌時(shí)發(fā)聲部位靠后,正常說(shuō)話時(shí)發(fā)生部位靠前,從物理上看,發(fā)聲部位都不一樣。這就要求機(jī)器學(xué)習(xí)算法具有極強(qiáng)的「泛化能力」,能夠準(zhǔn)確處理學(xué)習(xí)時(shí)沒(méi)有遇到過(guò)的樣本。

小度如果想要成功辨別,就必須具備在較少的數(shù)據(jù)(只言片語(yǔ))中辨別同一個(gè)人在說(shuō)話和唱歌時(shí)差距的能力。

二、合唱發(fā)聲差異性極小且互相影響

目前聲紋識(shí)別技術(shù)尚未完全解決的一大難題就是對(duì)抗環(huán)境噪音干擾,以及在多人同時(shí)發(fā)聲條件下對(duì)聲音的識(shí)別。在現(xiàn)場(chǎng)除了有環(huán)境底噪之外,每個(gè)合唱隊(duì)員在發(fā)聲時(shí)或多或少都會(huì)混進(jìn)一些別人的聲音。

最強(qiáng)大腦“人機(jī)大戰(zhàn)”第二輪戰(zhàn)平,吳恩達(dá)詳解背后技術(shù)原理

此外,在聲紋識(shí)別中也存在類(lèi)似于人臉識(shí)別中的”雙胞胎難題”——聲音的趨同效應(yīng)。此次嘉賓周杰倫在合唱團(tuán)中挑選的人的聲音差異性非常小,而大合唱本身又要求聲音整齊和諧,這又進(jìn)一步提高了辨別的難度——大家會(huì)刻意通過(guò)改變發(fā)音習(xí)慣等來(lái)使得合唱達(dá)到更好的效果。

三、聲音片段不完整且時(shí)間過(guò)短

人在發(fā)音時(shí),存在著協(xié)同發(fā)音效應(yīng),即一句話前后相連的語(yǔ)音總是彼此影響,而這些特性會(huì)被機(jī)器以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)到模型中。

而在本次比賽中,語(yǔ)音被特意處理為了不連續(xù)的信號(hào),人的一些發(fā)音習(xí)慣就很可能被損壞掉,加大了小度機(jī)器人對(duì)原本說(shuō)話人特征提取表征的難度。

對(duì)于機(jī)器學(xué)習(xí)算法來(lái)說(shuō),一段語(yǔ)音的時(shí)間越長(zhǎng),那么捕捉的有效特征就越多,如果語(yǔ)音過(guò)短則會(huì)大大降級(jí)識(shí)別率,這就是聲紋識(shí)別領(lǐng)域中的短時(shí)語(yǔ)音聲紋驗(yàn)證難題。而在節(jié)目中截取后的錄音片段,一整條語(yǔ)音不超過(guò)10個(gè)字,有效時(shí)間小于 3s。這就給小度的算法帶來(lái)了極大的難度——它需要更有效地從短時(shí)的、斷斷續(xù)續(xù)的線人說(shuō)話聲中提取出所能表征的個(gè)人信息。

最強(qiáng)大腦“人機(jī)大戰(zhàn)”第二輪戰(zhàn)平,吳恩達(dá)詳解背后技術(shù)原理

本文暫且不討論這些條件對(duì)于人類(lèi)的困難程度,因?yàn)閷O亦廷擁有的辨音能力并非通過(guò)后天訓(xùn)練可獲得,天賦就占據(jù)了主導(dǎo)因素。單就對(duì)于機(jī)器而言這也是前所未有的挑戰(zhàn),使得百度語(yǔ)音技術(shù)部總監(jiān)高亮在現(xiàn)場(chǎng)多次出現(xiàn)咬唇、皺眉等緊張狀態(tài)。

最強(qiáng)大腦“人機(jī)大戰(zhàn)”第二輪戰(zhàn)平,吳恩達(dá)詳解背后技術(shù)原理

小度兩次辨別失誤的背后發(fā)生了什么?

最終,三個(gè)環(huán)節(jié)的較量雙方以1:1平局告終。人類(lèi)選手孫亦廷也成功辨別第二位歌唱者,而小度也只成功辨別了第三位歌唱者。有趣的是,第一次人機(jī)均辨別錯(cuò)誤,而錯(cuò)誤答案竟出乎意料的一致。小度在前兩次失敗和一次成功中究竟經(jīng)歷什么?負(fù)責(zé)百度人工智能技術(shù)研究的核心專(zhuān)家向雷鋒網(wǎng)透露其中的奧秘。

百度首席科學(xué)家吳恩達(dá)(Andrew Ng)表示,“在此次人機(jī)大戰(zhàn)之前,我們使用了2萬(wàn)個(gè)人的數(shù)據(jù)和超過(guò)5000個(gè)小時(shí)的訓(xùn)練時(shí)間來(lái)訓(xùn)練我們的模型。

最強(qiáng)大腦“人機(jī)大戰(zhàn)”第二輪戰(zhàn)平,吳恩達(dá)詳解背后技術(shù)原理

【吳恩達(dá)和林元慶正在講解節(jié)目背后的原理】

兩個(gè)模型出現(xiàn)“分歧”

吳恩達(dá)說(shuō),在本次比賽中,小度使用了兩套聲紋識(shí)別領(lǐng)域比較經(jīng)典的算法來(lái)進(jìn)行聲音識(shí)別,一是基于 DNN-ivector 的系統(tǒng),一是基于端對(duì)端深度神經(jīng)網(wǎng)絡(luò)的說(shuō)話人特征提取。同時(shí)使用兩套系統(tǒng)能分別從不同角度對(duì)說(shuō)話人的特征進(jìn)行提取,最后再將兩個(gè)模型進(jìn)行融合,這樣能有效提升系統(tǒng)的魯棒性(Robustness)。  

他說(shuō),實(shí)際上兩個(gè)模型都在三次辨別中正確辨別了兩次,但是當(dāng)兩個(gè)模型的結(jié)果融合在一起的時(shí)候,反而最終只辨別對(duì)了一個(gè)。原因主要在于辨別難度較高,兩套算法模型在前兩輪出現(xiàn)了“分歧”。

吳恩達(dá)說(shuō),第一個(gè)模型判斷正確了一、三輪,第二個(gè)模型判斷正確了二三輪,當(dāng)兩個(gè)模型在出現(xiàn)“分歧”時(shí),哪一個(gè)算法表現(xiàn)地更 “自信”,就取用誰(shuí)的答案。這就好比人們?cè)诳紨?shù)學(xué)題時(shí)用了兩種解題思路,解出了不同的答案,由于時(shí)間緊迫只能選擇一個(gè)“相對(duì)靠譜”的答案。

最強(qiáng)大腦“人機(jī)大戰(zhàn)”第二輪戰(zhàn)平,吳恩達(dá)詳解背后技術(shù)原理

他坦言,兩個(gè)模型都判斷對(duì)了兩個(gè),但是最終的結(jié)果反倒只對(duì)了一個(gè),這確實(shí)有些"unlucky"(不湊巧),存在一定概率問(wèn)題。但也確實(shí)讓看到了優(yōu)化的空間,未來(lái)希望能使用更優(yōu)的方法,比如使用更多數(shù)量的模型來(lái)進(jìn)行綜合計(jì)算。

通過(guò)自適應(yīng)調(diào)整來(lái)辨別唱歌

百度小度是如何通過(guò)說(shuō)話聲來(lái)“聽(tīng)懂”歌聲的,這讓許多人疑惑不解。百度深度學(xué)習(xí)實(shí)驗(yàn)室(IDL)主任林元慶告訴雷鋒網(wǎng):

第一步,我們會(huì)利用大量的標(biāo)準(zhǔn)化數(shù)據(jù)來(lái)進(jìn)行底座訓(xùn)練,得到一個(gè)基本的模型,這個(gè)是沒(méi)有特殊處理的,比如在我們采取20000個(gè)人的語(yǔ)音數(shù)據(jù)都是從語(yǔ)音搜索引擎抽取出來(lái)的,通過(guò)這些數(shù)據(jù)我們就可以訓(xùn)練出一個(gè)非常好的模型。


在此基礎(chǔ)上,我們收集少量的,比如1000個(gè)人在特殊場(chǎng)景下的聲音,比如說(shuō)唱歌。在比賽之前我們知道有唱歌內(nèi)容,但是不知道要唱什么歌,于是去收集一些歌來(lái)訓(xùn)練模型,讓模型能夠更準(zhǔn)確的識(shí)別說(shuō)話和唱歌時(shí)的聲音差異。

最強(qiáng)大腦“人機(jī)大戰(zhàn)”第二輪戰(zhàn)平,吳恩達(dá)詳解背后技術(shù)原理

【DNN-ivector 算法如何辨別唱歌】

如何解決底噪和多人同時(shí)說(shuō)話

對(duì)于如何解決背景噪音的問(wèn)題上,吳恩達(dá)表示,通常在訓(xùn)練模型時(shí)會(huì)刻意加入一些背景噪音的數(shù)據(jù),我們可以通過(guò)疊加兩段聲音的疊加來(lái)得到一段新的帶噪音的語(yǔ)音,將這些噪音放入到我們的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,就可以在一定程度上解決背景噪音的問(wèn)題。

在和環(huán)境底噪相比,聲紋識(shí)別更大的難題是多人同時(shí)發(fā)聲音。當(dāng)兩(多)個(gè)人同時(shí)說(shuō)話,且聲音的音色、頻率相近時(shí),機(jī)器很難區(qū)分哪一個(gè)是自己想要聽(tīng)的,哪一個(gè)是噪音。而人的耳朵經(jīng)過(guò)多年的進(jìn)化,已經(jīng)獲得了一種叫做“雞尾酒會(huì)效應(yīng)”的神奇能力,能自動(dòng)屏蔽不想聽(tīng)到的聲音。

對(duì)此,百度語(yǔ)音識(shí)別技術(shù)負(fù)責(zé)人李先剛坦言,

就現(xiàn)在的深度學(xué)習(xí)或者相關(guān)技術(shù)來(lái)說(shuō),處理同一個(gè)麥克風(fēng)捕捉的多人同時(shí)說(shuō)話的數(shù)據(jù)確實(shí)很難做,還有很多地方值得我們?nèi)ヌ魬?zhàn)。但就實(shí)際應(yīng)用場(chǎng)景來(lái)說(shuō),有其他方法可以較好地解決該問(wèn)題,比如強(qiáng)化定位,正如人有兩個(gè)耳朵可以定位聲音源,在實(shí)際應(yīng)用中我們可以采用多個(gè)麥克風(fēng)來(lái)加強(qiáng)目標(biāo)聲源的聲音,這樣就能較好地分辨目標(biāo)聲源和周?chē)须s。

吳恩達(dá)告訴雷鋒網(wǎng),此次百度在CES上推出的最近推出的小魚(yú)(Little Fish)機(jī)器人中配置了2個(gè)麥克風(fēng),可以一定程度解決多人說(shuō)話的問(wèn)題,未來(lái)還可以用4個(gè)、7個(gè)甚至更多麥克風(fēng)來(lái)處理該問(wèn)題。

由此我們發(fā)現(xiàn),雖然21位歌唱者是以合唱的形式進(jìn)行發(fā)聲,但節(jié)目組“很有心機(jī)”地為每個(gè)人都配備了高指向型的,這正是為了盡可能避免相互聲音干擾的問(wèn)題。

最強(qiáng)大腦“人機(jī)大戰(zhàn)”第二輪戰(zhàn)平,吳恩達(dá)詳解背后技術(shù)原理    

從比賽的結(jié)果來(lái)看,雖然小度前兩次均識(shí)別失敗,且節(jié)目組有些“雞賊”地以合唱之名來(lái)突出辨別的難度,事實(shí)上由于每個(gè)選手都單獨(dú)配備了麥克風(fēng),小度獲取的語(yǔ)音數(shù)據(jù)也許幾乎無(wú)異于單獨(dú)錄制。但總體看來(lái),各個(gè)因素造成的聲紋識(shí)別難度是業(yè)界有目共睹的,且拋開(kāi)所謂技術(shù)理想,百度大腦“秀肌肉”的目的就已然達(dá)到。

隨著人工智能的發(fā)展,未來(lái)這樣的“人機(jī)大戰(zhàn)”可能會(huì)更加頻繁的上演,人類(lèi)智慧天賦的極限在短時(shí)間內(nèi)幾乎很難上升,但機(jī)器進(jìn)步的空間卻依然很大。正如當(dāng)年第一臺(tái)蒸汽火車(chē)被發(fā)明出來(lái)時(shí),有人駕著馬車(chē)譏笑火車(chē)沒(méi)有馬車(chē)快一樣,那些譏笑火車(chē)的人最終受到歷史的譏笑。如果人們?cè)诳创藱C(jī)大戰(zhàn)之時(shí),只關(guān)心“誰(shuí)戰(zhàn)勝了誰(shuí)”,那么總有一天人機(jī)大戰(zhàn)也會(huì)失去意義。

下周五,再次出山的“水哥”王昱珩和小度機(jī)器人據(jù)說(shuō)依然會(huì)進(jìn)行圖像識(shí)別相關(guān)的比拼。具有頂尖觀察力、腦力的人類(lèi),和世界一流的人工智能之間還會(huì)碰撞出怎樣的火花?還需拭目以待。雷鋒網(wǎng)將繼續(xù)為您帶來(lái)報(bào)道和技術(shù)分析,也希望更多人的關(guān)注點(diǎn)不再僅僅聚焦于輸贏。

最強(qiáng)大腦“人機(jī)大戰(zhàn)”第二輪戰(zhàn)平,吳恩達(dá)詳解背后技術(shù)原理

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

最強(qiáng)大腦“人機(jī)大戰(zhàn)”第二輪戰(zhàn)平,吳恩達(dá)詳解背后技術(shù)原理

分享:
相關(guān)文章

編輯

關(guān)注網(wǎng)絡(luò)安全、黑客、白帽子那些事, 歡迎來(lái)聊聊你的故事。
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)