0
本文作者: AI研習(xí)社-譯站 | 2019-03-11 10:16 |
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
Human-Like Machine Hearing With AI (1/3)
作者 | Daniel Rothmann
翻譯 | 悟空空、Glimmer
校對(duì) | 鄧普斯?杰弗 審核 | 醬番梨 整理 | 立魚王
原文鏈接:
https://towardsdatascience.com/human-like-machine-hearing-with-ai-1-3-a5713af6e2f8
圖片來源:Jonathan Gross
通過對(duì)人體系統(tǒng)進(jìn)行建模,人工智能技術(shù)已經(jīng)取得了重大突破。盡管人工神經(jīng)網(wǎng)絡(luò)是數(shù)學(xué)模型,僅能粗糙地模擬人類神經(jīng)元的實(shí)際運(yùn)作方式,但它們?cè)诮鉀Q復(fù)雜而模糊的現(xiàn)實(shí)問題中的應(yīng)用卻是深遠(yuǎn)的。此外,在神經(jīng)網(wǎng)絡(luò)中模擬建模人腦的結(jié)構(gòu)深度,為學(xué)習(xí)到數(shù)據(jù)背后更有意義的內(nèi)涵開辟了廣泛的可能性。
如果您錯(cuò)過了其他文章,請(qǐng)點(diǎn)擊下面鏈接以了解該技術(shù)的最新發(fā)展。
評(píng)論:用于音頻處理的卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和頻譜圖有什么問題?
在圖片識(shí)別和處理中,來自視覺系統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(CNNs)中的復(fù)雜且空間不變的神經(jīng)元的靈感,也對(duì)我們的技術(shù)產(chǎn)生了很大的改進(jìn)。如果您對(duì)將圖片識(shí)別技術(shù)應(yīng)用于音頻頻譜圖感興趣,請(qǐng)查看我的文章“用于音頻處理的卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和頻譜圖有什么問題?”
只要人類的感知能力超過機(jī)器,我們就可以通過理解人類系統(tǒng)的原理來學(xué)習(xí)獲益。在感知任務(wù)方面,人類非常熟練,且在機(jī)器聽覺領(lǐng)域,人類的理解能力和當(dāng)前的AI技術(shù)之間的對(duì)比尤為明顯??紤]到在視覺處理領(lǐng)域中受到人類系統(tǒng)啟發(fā)所帶來的好處,我建議我們可以通過神經(jīng)網(wǎng)絡(luò)應(yīng)用于視覺領(lǐng)域相似的過程,運(yùn)用在機(jī)器聽覺領(lǐng)域一定會(huì)獲益。
本文的流程框架
在本系列文章中,我將詳細(xì)介紹使用AI進(jìn)行實(shí)時(shí)音頻信號(hào)處理的一個(gè)框架,該框架是Aarhus大學(xué)和智能揚(yáng)聲器制造商Dynaudio A/S合作開發(fā)的。它的靈感主要來自于認(rèn)知科學(xué), 認(rèn)知科學(xué)試圖將生物學(xué)、神經(jīng)科學(xué)、心理學(xué)和哲學(xué)的觀點(diǎn)結(jié)合起來,以更好地理解我們的認(rèn)知能力。
也許關(guān)于聲音最抽象方式,在于我們作為人類如何理解它。雖然信號(hào)處理問題的解決方案必須在強(qiáng)度、頻譜和時(shí)間這些低級(jí)別屬性參數(shù)的范圍內(nèi)進(jìn)行處理,但最終目標(biāo)通常是可認(rèn)知的:以我們對(duì)聲音包含的意義認(rèn)知方式轉(zhuǎn)換信號(hào)。
例如,如果希望以編程方式改變一段語音說話者的性別,則必須在定義其較低級(jí)別特征之前,以更有意義的術(shù)語來描述該問題。說話者的性別可以被認(rèn)為是由多種因素構(gòu)成的認(rèn)知屬性:語音的音高和音色、發(fā)音的差異、單詞和語言選擇的差異,以及對(duì)這些屬性如何與性別聯(lián)系起來的理解。
這些參數(shù)可以用較低級(jí)別的特征來描述,例如強(qiáng)度、頻譜和時(shí)間這些屬性,但只有在更復(fù)雜的組合中,它們才能形成高級(jí)別的意義表示。這形成了音頻特征的層次結(jié)構(gòu),從中可以推斷出聲音的“含義”。人類聲音的認(rèn)知屬性可以認(rèn)為由聲音的強(qiáng)度、頻譜和統(tǒng)計(jì)特性的時(shí)間序列的組合模式來表示。
可用于從數(shù)字音頻中獲得含義的功能層次。
神經(jīng)網(wǎng)絡(luò)(NNs)非常擅長(zhǎng)提取抽象的數(shù)據(jù)表示,因此非常適合檢測(cè)聲音中的認(rèn)知屬性。為了構(gòu)建一個(gè)基于此目的的系統(tǒng),讓我們先來研究聲音在人類聽覺器官中的表現(xiàn)方式,我們可以用它來激發(fā)通過神經(jīng)網(wǎng)絡(luò)來處理聲音意義的表示。
人類聽覺始于外耳,外耳首先由耳郭組成。耳郭充當(dāng)聲音頻譜預(yù)處理的一種形式,其中輸入聲音根據(jù)其相對(duì)于收聽者的方向而被修改。然后聲音通過耳郭中的開口進(jìn)入耳道,隨后通過共振這種放大頻率(范圍為~1-6kHz)的方式,來改變輸入聲音的頻譜特性[1]。
人類聽覺系統(tǒng)的圖解。
當(dāng)聲波到達(dá)耳道末端時(shí),它們會(huì)激發(fā)耳膜,耳膜上附著了聽小骨(人體中的最小骨頭)。這些骨頭將壓力從耳道傳遞到內(nèi)耳充滿液體的耳蝸內(nèi)[1]。耳蝸對(duì)為神經(jīng)網(wǎng)絡(luò)(NNs)引導(dǎo)聲音的意義表示起很大作用,因?yàn)檫@是負(fù)責(zé)將聲振動(dòng)轉(zhuǎn)換成人類神經(jīng)活動(dòng)的器官。
它是一個(gè)盤管,沿其長(zhǎng)度上被兩個(gè)薄膜分開,即賴斯納氏膜和基底膜。沿著耳蝸的長(zhǎng)度上, 有一排約3500個(gè)內(nèi)毛細(xì)胞[1]。當(dāng)壓力進(jìn)入耳蝸時(shí),它的兩個(gè)膜被壓下。基底膜的底部較窄且較硬,但在其頂點(diǎn)處較寬且松散,這使得沿其長(zhǎng)度的每個(gè)位置在特定頻率下的相應(yīng)更強(qiáng)烈。
簡(jiǎn)單來說,基底膜可以被認(rèn)為是一組連續(xù)的、和薄膜一樣長(zhǎng)度的帶通濾波器,作用是把聲音分離到他們的譜分量。
人類耳蝸的圖解
這是人類將聲壓轉(zhuǎn)變?yōu)樯窠?jīng)活動(dòng)的最基本的機(jī)制。因此,我們有理由假設(shè),在用人工智能建立聲音感知模型的時(shí)候,聲音的譜表示比較有利。因?yàn)榛啄ど系念l率反應(yīng)是以指數(shù)形式變化的,對(duì)數(shù)化的頻率表示可能是最有效的。一個(gè)這樣的頻率表示可以用gammatone濾波器組產(chǎn)生。這些濾波器被普遍應(yīng)用于聽覺系統(tǒng)的譜濾波建模中,因?yàn)樗麄兡軌蚬烙?jì)產(chǎn)生自聽覺神經(jīng)纖維的人類聽覺濾波器的脈沖響應(yīng),這是對(duì)一種叫做“revcor”函數(shù)的白噪聲的回應(yīng)。
簡(jiǎn)化的人類譜轉(zhuǎn)導(dǎo)和數(shù)字化譜轉(zhuǎn)導(dǎo)的對(duì)比
耳蝸有大約3500個(gè)內(nèi)毛細(xì)胞,且人類能夠檢測(cè)到長(zhǎng)度在2-5ms的聲音中的空隙,因此使用3500個(gè)分為2ms的窗口的gammatone濾波器進(jìn)行譜分解看起來是用機(jī)器實(shí)現(xiàn)類人譜表示的最好的參數(shù)。然而,在實(shí)際場(chǎng)景中,我認(rèn)為更少的譜分解也能在大多數(shù)分析和處理任務(wù)中達(dá)到理想的效果,同時(shí)在計(jì)算角度更為可行。
一些聽覺分析的軟件庫在線可用。一個(gè)重要的例子就是Gammatone Filterbank Toolkit by Jason Heeris.它不僅提供了可調(diào)節(jié)的濾波器,也提供了用gammatone濾波器進(jìn)行聲音信號(hào)類譜分析的工具。
在神經(jīng)活動(dòng)從耳蝸移動(dòng)到聽覺神經(jīng)和上升聽覺通路的同時(shí),一些工序在它到達(dá)聽覺皮層之前在腦干核執(zhí)行。
這些工序建立了一個(gè)表示刺激和感知之間相互作用的神經(jīng)編碼。更多的關(guān)于這些細(xì)胞核內(nèi)具體的工作的知識(shí)仍然是基于猜測(cè)或未知的,所以我將在他們?nèi)绾伟l(fā)揮作用的高層次來介紹。
圖:簡(jiǎn)化的上升聽覺通路(一只耳朵)和設(shè)想功能的圖解。
人類內(nèi)在連接著的每只耳朵都有一套這樣的核,但是簡(jiǎn)單起見,我只闡述一只耳朵中的流程。耳蝸核是為從聽覺神經(jīng)到來的神經(jīng)信號(hào)編碼的第一步。它包含許多有著不同特性,能夠完成聲音特征的初處理的神經(jīng)元。這些神經(jīng)元中,一部分指向和聲源定位相關(guān)的上橄欖體,另一部分指向外側(cè)丘系核和下丘,通常與更高級(jí)的特征相關(guān)。
J.J.Eggermont 在“Between sound and perception: reviewing the search for a neural code” 中如下詳細(xì)地闡述了從耳蝸核開始的信息流動(dòng)過程:“腹側(cè)耳蝸核(VCN)提取并增強(qiáng)了在聽覺神經(jīng)纖維的放電模式中多路復(fù)用的頻率和時(shí)間信息,并且通過兩種主要的通路來發(fā)送結(jié)果:聲源定位路徑和聲紋鑒別路徑。VCN的前部(AVCN)主要在聲源定位方面發(fā)揮作用,而且它的兩種bushy 細(xì)胞為上橄欖核(SOC)提供了輸入。在上橄欖核中耳間時(shí)間差(ITDs)和耳間水平差(ILDs)對(duì)于每種頻率分別映射。
聲紋鑒別路徑攜帶的信息是像元音一樣的復(fù)譜的一種表示。這種表示主要在腹側(cè)耳蝸核中由特殊種類的單元?jiǎng)?chuàng)造,這些單元也被叫做”chopper"神經(jīng)元。聽覺編碼的細(xì)節(jié)很難被詳細(xì)說明,但是他們告訴我們,到來的頻譜的“編碼”形式可以提高對(duì)低層次聲音特性的理解,同時(shí)使在神經(jīng)網(wǎng)絡(luò)中處理聲音的代價(jià)更小。
我們可以應(yīng)用非監(jiān)督自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為學(xué)習(xí)和復(fù)雜譜相關(guān)的普遍特性的一種嘗試。像詞嵌入一樣,在表示選中特征(或一種更嚴(yán)格濃縮的含義)頻譜中發(fā)現(xiàn)共性是可能的。
一個(gè)自動(dòng)編碼器經(jīng)訓(xùn)練能夠?qū)⑤斎刖幋a為一種壓縮的表示法,這種表示法能重建回和輸入有高相似度的形式。這意味著一個(gè)自動(dòng)編碼器的目標(biāo)輸出就是輸入本身。如果一個(gè)輸入能夠在被重建的同時(shí)沒有很大的損失,神經(jīng)網(wǎng)絡(luò)就會(huì)學(xué)習(xí)在這種包含足夠多有意義的信息的壓縮內(nèi)在表示法下編碼它。這種內(nèi)在表示法也就是我們所說的嵌入。自動(dòng)編碼器的編碼部分可以從解碼器解耦,來為其他應(yīng)用生成嵌入。
譜聲音嵌入的自動(dòng)編碼器結(jié)構(gòu)圖解
嵌入還有一個(gè)優(yōu)點(diǎn),就是他們通常比原始數(shù)據(jù)有著更低的維度。舉個(gè)例子,一個(gè)自動(dòng)編碼器可以把有著3500個(gè)值的頻譜壓縮為一個(gè)長(zhǎng)度為500的向量。簡(jiǎn)單地說,這樣的向量的每一個(gè)值都可以描述像元音、聲震粗糙度或調(diào)和性的高層次的譜特征——它們僅僅是例子,事實(shí)上一個(gè)自動(dòng)編碼器生成的統(tǒng)計(jì)上的共同特征的含義通常很難在原始語言中標(biāo)記。
在下一個(gè)文章中,我們會(huì)拓展這個(gè)想法,采用新增內(nèi)存來為聲音頻譜的時(shí)間產(chǎn)物生成嵌入。
這是我“用人工智能進(jìn)行聲音處理”的系列文章的第一部分。接下來,我們會(huì)討論聲音中的感覺記憶和時(shí)序依賴的核心概念。
參考文獻(xiàn):
[1] C. J. Plack, The Sense of Hearing, 2nd ed. Psychology Press, 2014.
[2] S. J. Elliott and C. A. Shera, “The cochlea as a smart structure,” Smart Mater. Struct., vol. 21, no. 6, p. 64001, Jun. 2012.
[3] A.M. Darling, “Properties and implementation of the gammatone filter: A tutorial”, Speech hearing and language, University College London, 1991.
[4] J. J. Eggermont, “Between sound and perception: reviewing the search for a neural code.,” Hear. Res., vol. 157, no. 1–2, pp. 1–42, Jul. 2001.
[5] T. P. Lillicrap et al., Learning Deep Architectures for AI, vol. 2, no. 1. 2015.
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
點(diǎn)擊【如何讓機(jī)器像人一樣聽聲音】或長(zhǎng)按下方地址/二維碼:
https://ai.yanxishe.com/page/TextTranslation/1424
AI研習(xí)社今日推薦:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
卡耐基梅隆大學(xué) 2019 春季《神經(jīng)網(wǎng)絡(luò)自然語言處理》是CMU語言技術(shù)學(xué)院和計(jì)算機(jī)學(xué)院聯(lián)合開課,主要內(nèi)容是教學(xué)生如何用神經(jīng)網(wǎng)絡(luò)做自然語言處理。神經(jīng)網(wǎng)絡(luò)對(duì)于語言建模任務(wù)而言,可以稱得上是提供了一種強(qiáng)大的新工具,與此同時(shí),神經(jīng)網(wǎng)絡(luò)能夠改進(jìn)諸多任務(wù)中的最新技術(shù),將過去不容易解決的問題變得輕松簡(jiǎn)單。
加入小組免費(fèi)觀看視頻:https://ai.yanxishe.com/page/groupDetail/33
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。