0
雷鋒網(wǎng)按:目前的人造聽力系統(tǒng)存在一個(gè)關(guān)鍵問題:無法過濾背景噪音。盡管用戶對(duì)傾聽的需求十分強(qiáng)烈,然而硬件只是單純地將聲音放大——自然也包括噪音。英國(guó)認(rèn)知科學(xué)家Colin Cherry于1953年首次將這一問題稱為"cocktail party problem"(雞尾酒會(huì)難題)。
作者 DeLiang Wang 是一名俄亥俄州立大學(xué)的教授,他主要關(guān)注計(jì)算機(jī)科學(xué)及工程領(lǐng)域,此外,他也在學(xué)校的認(rèn)知及大腦科學(xué)研究中心工作。本文是他基于自己親人的切身體會(huì),利用深度學(xué)習(xí)改造助聽器的自述,雷鋒網(wǎng)編譯,未經(jīng)許可不得轉(zhuǎn)載。
我上大學(xué)的時(shí)候,母親的聽力逐漸下降。不過一直以來,我很愿意回家將我所學(xué)的東西與她分享,她也很樂意傾聽。但漸漸地我發(fā)現(xiàn),如果多個(gè)人同時(shí)說話,那么母親很難分清到底是哪個(gè)人在和她講話。盡管她使用了助聽器,但對(duì)她來說區(qū)分這些聲音仍舊很難。在我們家庭聚餐的時(shí)候,我母親不希望我們同時(shí)和他說話,希望每次只有一個(gè)人和她說話。
我母親的痛苦遭遇反應(yīng)了目前助聽設(shè)備面臨的一個(gè)主要問題,即助聽器濾音效果不好。盡管信號(hào)處理專家、人工智能專家、聽力專家已經(jīng)努力了幾十年,但現(xiàn)在的人造聽力系統(tǒng)仍不能很好濾掉背景噪音。
據(jù)估計(jì),六十年后將會(huì)有約25%的人需要佩戴助聽設(shè)備,如果這些設(shè)備去除雜音的效果不好,那么我們可以想象這樣一個(gè)場(chǎng)景:
當(dāng)一個(gè)人和佩戴助聽設(shè)備的人談話時(shí),此時(shí)一輛汽車呼嘯而過,但這些助聽設(shè)備只是簡(jiǎn)單的將雜音與話音放大,卻無法很好去除汽車雜音,此時(shí)對(duì)于用戶的聽力將會(huì)造成多么大的傷害,他們將聽不清對(duì)方的講話。
是時(shí)候該解決這個(gè)問題了,我在俄亥俄州立大學(xué)的實(shí)驗(yàn)室目前嘗試使用深度學(xué)習(xí)模型實(shí)現(xiàn)雜音與聲音分離,此外我們還嘗試了多種用于去除雜音的數(shù)字濾波器。
我們相信基于深度學(xué)習(xí)模型的聽力修復(fù)可以使聽力受損人的聽力理解能力達(dá)到甚至超過正常人。實(shí)際上,我們的早期模型效果一直在提升。由原來聽清 10% 提高到 90%。在現(xiàn)實(shí)生活中,即使人們沒有聽清一句話中的每一詞,他們也可以理解這句話的意思。所以這實(shí)際上已經(jīng)意味著,人們已經(jīng)從“一句都聽不懂”變成了“能聽懂一句話”的狀態(tài)。
對(duì)于有聽覺問題的人,沒有好的助聽設(shè)備,人的聽力只會(huì)越來越糟。世界衛(wèi)生組織估計(jì)約 15%(776百萬人)患有聽覺問題,隨著老年人口的增多,這一數(shù)字將會(huì)逐漸變大,并且高級(jí)聽力設(shè)備的潛在市場(chǎng)不僅局限于聽覺受損用戶。開發(fā)商可以將這一技術(shù)用于智能手機(jī),以提升智能手機(jī)的通話質(zhì)量。一些人的工作環(huán)境背景噪音復(fù)雜,這個(gè)設(shè)備可以解決這問題。處于戰(zhàn)爭(zhēng)環(huán)境中的士兵也可以佩戴這個(gè)設(shè)備使得他們之間的通話更加順暢。
助聽設(shè)備的市場(chǎng)廣闊,據(jù)印度MarketsandMarkets研究發(fā)現(xiàn),目前助聽行業(yè)規(guī)模大約為60億美金,市場(chǎng)規(guī)模在2020年以前預(yù)計(jì)以每年6%的速度遞增。為了滿足新用戶需求,我們需要解決‘雞尾酒會(huì)難題’,那么如何解決呢?深度學(xué)習(xí)給我們提供了一個(gè)很好的解決思路。
語音清洗流程如下:
信號(hào)轉(zhuǎn)換:機(jī)器學(xué)習(xí)程序首先將語音信號(hào)轉(zhuǎn)換為時(shí)域信號(hào)。
特征表示:在時(shí)域范圍內(nèi)用85個(gè)特征表示語音信號(hào),
語音分類:將這些用特征表示的語音信號(hào)傳入深度學(xué)習(xí)模型中,找出語音信號(hào)與雜音信號(hào),
雜音過濾:使用濾波器去除雜音信號(hào),保留語音信號(hào)。
數(shù)十年來,電子與計(jì)算機(jī)專家嘗試從信號(hào)處理的角度實(shí)現(xiàn)語音與雜音的分離,但均以失敗告終。目前最有效的方法就是語音活動(dòng)檢測(cè)器,用于識(shí)別不同人之間的說話。在這種方法下,系統(tǒng)檢測(cè)出不同的語音信號(hào),然后濾去這些聲音信號(hào),留下理想的、無雜音信號(hào)。不幸的是,這種方法效果很不好,它通常會(huì)濾去很多語音或只濾去少量雜音。即便經(jīng)過了幾十年的發(fā)展,這項(xiàng)技術(shù)的實(shí)際效果仍然不太理想。
我覺得我們得使用新的方法解決這個(gè)問題,我們首先研究了 Albert Bregman( McGill University)的關(guān)于人類聽力系統(tǒng)的理論,他認(rèn)為人類的聽覺系統(tǒng)將不同的聲音分成不同的聲音流,一個(gè)聲音流對(duì)應(yīng)一個(gè)音源,每一個(gè)聲音流據(jù)有不同的音高、音量、方向。
上圖展示了聲音場(chǎng)景是如何形成的
總之,許多音流(像曲棍球比賽中朋友們的吶喊)組成 Bregman 所謂的聽覺場(chǎng)景。如果不同音波的音頻一樣,那么音量最大那個(gè)將會(huì)蓋過其它聲音,這一現(xiàn)象被稱作聽覺掩蔽效應(yīng)。例如,下雨的的時(shí)候沒人會(huì)聽到鐘表的滴答聲。這原理也用在了MP3的文件中,它通過壓縮被掩蔽的聲音,使得文件大小變?yōu)榱嗽瓉淼氖种唬募m然縮小了,但用戶卻沒有任何感覺。
回顧了Bregman的工作,我們?cè)O(shè)想我們是否可以構(gòu)建一個(gè)濾波器,在特定時(shí)刻對(duì)于特定音頻,這個(gè)濾波器可以找到主聲波。聽覺感知專家Psychoacousticians將人類的聽覺頻率(20Hz到20000Hz)分成24份,那么問題就變成了我們需要一個(gè)濾波器,在某一時(shí)刻這個(gè)濾波器可以告訴我們是否存在一個(gè)包含比其它語音或雜音都大的聲音,然后江這個(gè)大的聲音進(jìn)行分離出來。
我的實(shí)驗(yàn)室在2001年就開始了這項(xiàng)工作,并給音流打標(biāo)簽,以表明他們的主音流是語音流還是雜音流。有了這些標(biāo)記數(shù)據(jù),然后我們基于機(jī)器學(xué)習(xí)的方法,訓(xùn)練一個(gè)能區(qū)分主音流是聲音還是雜音的分類器,這些特征包括音量、音調(diào)等。
原始過濾器是一個(gè)二元過濾器,用于對(duì)特定時(shí)刻特定頻率的聲音進(jìn)行標(biāo)識(shí),這個(gè)過濾器在時(shí)域范圍對(duì)聲音信號(hào)進(jìn)行0、1標(biāo)識(shí),如果主音為聲音,標(biāo)1;主音為雜音,標(biāo)0。最后生成一個(gè)主音為聲音與主音為雜音的樣本集合,濾波器除去標(biāo)識(shí)為0的聲音,保留標(biāo)識(shí)為1的聲音。為了保證句子能夠被理解,必須保證標(biāo)識(shí)為1的語音占有一定的比例。
2006年,在美國(guó)空軍實(shí)驗(yàn)室我們對(duì)聲音濾波器進(jìn)行測(cè)試,與此同時(shí),另外一家機(jī)構(gòu)也隊(duì)我們的產(chǎn)品進(jìn)行獨(dú)立的第三方評(píng)估,在這些試驗(yàn)中,我們的產(chǎn)品性能優(yōu)異。不僅有助于提高聽覺受損者的聽力水平,還有助于提高正常人的聽力水平。
我們創(chuàng)造了一款在實(shí)驗(yàn)室中表現(xiàn)優(yōu)良的聽力設(shè)備,在設(shè)計(jì)過程中,我們訓(xùn)練的時(shí)候是將語音信號(hào)與雜音信號(hào)分開的。測(cè)試的時(shí)候?qū)⑦@兩者混合在一起,然后測(cè)試。由于這些信息均為為標(biāo)記信息,所以過濾器知道什么情況下語音信號(hào)要大于雜音信號(hào),所以我們稱之為理想濾波器。但實(shí)際情況是濾波器應(yīng)該能靠自己進(jìn)行判斷,而不是靠我們提前告訴它。
不過,理想濾波器確實(shí)能提高聽覺受損者與正常者的聽力理解水平。這表明我們可以將分類方法用于區(qū)分語音與噪音。分類方法實(shí)際上是一種機(jī)器學(xué)習(xí)的方法,通過訓(xùn)練、反饋、懲罰等一些列類似于人的學(xué)習(xí)過程,來實(shí)現(xiàn)對(duì)聲音信號(hào)的正確分類。
在接下來的幾年中,我們實(shí)驗(yàn)室開始嘗試使用分類方法來模仿我們?yōu)V波器,同時(shí),我們基于機(jī)器學(xué)習(xí)設(shè)計(jì)新的分類器,提高自動(dòng)語音識(shí)別的質(zhì)量。后來一組來自University of Texas的研究人員使用一種不同的方法首次實(shí)現(xiàn)語音可懂性的實(shí)質(zhì)意義上的進(jìn)步,這種方法僅使用了單聲道特征。
但是對(duì)于助聽設(shè)備來說,這些分類方法的效果與精度還不夠,這些方法還不能處理現(xiàn)實(shí)世界中復(fù)雜環(huán)境下的聲音信息。因此,我們需要更好的方法。
我們決定進(jìn)一步改善系統(tǒng)效果,使我們的系統(tǒng)可以應(yīng)用在現(xiàn)實(shí)環(huán)境中且不需訓(xùn)練。為了解決這個(gè)問題,我們構(gòu)建了一個(gè)以前從未構(gòu)建過的機(jī)器學(xué)習(xí)系統(tǒng),經(jīng)過復(fù)雜的訓(xùn)練,這個(gè)神經(jīng)網(wǎng)絡(luò)系統(tǒng),可以用于聲音與雜音的分離。在24個(gè)測(cè)試樣本中,這套系統(tǒng)提高聽力受損人員的聽力理解力約50%。效果良好。
神經(jīng)網(wǎng)絡(luò)是由一些簡(jiǎn)單的神經(jīng)元組成,這些簡(jiǎn)單那神經(jīng)元組合在一起就可以處理復(fù)雜的問題。當(dāng)一個(gè)新的神經(jīng)網(wǎng)絡(luò)模型構(gòu)建好以后,這個(gè)模型需要利用數(shù)據(jù)不斷的調(diào)整神經(jīng)元與神經(jīng)元之間的權(quán)重(類似于人腦學(xué)習(xí)),以達(dá)到實(shí)現(xiàn)語音信號(hào)分類的目的。
如上圖所示:左側(cè)為為輸入層,右側(cè)為輸出層,通過調(diào)節(jié)層與層之間的神經(jīng)元之間的鏈接權(quán)重提高系統(tǒng)性能。
神經(jīng)網(wǎng)絡(luò)有不同的形狀、大小、深度。隱層多余兩層的就可以稱為深度神經(jīng)網(wǎng)絡(luò),上一層的輸出是下一層的輸入,就好比給下一個(gè)隱層增加一些先驗(yàn)知識(shí)。
例如,我們通過數(shù)據(jù)訓(xùn)練一個(gè)簽名識(shí)別網(wǎng)絡(luò),如果此時(shí)有一個(gè)新的簽名,這個(gè)簽名與數(shù)據(jù)集中的簽名是一個(gè)人寫的,卻與數(shù)據(jù)集中的簽名不完全一樣,但我們的網(wǎng)絡(luò)仍可以識(shí)別出來,因?yàn)槲覀兊木W(wǎng)絡(luò)層是可以識(shí)別出同一人簽名的不同特征的,只要特征相同,就可以認(rèn)為是同一個(gè)人寫的,這些特征包括文字的傾斜角度,字母i的點(diǎn)是否點(diǎn)上等。
為了構(gòu)建我們自己的深度學(xué)習(xí)網(wǎng)絡(luò),我們開始編寫基于音頻、振幅的特征抽取器,我們定義了數(shù)十個(gè)特征用以區(qū)別聲音與雜音。最終我們確定了85個(gè)特征。其中最重要的特征是音頻與音強(qiáng)。抽完特征以后,我們用這85個(gè)特征對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。我們的訓(xùn)練包含兩個(gè)階段:
一、通過無監(jiān)督方法訓(xùn)練系統(tǒng)參數(shù)。
二、用雜音數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,這一步是有監(jiān)督訓(xùn)練。我們用標(biāo)記好的正例與負(fù)例對(duì)我們的系統(tǒng)進(jìn)行測(cè)試與改善。
具體流程如下:輸入一個(gè)新數(shù)據(jù),系統(tǒng)首先對(duì)數(shù)據(jù)進(jìn)行特征提取,特征表示,對(duì)數(shù)據(jù)進(jìn)行分類(是聲音還是雜音),與正確結(jié)果進(jìn)行比較。如果結(jié)果有誤,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行調(diào)參,使得我們的輸出在下一次的訓(xùn)練中盡可能與正確結(jié)果相接近。
為了實(shí)現(xiàn)神經(jīng)元與神經(jīng)元之間的權(quán)重調(diào)整(調(diào)參),我們首先計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出誤差,我們有一個(gè)誤差函數(shù),這個(gè)函數(shù)用來計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果誤差。根據(jù)這個(gè)結(jié)果誤差,我們對(duì)神經(jīng)元之間的連接權(quán)重進(jìn)行調(diào)整,以降低誤差,這個(gè)訓(xùn)練過程需要重復(fù)上千次。最終實(shí)現(xiàn)一個(gè)較好的訓(xùn)練模型。
為了使得結(jié)果更好,我們?cè)谇懊嫔疃葘W(xué)習(xí)的基礎(chǔ)上在構(gòu)建一個(gè)深度學(xué)習(xí)模型,將第一個(gè)的輸出做為第二模型的輸入,對(duì)結(jié)果進(jìn)行細(xì)粒度的調(diào)優(yōu),第一層的關(guān)注的是聲音單元本身的特征,第二層檢驗(yàn)的是聲音單元‘鄰居’的特征。那么為什么對(duì)周圍聲音進(jìn)行檢測(cè)也有用呢?道理很簡(jiǎn)單,第一層好比是一個(gè)正在銷售的房屋,我們對(duì)它的各個(gè)房間進(jìn)行查看,第二層就好比這個(gè)屋子的‘鄰居’,我們對(duì)它的‘鄰居’進(jìn)行檢驗(yàn)。換句話說,第二層為第一層提供了聲音信號(hào)的上下文信息,有助于提高分類的準(zhǔn)確率。例如,一個(gè)音節(jié)可能包含幾個(gè)時(shí)域,背景噪音可能只在突然出現(xiàn)音節(jié)的起始階段,后面就沒有了。在這個(gè)例子中,上下文信息就可以使我們更好的從雜音中提取出聲音。
在完成訓(xùn)練后,我們的深度學(xué)習(xí)分類器要比我們?cè)鹊姆诸惼骱煤芏?,事?shí)上,這是我們首次在算法上取得突破,使得我們的助聽設(shè)備可以提高聽覺受損人員的聽力水平。為了測(cè)試我們的設(shè)備性能,我們對(duì)12名聽障人員、12名聽力正常人員進(jìn)行測(cè)試,測(cè)試用例是成對(duì)出現(xiàn)的,第一次聲音與雜音混在一起,第二次是經(jīng)過我們神經(jīng)網(wǎng)絡(luò)處理過的聲音。例如包含“It’s getting cold in here”和“They ate the lemon pie,”的句子有兩種雜音,一種是嗡嗡聲,另一種背景雜音是很多人在一起說話。這個(gè)嗡嗡聲很像冰箱壓縮機(jī)工作的聲音,而另一種雜音是是我們生成的,是四男四女的說話聲,以此來模仿雞尾酒會(huì)的這一類背景噪音。
在對(duì)背景噪音進(jìn)行處理后,無論是聽覺受損人員還是聽覺正常人員其聽力理解能力均有大幅提升,在未經(jīng)處理的聲音中,聽覺受損人員只可以聽清29%的單詞,但在處理過的聲音中,他們可以理解84%的內(nèi)容。在一些例子中,一開始只能聽清10%,經(jīng)過處理后就可以理解90%的內(nèi)容了。在有嗡嗡雜音環(huán)境下,聽覺受損人員的理解力從未經(jīng)處理時(shí)的36%提升到82%。
對(duì)于聽力正常的人,我們的系統(tǒng)同樣有效,它可以使正常人在有雜音的環(huán)境下聽到的更多,這就意味著將來的某一天,我們的系統(tǒng)可以幫助更多的人。在嗡嗡雜音下,未經(jīng)處理,正常人只能聽懂37%,處理后可以聽懂80%,在雞尾酒會(huì)的這一類背景噪音下,其聽力理解力由42%提升到78%。
我們實(shí)驗(yàn)中最有意思的結(jié)果是,如果一個(gè)聽力受損的人使用我們的助聽設(shè)備,那么他的聽力能否超過正常人?答案是肯定的。在嗡嗡環(huán)境下,聽力受損的人(使用我們的助聽設(shè)備)可以比正常人多聽懂15%內(nèi)容,在聚會(huì)噪音背景下可以多聽懂20%。以這個(gè)結(jié)果來看,可以說我們的系統(tǒng)是最接近解決‘雞尾酒會(huì)問題’的系統(tǒng)。
盡管如此,我們的算法仍有局限,在測(cè)試樣例中,我們的背景噪聲與我們訓(xùn)練用的背景噪聲很相似。但實(shí)際情況卻不是這樣的,所以在實(shí)際應(yīng)用中,系統(tǒng)需要快速學(xué)習(xí)周圍環(huán)境中的各種背景噪聲,并將其濾掉。例如通風(fēng)系統(tǒng)的聲音、房間內(nèi)回音等。
我們購(gòu)買了一個(gè)包含10000種雜音的數(shù)據(jù)集(這個(gè)數(shù)據(jù)集起初是為電影制造商準(zhǔn)備的),用其來訓(xùn)練我們模型。今年,我們發(fā)現(xiàn)經(jīng)過訓(xùn)練的程序可以處理以前從未遇到過的雜音了,并且去雜音效果得到了及具現(xiàn)實(shí)意義的提高(無論對(duì)聽覺受損者還是聽覺正常者),現(xiàn)在,由于得到了全國(guó)失聰及其他溝通障礙研究所( National Institute on Deafness and Other Communication Disorders )的支持,我們決定在更多環(huán)境下,使用更多的聽障人員來測(cè)試我們的系統(tǒng)。
最后,我相信我們系統(tǒng)可以在性能更加強(qiáng)大的計(jì)算機(jī)上進(jìn)行訓(xùn)練,并且移植到人聽障人士身上,或者與智能手機(jī)進(jìn)行配對(duì)使用。商家會(huì)周期性的對(duì)新數(shù)據(jù)進(jìn)行訓(xùn)練,并發(fā)布新的版本以便讓用戶升級(jí)他們的助聽設(shè)備,從而使其能夠?yàn)V去新的雜音。我們已經(jīng)申請(qǐng)了數(shù)個(gè)專利并且與多個(gè)合作伙伴進(jìn)行了商業(yè)化應(yīng)用。
使用這個(gè)方法,雞尾酒會(huì)難題看起來不在是那么難以解決。我們堅(jiān)信,只要有更多雜音數(shù)據(jù)、更加廣泛的訓(xùn)練,我們終究可以解決這個(gè)難題。事實(shí)上,我認(rèn)為我們現(xiàn)在處理聲音的流程與小孩早期區(qū)分雜音與聲音的過成是很類似的。都是在不斷的重復(fù)中提升性能的??傊?,經(jīng)驗(yàn)越多,方法就變得越好。
雷鋒網(wǎng)小編也設(shè)想到,如果一個(gè)有著聽力障礙的熱心讀者參加了明年雷鋒網(wǎng)舉辦的GAIR大會(huì),在人頭攢動(dòng)的會(huì)場(chǎng),他可能一直會(huì)被會(huì)展播放的背景音樂所打擾,無法專心與新結(jié)識(shí)的大牛們聊天。如果有了硬件相關(guān)的技術(shù)提升,那么想必會(huì)讓活動(dòng)的效果更好,而這也是科技尤其是人工智能所帶給我們的福祉:讓智能與未來伴隨我們的生活,并使之變得更加美好。
via Deep Learning Reinvents the Hearing Aid
【招聘】雷鋒網(wǎng)堅(jiān)持在人工智能、無人駕駛、VR/AR、Fintech、未來醫(yī)療等領(lǐng)域第一時(shí)間提供海外科技動(dòng)態(tài)與資訊。我們需要若干關(guān)注國(guó)際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優(yōu)良的外翻編輯加入。
簡(jiǎn)歷投遞至 wudexin@leiphone.com,工作地 北京。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。