丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給小東
發(fā)送

0

我如何用深度學(xué)習(xí)改造母親的助聽器?

本文作者: 小東 2016-12-20 10:12
導(dǎo)語:深度學(xué)習(xí)重新定義助聽設(shè)備,過濾雜音效果良好。

雷鋒網(wǎng)按:目前的人造聽力系統(tǒng)存在一個關(guān)鍵問題:無法過濾背景噪音。盡管用戶對傾聽的需求十分強烈,然而硬件只是單純地將聲音放大——自然也包括噪音。英國認(rèn)知科學(xué)家Colin Cherry于1953年首次將這一問題稱為"cocktail party problem"(雞尾酒會難題)。

作者 DeLiang Wang 是一名俄亥俄州立大學(xué)的教授,他主要關(guān)注計算機科學(xué)及工程領(lǐng)域,此外,他也在學(xué)校的認(rèn)知及大腦科學(xué)研究中心工作。本文是他基于自己親人的切身體會,利用深度學(xué)習(xí)改造助聽器的自述,雷鋒網(wǎng)編譯,未經(jīng)許可不得轉(zhuǎn)載。

我如何用深度學(xué)習(xí)改造母親的助聽器?

我上大學(xué)的時候,母親的聽力逐漸下降。不過一直以來,我很愿意回家將我所學(xué)的東西與她分享,她也很樂意傾聽。但漸漸地我發(fā)現(xiàn),如果多個人同時說話,那么母親很難分清到底是哪個人在和她講話。盡管她使用了助聽器,但對她來說區(qū)分這些聲音仍舊很難。在我們家庭聚餐的時候,我母親不希望我們同時和他說話,希望每次只有一個人和她說話。

我母親的痛苦遭遇反應(yīng)了目前助聽設(shè)備面臨的一個主要問題,即助聽器濾音效果不好。盡管信號處理專家、人工智能專家、聽力專家已經(jīng)努力了幾十年,但現(xiàn)在的人造聽力系統(tǒng)仍不能很好濾掉背景噪音。

據(jù)估計,六十年后將會有約25%的人需要佩戴助聽設(shè)備,如果這些設(shè)備去除雜音的效果不好,那么我們可以想象這樣一個場景:

當(dāng)一個人和佩戴助聽設(shè)備的人談話時,此時一輛汽車呼嘯而過,但這些助聽設(shè)備只是簡單的將雜音與話音放大,卻無法很好去除汽車雜音,此時對于用戶的聽力將會造成多么大的傷害,他們將聽不清對方的講話。

是時候該解決這個問題了,我在俄亥俄州立大學(xué)的實驗室目前嘗試使用深度學(xué)習(xí)模型實現(xiàn)雜音與聲音分離,此外我們還嘗試了多種用于去除雜音的數(shù)字濾波器。

我們相信基于深度學(xué)習(xí)模型的聽力修復(fù)可以使聽力受損人的聽力理解能力達到甚至超過正常人。實際上,我們的早期模型效果一直在提升。由原來聽清 10% 提高到 90%。在現(xiàn)實生活中,即使人們沒有聽清一句話中的每一詞,他們也可以理解這句話的意思。所以這實際上已經(jīng)意味著,人們已經(jīng)從“一句都聽不懂”變成了“能聽懂一句話”的狀態(tài)。

對于有聽覺問題的人,沒有好的助聽設(shè)備,人的聽力只會越來越糟。世界衛(wèi)生組織估計約 15%(776百萬人)患有聽覺問題,隨著老年人口的增多,這一數(shù)字將會逐漸變大,并且高級聽力設(shè)備的潛在市場不僅局限于聽覺受損用戶。開發(fā)商可以將這一技術(shù)用于智能手機,以提升智能手機的通話質(zhì)量。一些人的工作環(huán)境背景噪音復(fù)雜,這個設(shè)備可以解決這問題。處于戰(zhàn)爭環(huán)境中的士兵也可以佩戴這個設(shè)備使得他們之間的通話更加順暢。

語音清洗與過濾

助聽設(shè)備的市場廣闊,據(jù)印度MarketsandMarkets研究發(fā)現(xiàn),目前助聽行業(yè)規(guī)模大約為60億美金,市場規(guī)模在2020年以前預(yù)計以每年6%的速度遞增。為了滿足新用戶需求,我們需要解決‘雞尾酒會難題’,那么如何解決呢?深度學(xué)習(xí)給我們提供了一個很好的解決思路。

我如何用深度學(xué)習(xí)改造母親的助聽器?

  • 語音清洗流程如下:

  • 信號轉(zhuǎn)換:機器學(xué)習(xí)程序首先將語音信號轉(zhuǎn)換為時域信號。  

  • 特征表示:在時域范圍內(nèi)用85個特征表示語音信號,

  • 語音分類:將這些用特征表示的語音信號傳入深度學(xué)習(xí)模型中,找出語音信號與雜音信號,

  • 雜音過濾:使用濾波器去除雜音信號,保留語音信號。

數(shù)十年來,電子與計算機專家嘗試從信號處理的角度實現(xiàn)語音與雜音的分離,但均以失敗告終。目前最有效的方法就是語音活動檢測器,用于識別不同人之間的說話。在這種方法下,系統(tǒng)檢測出不同的語音信號,然后濾去這些聲音信號,留下理想的、無雜音信號。不幸的是,這種方法效果很不好,它通常會濾去很多語音或只濾去少量雜音。即便經(jīng)過了幾十年的發(fā)展,這項技術(shù)的實際效果仍然不太理想。

我覺得我們得使用新的方法解決這個問題,我們首先研究了 Albert Bregman( McGill University)的關(guān)于人類聽力系統(tǒng)的理論,他認(rèn)為人類的聽覺系統(tǒng)將不同的聲音分成不同的聲音流,一個聲音流對應(yīng)一個音源,每一個聲音流據(jù)有不同的音高、音量、方向。

我如何用深度學(xué)習(xí)改造母親的助聽器?

上圖展示了聲音場景是如何形成的

總之,許多音流(像曲棍球比賽中朋友們的吶喊)組成 Bregman 所謂的聽覺場景。如果不同音波的音頻一樣,那么音量最大那個將會蓋過其它聲音,這一現(xiàn)象被稱作聽覺掩蔽效應(yīng)。例如,下雨的的時候沒人會聽到鐘表的滴答聲。這原理也用在了MP3的文件中,它通過壓縮被掩蔽的聲音,使得文件大小變?yōu)榱嗽瓉淼氖种?,文件雖然縮小了,但用戶卻沒有任何感覺。

回顧了Bregman的工作,我們設(shè)想我們是否可以構(gòu)建一個濾波器,在特定時刻對于特定音頻,這個濾波器可以找到主聲波。聽覺感知專家Psychoacousticians將人類的聽覺頻率(20Hz到20000Hz)分成24份,那么問題就變成了我們需要一個濾波器,在某一時刻這個濾波器可以告訴我們是否存在一個包含比其它語音或雜音都大的聲音,然后江這個大的聲音進行分離出來。

我的實驗室在2001年就開始了這項工作,并給音流打標(biāo)簽,以表明他們的主音流是語音流還是雜音流。有了這些標(biāo)記數(shù)據(jù),然后我們基于機器學(xué)習(xí)的方法,訓(xùn)練一個能區(qū)分主音流是聲音還是雜音的分類器,這些特征包括音量、音調(diào)等。

原始過濾器是一個二元過濾器,用于對特定時刻特定頻率的聲音進行標(biāo)識,這個過濾器在時域范圍對聲音信號進行0、1標(biāo)識,如果主音為聲音,標(biāo)1;主音為雜音,標(biāo)0。最后生成一個主音為聲音與主音為雜音的樣本集合,濾波器除去標(biāo)識為0的聲音,保留標(biāo)識為1的聲音。為了保證句子能夠被理解,必須保證標(biāo)識為1的語音占有一定的比例。

2006年,在美國空軍實驗室我們對聲音濾波器進行測試,與此同時,另外一家機構(gòu)也隊我們的產(chǎn)品進行獨立的第三方評估,在這些試驗中,我們的產(chǎn)品性能優(yōu)異。不僅有助于提高聽覺受損者的聽力水平,還有助于提高正常人的聽力水平。

我們創(chuàng)造了一款在實驗室中表現(xiàn)優(yōu)良的聽力設(shè)備,在設(shè)計過程中,我們訓(xùn)練的時候是將語音信號與雜音信號分開的。測試的時候?qū)⑦@兩者混合在一起,然后測試。由于這些信息均為為標(biāo)記信息,所以過濾器知道什么情況下語音信號要大于雜音信號,所以我們稱之為理想濾波器。但實際情況是濾波器應(yīng)該能靠自己進行判斷,而不是靠我們提前告訴它。

不過,理想濾波器確實能提高聽覺受損者與正常者的聽力理解水平。這表明我們可以將分類方法用于區(qū)分語音與噪音。分類方法實際上是一種機器學(xué)習(xí)的方法,通過訓(xùn)練、反饋、懲罰等一些列類似于人的學(xué)習(xí)過程,來實現(xiàn)對聲音信號的正確分類。

在接下來的幾年中,我們實驗室開始嘗試使用分類方法來模仿我們?yōu)V波器,同時,我們基于機器學(xué)習(xí)設(shè)計新的分類器,提高自動語音識別的質(zhì)量。后來一組來自University of Texas的研究人員使用一種不同的方法首次實現(xiàn)語音可懂性的實質(zhì)意義上的進步,這種方法僅使用了單聲道特征。

但是對于助聽設(shè)備來說,這些分類方法的效果與精度還不夠,這些方法還不能處理現(xiàn)實世界中復(fù)雜環(huán)境下的聲音信息。因此,我們需要更好的方法。

如何進一步改善系統(tǒng)?

我們決定進一步改善系統(tǒng)效果,使我們的系統(tǒng)可以應(yīng)用在現(xiàn)實環(huán)境中且不需訓(xùn)練。為了解決這個問題,我們構(gòu)建了一個以前從未構(gòu)建過的機器學(xué)習(xí)系統(tǒng),經(jīng)過復(fù)雜的訓(xùn)練,這個神經(jīng)網(wǎng)絡(luò)系統(tǒng),可以用于聲音與雜音的分離。在24個測試樣本中,這套系統(tǒng)提高聽力受損人員的聽力理解力約50%。效果良好。

神經(jīng)網(wǎng)絡(luò)是由一些簡單的神經(jīng)元組成,這些簡單那神經(jīng)元組合在一起就可以處理復(fù)雜的問題。當(dāng)一個新的神經(jīng)網(wǎng)絡(luò)模型構(gòu)建好以后,這個模型需要利用數(shù)據(jù)不斷的調(diào)整神經(jīng)元與神經(jīng)元之間的權(quán)重(類似于人腦學(xué)習(xí)),以達到實現(xiàn)語音信號分類的目的。

我如何用深度學(xué)習(xí)改造母親的助聽器?

如上圖所示:左側(cè)為為輸入層,右側(cè)為輸出層,通過調(diào)節(jié)層與層之間的神經(jīng)元之間的鏈接權(quán)重提高系統(tǒng)性能。

神經(jīng)網(wǎng)絡(luò)有不同的形狀、大小、深度。隱層多余兩層的就可以稱為深度神經(jīng)網(wǎng)絡(luò),上一層的輸出是下一層的輸入,就好比給下一個隱層增加一些先驗知識。

例如,我們通過數(shù)據(jù)訓(xùn)練一個簽名識別網(wǎng)絡(luò),如果此時有一個新的簽名,這個簽名與數(shù)據(jù)集中的簽名是一個人寫的,卻與數(shù)據(jù)集中的簽名不完全一樣,但我們的網(wǎng)絡(luò)仍可以識別出來,因為我們的網(wǎng)絡(luò)層是可以識別出同一人簽名的不同特征的,只要特征相同,就可以認(rèn)為是同一個人寫的,這些特征包括文字的傾斜角度,字母i的點是否點上等。

為了構(gòu)建我們自己的深度學(xué)習(xí)網(wǎng)絡(luò),我們開始編寫基于音頻、振幅的特征抽取器,我們定義了數(shù)十個特征用以區(qū)別聲音與雜音。最終我們確定了85個特征。其中最重要的特征是音頻與音強。抽完特征以后,我們用這85個特征對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。我們的訓(xùn)練包含兩個階段:

  • 一、通過無監(jiān)督方法訓(xùn)練系統(tǒng)參數(shù)。

  • 二、用雜音數(shù)據(jù)對模型進行訓(xùn)練,這一步是有監(jiān)督訓(xùn)練。我們用標(biāo)記好的正例與負(fù)例對我們的系統(tǒng)進行測試與改善。

具體流程如下:輸入一個新數(shù)據(jù),系統(tǒng)首先對數(shù)據(jù)進行特征提取,特征表示,對數(shù)據(jù)進行分類(是聲音還是雜音),與正確結(jié)果進行比較。如果結(jié)果有誤,對神經(jīng)網(wǎng)絡(luò)進行調(diào)參,使得我們的輸出在下一次的訓(xùn)練中盡可能與正確結(jié)果相接近。

為了實現(xiàn)神經(jīng)元與神經(jīng)元之間的權(quán)重調(diào)整(調(diào)參),我們首先計算神經(jīng)網(wǎng)絡(luò)的輸出誤差,我們有一個誤差函數(shù),這個函數(shù)用來計算神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果誤差。根據(jù)這個結(jié)果誤差,我們對神經(jīng)元之間的連接權(quán)重進行調(diào)整,以降低誤差,這個訓(xùn)練過程需要重復(fù)上千次。最終實現(xiàn)一個較好的訓(xùn)練模型。

為了使得結(jié)果更好,我們在前面深度學(xué)習(xí)的基礎(chǔ)上在構(gòu)建一個深度學(xué)習(xí)模型,將第一個的輸出做為第二模型的輸入,對結(jié)果進行細(xì)粒度的調(diào)優(yōu),第一層的關(guān)注的是聲音單元本身的特征,第二層檢驗的是聲音單元‘鄰居’的特征。那么為什么對周圍聲音進行檢測也有用呢?道理很簡單,第一層好比是一個正在銷售的房屋,我們對它的各個房間進行查看,第二層就好比這個屋子的‘鄰居’,我們對它的‘鄰居’進行檢驗。換句話說,第二層為第一層提供了聲音信號的上下文信息,有助于提高分類的準(zhǔn)確率。例如,一個音節(jié)可能包含幾個時域,背景噪音可能只在突然出現(xiàn)音節(jié)的起始階段,后面就沒有了。在這個例子中,上下文信息就可以使我們更好的從雜音中提取出聲音。

在完成訓(xùn)練后,我們的深度學(xué)習(xí)分類器要比我們原先的分類器好很多,事實上,這是我們首次在算法上取得突破,使得我們的助聽設(shè)備可以提高聽覺受損人員的聽力水平。為了測試我們的設(shè)備性能,我們對12名聽障人員、12名聽力正常人員進行測試,測試用例是成對出現(xiàn)的,第一次聲音與雜音混在一起,第二次是經(jīng)過我們神經(jīng)網(wǎng)絡(luò)處理過的聲音。例如包含“It’s getting cold in here”和“They ate the lemon pie,”的句子有兩種雜音,一種是嗡嗡聲,另一種背景雜音是很多人在一起說話。這個嗡嗡聲很像冰箱壓縮機工作的聲音,而另一種雜音是是我們生成的,是四男四女的說話聲,以此來模仿雞尾酒會的這一類背景噪音。

在對背景噪音進行處理后,無論是聽覺受損人員還是聽覺正常人員其聽力理解能力均有大幅提升,在未經(jīng)處理的聲音中,聽覺受損人員只可以聽清29%的單詞,但在處理過的聲音中,他們可以理解84%的內(nèi)容。在一些例子中,一開始只能聽清10%,經(jīng)過處理后就可以理解90%的內(nèi)容了。在有嗡嗡雜音環(huán)境下,聽覺受損人員的理解力從未經(jīng)處理時的36%提升到82%。

對于聽力正常的人,我們的系統(tǒng)同樣有效,它可以使正常人在有雜音的環(huán)境下聽到的更多,這就意味著將來的某一天,我們的系統(tǒng)可以幫助更多的人。在嗡嗡雜音下,未經(jīng)處理,正常人只能聽懂37%,處理后可以聽懂80%,在雞尾酒會的這一類背景噪音下,其聽力理解力由42%提升到78%。

我們實驗中最有意思的結(jié)果是,如果一個聽力受損的人使用我們的助聽設(shè)備,那么他的聽力能否超過正常人?答案是肯定的。在嗡嗡環(huán)境下,聽力受損的人(使用我們的助聽設(shè)備)可以比正常人多聽懂15%內(nèi)容,在聚會噪音背景下可以多聽懂20%。以這個結(jié)果來看,可以說我們的系統(tǒng)是最接近解決‘雞尾酒會問題’的系統(tǒng)。

局限自然有,展望依然在

盡管如此,我們的算法仍有局限,在測試樣例中,我們的背景噪聲與我們訓(xùn)練用的背景噪聲很相似。但實際情況卻不是這樣的,所以在實際應(yīng)用中,系統(tǒng)需要快速學(xué)習(xí)周圍環(huán)境中的各種背景噪聲,并將其濾掉。例如通風(fēng)系統(tǒng)的聲音、房間內(nèi)回音等。

我們購買了一個包含10000種雜音的數(shù)據(jù)集(這個數(shù)據(jù)集起初是為電影制造商準(zhǔn)備的),用其來訓(xùn)練我們模型。今年,我們發(fā)現(xiàn)經(jīng)過訓(xùn)練的程序可以處理以前從未遇到過的雜音了,并且去雜音效果得到了及具現(xiàn)實意義的提高(無論對聽覺受損者還是聽覺正常者),現(xiàn)在,由于得到了全國失聰及其他溝通障礙研究所( National Institute on Deafness and Other Communication Disorders )的支持,我們決定在更多環(huán)境下,使用更多的聽障人員來測試我們的系統(tǒng)。

最后,我相信我們系統(tǒng)可以在性能更加強大的計算機上進行訓(xùn)練,并且移植到人聽障人士身上,或者與智能手機進行配對使用。商家會周期性的對新數(shù)據(jù)進行訓(xùn)練,并發(fā)布新的版本以便讓用戶升級他們的助聽設(shè)備,從而使其能夠濾去新的雜音。我們已經(jīng)申請了數(shù)個專利并且與多個合作伙伴進行了商業(yè)化應(yīng)用。

使用這個方法,雞尾酒會難題看起來不在是那么難以解決。我們堅信,只要有更多雜音數(shù)據(jù)、更加廣泛的訓(xùn)練,我們終究可以解決這個難題。事實上,我認(rèn)為我們現(xiàn)在處理聲音的流程與小孩早期區(qū)分雜音與聲音的過成是很類似的。都是在不斷的重復(fù)中提升性能的??傊?,經(jīng)驗越多,方法就變得越好。

雷鋒網(wǎng)小編也設(shè)想到,如果一個有著聽力障礙的熱心讀者參加了明年雷鋒網(wǎng)舉辦的GAIR大會,在人頭攢動的會場,他可能一直會被會展播放的背景音樂所打擾,無法專心與新結(jié)識的大牛們聊天。如果有了硬件相關(guān)的技術(shù)提升,那么想必會讓活動的效果更好,而這也是科技尤其是人工智能所帶給我們的福祉:讓智能與未來伴隨我們的生活,并使之變得更加美好。

via Deep Learning Reinvents the Hearing Aid

【招聘】雷鋒網(wǎng)堅持在人工智能、無人駕駛、VR/AR、Fintech、未來醫(yī)療等領(lǐng)域第一時間提供海外科技動態(tài)與資訊。我們需要若干關(guān)注國際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優(yōu)良的外翻編輯加入。 

簡歷投遞至 wudexin@leiphone.com,工作地 北京。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

我如何用深度學(xué)習(xí)改造母親的助聽器?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說