清晰度提升40%，騰訊天籟AI降噪技術(shù)為聽障者帶來福音

本文作者： AI科技評論

2020-09-28 10:39

導(dǎo)語：加持天籟技術(shù)的人工耳蝸能夠?qū)⒄Z音的清晰度提升40%，極大改善聽障人士的聽覺體驗。

9月27日，正值國際聾人日之際，騰訊多媒體實驗室聯(lián)合騰訊公益慈善基金會、深圳市信息無障礙研究會等機構(gòu)召開發(fā)布會，宣布發(fā)起“天籟行動”，面向公益開發(fā)者、設(shè)備廠商、NGO及行業(yè)，以API開放的形式，免費授權(quán)騰訊天籟AI音頻技術(shù)。

騰訊高級執(zhí)行副總裁湯道生表示，這項行動旨在幫助聽障人群解決“聽不清”難題。中度聽障人士可以借助人工耳蝸獲得聽力，但是受到噪音的影響很難聽得清。加持天籟技術(shù)的人工耳蝸能夠?qū)⒄Z音的清晰度提升40%，極大改善聽障人士的聽覺體驗。

清晰度提升40%，騰訊天籟AI降噪技術(shù)為聽障者帶來福音

騰訊開放天籟AI降噪技術(shù)

一、2780萬聽障者

根據(jù)世界衛(wèi)生組織數(shù)據(jù)顯示，全球約有11億的12-35歲的年輕人面臨聽力損失的風(fēng)險，約有3.6億人患有聽力損失的障礙，約占世界人口的5%，他們有不同程度的聽力損失，過著近乎寂靜的生活。

據(jù)第二次全國殘疾人抽樣調(diào)查結(jié)果顯示，我國2780萬聽力障礙患者，居目前我們國家五大類的殘疾人群中之首，并且每年以兩到三萬新增兒童在繼續(xù)增長。

在這2780萬的聽障人士里，有300多萬屬于重度耳聾，這些聾人只能通過人工耳蝸聽到聲音，將近90%的人群可以通過助聽器聽到聲音。

人工耳蝸和助聽器目前屬于相對成熟的技術(shù)，但是由于費用和服務(wù)力弱的原因，發(fā)達國家只有10%的聾人植入耳蝸，發(fā)展中國家更少。即便是植入耳蝸者，由于噪音和頻道及音量技術(shù)等復(fù)雜性，實際受益的人數(shù)更少。不管是人工耳蝸還是助聽器，降噪對于兩款產(chǎn)品極為重要。

人是信息語言和文化交流的產(chǎn)物，聽不到外界他人的聲音或聲音質(zhì)量不高，就會使他們減少接收許多資訊。深圳市殘聯(lián)黨組書記、理事長侯伊莎在發(fā)布會現(xiàn)場說道，對聽障人士來說，他們的社會關(guān)系容易出現(xiàn)問題，比如受教育的機會和工作的機會相對較少，社交及休閑活動也因此會受限，這些情況會導(dǎo)致他們的心理問題和其他的社會問題，他們可能變得內(nèi)向，不合群，缺乏自信，焦慮、暴躁等等。

二、手機伴侶+人工耳蝸

騰訊多媒體實驗室是騰訊旗下的音視頻通信和處理研發(fā)團隊，專注實時音視頻通信、音視頻編解碼前沿算法研究、音視頻國際標準、計算機視覺圖像處理、端到端音視頻質(zhì)量評測。

在發(fā)布會現(xiàn)場，騰訊多媒體實驗室高級總監(jiān)商世東分享了當初將天籟音頻技術(shù)與人工耳蝸產(chǎn)品結(jié)合的契機。

現(xiàn)有市場上大部分的人工耳蝸產(chǎn)品，聽障者在佩戴之后，能獲得基礎(chǔ)的聽力，但是在某些場景下效果并不理想。最突出的是復(fù)雜的聲學(xué)場景下，比如商場和機場，噪聲會導(dǎo)致聽力下降，這對于人工耳蝸佩戴者的聽覺體驗和辨識度產(chǎn)生極大的負面影響。

人工耳蝸雖然小，但是面臨的挑戰(zhàn)巨大，因為它能利用的資源非常的有限。電腦和手機實現(xiàn)了GHz主頻多核架構(gòu)，人工耳蝸由于尺寸限制，往往只能有幾十MHz的處理能力。在這樣的處理能力條件下，高復(fù)雜度的噪聲處理成為了業(yè)界的難點。

清晰度提升40%，騰訊天籟AI降噪技術(shù)為聽障者帶來福音

騰訊多媒體實驗室高級總監(jiān)商世東

基于此，商世東和團隊萌生了通過AI算法改善聽障人群聽覺體驗的想法，并找到了國內(nèi)最大的人工耳蝸廠商之一——諾爾康(Nurotron)，雙方一起討論在當前人工耳蝸軟硬件局限條件下的解決方案，經(jīng)過長達半年的技術(shù)驗證，從架構(gòu)上最終確定了“手機伴侶+人工耳蝸”的聯(lián)合解決方案。

在手機上，通過手機強大的語音處理和采集能力，可以對采集到的語音進行場景識別和場景有針對性的降噪和增量處理。針對處理過的語音，通過有線或者無線的方式發(fā)送到人工耳蝸，人工耳蝸可以進一步刺激相應(yīng)的聽覺神經(jīng)，有效的改善聽覺體驗的效果。

針對噪聲消除，騰訊多媒體實驗室融合了經(jīng)典的數(shù)字信號處理按和深度學(xué)習(xí)的技術(shù)。經(jīng)典的數(shù)字信號處理在處理平穩(wěn)噪聲上有獨特的優(yōu)勢，同時計算復(fù)雜度比較低。但是對于日常生活中的非平穩(wěn)噪聲往往力不從心。

而深度學(xué)習(xí)技術(shù)有非常優(yōu)秀的特征建模能力，可以針對日常生活當中的各種噪聲進行準確的建模，從而非常有效的移除生活中突發(fā)的噪聲。

但是深度學(xué)習(xí)的缺點往往在于運算量復(fù)雜，所以為了進一步降低運算復(fù)雜度，騰訊多媒體實驗室采用了多種輔助訓(xùn)練方法，并把訓(xùn)練后的模型進一步量化處理，把運算復(fù)雜度有效降低，解決了低功耗的手機終端上運行降噪處理的難題。

商世東表示，整個處理過程中，他們針對人工耳蝸用戶常見的4類聲學(xué)場景，在業(yè)界首次采用了基于深度學(xué)習(xí)的殘差網(wǎng)絡(luò)結(jié)構(gòu)，在多尺度和多級別的網(wǎng)絡(luò)架構(gòu)環(huán)境之下，對收集到的帶噪語音進一步處理。

多尺度的架構(gòu)可以幫助有效區(qū)分4類聲學(xué)場景，而多級別的網(wǎng)絡(luò)架構(gòu)可以進一步幫助區(qū)分易于混淆的帶噪語言的場景。經(jīng)過這樣的處理，并進行4千多小時各種場景的噪聲的數(shù)據(jù)訓(xùn)練，該網(wǎng)絡(luò)總體上取得了96.2%的場景識別準確率，為進一步的增強和語音處理奠定了基礎(chǔ)。

考慮到手機上多麥克風(fēng)的節(jié)奏，騰訊多媒體實驗室采用了以前在雷達以及智能天線領(lǐng)域使用的技術(shù)，以輔助降噪和語音的正常處理，有效對特定方向的語音進行針對性的加強，同時濾除非特定方向的干擾人聲以及環(huán)境噪聲。雷鋒網(wǎng)

商世東表示，經(jīng)過多種技術(shù)的整合和處理，他們有效提升了聽障人士在各種溝通場景之下的效率，很好的幫助消除聽障人士不想聽到的聲音，將語音的清晰度提升40%。雷鋒網(wǎng)

據(jù)諾爾康實驗檢測數(shù)據(jù)顯示，天籟技術(shù)與人工耳蝸結(jié)合后，語音識別性能大幅提升，平均識別率達到96.28%，其中帶噪語音識別率為93.38%，環(huán)境噪音中聲音識別率達到94.24%；在手機App中植入天籟技術(shù)，手機雙麥陣列降噪的信噪比提升 20dB，MOS分提升了0.3-0.5，對于改善聽障人群聽覺體驗有著積極效果。雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

AI科技評論

編輯

發(fā)私信

當月熱門文章