福利預(yù)告 | 聲智CTO馮大航直播答疑：遠(yuǎn)場語音交互核心技術(shù)

本文作者：谷磊

2017-06-28 18:19

導(dǎo)語：遠(yuǎn)場語音交互技術(shù)如此有威力，從哪里可以學(xué)的到呢？

過去的一年，要說人工智能在面向消費(fèi)者的領(lǐng)域有哪些明星產(chǎn)品，銷量近千萬的亞馬遜Echo總是一個繞不開的存在。

提及Echo成功的原因，聲智科技合伙人李智勇告訴雷鋒網(wǎng)，Amazon Echo這產(chǎn)品根本沒做任何的功能上的創(chuàng)新，聽歌、看新聞、設(shè)鬧鐘、說笑話、控制家電等所有東西都可以在手機(jī)上找到替代品，它唯一的變化只是把語音交互的方式從近場升級為遠(yuǎn)場，并把精度和速度打磨到非常優(yōu)秀的程度。

只是這么一點點變化，似乎就要創(chuàng)造一個無比巨大的行業(yè)。因為Echo之后，全球科技巨頭紛紛推出自己的智能音箱，但亂花漸欲迷人眼之際，估計廣大技術(shù)愛好者要和雷鋒網(wǎng)編輯有同樣的疑問：遠(yuǎn)場語音交互技術(shù)如此有威力，從哪里可以學(xué)的到呢？

不久前，雷鋒網(wǎng) mooc.ai 已推出了遠(yuǎn)場語音交互技術(shù)的實戰(zhàn)特訓(xùn)班，由語音交互專家、聲智科技 CTO 馮大航主講，馮大航老師的介紹如下：

福利預(yù)告 | 聲智CTO馮大航直播答疑：遠(yuǎn)場語音交互核心技術(shù)

馮大航

馮大航：2007年開始從事語音信號處理，麥克風(fēng)陣列信號處理，語音識別方向研究，在語音交互領(lǐng)域已經(jīng)積累10年經(jīng)驗。2007年畢業(yè)于中國科學(xué)技術(shù)大學(xué)電子信息工程系，2007-2012年在中國科學(xué)院聲學(xué)研究所讀博士，博士期間在陣列信號處理方向發(fā)表多篇SCI、EI論文，2012年獲得中國科學(xué)院院長獎學(xué)金，畢業(yè)后在中國科學(xué)院聲學(xué)研究所任助理研究員，工作期間獲得國家自然科學(xué)基金項目，同時參與了多個國家重大項目；2015年曾任職于云知聲負(fù)責(zé)遠(yuǎn)場語音識別前端算法，2016年5月聯(lián)合創(chuàng)建聲智科技。

該課程共分四章24個課時，主要講解語音信號處理，麥克風(fēng)陣列信號處理，語音識別中的關(guān)鍵技術(shù)及實用技巧，通過該課程的學(xué)習(xí)，可以了解目前AI設(shè)備（智能音響、機(jī)器人、車載設(shè)備等）中語音交互的關(guān)鍵技術(shù)，根據(jù)一些開源軟件及硬件設(shè)備可以搭建一套遠(yuǎn)場語音識別系統(tǒng)，同時語音信號處理中的回聲消除、噪聲抑制技術(shù)也是VOIP的核心，廣泛應(yīng)用于各類直播平臺、即時通訊等應(yīng)用軟件中。

除了在課程中深度的剖析和講解外，馮老師還在課后的評論區(qū)和同學(xué)們互動交流，探討技術(shù)細(xì)節(jié)。

福利預(yù)告 | 聲智CTO馮大航直播答疑：遠(yuǎn)場語音交互核心技術(shù)

現(xiàn)將部分探討精選如下：

問題一：

學(xué)生：馮老師好！您講到Echo是實時估計說話人方向的，這個比較難，那么Echo是怎樣做到的呢？

馮大航：其實實時估計說話人的方向技術(shù)上難度不大，可以利用語音端點檢測檢測到語音，然后將這段語音分成多段，每段進(jìn)行DOA估計，最后可以將這些DOA估計結(jié)果進(jìn)行卡爾曼濾波，就可以實現(xiàn)對說話人的跟蹤。但實際中，情況比較復(fù)雜，比如旁邊可能突然有人說話，那doa估計可能就會算錯了，現(xiàn)實當(dāng)中主要是這種方法魯棒性不夠好，你實際使用echo的時候就會發(fā)現(xiàn)，如果旁邊放一個干擾源，它的doa也經(jīng)常會出錯。叮咚音響，已經(jīng)我們的音響采取的策略就是只計算一次說話人的方向，增加魯棒性。

問題二：

學(xué)生：請問實際工程中麥克陣列和單路回聲消除有哪些差異？麥克風(fēng)陣列回聲消除的優(yōu)勢有哪些？

馮大航：麥克風(fēng)陣列回聲消除有很多種做法，是先每一路做回聲消除，然后再做波束形成，還是先做波束形成，再做回聲消除，再或者是先做一部分回聲消除，做波束形成，做回聲消除。取決于你系統(tǒng)的計算能力，以及波束形成采用什么結(jié)構(gòu)，這里很難給出一個定性的結(jié)論。一般來說先做回聲消除，再做波束形成效果最好，但計算量最大。

麥克風(fēng)陣列對回聲消除的作用主要體現(xiàn)在后面的波束形成，去混響等算法上，因為波束形成也會對回聲有抑制作用。所以總體上看麥克風(fēng)陣列的回聲消除效果要好于單麥克的回聲消除。

問題三：

學(xué)生：在真實環(huán)境中，不可避免地會出現(xiàn)多源、混響等情況。請問如何判斷MUSIC算法中360°beamscan DOA得到峰值的真實性。比如在單源+混響的情況下，麥克風(fēng)陣列會收到來自不同方向的源和混響信號，MUSIC的聲源數(shù)量參數(shù)是否可以取大些，如4。這樣會同時估計到信源方向和混響方向而不影響算法的魯棒性。

馮大航：這個涉及信源數(shù)估計問題，這個問題學(xué)術(shù)上研究很多，比如最簡單的判斷自相關(guān)矩陣的特征值大小，但實際中效果都不好。MUSIC信源數(shù)取的大，會導(dǎo)致有些信息沒用上，比如原本有3個噪聲向量，你只取了一個，效果肯定不如用3個計算的好。所以music算法最大的問題是需要預(yù)先對信源數(shù)估計，而信源數(shù)估計又很難，是一個死循環(huán)。算法帶來好處的同時，一定有壞處，就看你使用的場景能否忍受這個壞處。

類似這樣學(xué)員與老師的問答還有很多，作為學(xué)員福利，在7月1日上午10點，雷鋒網(wǎng)特邀請馮大航老師對于課程內(nèi)容進(jìn)行直播答疑。為了讓更多對語音、聲學(xué)感興趣的童鞋參與進(jìn)來，我們放出部分參與名額，但為了保證答疑質(zhì)量，一旦人數(shù)達(dá)到限制，將關(guān)閉報名入口。

本直播直播地址為：http://www.mooc.ai/course/109，可免費(fèi)觀看，請同學(xué)們設(shè)好鬧鐘，提前準(zhǔn)備好問題前排就坐。也可以加助教微信：mooccai，自報家門和來意。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

谷磊

編輯

專注報道人工智能。微信：ydxy301

發(fā)私信

當(dāng)月熱門文章