0
過去的一年,要說人工智能在面向消費者的領域有哪些明星產(chǎn)品,銷量近千萬的亞馬遜Echo總是一個繞不開的存在。
提及Echo成功的原因,聲智科技合伙人李智勇告訴雷鋒網(wǎng),Amazon Echo這產(chǎn)品根本沒做任何的功能上的創(chuàng)新,聽歌、看新聞、設鬧鐘、說笑話、控制家電等所有東西都可以在手機上找到替代品,它唯一的變化只是把語音交互的方式從近場升級為遠場,并把精度和速度打磨到非常優(yōu)秀的程度。
只是這么一點點變化,似乎就要創(chuàng)造一個無比巨大的行業(yè)。因為Echo之后,全球科技巨頭紛紛推出自己的智能音箱,但亂花漸欲迷人眼之際,估計廣大技術愛好者要和雷鋒網(wǎng)編輯有同樣的疑問:遠場語音交互技術如此有威力,從哪里可以學的到呢?
不久前,雷鋒網(wǎng) mooc.ai 已推出了遠場語音交互技術的實戰(zhàn)特訓班,由語音交互專家、聲智科技 CTO 馮大航主講,馮大航老師的介紹如下:
馮大航
馮大航:2007年開始從事語音信號處理,麥克風陣列信號處理,語音識別方向研究,在語音交互領域已經(jīng)積累10年經(jīng)驗。2007年畢業(yè)于中國科學技術大學電子信息工程系,2007-2012年在中國科學院聲學研究所讀博士,博士期間在陣列信號處理方向發(fā)表多篇SCI、EI論文,2012年獲得中國科學院院長獎學金,畢業(yè)后在中國科學院聲學研究所任助理研究員,工作期間獲得國家自然科學基金項目,同時參與了多個國家重大項目;2015年曾任職于云知聲負責遠場語音識別前端算法,2016年5月聯(lián)合創(chuàng)建聲智科技。
該課程共分四章24個課時,主要講解語音信號處理,麥克風陣列信號處理,語音識別中的關鍵技術及實用技巧,通過該課程的學習,可以了解目前AI設備(智能音響、機器人、車載設備等)中語音交互的關鍵技術,根據(jù)一些開源軟件及硬件設備可以搭建一套遠場語音識別系統(tǒng),同時語音信號處理中的回聲消除、噪聲抑制技術也是VOIP的核心,廣泛應用于各類直播平臺、即時通訊等應用軟件中。
除了在課程中深度的剖析和講解外,馮老師還在課后的評論區(qū)和同學們互動交流,探討技術細節(jié)。
現(xiàn)將部分探討精選如下:
問題一:
學生:馮老師好!您講到Echo是實時估計說話人方向的,這個比較難,那么Echo是怎樣做到的呢?
馮大航:其實實時估計說話人的方向技術上難度不大,可以利用語音端點檢測檢測到語音,然后將這段語音分成多段,每段進行DOA估計,最后可以將這些DOA估計結(jié)果進行卡爾曼濾波,就可以實現(xiàn)對說話人的跟蹤。但實際中,情況比較復雜,比如旁邊可能突然有人說話,那doa估計可能就會算錯了,現(xiàn)實當中主要是這種方法魯棒性不夠好,你實際使用echo的時候就會發(fā)現(xiàn),如果旁邊放一個干擾源,它的doa也經(jīng)常會出錯。叮咚音響,已經(jīng)我們的音響采取的策略就是只計算一次說話人的方向,增加魯棒性。
問題二:
學生:請問實際工程中麥克陣列和單路回聲消除有哪些差異?麥克風陣列回聲消除的優(yōu)勢有哪些?
馮大航:麥克風陣列回聲消除有很多種做法,是先每一路做回聲消除,然后再做波束形成,還是先做波束形成,再做回聲消除,再或者是先做一部分回聲消除,做波束形成,做回聲消除。取決于你系統(tǒng)的計算能力,以及波束形成采用什么結(jié)構,這里很難給出一個定性的結(jié)論。一般來說先做回聲消除,再做波束形成效果最好,但計算量最大。
麥克風陣列對回聲消除的作用主要體現(xiàn)在后面的波束形成,去混響等算法上,因為波束形成也會對回聲有抑制作用。所以總體上看麥克風陣列的回聲消除效果要好于單麥克的回聲消除。
問題三:
學生:在真實環(huán)境中,不可避免地會出現(xiàn)多源、混響等情況。請問如何判斷MUSIC算法中360°beamscan DOA得到峰值的真實性。比如在單源+混響的情況下,麥克風陣列會收到來自不同方向的源和混響信號,MUSIC的聲源數(shù)量參數(shù)是否可以取大些,如4。這樣會同時估計到信源方向和混響方向而不影響算法的魯棒性。
馮大航:這個涉及信源數(shù)估計問題,這個問題學術上研究很多,比如最簡單的判斷自相關矩陣的特征值大小,但實際中效果都不好。MUSIC信源數(shù)取的大,會導致有些信息沒用上,比如原本有3個噪聲向量,你只取了一個,效果肯定不如用3個計算的好。所以music算法最大的問題是需要預先對信源數(shù)估計,而信源數(shù)估計又很難,是一個死循環(huán)。算法帶來好處的同時,一定有壞處,就看你使用的場景能否忍受這個壞處。
類似這樣學員與老師的問答還有很多,作為學員福利,在7月1日上午10點,雷鋒網(wǎng)特邀請馮大航老師對于課程內(nèi)容進行直播答疑。為了讓更多對語音、聲學感興趣的童鞋參與進來,我們放出部分參與名額,但為了保證答疑質(zhì)量,一旦人數(shù)達到限制,將關閉報名入口。
本直播直播地址為:http://www.mooc.ai/course/109,可免費觀看,請同學們設好鬧鐘,提前準備好問題前排就坐。也可以加助教微信:mooccai,自報家門和來意。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。