0
本文作者: 谷磊 | 2017-06-28 18:19 |
過去的一年,要說人工智能在面向消費(fèi)者的領(lǐng)域有哪些明星產(chǎn)品,銷量近千萬的亞馬遜Echo總是一個(gè)繞不開的存在。
提及Echo成功的原因,聲智科技合伙人李智勇告訴雷鋒網(wǎng),Amazon Echo這產(chǎn)品根本沒做任何的功能上的創(chuàng)新,聽歌、看新聞、設(shè)鬧鐘、說笑話、控制家電等所有東西都可以在手機(jī)上找到替代品,它唯一的變化只是把語音交互的方式從近場升級為遠(yuǎn)場,并把精度和速度打磨到非常優(yōu)秀的程度。
只是這么一點(diǎn)點(diǎn)變化,似乎就要?jiǎng)?chuàng)造一個(gè)無比巨大的行業(yè)。因?yàn)镋cho之后,全球科技巨頭紛紛推出自己的智能音箱,但亂花漸欲迷人眼之際,估計(jì)廣大技術(shù)愛好者要和雷鋒網(wǎng)編輯有同樣的疑問:遠(yuǎn)場語音交互技術(shù)如此有威力,從哪里可以學(xué)的到呢?
不久前,雷鋒網(wǎng) mooc.ai 已推出了遠(yuǎn)場語音交互技術(shù)的實(shí)戰(zhàn)特訓(xùn)班,由語音交互專家、聲智科技 CTO 馮大航主講,馮大航老師的介紹如下:
馮大航
馮大航:2007年開始從事語音信號處理,麥克風(fēng)陣列信號處理,語音識別方向研究,在語音交互領(lǐng)域已經(jīng)積累10年經(jīng)驗(yàn)。2007年畢業(yè)于中國科學(xué)技術(shù)大學(xué)電子信息工程系,2007-2012年在中國科學(xué)院聲學(xué)研究所讀博士,博士期間在陣列信號處理方向發(fā)表多篇SCI、EI論文,2012年獲得中國科學(xué)院院長獎(jiǎng)學(xué)金,畢業(yè)后在中國科學(xué)院聲學(xué)研究所任助理研究員,工作期間獲得國家自然科學(xué)基金項(xiàng)目,同時(shí)參與了多個(gè)國家重大項(xiàng)目;2015年曾任職于云知聲負(fù)責(zé)遠(yuǎn)場語音識別前端算法,2016年5月聯(lián)合創(chuàng)建聲智科技。
該課程共分四章24個(gè)課時(shí),主要講解語音信號處理,麥克風(fēng)陣列信號處理,語音識別中的關(guān)鍵技術(shù)及實(shí)用技巧,通過該課程的學(xué)習(xí),可以了解目前AI設(shè)備(智能音響、機(jī)器人、車載設(shè)備等)中語音交互的關(guān)鍵技術(shù),根據(jù)一些開源軟件及硬件設(shè)備可以搭建一套遠(yuǎn)場語音識別系統(tǒng),同時(shí)語音信號處理中的回聲消除、噪聲抑制技術(shù)也是VOIP的核心,廣泛應(yīng)用于各類直播平臺、即時(shí)通訊等應(yīng)用軟件中。
除了在課程中深度的剖析和講解外,馮老師還在課后的評論區(qū)和同學(xué)們互動(dòng)交流,探討技術(shù)細(xì)節(jié)。
現(xiàn)將部分探討精選如下:
問題一:
學(xué)生:馮老師好!您講到Echo是實(shí)時(shí)估計(jì)說話人方向的,這個(gè)比較難,那么Echo是怎樣做到的呢?
馮大航:其實(shí)實(shí)時(shí)估計(jì)說話人的方向技術(shù)上難度不大,可以利用語音端點(diǎn)檢測檢測到語音,然后將這段語音分成多段,每段進(jìn)行DOA估計(jì),最后可以將這些DOA估計(jì)結(jié)果進(jìn)行卡爾曼濾波,就可以實(shí)現(xiàn)對說話人的跟蹤。但實(shí)際中,情況比較復(fù)雜,比如旁邊可能突然有人說話,那doa估計(jì)可能就會算錯(cuò)了,現(xiàn)實(shí)當(dāng)中主要是這種方法魯棒性不夠好,你實(shí)際使用echo的時(shí)候就會發(fā)現(xiàn),如果旁邊放一個(gè)干擾源,它的doa也經(jīng)常會出錯(cuò)。叮咚音響,已經(jīng)我們的音響采取的策略就是只計(jì)算一次說話人的方向,增加魯棒性。
問題二:
學(xué)生:請問實(shí)際工程中麥克陣列和單路回聲消除有哪些差異?麥克風(fēng)陣列回聲消除的優(yōu)勢有哪些?
馮大航:麥克風(fēng)陣列回聲消除有很多種做法,是先每一路做回聲消除,然后再做波束形成,還是先做波束形成,再做回聲消除,再或者是先做一部分回聲消除,做波束形成,做回聲消除。取決于你系統(tǒng)的計(jì)算能力,以及波束形成采用什么結(jié)構(gòu),這里很難給出一個(gè)定性的結(jié)論。一般來說先做回聲消除,再做波束形成效果最好,但計(jì)算量最大。
麥克風(fēng)陣列對回聲消除的作用主要體現(xiàn)在后面的波束形成,去混響等算法上,因?yàn)椴ㄊ纬梢矔芈曈幸种谱饔?。所以總體上看麥克風(fēng)陣列的回聲消除效果要好于單麥克的回聲消除。
問題三:
學(xué)生:在真實(shí)環(huán)境中,不可避免地會出現(xiàn)多源、混響等情況。請問如何判斷MUSIC算法中360°beamscan DOA得到峰值的真實(shí)性。比如在單源+混響的情況下,麥克風(fēng)陣列會收到來自不同方向的源和混響信號,MUSIC的聲源數(shù)量參數(shù)是否可以取大些,如4。這樣會同時(shí)估計(jì)到信源方向和混響方向而不影響算法的魯棒性。
馮大航:這個(gè)涉及信源數(shù)估計(jì)問題,這個(gè)問題學(xué)術(shù)上研究很多,比如最簡單的判斷自相關(guān)矩陣的特征值大小,但實(shí)際中效果都不好。MUSIC信源數(shù)取的大,會導(dǎo)致有些信息沒用上,比如原本有3個(gè)噪聲向量,你只取了一個(gè),效果肯定不如用3個(gè)計(jì)算的好。所以music算法最大的問題是需要預(yù)先對信源數(shù)估計(jì),而信源數(shù)估計(jì)又很難,是一個(gè)死循環(huán)。算法帶來好處的同時(shí),一定有壞處,就看你使用的場景能否忍受這個(gè)壞處。
類似這樣學(xué)員與老師的問答還有很多,作為學(xué)員福利,在7月1日上午10點(diǎn),雷鋒網(wǎng)特邀請馮大航老師對于課程內(nèi)容進(jìn)行直播答疑。為了讓更多對語音、聲學(xué)感興趣的童鞋參與進(jìn)來,我們放出部分參與名額,但為了保證答疑質(zhì)量,一旦人數(shù)達(dá)到限制,將關(guān)閉報(bào)名入口。
本直播直播地址為:http://www.mooc.ai/course/109,可免費(fèi)觀看,請同學(xué)們設(shè)好鬧鐘,提前準(zhǔn)備好問題前排就坐。也可以加助教微信:mooccai,自報(bào)家門和來意。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。