0
本文作者: 張莉 | 2018-07-09 17:25 | 專題:2018 CCF-GAIR 全球人工智能與機器人峰會 |
雷鋒網(wǎng)按:2018 全球人工智能與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學(xué)會(CCF)主辦,由雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了深圳市寶安區(qū)政府的大力指導(dǎo),是國內(nèi)人工智能和機器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會,旨在打造國內(nèi)人工智能領(lǐng)域最具實力的跨界交流合作平臺。
第三天的IoT專場大咖云集,小米人工智能與云平臺副總裁崔寶秋登臺發(fā)表了關(guān)于小米IoT布局和AI戰(zhàn)略布局的報告,隨后,與小米在語音識別領(lǐng)域有深度合作的西北工業(yè)大學(xué)謝磊教授發(fā)表了主題為“迎接IoT時代智能語音的新挑戰(zhàn)”的精彩演講。
謝磊認為,現(xiàn)在是智能語音交互發(fā)展的黃金期,但語音人才嚴重匱乏,造成語音人才在市場上價格很高。同時,學(xué)校的科研雖然具有前瞻性,但缺少“大數(shù)據(jù)”和“大算力”,為此謝磊提出校企加強深度合作、產(chǎn)學(xué)研融合的倡議。
隨著IoT時代的到來,語音識別領(lǐng)域也迎來許多新的挑戰(zhàn)。例如,聲學(xué)場景從近講到遠講的切換,使語音交互的魯棒性帶來了前所未有的挑戰(zhàn);語音標注要動用大量人工,費時費力, 一個新場景的模型訓(xùn)練的代價很大;此外,口音和小語種識別也為基于少量數(shù)據(jù)的模型適應(yīng)帶來了挑戰(zhàn)。
以下是謝磊教授在 CCF-GAIR 2018 上的大會報告內(nèi)容,雷鋒網(wǎng)進行了不改變原意的編輯整理。
今天我演講的題目是“迎接IoT時代智能語音的新挑戰(zhàn)”,現(xiàn)在是智能語音黃金期,我們一定要做好校企合作和產(chǎn)學(xué)融合。同時由于IoT時代的到來,有很多挑戰(zhàn)仍然需要學(xué)術(shù)界來解決。最后,我會介紹我們近期跟小米合作的幾個成果。
大家知道智能家庭或智能家居是物聯(lián)網(wǎng)的典型場景,在這個場景下各種各樣的設(shè)備都聯(lián)網(wǎng)了。以小米為例,我們要跟智能硬件交互,語音是非常重要且自然的入口——說一句話就可以達到目的。在萬物互聯(lián)、大數(shù)據(jù)的時代,小米有很多大數(shù)據(jù)。
而學(xué)校面臨的是在這樣大數(shù)據(jù)時代的背景下,如何做研究的問題。學(xué)校主要面向人才培養(yǎng),瞄準前瞻性研究,但遺憾的是我們?nèi)狈Υ髷?shù)據(jù)和大算力。我們跟工業(yè)界相比,學(xué)校的再多的數(shù)據(jù)只能算是小數(shù)據(jù)。人家是西瓜,我們是芝麻。公司瞄準靠譜技術(shù),最終目的以落地為主,把技術(shù)應(yīng)用到產(chǎn)品中。只有企業(yè)才擁有真正意義上的大數(shù)據(jù)和大算力。
在此大背景下,高校如何做研究,在我看來校企合作、產(chǎn)學(xué)融合,實現(xiàn)三贏(企業(yè)、學(xué)校和學(xué)生)是一種比較好的途徑。公司通過校企合作儲備人才,學(xué)生通過跟公司的合作和實習,鍛煉真實力,輕松找到好工作。對于學(xué)校來說,在缺乏大數(shù)據(jù)、大算力的現(xiàn)實情況下,借助企業(yè)界的能力,讓我們的技術(shù)得到更靠譜的驗證,論文最終得到實際價值的實現(xiàn)。我認為校企合作是非常有意義的一件事,我們從2010年開始至今,跟很多公司合作,包括跟小米這樣的巨頭。
在IoT時代,智能場景有所切換。之前我們在手機上進行交互,手機語音是非常重要的入口。在IoT時代,另一個語音交互的場景出現(xiàn)了。以智能家庭為例,這種情況下給語音技術(shù)帶來了新挑戰(zhàn)。
在IoT語音交互時代,我們遇到的問題是遠場語音識別,它的穩(wěn)健性是非常重要的挑戰(zhàn)。從近講到遠講,聲學(xué)場景發(fā)生了各種各樣的變化,包括聲學(xué)回波、目標移動、房間混響、背景噪音、干擾聲源等。其他人同時說話的情況下會造成干擾,而且由于說話人的轉(zhuǎn)換,干擾源會發(fā)生變化。這些都會給語音識別帶來巨大的挑戰(zhàn)。后面會給大家介紹,我們?nèi)绾卫蒙疃葘W(xué)習技術(shù)來解決房間混響對語音識別造成影響的問題。
另一個是缺少數(shù)據(jù)和計算資源的挑戰(zhàn),我們稱之為低資源(low resource)的場景。
大家經(jīng)常聽到行業(yè)里的人都說:人工智能是“有多少人工,就有多少智能?!蔽覀冃枰罅康臉俗?shù)據(jù)完成各種各樣的機器學(xué)習任務(wù),包括語音識別在內(nèi)。數(shù)據(jù)標注費時費力。能否進一步減少人工,能否減少模型訓(xùn)練使用的標注數(shù)據(jù),避免很多人工是個關(guān)鍵問題。
另一方面,在IoT時代,很多運算從云變到端,比如語音喚醒任務(wù),但是端上的資源可能非常有限,要把模型打造得越小越好,計算越少越好,同時可能需要滿足低功耗的需求。后面我會介紹一個輕量級的語音喚醒方案。
口音也是一個問題,口音不是特別重的話,語音識別效果還是不錯的。如果口音比較重,語音識別效果會大打折扣。語種混雜也是一個問題,如果對著機器說“我今天買了一個Apple”,就很有可能識別錯?,F(xiàn)有技術(shù)都是通過大量的數(shù)據(jù)覆蓋來解決這些問題,提升模型的魯棒性。
還有一個問題是小語種,如果小米要拓展國際化市場,有很多外語種需要做語音識別,但是我們可能沒有這么多標注數(shù)據(jù),甚至一些語種缺乏語音語言學(xué)的專家知識,一開始連發(fā)音字典可能都沒有。在這些“低資源”的情況下,在現(xiàn)有模型的基礎(chǔ)上,基于少量數(shù)據(jù)做模型自適應(yīng),解決小語種沒有數(shù)據(jù)、沒有專家知識的語音交互也是一個值得探索的問題。后面我會介紹一個基于少量說話人數(shù)據(jù)進行模型自適應(yīng)的工作,提升每個人語音識別的體驗。當然,這個方案可以擴展到小語種上。
下面,我重點介紹一下我們?yōu)閼?yīng)對上面所提出的挑戰(zhàn),近期跟小米合作的三個研究成果:一是用深度學(xué)習解決語音識別中的去混響問題;二是基于注意力機制的輕量級語音喚醒;三是打造個性化語音識別?;谌齻€工作的論文都被語音研究的旗艦會議Interspeech2018錄用。
第一,去混響。語音交互從進場變成遠場,房間混響成為一個影響語音識別性能的關(guān)鍵問題,我們嘗試用目前非?;馃岬纳蓪咕W(wǎng)絡(luò)(GAN)解決去混響問題。在語音交互過程中,我的聲音除了直達聲到達對方的耳朵,還有各種各樣的反射面產(chǎn)生的反射,共同疊加傳到對方的耳朵中。聲音是由是直達聲、早期反射和晚期混響構(gòu)成的。聲音的傳輸和傳播,從發(fā)聲聲源傳出來,會在房間駐留相當長的一段時間,從這張動圖上可以看出來,每一個小點都是一個聲音粒子?;祉憣φZ音識別性能有嚴重的影響。
上圖是語譜圖,在干凈的情況下共振峰非常清晰,下圖是被混響污染的語譜,可以看到共振峰的嚴重拖尾現(xiàn)象,共振峰對語音識別非常重要,這種共振峰污染會嚴重影響語音識別準確率。在某中文測試集上可以看到,干凈情況下字錯誤率是7.86%,在有混響情況下字錯誤率提升到23.85%,即便用了多條件訓(xùn)練(MCT),即訓(xùn)練數(shù)據(jù)里加入了一些帶混響的語音,錯誤率會降到16.02%,但和干凈語音情況下相比,依然有很大的差距。
今天我們嘗試用深度學(xué)習的方法解決去混響的問題。用深度學(xué)習去混響是一個非常直觀的解決方案。深度神經(jīng)網(wǎng)絡(luò)的特點是具有多層的非線性學(xué)習能力,可以通過回歸任務(wù),學(xué)習一個從帶混響的語音輸入到無混響干凈語音輸出之間的一個映射。我們可以通過干凈語音構(gòu)造很多的混響語音數(shù)據(jù),來訓(xùn)練這樣一個映射網(wǎng)絡(luò)。
在用深度神經(jīng)網(wǎng)絡(luò)去混響過程中,我們嘗試用生成對抗網(wǎng)絡(luò)來提升效果。生成對抗網(wǎng)絡(luò)一般由兩個網(wǎng)絡(luò)組成,一是生成器,二是判別器。
以假幣制造者和警察之間的博弈這張圖來解釋生成對抗網(wǎng)絡(luò)最為直觀了。左邊是假幣仿冒者(即生成器),他要制造假幣;右邊是警察(即判別器),警察負責判斷真幣還是假幣。假幣仿冒者制造出來的假幣交給警察,警察根據(jù)自身的經(jīng)驗做出假幣的判斷,把Loss傳回給假幣仿冒者,假幣仿冒者進而改良。經(jīng)過多次迭代博弈的過程,假幣最終做得越來越真,可以騙過警察。
通過這樣的思路可以做去混響的問題。把混響語音通過生成器去混響,交給判別器判別這是干凈語音還是混響語音,通過類似上述的迭代博弈過程,訓(xùn)練的生成器最終達到非常好的去混響效果。
先前也有相關(guān)的工作,但是我們的做的更加細致。我們的結(jié)論是:首先,和其他網(wǎng)絡(luò)類型相比,生成器網(wǎng)絡(luò)用LSTM網(wǎng)絡(luò)效果最優(yōu),因為它本身有很強的時序建模能力,混響和時間非常相關(guān)。如果網(wǎng)絡(luò)層數(shù)比較深,則加入殘差網(wǎng)絡(luò)可以進一步提升效果。
此外在網(wǎng)絡(luò)訓(xùn)練過程中,用同一個Mini-batch的數(shù)據(jù)去更新兩個網(wǎng)絡(luò)(G和D)對獲得良好的效果是至關(guān)重要的。在實驗數(shù)據(jù)集上語音識別表明,GAN能夠比單純DNN去混響獲得14-19%相對字錯誤率的下降。最終在MCT多條件訓(xùn)練的場景下,進一步將字錯誤率從16%降到13%,大家感興趣可以關(guān)注我們的論文,獲得更多的細節(jié)。
第二,喚醒萬物。以“小愛同學(xué)”為例,它現(xiàn)在已經(jīng)無處不在,大家已經(jīng)習慣了用“小愛同學(xué)”來喚醒小米手機和音箱。在喚醒任務(wù)上,我們要保證喚醒率非常高,同時要降低虛警率。我說了“小愛同學(xué)”,沒有喚醒屬于誤拒絕;我沒有說“小愛同學(xué)“,但是設(shè)備被喚醒了,這個屬于虛警。在語音喚醒任務(wù)上,我們的目的是把這個指標打造得越低越好。
同時很多時候我們在端上、器件上做喚醒,往往需要非常小的模型、很少的計算量,因為計算能力有限、存儲能力有限。我們嘗試用基于注意力機制端到端神經(jīng)網(wǎng)絡(luò)來解決喚醒的問題。
這不是我們第一次使用基于注意力機制的模型來解決問題,之前我們跟小米合作,在小米電視語音搜索上達到非常高的準確率,也是因為用了這個模型,大家可以關(guān)注一下我們發(fā)表在ICASSP2018上的論文。
這次我們將注意力機制用在喚醒任務(wù)中,也是非常直觀的想法。比如我們聽到別人叫我們的名字的時候,我們的“注意力”就轉(zhuǎn)換到這個人的講話上。注意力機制模型在機器翻譯、語音識別、語音合成中都已經(jīng)成功應(yīng)用。我們成功把它用在語音喚醒任務(wù)上。
它的好處有:一是去模塊化,一個網(wǎng)絡(luò)直接輸出喚醒判斷;二是模型參數(shù)少,同時無需其他喚醒方案中復(fù)雜的圖搜索,計算量進一步降低;三是模型訓(xùn)練無需做對齊。運用基于注意力機制的語音喚醒模型,通過編碼器、注意力機制和Softmax的結(jié)合,可以直接判斷我說的是不是喚醒詞。
在“小愛同學(xué)”內(nèi)部測試集上做了實驗驗證。對于編碼器,CRNN網(wǎng)絡(luò)比GRU和LSTM取得了更優(yōu)的結(jié)果。最終在一小時一次虛警的條件下,我們的方案使得錯誤拒絕下降6次,同時計算量縮減4倍。
第三個工作是:我們嘗試“低資源”場景,只需少量數(shù)據(jù)為每個人打造個性化的語音識別模型,提升每個人的語音識別體驗。下圖可以看到這是某個測試集中的10個人做語音級別的錯誤率,我們可以看到雖然大家都是說普通話,語音識別性能非常的不均衡。錯誤率最低可以達到100字錯3個,很差的情況可以看到錯誤率高達40%甚至56%。
這些高錯誤率情況往往是由于口音問題造成的。我國不同的地域有不同的方言和口音?,F(xiàn)有通用的語音識別聲學(xué)模型,往往是通過不同口音人群數(shù)據(jù)的覆蓋,來緩解這一問題。但是終究是一個“平均模型”,不可能在每個人身上獲取到最佳的語音識別性能。
我們對比研究了幾種不同的說話人自適應(yīng)的方法。神經(jīng)網(wǎng)絡(luò)非常靈活,可以做很多工作,對網(wǎng)絡(luò)進行不同的“手術(shù)”,通過對平均模型方案的改造,達到適配不同人的自適應(yīng)能力。
第一種方法是LIN,在傳統(tǒng)語音級別大網(wǎng)絡(luò)聲學(xué)模型前提下可以加一個線性變換網(wǎng)絡(luò),把不同人的語音輸入變成某種通用特征,原始大網(wǎng)絡(luò)參數(shù)不做任何變化。即一人一個線性變換網(wǎng)絡(luò),這個小網(wǎng)絡(luò)可以放在每個人的手機上。
第二種方法是LHUC,為每個人學(xué)習一組個性化參數(shù),用于調(diào)節(jié)大網(wǎng)絡(luò)聲學(xué)模型參數(shù)的幅度。
第三種方法是俞棟老師論文中的做法,用每個人的數(shù)據(jù)去直接更新大網(wǎng)絡(luò)聲學(xué)模型參數(shù),即一人一個網(wǎng)絡(luò)。為了避免過擬合問題,我們采用KLD準則在模型自適應(yīng)過程中來做一個約束,使得適應(yīng)后的模型的后驗概率分布與說話人無關(guān)的大網(wǎng)絡(luò)模型上的后驗分布越接近越好。
我們選擇了10位帶湖北口音的普通話發(fā)音人,每個人用5-300句做模型自適應(yīng),100句做測試。上圖明顯的看到,不管使用上述什么方法,語音識別錯誤率都有穩(wěn)定的下降。整體而言,我們發(fā)現(xiàn)KLD方法最優(yōu),LHUC此之,LIN比較差。
我們工作的另外一個特色是對口音程度進行了分類來觀察不同方法的表現(xiàn)。我們根據(jù)剛才那10個測試人在通用模型上的語音識別錯誤率,對他們進行了口音程度劃分,分為了輕度口音、中度口音和重口音,來觀察不同方法在這三類人群上的語音識別性能表現(xiàn)。
我們發(fā)現(xiàn),在輕度口音上,LHUC的效果最好,其他兩種方法表現(xiàn)的不穩(wěn)定,時好時壞。這是因為輕度口音和通用模型之間的差距不是特別明顯,在訓(xùn)練通用模型的時候其實就引入了一些帶口音數(shù)據(jù)。這種情況下,如果用其他方法來”大幅度”調(diào)整網(wǎng)絡(luò)會造成負面的影響。LHUC這種比較“微弱”的調(diào)整參數(shù)方法反而效果最好。
在重度口音上,KLD和LHUC效果相當,可以達到可比的效果。如果存儲或內(nèi)內(nèi)存占用是一個需要考慮的因素的話,大家可以選擇較為簡潔的LHUC方法,它不會為每個人建一個神經(jīng)網(wǎng)絡(luò),而是為每個人存儲一小組調(diào)節(jié)大網(wǎng)絡(luò)的參數(shù)。
對于重度口音,目標發(fā)音人和通用模型之間有非常大的差距,因此直接使用目標發(fā)音人的數(shù)據(jù)來調(diào)整通用模型參數(shù),得到適配目標發(fā)音人的模型,效果是最好的。因此,模型重訓(xùn)練RSI和KLD可以達到這種目的,而KLD效果更佳,即圖上黑色線穩(wěn)定在下面,錯誤率最低。
在我報告的最后,給大家展示一下我們最新的用深度學(xué)習進行語音降噪的最新結(jié)果。
我們知道語音降噪和語音增強是研究歷史非常長的研究課題,通常采用信號處理的方法解決。手機上也有各種降噪方案和降噪算法。傳統(tǒng)統(tǒng)計信號處理的方法優(yōu)勢是從信號統(tǒng)計特性出發(fā)解決問題,對平穩(wěn)噪聲有較好的抑制能力。但是對于非平穩(wěn)類型的噪聲——比如在嘈雜的酒吧中有很多不平穩(wěn)的噪聲——的表現(xiàn)無法達到理想效果。
我們將深度學(xué)習應(yīng)用于語音增強,同時結(jié)合信號處理的知識,聯(lián)合做降噪。這是我們在嘈雜的酒吧錄了一段對手機講話的音頻,用深度學(xué)習加信號處理的方法進行降噪。大家也聽到了,嘈雜的背景噪聲基本被抹掉,這是深度學(xué)習賦能語音降噪達到的新水平。(演講全文完)
會后,當雷鋒網(wǎng)問到現(xiàn)在智能音箱在復(fù)雜任務(wù)執(zhí)行上存在很多問題,是否存在技術(shù)不成熟就立刻推向市場的情況,謝磊的回答是:
智能音箱是一個重要的入口,IoT的入口和流量的入口。
這就是為什么大家都在布局做音箱,市場上出現(xiàn)了“百箱爭鳴”的局面,其實大家都在布局新的“流量經(jīng)濟”和搶奪入口。
就技術(shù)而言,智能音箱可能是一家公司技術(shù)“綜合實力”的體現(xiàn),最適合練兵,因為上面用到的技術(shù)有很多,例如麥克風陣列技術(shù)、語音增強技術(shù)、遠場語音識別技術(shù)、語音理解與對話技術(shù)、知識庫、語音合成等,還有是否有輸出內(nèi)容的實力。每項技術(shù)都是一項重要的研究課題,都需要打磨和優(yōu)化。但是對用戶來說,只是感覺到交互體驗要好,需要的內(nèi)容要有。
技術(shù)發(fā)展都是有一個階段的,現(xiàn)階段達到的能力,其實已經(jīng)可以做到包括智能音箱在內(nèi)的各種各樣的智能硬件里面去了,也就是達到了“可用”的階段,但是距離“好用”還是需要一定的技術(shù)發(fā)展。
在基于智能音箱的遠場語音交互上,語音識別的準確率仍需要進一步提高,這個就需要前端方案的配合,以及前后端的聯(lián)合優(yōu)化。
語音合成也需要更加自然與個性化,每個人對聲音的需求是不一樣的。此外,就深度理解用戶而言,這需要語義理解和對話技術(shù)的進一步突破。本來語義理解就有很多歧義。比如說想穿多少穿多少,這句話其實跟語境有關(guān)系,在冬天的時候,你特別冷的情況下你是希望穿得特別多,但是到夏天的時候你想穿多少穿多少,就是說,我熱的實在是脫得不能再脫了。所以,這個實際上跟語境也是有關(guān)系的,所以語義理解很難。
口語交互就更難了,比如咱們在聊天的過程中,講的話可能是語速很快、吞音少字問題、語序顛倒、都不是按規(guī)則出牌的。說話的時候我語序顛倒了你也能聽懂,中間插了很多的東西你也能夠聽懂,但是機器理解的時候就可能是一個大問題。所以,這一塊還是要通過各種各樣的技術(shù)突破和各個模塊的聯(lián)合優(yōu)化去解決。
不過我相信,語音的入口作用是毋庸質(zhì)疑的,這也是為什么各家都在布局的原因。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章