丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給張莉
發(fā)送

0

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

導(dǎo)語:在IoT時(shí)代,智能語音交互都有哪些新的挑戰(zhàn)?

雷鋒網(wǎng)按:2018 全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR)在深圳召開,峰會(huì)由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,由雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了深圳市寶安區(qū)政府的大力指導(dǎo),是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流盛會(huì),旨在打造國內(nèi)人工智能領(lǐng)域最具實(shí)力的跨界交流合作平臺(tái)。

第三天的IoT專場(chǎng)大咖云集,小米人工智能與云平臺(tái)副總裁崔寶秋登臺(tái)發(fā)表了關(guān)于小米IoT布局和AI戰(zhàn)略布局的報(bào)告,隨后,與小米在語音識(shí)別領(lǐng)域有深度合作的西北工業(yè)大學(xué)謝磊教授發(fā)表了主題為“迎接IoT時(shí)代智能語音的新挑戰(zhàn)”的精彩演講。

謝磊認(rèn)為,現(xiàn)在是智能語音交互發(fā)展的黃金期,但語音人才嚴(yán)重匱乏,造成語音人才在市場(chǎng)上價(jià)格很高。同時(shí),學(xué)校的科研雖然具有前瞻性,但缺少“大數(shù)據(jù)”和“大算力”,為此謝磊提出校企加強(qiáng)深度合作、產(chǎn)學(xué)研融合的倡議。

隨著IoT時(shí)代的到來,語音識(shí)別領(lǐng)域也迎來許多新的挑戰(zhàn)。例如,聲學(xué)場(chǎng)景從近講到遠(yuǎn)講的切換,使語音交互的魯棒性帶來了前所未有的挑戰(zhàn);語音標(biāo)注要?jiǎng)佑么罅咳斯?,費(fèi)時(shí)費(fèi)力, 一個(gè)新場(chǎng)景的模型訓(xùn)練的代價(jià)很大;此外,口音和小語種識(shí)別也為基于少量數(shù)據(jù)的模型適應(yīng)帶來了挑戰(zhàn)。

以下是謝磊教授在 CCF-GAIR 2018 上的大會(huì)報(bào)告內(nèi)容,雷鋒網(wǎng)進(jìn)行了不改變?cè)獾木庉嬚怼?/strong>

今天我演講的題目是“迎接IoT時(shí)代智能語音的新挑戰(zhàn)”,現(xiàn)在是智能語音黃金期,我們一定要做好校企合作和產(chǎn)學(xué)融合。同時(shí)由于IoT時(shí)代的到來,有很多挑戰(zhàn)仍然需要學(xué)術(shù)界來解決。最后,我會(huì)介紹我們近期跟小米合作的幾個(gè)成果。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

大家知道智能家庭或智能家居是物聯(lián)網(wǎng)的典型場(chǎng)景,在這個(gè)場(chǎng)景下各種各樣的設(shè)備都聯(lián)網(wǎng)了。以小米為例,我們要跟智能硬件交互,語音是非常重要且自然的入口——說一句話就可以達(dá)到目的。在萬物互聯(lián)、大數(shù)據(jù)的時(shí)代,小米有很多大數(shù)據(jù)。

而學(xué)校面臨的是在這樣大數(shù)據(jù)時(shí)代的背景下,如何做研究的問題。學(xué)校主要面向人才培養(yǎng),瞄準(zhǔn)前瞻性研究,但遺憾的是我們?nèi)狈Υ髷?shù)據(jù)和大算力。我們跟工業(yè)界相比,學(xué)校的再多的數(shù)據(jù)只能算是小數(shù)據(jù)。人家是西瓜,我們是芝麻。公司瞄準(zhǔn)靠譜技術(shù),最終目的以落地為主,把技術(shù)應(yīng)用到產(chǎn)品中。只有企業(yè)才擁有真正意義上的大數(shù)據(jù)和大算力。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

在此大背景下,高校如何做研究,在我看來校企合作、產(chǎn)學(xué)融合,實(shí)現(xiàn)三贏(企業(yè)、學(xué)校和學(xué)生)是一種比較好的途徑。公司通過校企合作儲(chǔ)備人才,學(xué)生通過跟公司的合作和實(shí)習(xí),鍛煉真實(shí)力,輕松找到好工作。對(duì)于學(xué)校來說,在缺乏大數(shù)據(jù)、大算力的現(xiàn)實(shí)情況下,借助企業(yè)界的能力,讓我們的技術(shù)得到更靠譜的驗(yàn)證,論文最終得到實(shí)際價(jià)值的實(shí)現(xiàn)。我認(rèn)為校企合作是非常有意義的一件事,我們從2010年開始至今,跟很多公司合作,包括跟小米這樣的巨頭。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

在IoT時(shí)代,智能場(chǎng)景有所切換。之前我們?cè)谑謾C(jī)上進(jìn)行交互,手機(jī)語音是非常重要的入口。在IoT時(shí)代,另一個(gè)語音交互的場(chǎng)景出現(xiàn)了。以智能家庭為例,這種情況下給語音技術(shù)帶來了新挑戰(zhàn)。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

在IoT語音交互時(shí)代,我們遇到的問題是遠(yuǎn)場(chǎng)語音識(shí)別,它的穩(wěn)健性是非常重要的挑戰(zhàn)。從近講到遠(yuǎn)講,聲學(xué)場(chǎng)景發(fā)生了各種各樣的變化,包括聲學(xué)回波、目標(biāo)移動(dòng)、房間混響、背景噪音、干擾聲源等。其他人同時(shí)說話的情況下會(huì)造成干擾,而且由于說話人的轉(zhuǎn)換,干擾源會(huì)發(fā)生變化。這些都會(huì)給語音識(shí)別帶來巨大的挑戰(zhàn)。后面會(huì)給大家介紹,我們?nèi)绾卫蒙疃葘W(xué)習(xí)技術(shù)來解決房間混響對(duì)語音識(shí)別造成影響的問題。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

另一個(gè)是缺少數(shù)據(jù)和計(jì)算資源的挑戰(zhàn),我們稱之為低資源(low resource)的場(chǎng)景。

大家經(jīng)常聽到行業(yè)里的人都說:人工智能是“有多少人工,就有多少智能?!蔽覀冃枰罅康臉?biāo)注數(shù)據(jù)完成各種各樣的機(jī)器學(xué)習(xí)任務(wù),包括語音識(shí)別在內(nèi)。數(shù)據(jù)標(biāo)注費(fèi)時(shí)費(fèi)力。能否進(jìn)一步減少人工,能否減少模型訓(xùn)練使用的標(biāo)注數(shù)據(jù),避免很多人工是個(gè)關(guān)鍵問題。

另一方面,在IoT時(shí)代,很多運(yùn)算從云變到端,比如語音喚醒任務(wù),但是端上的資源可能非常有限,要把模型打造得越小越好,計(jì)算越少越好,同時(shí)可能需要滿足低功耗的需求。后面我會(huì)介紹一個(gè)輕量級(jí)的語音喚醒方案。

口音也是一個(gè)問題,口音不是特別重的話,語音識(shí)別效果還是不錯(cuò)的。如果口音比較重,語音識(shí)別效果會(huì)大打折扣。語種混雜也是一個(gè)問題,如果對(duì)著機(jī)器說“我今天買了一個(gè)Apple”,就很有可能識(shí)別錯(cuò)。現(xiàn)有技術(shù)都是通過大量的數(shù)據(jù)覆蓋來解決這些問題,提升模型的魯棒性。

還有一個(gè)問題是小語種,如果小米要拓展國際化市場(chǎng),有很多外語種需要做語音識(shí)別,但是我們可能沒有這么多標(biāo)注數(shù)據(jù),甚至一些語種缺乏語音語言學(xué)的專家知識(shí),一開始連發(fā)音字典可能都沒有。在這些“低資源”的情況下,在現(xiàn)有模型的基礎(chǔ)上,基于少量數(shù)據(jù)做模型自適應(yīng),解決小語種沒有數(shù)據(jù)、沒有專家知識(shí)的語音交互也是一個(gè)值得探索的問題。后面我會(huì)介紹一個(gè)基于少量說話人數(shù)據(jù)進(jìn)行模型自適應(yīng)的工作,提升每個(gè)人語音識(shí)別的體驗(yàn)。當(dāng)然,這個(gè)方案可以擴(kuò)展到小語種上。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

下面,我重點(diǎn)介紹一下我們?yōu)閼?yīng)對(duì)上面所提出的挑戰(zhàn),近期跟小米合作的三個(gè)研究成果:一是用深度學(xué)習(xí)解決語音識(shí)別中的去混響問題;二是基于注意力機(jī)制的輕量級(jí)語音喚醒;三是打造個(gè)性化語音識(shí)別?;谌齻€(gè)工作的論文都被語音研究的旗艦會(huì)議Interspeech2018錄用。

第一,去混響。語音交互從進(jìn)場(chǎng)變成遠(yuǎn)場(chǎng),房間混響成為一個(gè)影響語音識(shí)別性能的關(guān)鍵問題,我們嘗試用目前非?;馃岬纳蓪?duì)抗網(wǎng)絡(luò)(GAN)解決去混響問題。在語音交互過程中,我的聲音除了直達(dá)聲到達(dá)對(duì)方的耳朵,還有各種各樣的反射面產(chǎn)生的反射,共同疊加傳到對(duì)方的耳朵中。聲音是由是直達(dá)聲、早期反射和晚期混響構(gòu)成的。聲音的傳輸和傳播,從發(fā)聲聲源傳出來,會(huì)在房間駐留相當(dāng)長的一段時(shí)間,從這張動(dòng)圖上可以看出來,每一個(gè)小點(diǎn)都是一個(gè)聲音粒子?;祉憣?duì)語音識(shí)別性能有嚴(yán)重的影響。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

上圖是語譜圖,在干凈的情況下共振峰非常清晰,下圖是被混響污染的語譜,可以看到共振峰的嚴(yán)重拖尾現(xiàn)象,共振峰對(duì)語音識(shí)別非常重要,這種共振峰污染會(huì)嚴(yán)重影響語音識(shí)別準(zhǔn)確率。在某中文測(cè)試集上可以看到,干凈情況下字錯(cuò)誤率是7.86%,在有混響情況下字錯(cuò)誤率提升到23.85%,即便用了多條件訓(xùn)練(MCT),即訓(xùn)練數(shù)據(jù)里加入了一些帶混響的語音,錯(cuò)誤率會(huì)降到16.02%,但和干凈語音情況下相比,依然有很大的差距。

今天我們嘗試用深度學(xué)習(xí)的方法解決去混響的問題。用深度學(xué)習(xí)去混響是一個(gè)非常直觀的解決方案。深度神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是具有多層的非線性學(xué)習(xí)能力,可以通過回歸任務(wù),學(xué)習(xí)一個(gè)從帶混響的語音輸入到無混響干凈語音輸出之間的一個(gè)映射。我們可以通過干凈語音構(gòu)造很多的混響語音數(shù)據(jù),來訓(xùn)練這樣一個(gè)映射網(wǎng)絡(luò)。

在用深度神經(jīng)網(wǎng)絡(luò)去混響過程中,我們嘗試用生成對(duì)抗網(wǎng)絡(luò)來提升效果。生成對(duì)抗網(wǎng)絡(luò)一般由兩個(gè)網(wǎng)絡(luò)組成,一是生成器,二是判別器。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

以假幣制造者和警察之間的博弈這張圖來解釋生成對(duì)抗網(wǎng)絡(luò)最為直觀了。左邊是假幣仿冒者(即生成器),他要制造假幣;右邊是警察(即判別器),警察負(fù)責(zé)判斷真幣還是假幣。假幣仿冒者制造出來的假幣交給警察,警察根據(jù)自身的經(jīng)驗(yàn)做出假幣的判斷,把Loss傳回給假幣仿冒者,假幣仿冒者進(jìn)而改良。經(jīng)過多次迭代博弈的過程,假幣最終做得越來越真,可以騙過警察。

通過這樣的思路可以做去混響的問題。把混響語音通過生成器去混響,交給判別器判別這是干凈語音還是混響語音,通過類似上述的迭代博弈過程,訓(xùn)練的生成器最終達(dá)到非常好的去混響效果。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

先前也有相關(guān)的工作,但是我們的做的更加細(xì)致。我們的結(jié)論是:首先,和其他網(wǎng)絡(luò)類型相比,生成器網(wǎng)絡(luò)用LSTM網(wǎng)絡(luò)效果最優(yōu),因?yàn)樗旧碛泻軓?qiáng)的時(shí)序建模能力,混響和時(shí)間非常相關(guān)。如果網(wǎng)絡(luò)層數(shù)比較深,則加入殘差網(wǎng)絡(luò)可以進(jìn)一步提升效果。

此外在網(wǎng)絡(luò)訓(xùn)練過程中,用同一個(gè)Mini-batch的數(shù)據(jù)去更新兩個(gè)網(wǎng)絡(luò)(G和D)對(duì)獲得良好的效果是至關(guān)重要的。在實(shí)驗(yàn)數(shù)據(jù)集上語音識(shí)別表明,GAN能夠比單純DNN去混響獲得14-19%相對(duì)字錯(cuò)誤率的下降。最終在MCT多條件訓(xùn)練的場(chǎng)景下,進(jìn)一步將字錯(cuò)誤率從16%降到13%,大家感興趣可以關(guān)注我們的論文,獲得更多的細(xì)節(jié)。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

第二,喚醒萬物。以“小愛同學(xué)”為例,它現(xiàn)在已經(jīng)無處不在,大家已經(jīng)習(xí)慣了用“小愛同學(xué)”來喚醒小米手機(jī)和音箱。在喚醒任務(wù)上,我們要保證喚醒率非常高,同時(shí)要降低虛警率。我說了“小愛同學(xué)”,沒有喚醒屬于誤拒絕;我沒有說“小愛同學(xué)“,但是設(shè)備被喚醒了,這個(gè)屬于虛警。在語音喚醒任務(wù)上,我們的目的是把這個(gè)指標(biāo)打造得越低越好。

同時(shí)很多時(shí)候我們?cè)诙松?、器件上做喚醒,往往需要非常小的模型、很少的?jì)算量,因?yàn)橛?jì)算能力有限、存儲(chǔ)能力有限。我們嘗試用基于注意力機(jī)制端到端神經(jīng)網(wǎng)絡(luò)來解決喚醒的問題。

這不是我們第一次使用基于注意力機(jī)制的模型來解決問題,之前我們跟小米合作,在小米電視語音搜索上達(dá)到非常高的準(zhǔn)確率,也是因?yàn)橛昧诉@個(gè)模型,大家可以關(guān)注一下我們發(fā)表在ICASSP2018上的論文。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

這次我們將注意力機(jī)制用在喚醒任務(wù)中,也是非常直觀的想法。比如我們聽到別人叫我們的名字的時(shí)候,我們的“注意力”就轉(zhuǎn)換到這個(gè)人的講話上。注意力機(jī)制模型在機(jī)器翻譯、語音識(shí)別、語音合成中都已經(jīng)成功應(yīng)用。我們成功把它用在語音喚醒任務(wù)上。

它的好處有:一是去模塊化,一個(gè)網(wǎng)絡(luò)直接輸出喚醒判斷;二是模型參數(shù)少,同時(shí)無需其他喚醒方案中復(fù)雜的圖搜索,計(jì)算量進(jìn)一步降低;三是模型訓(xùn)練無需做對(duì)齊。運(yùn)用基于注意力機(jī)制的語音喚醒模型,通過編碼器、注意力機(jī)制和Softmax的結(jié)合,可以直接判斷我說的是不是喚醒詞。

在“小愛同學(xué)”內(nèi)部測(cè)試集上做了實(shí)驗(yàn)驗(yàn)證。對(duì)于編碼器,CRNN網(wǎng)絡(luò)比GRU和LSTM取得了更優(yōu)的結(jié)果。最終在一小時(shí)一次虛警的條件下,我們的方案使得錯(cuò)誤拒絕下降6次,同時(shí)計(jì)算量縮減4倍。

第三個(gè)工作是:我們嘗試“低資源”場(chǎng)景,只需少量數(shù)據(jù)為每個(gè)人打造個(gè)性化的語音識(shí)別模型,提升每個(gè)人的語音識(shí)別體驗(yàn)。下圖可以看到這是某個(gè)測(cè)試集中的10個(gè)人做語音級(jí)別的錯(cuò)誤率,我們可以看到雖然大家都是說普通話,語音識(shí)別性能非常的不均衡。錯(cuò)誤率最低可以達(dá)到100字錯(cuò)3個(gè),很差的情況可以看到錯(cuò)誤率高達(dá)40%甚至56%。

這些高錯(cuò)誤率情況往往是由于口音問題造成的。我國不同的地域有不同的方言和口音。現(xiàn)有通用的語音識(shí)別聲學(xué)模型,往往是通過不同口音人群數(shù)據(jù)的覆蓋,來緩解這一問題。但是終究是一個(gè)“平均模型”,不可能在每個(gè)人身上獲取到最佳的語音識(shí)別性能。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

我們對(duì)比研究了幾種不同的說話人自適應(yīng)的方法。神經(jīng)網(wǎng)絡(luò)非常靈活,可以做很多工作,對(duì)網(wǎng)絡(luò)進(jìn)行不同的“手術(shù)”,通過對(duì)平均模型方案的改造,達(dá)到適配不同人的自適應(yīng)能力。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

第一種方法是LIN,在傳統(tǒng)語音級(jí)別大網(wǎng)絡(luò)聲學(xué)模型前提下可以加一個(gè)線性變換網(wǎng)絡(luò),把不同人的語音輸入變成某種通用特征,原始大網(wǎng)絡(luò)參數(shù)不做任何變化。即一人一個(gè)線性變換網(wǎng)絡(luò),這個(gè)小網(wǎng)絡(luò)可以放在每個(gè)人的手機(jī)上。

第二種方法是LHUC,為每個(gè)人學(xué)習(xí)一組個(gè)性化參數(shù),用于調(diào)節(jié)大網(wǎng)絡(luò)聲學(xué)模型參數(shù)的幅度。

第三種方法是俞棟老師論文中的做法,用每個(gè)人的數(shù)據(jù)去直接更新大網(wǎng)絡(luò)聲學(xué)模型參數(shù),即一人一個(gè)網(wǎng)絡(luò)。為了避免過擬合問題,我們采用KLD準(zhǔn)則在模型自適應(yīng)過程中來做一個(gè)約束,使得適應(yīng)后的模型的后驗(yàn)概率分布與說話人無關(guān)的大網(wǎng)絡(luò)模型上的后驗(yàn)分布越接近越好。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

我們選擇了10位帶湖北口音的普通話發(fā)音人,每個(gè)人用5-300句做模型自適應(yīng),100句做測(cè)試。上圖明顯的看到,不管使用上述什么方法,語音識(shí)別錯(cuò)誤率都有穩(wěn)定的下降。整體而言,我們發(fā)現(xiàn)KLD方法最優(yōu),LHUC此之,LIN比較差。

我們工作的另外一個(gè)特色是對(duì)口音程度進(jìn)行了分類來觀察不同方法的表現(xiàn)。我們根據(jù)剛才那10個(gè)測(cè)試人在通用模型上的語音識(shí)別錯(cuò)誤率,對(duì)他們進(jìn)行了口音程度劃分,分為了輕度口音、中度口音和重口音,來觀察不同方法在這三類人群上的語音識(shí)別性能表現(xiàn)。

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

我們發(fā)現(xiàn),在輕度口音上,LHUC的效果最好,其他兩種方法表現(xiàn)的不穩(wěn)定,時(shí)好時(shí)壞。這是因?yàn)檩p度口音和通用模型之間的差距不是特別明顯,在訓(xùn)練通用模型的時(shí)候其實(shí)就引入了一些帶口音數(shù)據(jù)。這種情況下,如果用其他方法來”大幅度”調(diào)整網(wǎng)絡(luò)會(huì)造成負(fù)面的影響。LHUC這種比較“微弱”的調(diào)整參數(shù)方法反而效果最好。

在重度口音上,KLD和LHUC效果相當(dāng),可以達(dá)到可比的效果。如果存儲(chǔ)或內(nèi)內(nèi)存占用是一個(gè)需要考慮的因素的話,大家可以選擇較為簡潔的LHUC方法,它不會(huì)為每個(gè)人建一個(gè)神經(jīng)網(wǎng)絡(luò),而是為每個(gè)人存儲(chǔ)一小組調(diào)節(jié)大網(wǎng)絡(luò)的參數(shù)。

對(duì)于重度口音,目標(biāo)發(fā)音人和通用模型之間有非常大的差距,因此直接使用目標(biāo)發(fā)音人的數(shù)據(jù)來調(diào)整通用模型參數(shù),得到適配目標(biāo)發(fā)音人的模型,效果是最好的。因此,模型重訓(xùn)練RSI和KLD可以達(dá)到這種目的,而KLD效果更佳,即圖上黑色線穩(wěn)定在下面,錯(cuò)誤率最低。

在我報(bào)告的最后,給大家展示一下我們最新的用深度學(xué)習(xí)進(jìn)行語音降噪的最新結(jié)果。

我們知道語音降噪和語音增強(qiáng)是研究歷史非常長的研究課題,通常采用信號(hào)處理的方法解決。手機(jī)上也有各種降噪方案和降噪算法。傳統(tǒng)統(tǒng)計(jì)信號(hào)處理的方法優(yōu)勢(shì)是從信號(hào)統(tǒng)計(jì)特性出發(fā)解決問題,對(duì)平穩(wěn)噪聲有較好的抑制能力。但是對(duì)于非平穩(wěn)類型的噪聲——比如在嘈雜的酒吧中有很多不平穩(wěn)的噪聲——的表現(xiàn)無法達(dá)到理想效果。

我們將深度學(xué)習(xí)應(yīng)用于語音增強(qiáng),同時(shí)結(jié)合信號(hào)處理的知識(shí),聯(lián)合做降噪。這是我們?cè)卩须s的酒吧錄了一段對(duì)手機(jī)講話的音頻,用深度學(xué)習(xí)加信號(hào)處理的方法進(jìn)行降噪。大家也聽到了,嘈雜的背景噪聲基本被抹掉,這是深度學(xué)習(xí)賦能語音降噪達(dá)到的新水平。(演講全文完)

西北工業(yè)大學(xué)教授謝磊:IoT時(shí)代,智能語音面臨許多新的挑戰(zhàn) | CCF-GAIR 2018

會(huì)后,當(dāng)雷鋒網(wǎng)問到現(xiàn)在智能音箱在復(fù)雜任務(wù)執(zhí)行上存在很多問題,是否存在技術(shù)不成熟就立刻推向市場(chǎng)的情況,謝磊的回答是:

智能音箱是一個(gè)重要的入口,IoT的入口和流量的入口。

這就是為什么大家都在布局做音箱,市場(chǎng)上出現(xiàn)了“百箱爭鳴”的局面,其實(shí)大家都在布局新的“流量經(jīng)濟(jì)”和搶奪入口。

就技術(shù)而言,智能音箱可能是一家公司技術(shù)“綜合實(shí)力”的體現(xiàn),最適合練兵,因?yàn)樯厦嬗玫降募夹g(shù)有很多,例如麥克風(fēng)陣列技術(shù)、語音增強(qiáng)技術(shù)、遠(yuǎn)場(chǎng)語音識(shí)別技術(shù)、語音理解與對(duì)話技術(shù)、知識(shí)庫、語音合成等,還有是否有輸出內(nèi)容的實(shí)力。每項(xiàng)技術(shù)都是一項(xiàng)重要的研究課題,都需要打磨和優(yōu)化。但是對(duì)用戶來說,只是感覺到交互體驗(yàn)要好,需要的內(nèi)容要有。

技術(shù)發(fā)展都是有一個(gè)階段的,現(xiàn)階段達(dá)到的能力,其實(shí)已經(jīng)可以做到包括智能音箱在內(nèi)的各種各樣的智能硬件里面去了,也就是達(dá)到了“可用”的階段,但是距離“好用”還是需要一定的技術(shù)發(fā)展。

在基于智能音箱的遠(yuǎn)場(chǎng)語音交互上,語音識(shí)別的準(zhǔn)確率仍需要進(jìn)一步提高,這個(gè)就需要前端方案的配合,以及前后端的聯(lián)合優(yōu)化。

語音合成也需要更加自然與個(gè)性化,每個(gè)人對(duì)聲音的需求是不一樣的。此外,就深度理解用戶而言,這需要語義理解和對(duì)話技術(shù)的進(jìn)一步突破。本來語義理解就有很多歧義。比如說想穿多少穿多少,這句話其實(shí)跟語境有關(guān)系,在冬天的時(shí)候,你特別冷的情況下你是希望穿得特別多,但是到夏天的時(shí)候你想穿多少穿多少,就是說,我熱的實(shí)在是脫得不能再脫了。所以,這個(gè)實(shí)際上跟語境也是有關(guān)系的,所以語義理解很難。

口語交互就更難了,比如咱們?cè)诹奶斓倪^程中,講的話可能是語速很快、吞音少字問題、語序顛倒、都不是按規(guī)則出牌的。說話的時(shí)候我語序顛倒了你也能聽懂,中間插了很多的東西你也能夠聽懂,但是機(jī)器理解的時(shí)候就可能是一個(gè)大問題。所以,這一塊還是要通過各種各樣的技術(shù)突破和各個(gè)模塊的聯(lián)合優(yōu)化去解決。

不過我相信,語音的入口作用是毋庸質(zhì)疑的,這也是為什么各家都在布局的原因。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

主筆

本人微信:15010591263
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄