丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給程弢
發(fā)送

1

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

本文作者: 程弢 2016-09-06 17:32 專題:雷峰網(wǎng)公開課
導語:語音識別的模型有語言模型和聲學模型兩種,語言模型包括了N-gram、RNNLM等,在聲學模型里面又涵蓋了HMM、DNN、RNN等模型...

語音識別建模對語音識別來說是不可或缺的一部分,因為不同的建模技術(shù)通常意味著不同的識別性能,所以這是各個語音識別團隊重點優(yōu)化的方向。也正是因為如此,語音識別的模型也層出不窮,其中語言模型包括了N-gram、RNNLM等,在聲學模型里面又涵蓋了HMM、DNN、RNN等模型...

簡單來說,聲學模型的任務就是描述語音的物理變化規(guī)律,而語言模型則表達了自然語言包含的語言學知識。本期硬創(chuàng)公開課邀請到了搜狗語音交互中心語音技術(shù)部負責人陳偉來為大家分享伴隨著本輪人工智能浪潮下語音識別建模技術(shù)的演進,希望能夠幫大家理清主流的識別建模脈絡以及背后的思考。

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

嘉賓介紹:陳偉,搜狗公司桌面事業(yè)部專家研究員,語音交互中心語音技術(shù)部負責人,負責搜狗語音識別、語音合成、音樂檢索、聲紋識別、手寫識別等多項技術(shù)的研發(fā)工作,同時負責搜狗知音引擎語音技術(shù)的研發(fā),致力于通過技術(shù)和產(chǎn)品的創(chuàng)新提升語音交互品質(zhì),為用戶提供優(yōu)質(zhì)的語音使用體驗。

搜狗知音引擎是搜狗公司自主研發(fā)的一項專注于自然交互的智能語音技術(shù),于2016年8月3日正式對外發(fā)布,該技術(shù)集合了語音識別、語義理解、語音交互、以及提供服務等多項功能,不僅能聽會說,還能理解會思考, 本文將結(jié)合知音引擎中語音識別建模技術(shù)的使用來為大家講解。

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

圖1   搜狗知音引擎

基礎(chǔ)概念

語音幀

考慮到語音的短時平穩(wěn)特性,語音信號在前端信號處理時要進行加窗分幀的操作,識別特征都按幀來提取,具體請見圖2。(編者注:分幀后的語音信號逐幀提取語音特征用于聲學模型建模。

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

 圖2   語音幀的劃分

語音識別系統(tǒng)

語音信號經(jīng)過前端信號處理、端點檢測等處理后,逐幀提取語音特征,傳統(tǒng)的特征類型包括MFCC、PLP、FBANK等特征,提取好的特征送至解碼器,在聲學模型、語言模型以及發(fā)音詞典的共同指導下,找到最為匹配的詞序列作為識別結(jié)果輸出,整體流程請見圖3。識別的公式如圖4所示,可見聲學模型主要描述發(fā)音模型下特征的似然概率;語言模型主要描述詞間的連接概率;發(fā)音詞典主要是完成詞和音之間的轉(zhuǎn)換,其中聲學模型建模單元一般選擇三音素模型,以“搜狗語音為例”,

sil-s+ou1 s-ou1+g ou1-g+ou3 g-ou3+y ou3-y+u3 y-u3+y u3-y+in1 y-in1+sil

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

圖3   語音識別系統(tǒng)流程

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

圖4   語音識別原理

需要注意的是,輸入特征矢量X代表語音的特征。

主流聲學建模技術(shù)

近年來,隨著深度學習的興起,使用了接近30年的語音識別聲學模型HMM(隱馬爾科夫模型)逐漸被DNN(泛指深度神經(jīng)網(wǎng)絡)所替代,模型精度也有了突飛猛進的變化,整體來看聲學建模技術(shù)從建模單元、模型結(jié)構(gòu)、建模流程等三個維度都有了比較明顯的變化,如圖5所示:

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

圖5   聲學建模演進總結(jié)

其中,深度神經(jīng)網(wǎng)絡超強的特征學習能力大大簡化了特征抽取的過程,降低了建模對于專家經(jīng)驗的依賴,因此建模流程逐步從之前復雜多步的流程轉(zhuǎn)向了簡單的端到端的建模流程,由此帶來的影響是建模單元逐步從狀態(tài)、三音素模型向音節(jié)、字等較大單元演進,模型結(jié)構(gòu)從經(jīng)典的GMM-HMM向DNN+CTC(DNN泛指深度神經(jīng)網(wǎng)絡)轉(zhuǎn)變,演進的中間態(tài)是DNN-HMM的混合模型結(jié)構(gòu)。

HMM

HMM最早創(chuàng)立于20世紀70年代。80年代得到了傳播和發(fā)展,成為信號處理的一個重要方向,現(xiàn)已成功地用于語音識別,行為識別,文字識別以及故障診斷等領(lǐng)域。

詳細來看,經(jīng)典的HMM建??蚣苋缦滤荆?/p>

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

圖6   HMM建??蚣?/p>

其中,輸出概率使用高斯混合模型GMM建模,如下圖所示:

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

DNN-HMM

2012年,微軟鄧力和俞棟老師將前饋神經(jīng)網(wǎng)絡FFDNN(Feed Forward Deep Neural Network)引入到聲學模型建模中,將FFDNN的輸出層概率用于替換之前GMM-HMM中使用GMM計算的輸出概率,引領(lǐng)了DNN-HMM混合系統(tǒng)的風潮,很多研究者使用了FFDNN、CNN、RNN、LSTM等多種網(wǎng)絡結(jié)構(gòu)對輸出概率進行建模,并取得了很好的效果,如圖7所示。

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

圖7   DNN-HMM混合建模框架

DNN-HMM建??蚣苤校斎胩卣魇褂昧嗽诋斍皫笥移磶姆绞絹韺崿F(xiàn)模型對時序信號長時相關(guān)性的建模,模型輸出則保持了GMM-HMM經(jīng)常使用的trihone共享狀態(tài)(senone),中文大詞匯量連續(xù)語音識別中狀態(tài)數(shù)一般設(shè)置在1萬左右,如圖8所示。

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

圖8   DNN-HMM建模流程

FFDNN

FFDNN的模型結(jié)構(gòu)如下所示:

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

圖9   FFDNN建模流程

CNN

編者注:實際上,最早CNN只應用于圖像識別,直到2012年才被用于語音識別系統(tǒng)。

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

圖10   CNN建模流程

RNN及LSTM

語音的協(xié)同發(fā)音現(xiàn)象說明聲學模型需要考慮到語音幀之間的長時相關(guān)性,盡管上文中DNN-HMM通過拼幀的方式對上下文信息進行了建模,但是畢竟拼接的幀數(shù)有限,建模能力不強,因此引入了RNN(循環(huán)神經(jīng)網(wǎng)絡)增強了長時建模的能力,RNN隱層的輸入除了接收前一個隱層的輸出之外,還接收前一時刻的隱層輸出作為當前輸入,通過RNN的隱層的循環(huán)反饋,保留了長時的歷史信息,大大增強了模型的記憶能力,語音的時序特性通過RNN也得到了很好的描述。但是RNN的簡單結(jié)構(gòu)在模型訓練進行BPTT(Backpropagation Through Time)時很容易引起梯度消失/爆炸等問題,因此在RNN的基礎(chǔ)上引入了LSTM(長短時記憶模型),LSTM是一種特殊的RNN,通過Cell以及三個門控神經(jīng)元的特殊結(jié)構(gòu)對長時信息進行建模,解決了RNN出現(xiàn)的梯度問題,實踐也證明了LSTM的長時建模能力優(yōu)于普通RNN。

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

圖11   RNN結(jié)構(gòu)

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

圖12  RNN到LSTM

CTC

上述的建模技術(shù)在模型訓練時需要滿足一個條件,就是訓練數(shù)據(jù)中每一幀都要預先確定對應的標注,即對應DNN輸出狀態(tài)的序號,訓練特征序列和標注特征序列必須是等長的,而為了得到標注,需要使用已有模型對訓練數(shù)據(jù)序列和標注序列進行強制對齊,但是基于大數(shù)據(jù)訓練時標注的準備比較耗費時間,同時對齊使用的模型精度往往存在偏差,訓練中使用的標注會存在錯誤。因此引入了CTC(Connectionist Temporal Classification)準則,解決了標注序列與特征序列不等長的問題,通過前向后向算法自動學習語音特征中的模型邊界,這種準則與用于時序建模的神經(jīng)網(wǎng)絡(如LSTM)的結(jié)合可以直接用于端到端的模型建模,顛覆了語音識別使用接近30年之久的HMM框架。

CTC準則引入了blank類別,用于吸收發(fā)音單元內(nèi)部的混淆性,更加突出模型與其他模型之間的差異性,因此CTC具有非常明顯的尖峰效果,圖13是使用triphone-lstm-ctc模型對內(nèi)容為”搜狗語音”的語音進行識別后的輸出概率分布,可以看到大部分區(qū)域都被blank吸收,識別出的triphone對應著明顯尖峰。

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

圖13  CTC尖峰效果演示

可以預期,基于CTC或者引用CTC概念(如LFMMI)的端到端識別技術(shù)將逐漸成為主流,HMM框架將逐漸被替代。

其他建模技術(shù)

語言建模技術(shù)

目前RNNLM的技術(shù)已經(jīng)逐步引入到語音識別中來,通過對更長歷史信息的建模,RNNLM較傳統(tǒng)使用的N-Gram技術(shù)對識別性能有了較好的提升,但是考慮到大詞匯量語音識別中,如果完全替換N-Gram會帶來運算量以及運算時間的大幅增加,因此在知音引擎中,RNNLM用在對N-Gram識別輸出的N-Best候選列表的重排序上。

語音喚醒技術(shù)

知音引擎中目前針對固定喚醒詞的方式,基于DNN進行端到端的喚醒詞建模,具體如下:

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

圖14  端到端語音喚醒流程

這種方法盡管取得了非常低的誤喚醒率,但是缺點也很明顯,喚醒詞無法自定義,因此知音引擎中,我們使用DNN提取Bottleneck Feature,用于基于HMM的喚醒模型訓練,較傳統(tǒng)基于MFCC的方式也取得了較好的效果。

關(guān)于未來

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

盡管語音識別建模能力取得了較大的提升,但是遠場、噪聲、口音、發(fā)音習慣(吞音)等問題仍然存在,很贊成吳恩達的說法,由95%的準確率發(fā)展到99%,盡管只有4%的差距,但是可能會改變?nèi)藗兊慕换シ绞剑瑢崿F(xiàn)很少用到經(jīng)常使用的轉(zhuǎn)變。

目前語音原始數(shù)據(jù)獲取的成本越來越低,工業(yè)界正在使用數(shù)萬小時的已標注數(shù)據(jù)進行模型更新,將來十萬級的訓練數(shù)據(jù)將成為可能,怎么能高效的使用數(shù)據(jù),主要有以下幾點的考慮:

數(shù)據(jù)篩選層面:使用無監(jiān)督、弱監(jiān)督、半監(jiān)督的數(shù)據(jù)進行訓練,同時更高效的挑選數(shù)據(jù)進行標注,知音引擎已經(jīng)在使用主動學習的方法進行數(shù)據(jù)的篩選;

運算層面:基于異構(gòu)計算的集群在超大數(shù)據(jù)上高效的完成模型訓練,而運算能力的升級已經(jīng)從線下訓練擴展到了線上測試;

模型層面:超大數(shù)據(jù)的學習需要更強能力的模型,目前基于多種模型結(jié)構(gòu)的復合結(jié)構(gòu)(如CNN-LSTM-DNN)已經(jīng)證明了可行性,后續(xù)基于Encoder-Attention-Decoder的序列學習框架也已經(jīng)在和語音識別進行結(jié)合。

同時語音識別盡管現(xiàn)在可以達到很高的準確率,但是準確率從95%到99%甚至100%的這個跨越是由量變到質(zhì)變的過程,也是決定語音交互能否成為主流交互方式的重要一環(huán),但是目前語音識別的一些老問題仍然存在,技術(shù)上仍然沒有能力完全解決,因此技術(shù)之外的產(chǎn)品創(chuàng)新也很重要,可以有效彌補準確率上的缺失。 

以知音引擎為例,它針對這個問題提供了語音糾錯的解決方案,針對識別中出現(xiàn)的錯誤可以使用自然語音的方式進行修正,比如用戶想說“我叫陳偉”,識別成了“我叫晨煒”,通過語音說出“耳東陳偉大的偉”就會改正識別結(jié)果,目前隨著多輪產(chǎn)品的迭代,語音修改已經(jīng)具備了80%的修改成功率,并且已經(jīng)應用到了知音引擎的語音交互中,同時在搜狗iOS輸入法中也集成了語音修改的能力。

編者注:總結(jié)語音識別系統(tǒng)的流程,總結(jié)語音識別系統(tǒng)的流程,聲學建模和語言建模部分是最關(guān)鍵的一環(huán),而目前基于深度學習的建模技術(shù)已經(jīng)將模型性能提升到新的階段。不過正如陳偉所說,盡管語音識別的準確率已經(jīng)達到了較高的水準,但依然有很大的提升空間,那么未來還會出現(xiàn)什么樣的模型呢?讓我們一起期待人工智能特別是深度學習技術(shù)新成果的出現(xiàn)。

此文為雷鋒網(wǎng)原創(chuàng)內(nèi)容,特此聲明雷鋒網(wǎng)雷鋒網(wǎng)

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

AI浪潮下,語音識別建模技術(shù)的演進 | 雷鋒網(wǎng)公開課

分享:
相關(guān)文章

略懂技術(shù)的小編

關(guān)注一切有未來感的產(chǎn)品及技術(shù)!
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說