丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給極限元
發(fā)送

0

專(zhuān)欄 |解讀語(yǔ)音質(zhì)檢方案:從關(guān)鍵詞檢索到情感識(shí)別

本文作者: 極限元 2017-11-03 14:41
導(dǎo)語(yǔ):語(yǔ)音質(zhì)檢方案主要涉及語(yǔ)音關(guān)鍵詞檢索、音頻對(duì)比、情感識(shí)別等核心技術(shù)。

雷鋒網(wǎng)編者按:本文作者溫正棋為極限元智能科技 CTO 、中國(guó)科學(xué)院自動(dòng)化研究所副研究員,畢業(yè)于中國(guó)科學(xué)院自動(dòng)化研究所,在國(guó)際會(huì)議和期刊上發(fā)表論文十余篇,獲得多項(xiàng)關(guān)于語(yǔ)音及音頻領(lǐng)域的專(zhuān)利。雷鋒網(wǎng)授權(quán)發(fā)布本文。

為了提高客戶滿意度、完善客戶服務(wù),同時(shí)對(duì)客服人員工作的考評(píng),很多企業(yè)會(huì)對(duì)此采用質(zhì)檢的方式來(lái)保證其服務(wù)質(zhì)量。以服務(wù)行業(yè)為例,呼叫中心是一個(gè)促進(jìn)企業(yè)營(yíng)銷(xiāo)、市場(chǎng)開(kāi)拓并為客戶提供良好的交互服務(wù)系統(tǒng),其位置相當(dāng)重要。傳統(tǒng)的質(zhì)檢方法需要質(zhì)檢人員通過(guò)人工測(cè)聽(tīng)的方式進(jìn)行抽檢;人工抽檢方法工作量大且效率低,難以有效評(píng)價(jià)客服人員的服務(wù)質(zhì)量。

隨著人工智能技術(shù)的發(fā)展,語(yǔ)音和自然語(yǔ)音處理技術(shù)不斷取得突破,采用智能化的方法對(duì)電話語(yǔ)音中的內(nèi)容進(jìn)行深層次的分析,可以有效的節(jié)約人力成本并提高工作效率。語(yǔ)音質(zhì)檢方案主要涉及語(yǔ)音關(guān)鍵詞檢索、音頻對(duì)比、情感識(shí)別等核心技術(shù)。

1 語(yǔ)音關(guān)鍵詞檢索

1.1 語(yǔ)音識(shí)別聲學(xué)模型

隨著深度學(xué)習(xí)的興起,深層神經(jīng)網(wǎng)絡(luò)也應(yīng)用到了語(yǔ)音識(shí)別中的聲學(xué)建模,通過(guò)深層神經(jīng)網(wǎng)絡(luò)模型替換 GMM-HMM 模型里的 GMM 模型,HMM 模型中的狀態(tài)轉(zhuǎn)移矩陣部分不變。DNN 通過(guò)在輸入端進(jìn)行擴(kuò)幀,從而能夠利用上下文信息,同時(shí)這種模型具有較強(qiáng)的非線性建模能力,但 DNN 的擴(kuò)幀是有限的,所以它能夠利用的上下文信息是有限的。針對(duì)這一問(wèn)題提出了基于 RNN 的聲學(xué)模型,RNN 能夠更充分的利用歷史信息進(jìn)行聲學(xué)模型建模。但是在 RNN 訓(xùn)練過(guò)程中會(huì)存在梯度消失和梯度膨脹的問(wèn)題,梯度膨脹可以在訓(xùn)練過(guò)程中加一些約束條件解決,當(dāng)梯度超過(guò)一定值以后設(shè)定一個(gè)固定值;針對(duì)梯度消失問(wèn)題,比較有效的解決方法是將里面的 RNN 單元變成長(zhǎng)短時(shí)記憶模型 LSTM,這種模型的缺點(diǎn)是會(huì)增加計(jì)算復(fù)雜度,這也是在構(gòu)建聲學(xué)模型時(shí)需要考慮的問(wèn)題。CNN 是另一種比較主流的聲學(xué)模型,這種模型中包含的參數(shù)較少,谷歌、微軟、IBM 等企業(yè)均嘗試使用非常深的 CNN 模型,其識(shí)別性能超過(guò)其它深層神經(jīng)網(wǎng)絡(luò)。

CTC 是一個(gè)訓(xùn)練準(zhǔn)則,在傳統(tǒng)的基于深度學(xué)習(xí)的聲學(xué)模型輸出中,每個(gè) phone 可能包含十幾楨甚至更多楨,因?yàn)樗⒉皇且粋€(gè)尖峰,但是通過(guò) CTC 訓(xùn)練會(huì)把它變成一個(gè)尖峰;CTC 可以將每一幀變成一個(gè) blank 幀或者對(duì)應(yīng)的建模單元(音素、音節(jié)等),而每個(gè)建模單元只需要對(duì)應(yīng)幾幀就可以了。在解碼的時(shí)候可以降低對(duì) black 楨的搜索寬度,這樣可以顯著的增加解碼速度。減少解碼幀有兩種方法,一種是通過(guò)跳幀的方法,另一種在解碼過(guò)程中動(dòng)態(tài)調(diào)整 beam 值,特別是遇到空白楨的時(shí)候把并 beam 值減少。

1.2 基于語(yǔ)音識(shí)別的關(guān)鍵詞檢索

基于語(yǔ)音識(shí)別的關(guān)鍵詞檢索是將語(yǔ)音識(shí)別的結(jié)果構(gòu)建成一個(gè)索引網(wǎng)絡(luò),然后把關(guān)鍵詞從索引網(wǎng)絡(luò)中找出來(lái)。從圖 1 中可以看到,首先將語(yǔ)音數(shù)據(jù)進(jìn)行識(shí)別處理,從里面提取索引構(gòu)建索引網(wǎng)絡(luò),進(jìn)行關(guān)鍵詞檢索的時(shí)候,我們會(huì)把關(guān)鍵詞表在網(wǎng)絡(luò)中進(jìn)行搜索,找到概率最高的,輸出其關(guān)鍵詞匹配結(jié)果。

專(zhuān)欄 |解讀語(yǔ)音質(zhì)檢方案:從關(guān)鍵詞檢索到情感識(shí)別

圖1. 基于語(yǔ)音識(shí)別的關(guān)鍵詞檢索

構(gòu)建檢索網(wǎng)絡(luò)是語(yǔ)音關(guān)鍵詞檢索的重要環(huán)節(jié)。如圖 2 所示,在第一個(gè)時(shí)間段內(nèi)(w1、w3、w6、w7),這句話被識(shí)別成了四個(gè)不同的詞,語(yǔ)音識(shí)別只能給出一條路徑,但在語(yǔ)音關(guān)鍵詞檢索網(wǎng)絡(luò)中可以從四個(gè)結(jié)果中進(jìn)行篩選。

專(zhuān)欄 |解讀語(yǔ)音質(zhì)檢方案:從關(guān)鍵詞檢索到情感識(shí)別

圖 2 構(gòu)建檢索網(wǎng)絡(luò)示意圖

確定關(guān)鍵詞檢索網(wǎng)絡(luò)后,接下來(lái)進(jìn)行的是關(guān)鍵詞檢索。關(guān)鍵詞檢索可以基于音節(jié)信息,首先將用戶設(shè)定的關(guān)鍵詞文本解析成音節(jié)序列,再?gòu)臋z索網(wǎng)絡(luò)中找出匹配結(jié)果,相比直接對(duì)文本結(jié)果進(jìn)行檢索,這種方法的容錯(cuò)性更強(qiáng),而且關(guān)鍵詞檢索中的聲學(xué)模型可以是基于 CTC 的模型,因此,計(jì)算量更小,執(zhí)行效率更高,更適用于語(yǔ)音質(zhì)檢這種海量數(shù)據(jù)檢索的應(yīng)用場(chǎng)景。

2 音頻對(duì)比

音頻比對(duì)是指從音頻信號(hào)提取特征,通過(guò)特征進(jìn)行比對(duì)的方法進(jìn)行有害信息檢索的方法。該方法的核心在于提取的特征值需要滿足一定的要求,比如抗噪性、轉(zhuǎn)換不變性、魯棒性、快速性等特點(diǎn),主要是為了滿足同一音頻能夠在不同聲道下進(jìn)行準(zhǔn)確檢索。傳統(tǒng)的 MFCC、FBANK 等聲學(xué)特征已經(jīng)不能滿足音頻比對(duì)任務(wù)的需求。圖 3 是一個(gè)基于頻譜最大值來(lái)建模的音頻比對(duì)方法。在完成最大值點(diǎn)完成建模后,需要進(jìn)行特征的構(gòu)建。而特征構(gòu)建是通過(guò)最大值點(diǎn)之間的距離來(lái)建模,例如兩個(gè)最大值點(diǎn)的距離、位置信息作為一個(gè)固定的特征來(lái)完成音頻特征信息的構(gòu)建。有了上述音頻特征之后,就可以對(duì)兩個(gè)不同音頻進(jìn)行檢索,最大相似度的地方就是相似點(diǎn),這種技術(shù)最適用于文本內(nèi)容無(wú)關(guān)的錄音片段的檢索。

 專(zhuān)欄 |解讀語(yǔ)音質(zhì)檢方案:從關(guān)鍵詞檢索到情感識(shí)別

圖 3. 基于頻譜最大值建模的音頻比對(duì)方法

3 情感識(shí)別

語(yǔ)音是人類(lèi)交際的最重要的工具之一。人們?cè)谶M(jìn)行自然口語(yǔ)對(duì)話時(shí),不僅傳遞聲音,更重要的是傳遞說(shuō)話人的情感狀態(tài)、態(tài)度、意圖等。一般的情感語(yǔ)音識(shí)別系統(tǒng)框圖如圖 4 所示。根據(jù)情感模型的不同,情感語(yǔ)音識(shí)別主要分為離散情感識(shí)別和連續(xù)情感語(yǔ)音識(shí)別。

專(zhuān)欄 |解讀語(yǔ)音質(zhì)檢方案:從關(guān)鍵詞檢索到情感識(shí)別

圖 4. 語(yǔ)音情感識(shí)別典型系統(tǒng)框圖

離散情感識(shí)別是一個(gè)典型的模式分類(lèi)問(wèn)題,各種傳統(tǒng)的分類(lèi)器均被廣泛應(yīng)用于語(yǔ)音情感識(shí)別系統(tǒng)。例如隱馬爾科夫模型、高斯混合模型、支持向量機(jī),人工神經(jīng)網(wǎng)絡(luò)等。維度情感識(shí)別一般被建模為回歸預(yù)測(cè)問(wèn)題。在機(jī)器學(xué)習(xí)算法層面,根據(jù)是否考慮序列上下文信息可將現(xiàn)有方法分為靜態(tài)機(jī)器學(xué)習(xí)算法和動(dòng)態(tài)機(jī)器學(xué)習(xí)算法。在靜態(tài)機(jī)器學(xué)習(xí)算法中,AdaBoost、高斯混合模型、人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸等廣泛應(yīng)用于維度情感識(shí)別中序列單元的回歸問(wèn)題。鑒于維度情感的序列標(biāo)注情況,序列上下文信息有助于提高情感識(shí)別性能,因而更多的工作集中于動(dòng)態(tài)機(jī)器學(xué)習(xí)算法。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于 LSTM-RNN 的系統(tǒng)便被更加廣泛的應(yīng)用于維度情感識(shí)別領(lǐng)域。

情感識(shí)別解決方案通過(guò)分析不同情感狀態(tài)和語(yǔ)音聲學(xué)參數(shù)的關(guān)聯(lián)關(guān)系,抽取出魯棒聲學(xué)特征參數(shù),綜合考慮不同人對(duì)同一段語(yǔ)音的情感感知結(jié)果,建立語(yǔ)音情感識(shí)別模型。為了提高語(yǔ)音情感識(shí)別的魯棒性,采用非線性建模方法建立情感語(yǔ)音分析模型,有效的解決了噪聲環(huán)境下情感語(yǔ)音分析問(wèn)題。針對(duì)情感識(shí)別中的時(shí)序建模問(wèn)題,采用一種基于特征層建模和決策層建模相結(jié)合的多尺度時(shí)序建模方法。在特征層實(shí)現(xiàn)短粒度的時(shí)序建模。在決策層實(shí)現(xiàn)更長(zhǎng)粒度的時(shí)序建模,并與特征層的時(shí)序建模實(shí)現(xiàn)相互補(bǔ)充。通過(guò)上述改進(jìn),有效的提高了語(yǔ)音情感識(shí)別的準(zhǔn)確率,可以對(duì)通話者的情感狀態(tài)進(jìn)行動(dòng)態(tài)的捕獲和跟蹤。(雷鋒網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

專(zhuān)欄 |解讀語(yǔ)音質(zhì)檢方案:從關(guān)鍵詞檢索到情感識(shí)別

分享:
相關(guān)文章

編輯

極限元官方專(zhuān)欄賬號(hào),重點(diǎn)解讀智能語(yǔ)音、計(jì)算機(jī)視覺(jué)、大數(shù)據(jù)分析等技術(shù)方向。歡迎交流!
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)