丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI科技評(píng)論
發(fā)送

0

論文解讀:對(duì)端到端語(yǔ)音識(shí)別網(wǎng)絡(luò)的兩種全新探索

本文作者: AI科技評(píng)論 2018-11-08 10:42
導(dǎo)語(yǔ):一種是基于原有的 CNN-RNN-CTC 網(wǎng)絡(luò)的改進(jìn),一種是基于 CTC loss 與 attention loss 結(jié)合機(jī)制的網(wǎng)絡(luò)。
活動(dòng)
企業(yè):云從科技
操作:論文解讀
事項(xiàng):

雷鋒網(wǎng) AI 科技評(píng)論按:語(yǔ)音識(shí)別技術(shù)歷史悠久,早在上世紀(jì) 50 年代,貝爾研究所就研究出了可以識(shí)別十個(gè)英文數(shù)字的簡(jiǎn)單系統(tǒng)。從上世紀(jì) 70 年代起,傳統(tǒng)的基于統(tǒng)計(jì)的 HMM 聲學(xué)模型,N 元組語(yǔ)言模型的發(fā)明,已經(jīng)使得語(yǔ)音識(shí)別技術(shù)可以在小規(guī)模詞匯量上使用。在新世紀(jì)伊始,GMM-HMM 模型的序列鑒別性訓(xùn)練方法的提出又進(jìn)一步提升了語(yǔ)音識(shí)別的準(zhǔn)確率。最近 5-10 年間,隨著深度學(xué)習(xí)的快速發(fā)展,算力的快速增長(zhǎng),數(shù)據(jù)量的急速擴(kuò)張,深度學(xué)習(xí)開(kāi)始大規(guī)模應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域并取得突破性進(jìn)展,深度模型已經(jīng)可以在干凈標(biāo)準(zhǔn)的獨(dú)白類(lèi)音頻上達(dá)到 5% 以下的錯(cuò)詞率。此外,端到端的模型可以輕松的將各種語(yǔ)言揉合在一個(gè)模型中,不需要做額外的音素詞典的準(zhǔn)備,這將大大推動(dòng)業(yè)界技術(shù)研究與應(yīng)用落地的進(jìn)度。

在現(xiàn)在主流的利用深度學(xué)習(xí)的語(yǔ)音識(shí)別模型中仍在存在多種派系,一種是利用深度學(xué)習(xí)模型取代原來(lái)的 GMM 部分,即 DNN-HMM 類(lèi)的模型,另一種則是端到端的深度學(xué)習(xí)模型。

第一種模型需要先實(shí)現(xiàn) HMM 結(jié)構(gòu)與語(yǔ)音的對(duì)齊,然后才能進(jìn)一步地訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。除此之外,在訓(xùn)練這一類(lèi)的模型時(shí),訓(xùn)練樣本的標(biāo)注不僅僅是原本的文本,還需要對(duì)文本進(jìn)一步拆解成為音素投入訓(xùn)練,這對(duì)于標(biāo)注部分的工作就會(huì)造成極大的挑戰(zhàn)。在解碼的時(shí)候,這種模型同樣還需要依賴這個(gè)發(fā)音詞典。

端到端的模型旨在一步直接實(shí)現(xiàn)語(yǔ)音的輸入與解碼識(shí)別,從而不需要繁雜的對(duì)齊工作與發(fā)音詞典制作工作,具有了可以節(jié)省大量的前期準(zhǔn)備時(shí)間的優(yōu)勢(shì),真正的做到數(shù)據(jù)拿來(lái)就可用。

端到端的模型的另一個(gè)優(yōu)點(diǎn)是,更換識(shí)別語(yǔ)言體系時(shí)可以利用相同的框架結(jié)構(gòu)直接訓(xùn)練。例如同樣的網(wǎng)絡(luò)結(jié)構(gòu)可以訓(xùn)練包含 26 個(gè)字符的英文模型,也可以訓(xùn)練包含 3000 個(gè)常用漢字的中文模型,甚至可以將中英文的詞典直接合在一起,訓(xùn)練一個(gè)混合模型。

此外,最重要的一點(diǎn)是,端到端的模型在預(yù)測(cè)時(shí)的速度更快,對(duì)于一個(gè) 10 秒左右的音頻文件,端到端的模型在一塊 GPU 的服務(wù)器上僅需 0.2 秒左右的時(shí)間便可給出預(yù)測(cè)結(jié)果。

現(xiàn)在的語(yǔ)音識(shí)別問(wèn)題有如下幾個(gè)難點(diǎn):

  • 對(duì)自然語(yǔ)言的識(shí)別和理解;

  • 語(yǔ)音信息量大。語(yǔ)音模式不僅對(duì)不同的說(shuō)話人不同,對(duì)同一說(shuō)話人也是不同的,一個(gè)說(shuō)話人在隨意說(shuō)話和認(rèn)真說(shuō)話時(shí)的語(yǔ)音信息是不同的;

  • 語(yǔ)音的模糊性。說(shuō)話者在講話時(shí),不同的詞可能聽(tīng)起來(lái)是相似的;

  • 單個(gè)字母或詞、字的語(yǔ)音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等。

端到端的模型由于不引入傳統(tǒng)的音素或詞的概念,直接訓(xùn)練音頻到文本的模型,可以有效地規(guī)避上述難點(diǎn)。

云從科技基于端到端的語(yǔ)音識(shí)別網(wǎng)絡(luò)進(jìn)行了兩種方法的探索,一種是基于原有的 CNN-RNN-CTC 網(wǎng)絡(luò)的改進(jìn),一種是基于 CTC loss 與 attention loss 結(jié)合機(jī)制的網(wǎng)絡(luò)。下面是對(duì)這兩種方法的詳細(xì)解讀。 

第一種方法

地址:https://arxiv.org/abs/1810.12001

作者基于百度之前提出的 Deep Speech 2 的模型框架結(jié)構(gòu),提出了三個(gè)改進(jìn)的點(diǎn)。

第一是把循環(huán)神經(jīng)網(wǎng)絡(luò)中的長(zhǎng)短時(shí)記憶層(LSTM)變成了雙向的殘差長(zhǎng)短時(shí)記憶層(resBiLSTM)。此舉可以更好地保留之前卷積神經(jīng)網(wǎng)絡(luò)所提取出的音素信息和之后每一個(gè)雙向的殘差長(zhǎng)短時(shí)記憶層更好的結(jié)合。因?yàn)檠h(huán)神經(jīng)網(wǎng)絡(luò)中的每一層主要是負(fù)責(zé)提取句子中的語(yǔ)義信息,但語(yǔ)義信息的理解也和音素信息緊密相關(guān)。隨著循環(huán)神經(jīng)網(wǎng)絡(luò)的深入,原本更底層的層很難接收到卷積神經(jīng)網(wǎng)絡(luò)所給出的信息,對(duì)于復(fù)雜的長(zhǎng)句子中音素和語(yǔ)義信息的結(jié)合較差,新提出的殘差網(wǎng)絡(luò)可以較好地修正這一問(wèn)題。

第二點(diǎn)是引入了級(jí)聯(lián)的訓(xùn)練結(jié)構(gòu),即對(duì)于第一個(gè)網(wǎng)絡(luò)中難分(分錯(cuò))的樣本進(jìn)行二次訓(xùn)練。在實(shí)驗(yàn)中我們發(fā)現(xiàn),在第一層網(wǎng)絡(luò)結(jié)構(gòu)中被分錯(cuò)的樣本比全部的樣本的平均句長(zhǎng)多出了 11% 以上。隨著句子的變長(zhǎng),強(qiáng)語(yǔ)法和語(yǔ)義相關(guān)的單詞會(huì)距離更遠(yuǎn),那么對(duì)于較淺的循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)就會(huì)更難捕捉到這一個(gè)信息。在發(fā)現(xiàn)這一區(qū)別后,作者在在第二層的級(jí)聯(lián)結(jié)構(gòu)中使用了更深的循環(huán)神經(jīng)網(wǎng)絡(luò) (7 層到 13 層),但同時(shí)縮減了每一層的隱含節(jié)點(diǎn)數(shù)(對(duì)應(yīng)樣本量的減少,防止出現(xiàn)復(fù)雜模型的過(guò)擬合問(wèn)題)。下圖是對(duì)這兩點(diǎn)改進(jìn)后具體的模型圖。

論文解讀:對(duì)端到端語(yǔ)音識(shí)別網(wǎng)絡(luò)的兩種全新探索

最后一點(diǎn),是作者提出了新的訓(xùn)練方式來(lái)提升訓(xùn)練速度。深度學(xué)習(xí)中的模型一般都會(huì)采用隨機(jī)梯度下降的方式來(lái)訓(xùn)練,每一次只訓(xùn)練其實(shí)其中一批數(shù)據(jù)(mini batch)。原來(lái)的訓(xùn)練模式是固定批量的大小從一而終。但是對(duì)于語(yǔ)音識(shí)別這樣的問(wèn)題來(lái)說(shuō),輸入的數(shù)據(jù)是不定長(zhǎng)的,這就會(huì)導(dǎo)致訓(xùn)練時(shí),每一批和每一批的數(shù)據(jù)中最長(zhǎng)的那一條是不一樣的。為了防止訓(xùn)練時(shí)內(nèi)存溢出,固定批量的方式必然需要遷就數(shù)據(jù)集中最長(zhǎng)的那一個(gè)音頻。在我們的訓(xùn)練數(shù)據(jù)集中,最長(zhǎng)的音頻是最短的音頻的 10 倍左右,這樣就會(huì)帶來(lái)在訓(xùn)練短音頻時(shí)的內(nèi)存浪費(fèi)。作者提出一種對(duì)全部訓(xùn)練集從低到高排序的方式,每次取排序后的一批音頻,之后根據(jù)批次內(nèi)最長(zhǎng)的音頻片段來(lái)實(shí)時(shí)調(diào)整批量的大小,從而提升內(nèi)存利用率并使得訓(xùn)練時(shí)間下降了約 25%。在 LibriSpeech 960 小時(shí)的訓(xùn)練數(shù)據(jù)集上,利用在 8 塊 1080Ti 上訓(xùn)練一次的時(shí)間從 24500 秒降到 18400 秒左右,減少 25%。且此方法并未因排序失去數(shù)據(jù)選取的隨機(jī)性而顯得效果變差。

作者在前處理上仍舊采用傳統(tǒng)簡(jiǎn)單的快速傅里葉變換(FFT)來(lái)提取頻譜特征輸入改進(jìn)后的深度學(xué)習(xí)網(wǎng)絡(luò),并采取了基于統(tǒng)計(jì)的 N 元組語(yǔ)言模型來(lái)對(duì)模型輸出的文本進(jìn)行解碼和修正。選取這兩種方法的原因是處理簡(jiǎn)單且不需要經(jīng)過(guò)復(fù)雜的訓(xùn)練。作者提出的語(yǔ)音模型配合簡(jiǎn)單的前后處理機(jī)制仍舊可以取得很好的效果,更進(jìn)一步證明了語(yǔ)音模型的優(yōu)勢(shì)。最終,在語(yǔ)音識(shí)別數(shù)據(jù)集 Librispeech 上,取得了 3.41% 的錯(cuò)詞率。

論文解讀:對(duì)端到端語(yǔ)音識(shí)別網(wǎng)絡(luò)的兩種全新探索

在語(yǔ)音識(shí)別領(lǐng)域,LibriSpeech 是朗讀語(yǔ)音類(lèi)的主流數(shù)據(jù)集,包含 960 小時(shí)的訓(xùn)練集數(shù)據(jù)。錯(cuò)詞率(Word Error Rate)則是衡量語(yǔ)音識(shí)別技術(shù)的關(guān)鍵指標(biāo)。預(yù)測(cè)文本通過(guò)替換、刪除、增加單詞這三種操作可以達(dá)到與標(biāo)注文本完全一致所需要的操作步數(shù)即為該句子的錯(cuò)詞數(shù),錯(cuò)詞率=錯(cuò)詞數(shù)/總詞數(shù)。

第二種方法

地址:https://arxiv.org/abs/1810.12020

目前比較流行的端到端的語(yǔ)音識(shí)別模型主要包括:?jiǎn)为?dú)依賴 CTC 解碼的模型,單獨(dú)依賴 attention 解碼的模型,以及混合 CTC 與 attention 共同解碼的模型。純 CTC 解碼通過(guò)預(yù)測(cè)每個(gè)幀的輸出來(lái)識(shí)別語(yǔ)音,算法的實(shí)現(xiàn)基于假設(shè)每幀的解碼保持彼此獨(dú)立,因而缺乏解碼過(guò)程中前后語(yǔ)音特征之間的聯(lián)系,比較依賴語(yǔ)言模型的修正。純 attention 解碼過(guò)程則與輸入語(yǔ)音的幀的順序無(wú)關(guān),每個(gè)解碼單元是通過(guò)前一單元的解碼結(jié)果與整體語(yǔ)音特征來(lái)生成當(dāng)前的結(jié)果,解碼過(guò)程忽略了語(yǔ)音的單調(diào)時(shí)序性。為了兼顧兩種方法的優(yōu)缺點(diǎn),作者采用混合解碼的框架模型。網(wǎng)絡(luò)結(jié)構(gòu)是卷積層加 BiLSTM 層的 Encoder 結(jié)構(gòu)后分別連接基于 Attention 以及 CTC 的 Decoder 結(jié)構(gòu),由兩種解碼器共同輸出識(shí)別結(jié)果。

論文解讀:對(duì)端到端語(yǔ)音識(shí)別網(wǎng)絡(luò)的兩種全新探索

混合模型的 Loss 計(jì)算是 CTC-Loss 與 Attention-Loss 做權(quán)重相加。作者在實(shí)驗(yàn)中發(fā)現(xiàn),在混合模型中 CTC 權(quán)重越低效果會(huì)越好。當(dāng)把 CTC-Loss 的權(quán)重降低時(shí),整體網(wǎng)絡(luò)在計(jì)算反向梯度時(shí)由 Attention 部分得到的梯度會(huì)占主要部分,這樣的結(jié)果就是網(wǎng)絡(luò)優(yōu)先朝著優(yōu)化 Attention 解碼的方向進(jìn)行參數(shù)調(diào)整,最后訓(xùn)練得到的 CTC 解碼效果就相對(duì)較差??紤]這一點(diǎn),作者在 CTC 解碼器部分單獨(dú)增加了一個(gè) BiLSTM 層,該層不與 Attention 部分共享,單獨(dú)依靠 CTC-Loss 的反向梯度進(jìn)行優(yōu)化,從而彌補(bǔ)了 CTC 權(quán)重低帶來(lái)的不足,使 Attention 解碼效果最優(yōu)的情況下盡可能提升 CTC 部分的效果。

在本文中,作者使用了基于子詞(subword)的編解碼方式。子詞是介于字母與單詞之間的一種表征方式。由于英文單詞中的常常出現(xiàn)不發(fā)音的字母,在不同單詞中相同字母的發(fā)音也千差萬(wàn)別,這就給基于字母的編解碼模型帶來(lái)了不小的麻煩,這種模型也更需要依賴語(yǔ)言模型的修正。基于單詞的模型則只能解碼出參與訓(xùn)練的已有標(biāo)簽的單詞,因而完全無(wú)法解決 OOV 的問(wèn)題。將文本按照子詞分割開(kāi)來(lái),就可以同時(shí)改善以上兩種方法中存在的問(wèn)題。另一方面,作者為了網(wǎng)絡(luò)更好的適應(yīng)對(duì)子詞的解碼,使用了 smoothing-attention 的方法:

論文解讀:對(duì)端到端語(yǔ)音識(shí)別網(wǎng)絡(luò)的兩種全新探索

通常的 attention 方法(包括本文使用的 Loc-Aware)在計(jì)算 attention energy 中會(huì)使用 softmax,這樣使得 attention 得分的分布變得比較尖銳,最終從 attention 得到的特征會(huì)集中在某一幀的位置上。和字母級(jí)別的解碼相比,子詞需要相對(duì)更寬的上下文特征。作者將 attention 中的 softmax 改為 sigmoid,使 attention 得分的分布變得相對(duì)平滑,從而使解碼器每個(gè) LSTM 單元的輸入特征包含更多的語(yǔ)音上下文特征信息。

最后,作者使用基于 14600 本書(shū)的 Librispeech 公開(kāi)語(yǔ)言模型擴(kuò)充數(shù)據(jù)集訓(xùn)練了兩層 LSTM 作為語(yǔ)言模型(LM),在語(yǔ)音識(shí)別數(shù)據(jù)集 Librispeech 上,取得了目前已公開(kāi)的端到端語(yǔ)音識(shí)別網(wǎng)絡(luò)中的最好效果。目前 Espnet 在 github 的模型,使用該擴(kuò)充語(yǔ)言模型數(shù)據(jù)集訓(xùn)練的 LM 后在 test-clean 的表現(xiàn)為 WER=4.0%。相比之下,作者的方法效果提升 16.5%。

論文解讀:對(duì)端到端語(yǔ)音識(shí)別網(wǎng)絡(luò)的兩種全新探索

(完)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

論文解讀:對(duì)端到端語(yǔ)音識(shí)別網(wǎng)絡(luò)的兩種全新探索

分享:
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)