丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給AI科技評(píng)論
發(fā)送

2

百度ICML論文:端對(duì)端中英文語音識(shí)別

本文作者: AI科技評(píng)論 2016-06-22 11:16
導(dǎo)語:?百度在ICML上發(fā)表了他們?cè)谡Z音識(shí)別上的研究成果:一種可以同時(shí)識(shí)別英語和中文的語音識(shí)別算法

論文作者:Dario Amodei , Rishita Anubhai , Eric Battenberg , Carl Case , Jared Casper , Bryan Catanzaro , JingDong Chen , Mike Chrzanowski Baidu USA, Inc., Adam Coates , Greg Diamos Baidu USA, Inc., Erich Elsen Baidu USA, Inc., Jesse Engel , Linxi Fan , Christopher Fougner , Awni Hannun Baidu USA, Inc., Billy Jun , Tony Han , Patrick LeGresley , Xiangang Li Baidu, Libby Lin , Sharan Narang , Andrew Ng , Sherjil Ozair , Ryan Prenger , Sheng Qian Baidu, Jonathan Raiman , Sanjeev SatheeshBaidu SVAIL, David Seetapun , Shubho Sengupta , Chong Wang , Yi Wang , Zhiqian Wang , Bo Xiao , Yan Xie Baidu, Dani Yogatama , Jun Zhan , zhenyao Zhu

摘要

我們展示了一種可用于識(shí)別英文和中文語音的端至端深度學(xué)習(xí)方法,盡管它們是兩個(gè)截然不同的語言。因?yàn)檫@種方法用神經(jīng)網(wǎng)絡(luò)取代整個(gè)了手動(dòng)設(shè)計(jì)的管道狀網(wǎng)絡(luò),并讓我們得以適應(yīng)的多種多樣的語音,包括噪音,口音和不同的語言。方法的關(guān)鍵是HPC技術(shù)的應(yīng)用,使得以前要花幾個(gè)星期運(yùn)行的實(shí)驗(yàn),現(xiàn)在只用幾天就得以運(yùn)行。這使得我們更快地迭代以識(shí)別更好的架構(gòu)和算法。其結(jié)果是,在一些的情況下,當(dāng)以標(biāo)準(zhǔn)資料組作為測(cè)試基準(zhǔn)時(shí),我們的系統(tǒng)足以和人工錄音進(jìn)行競(jìng)爭(zhēng)。最后,在數(shù)據(jù)中心使用一種稱為GPU批次調(diào)度(Batch Dispatch with GPUs)的技術(shù),我們的系統(tǒng)可以經(jīng)濟(jì)價(jià)廉地在網(wǎng)絡(luò)的設(shè)置中部署,并在給大規(guī)模的用戶提供服務(wù)時(shí),提供較低的延遲。

 1. 簡(jiǎn)介

幾十年來手工設(shè)計(jì)領(lǐng)域積累的知識(shí)已經(jīng)進(jìn)入最先進(jìn)的自動(dòng)語音識(shí)別(ASR)等的管道。一個(gè)簡(jiǎn)單但有效的替代解決方案是訓(xùn)練出端對(duì)端語音自動(dòng)識(shí)別模式,使用深度學(xué)習(xí)的方法用一個(gè)模型來代替大多數(shù)模式。如同Hannun et al., 2014a and Graves & Jaitly, 2014b在他們的論文所提及一樣。這種端到端的訓(xùn)練方法簡(jiǎn)化了訓(xùn)練過程,因?yàn)樗∪チ巳斯ひ龑?dǎo)/校準(zhǔn)/集群/ HMM 機(jī)械裝置,而這些用于建立先進(jìn)的自動(dòng)語音識(shí)別(ASR)模式。在這樣的系統(tǒng)中,建立端對(duì)端的深度學(xué)習(xí),我們可以使用一系列的深度學(xué)習(xí)技巧:捕捉大的訓(xùn)練集,訓(xùn)練較大的模型與高性能計(jì)算,并且有條不紊地探索神經(jīng)網(wǎng)絡(luò)的空間工作架構(gòu)。

本文詳細(xì)介紹了我們對(duì)于語音識(shí)別的貢獻(xiàn),如模型架構(gòu),標(biāo)記的大規(guī)模訓(xùn)練數(shù)據(jù)集和計(jì)算規(guī)模。這其中還包括模型架構(gòu)進(jìn)行的廣泛調(diào)查,并且我們的數(shù)據(jù)采集管道使我們能夠創(chuàng)建比通常用于訓(xùn)練語音識(shí)別系統(tǒng)更大的數(shù)據(jù)集。

我們用了幾個(gè)公開可用的測(cè)試集測(cè)試我們的系統(tǒng),并期待最終達(dá)到人類表現(xiàn)水平。為此,我們還基于這個(gè)比較標(biāo)準(zhǔn),測(cè)試工人們的表現(xiàn)。發(fā)現(xiàn)我們最好的普通話語音系統(tǒng)錄制簡(jiǎn)短的語音查詢類的言論比一個(gè)典型的中國人做的還好。

在本文的其余部分如下。我們?cè)陂_始的部分復(fù)習(xí)有關(guān)深度學(xué)習(xí)內(nèi)容,端到端語音識(shí)別和在第二部分提到的可擴(kuò)展性。.第三部分描述了建筑和算法的改進(jìn)模型,第四部分介紹了如何高效地計(jì)算它們。第五部分我們討論進(jìn)一步采取的數(shù)據(jù)和步驟加強(qiáng)培訓(xùn)。第六部分會(huì)呈現(xiàn)英語和普通話系統(tǒng)分析的結(jié)果。第七部分,我們以描述如何調(diào)配我們的系統(tǒng)以適應(yīng)真正的用戶結(jié)尾。

2. 相關(guān)工作

這項(xiàng)研究的靈感來源于深度學(xué)習(xí)和語音識(shí)別的前期研究。經(jīng)網(wǎng)絡(luò)的聲學(xué)模型進(jìn)行的探討超過了20年(Bourlard & Morgan, 1993; Renals et al., 1994)。周期性的神經(jīng)網(wǎng)絡(luò)和網(wǎng)絡(luò)的卷積幾乎同時(shí)用于語音識(shí)別(Robinson et al., 1996; Waibel et al., 1989)。 最近DNNs已成為ASR管線一個(gè)網(wǎng)絡(luò)連接夾具與幾乎所有先進(jìn)的語音工作都含有某種形式的深神經(jīng)網(wǎng)絡(luò)的現(xiàn)有技術(shù)Mohamed et al., 2011; Hinton et al., 2012; Dahl et al., 2011; N. Jaitly & Vanhoucke,2012; Seide et al., 2011)。卷積網(wǎng)絡(luò)也被發(fā)現(xiàn)對(duì)聲學(xué)模式有利(Abdel-Hamidet al., 2012; Sainath et al., 2013)。

周期性神經(jīng)網(wǎng)絡(luò)在先進(jìn)的識(shí)別器中開始運(yùn)用(Graves et al., 2013; H. Sak et al., 2014),并與卷積層一起合作做特征提取(Sainath et al., 2015)。

端至端語音識(shí)別是的一個(gè)重要研究領(lǐng)域,在它被用于恢復(fù)DNN-HMM的結(jié)果和獨(dú)立輸出時(shí),表現(xiàn)出來令人信服的結(jié)果。RNN 的編碼器和解碼器在關(guān)注和預(yù)測(cè)音素和字素方面表現(xiàn)突出。CTC功能漏洞加上RNN去處理數(shù)據(jù)同樣配合的很好在端對(duì)端的語音識(shí)別的字母輸出中。CTC-RNN模式通過詞匯表預(yù)測(cè)音素表現(xiàn)很好。

到目前為止在深度學(xué)習(xí)中探索大規(guī)模已成此領(lǐng)域成功的關(guān)鍵。單個(gè)GPU訓(xùn)練導(dǎo)致顯著的性能增益,且隨后被線性縮放到兩個(gè)或多個(gè)GPU。我們利用增加個(gè)別GPU的工作效率為了低水平的深度學(xué)習(xí)基元。我們基于過去使用模式平行和數(shù)據(jù)平行或者兩者的結(jié)合,去創(chuàng)建一個(gè)快速高效的系統(tǒng),為了加深RNN在語音識(shí)別中的訓(xùn)練。

數(shù)據(jù)已成端對(duì)端語音識(shí)別的關(guān)鍵,并且超過7000小時(shí)被標(biāo)示的語音已被運(yùn)用。增強(qiáng)的數(shù)據(jù)在提高深度學(xué)習(xí)計(jì)算機(jī)視覺和語音識(shí)別性能非常有效。因此現(xiàn)有的語音系統(tǒng)可以用來引導(dǎo)新的數(shù)據(jù)收集。例如,現(xiàn)有的語音引擎可以用來排序和過濾的數(shù)千小時(shí)的有聲讀物。我們從過去和加強(qiáng)數(shù)據(jù)的方法中汲取靈感,并用于加強(qiáng)本身數(shù)據(jù)的標(biāo)注。

3. 模型體系結(jié)構(gòu)

圖1顯示了我們的體系結(jié)構(gòu),并提出了我們?cè)诒疚闹性敿?xì)探討了可交換組件。我們的系統(tǒng)是與一個(gè)或多個(gè)輸入卷積層的遞歸神經(jīng)網(wǎng)絡(luò)(RNN),緊隨著的是多次復(fù)發(fā)(單向或雙向)層和一層完全連接層。該網(wǎng)絡(luò)采用CTC損失函數(shù),這使我們能夠直接從輸入音頻預(yù)測(cè)字符序列。

到該網(wǎng)絡(luò)的輸入是動(dòng)力標(biāo)準(zhǔn)化音頻剪輯,計(jì)算上20毫秒窗口的序列。輸出是每種語言的字母。在每一個(gè)輸入的步驟,RNN會(huì)做一個(gè)預(yù)測(cè),在p(Lt /x)中,Lt是一個(gè)字母表中的字母或者一個(gè)沒用的符號(hào)。在英語中,我們有字母a,b,c…..,省略,空格;我們用空格暗示詞與詞之間的界限。對(duì)中文系統(tǒng)來說,中文的輸出系統(tǒng)簡(jiǎn)化了。

在推理時(shí)間,CTC模式搭配的語言模式是基于更大語料庫。我們使用特殊的搜索方法去發(fā)現(xiàn)y的最大值。Q(y) = log(pRNN(yjx)) + log(pLM(y)) + wc(y) (1)。在這個(gè)公式中,wc(y)是英文和中文在轉(zhuǎn)錄的單詞數(shù)。α的重量決定著相關(guān)的語言模式和CTC網(wǎng)絡(luò)。β的重量中則鼓勵(lì)轉(zhuǎn)錄更多的單詞。這些參數(shù)則基于發(fā)展調(diào)整。

3.1 批量標(biāo)準(zhǔn)化的深層RNNs

在處理訓(xùn)練集時(shí),為更高效吸收理數(shù)據(jù), 必須增加網(wǎng)絡(luò)的深度通過加入更多的周期層。但是卻變得更具挑戰(zhàn)性,因?yàn)榫W(wǎng)絡(luò)的梯度隨著體積和深度在變化。我們用規(guī)范一批的方法進(jìn)行試驗(yàn)去訓(xùn)練更深更快的網(wǎng)絡(luò)。最近的研究表明,規(guī)范一派能加速RNNs訓(xùn)練的融合,盡管在改善泛化錯(cuò)誤方面不如意。相比較之下,發(fā)現(xiàn)使用RNN的深度網(wǎng)絡(luò)并基于大數(shù)據(jù)集,規(guī)范一派的變體能改善泛化錯(cuò)誤和加快速度。

反復(fù)出現(xiàn)的層可以被實(shí)現(xiàn)為:

百度ICML論文:端對(duì)端中英文語音識(shí)別

在ι層在被激活的地方,t可以從先前的百度ICML論文:端對(duì)端中英文語音識(shí)別層的激活中被聯(lián)合計(jì)算出來,以此同時(shí)t可以從先前的百度ICML論文:端對(duì)端中英文語音識(shí)別層激活。

百度ICML論文:端對(duì)端中英文語音識(shí)別

圖2:從兩條模式的訓(xùn)練曲線,有的有被BN(BatchNorm)訓(xùn)練,有的則沒有。我們能在9-7網(wǎng)絡(luò)線上看到更大的分割距離,而此訓(xùn)練線一共有9條,7條是雙向RNNs模式。5-1網(wǎng)絡(luò)線的差距更小,而5條中只有1條是雙向RNN。我們從訓(xùn)練的第一個(gè)階段就開始劃分,但是隨著曲線的變化越來越難預(yù)測(cè),因?yàn)樵?.2部分提到的SortaGrad課程方法。

如在(Laurent et al., 2015)中提到一樣,有兩種運(yùn)用BatchNorm的方法去實(shí)施重復(fù)操作。自然延伸是為了插入BatchNorm轉(zhuǎn)換——B(·)于每一個(gè)非線性之前:

百度ICML論文:端對(duì)端中英文語音識(shí)別

在這種情況下,平均值和方差的統(tǒng)計(jì)信息被累積在minibatch的單個(gè)時(shí)間步。 我們發(fā)現(xiàn)這個(gè)技術(shù)并沒有給優(yōu)化的程度帶來顯著的提高。

另一種(序列明智正常化)是正?;刻幚泶怪边B接。周期性計(jì)算如下列公式:

百度ICML論文:端對(duì)端中英文語音識(shí)別

對(duì)于每個(gè)隱藏單元我們都會(huì)在minibatch計(jì)算超過項(xiàng)目序列的長(zhǎng)度和所有項(xiàng)目的平均值和方差的統(tǒng)計(jì)信息。圖2示出深網(wǎng)絡(luò)與明智序列正?;诤系馗?。表1顯示出了從明智序列正?;男阅芨纳齐S著網(wǎng)絡(luò)的深度增加,與最深的網(wǎng)絡(luò)有12%的性能差異。我們存儲(chǔ)訓(xùn)練過程中收集的神經(jīng)元均值和方差的運(yùn)行平均值,并使用這些用于評(píng)價(jià)。

3.2 SortaGrad

即使使用批量標(biāo)準(zhǔn)化,我們發(fā)現(xiàn)與CTC一起訓(xùn)練偶爾會(huì)不穩(wěn)定,特別是在早期階段。為了使培訓(xùn)更加穩(wěn)定,我們用培訓(xùn)課程(Bengio et al., 2009; Zaremba & Sutskever, 2014)進(jìn)行試驗(yàn),加速訓(xùn)練和也達(dá)到更好的泛化結(jié)果。

從開始培訓(xùn)階段就使用深網(wǎng)絡(luò)(或者是使用步數(shù)很多的RNNs模式)會(huì)在訓(xùn)練初期失敗,因?yàn)榻Y(jié)果和梯度必須通過權(quán)重許多較差的層傳播。除了變化梯度,CTC最終不太可能轉(zhuǎn)錄長(zhǎng)句,因?yàn)樽兓荻炔环€(wěn)定。這一觀察激發(fā)一個(gè)學(xué)習(xí)策略課程,LUM學(xué)習(xí)策略。我們的標(biāo)題SortaGrad:我們用話語的長(zhǎng)度作為難度的提示,并先從短話語開始訓(xùn)練。

具體來說,在第一個(gè)訓(xùn)練時(shí)期,我們會(huì)在訓(xùn)練集中重復(fù)minibatches為在minibatch中逐漸增加句子長(zhǎng)度。在訓(xùn)練的第一個(gè)時(shí)期將minibatches隨機(jī)重復(fù)。表1顯示出了使用和不使用SortaGrad的訓(xùn)練成本,在9個(gè)模式層的7個(gè)周期層。 SortaGrad提高培訓(xùn)的穩(wěn)定性,并且這種作用是在網(wǎng)絡(luò)中且無BatchNorm的狀態(tài)下特別明顯,因?yàn)檫@些是在數(shù)值上很少穩(wěn)定。

3.2 RNNs和GRUs的比較

到目前為止所用模型是RNNs模型且是由方程3 ReLU激活建模。更復(fù)雜的隱藏單位,如長(zhǎng)短期記憶(LSTM)單位和the Gated Recurrent Units(GRU)單位已經(jīng)被證明是對(duì)類似的任務(wù)非常有效。我們考察GRUs, 因?yàn)樵谳^小的數(shù)據(jù)集實(shí)驗(yàn)表明的GRU和LSTM在相同數(shù)目的參數(shù)下,可達(dá)到類似的精度,但GRUs卻運(yùn)行更快很少出錯(cuò)。

無論GRU還是RNN模式都從BatchNorm收益,并在深度網(wǎng)絡(luò)中結(jié)果良好。在表中的最后兩列1顯示,在固定的數(shù)量的參數(shù)和深度網(wǎng)絡(luò)下,GRU模式能比WER實(shí)現(xiàn)更好結(jié)果。

3.4卷積頻率

即時(shí)卷積常用于語音識(shí)別,為有效地即時(shí)固定翻譯建模為可變長(zhǎng)句。把的EF為可變長(zhǎng)度話語音響ciently模型時(shí)空平移不變性。卷積頻率試圖把光譜方差建模由于揚(yáng)聲器的變異更大型連接網(wǎng)絡(luò)模型更準(zhǔn)確。

我們用新加的1或3層卷積進(jìn)行試驗(yàn)。這些都是在時(shí)間和頻率域(2D)和時(shí)間唯一的域(1D)。在任何情況下,我們使用了“相同的”卷積。在某些情況下,我們指定一步(二次抽樣)在任一領(lǐng)域,只要能減少輸出的規(guī)模。

百度ICML論文:端對(duì)端中英文語音識(shí)別

圖3:在2句文本下的卷積結(jié)構(gòu)

我們報(bào)告兩個(gè)數(shù)據(jù)集的結(jié)果,2048句話的發(fā)展集(“常規(guī)開發(fā)”)和2048句話比較吵鬧數(shù)據(jù)集(“吵鬧開發(fā)”),從CHIME 2015年發(fā)展的數(shù)據(jù)集隨機(jī)抽取。我們發(fā)現(xiàn)1D卷積的多個(gè)層效果不明顯。2D卷積對(duì)噪聲數(shù)據(jù)的結(jié)果有較大提升,但對(duì)正常數(shù)據(jù)貢獻(xiàn)不大。從一維卷積一層到二維卷積三層WER模式對(duì)噪聲數(shù)據(jù)集改善了23.9%。

3.5 前瞻卷積和單向模式

雙向RNN模型正挑戰(zhàn)在網(wǎng)上運(yùn)用,低延遲的設(shè)置,因?yàn)樗麄儾荒軓氖褂谜咛幾匪蒌浺暨^程。然而,只有循環(huán)前進(jìn)模型比同類雙向模型表現(xiàn)差,使用一些未來結(jié)構(gòu)對(duì)好表現(xiàn)是至關(guān)重要的。一個(gè)可能的解決方案是從延遲系統(tǒng)發(fā)射標(biāo)示單位,當(dāng)它有較多上下文時(shí),,但我們發(fā)現(xiàn)在我們的模型中很難實(shí)現(xiàn)這一行為。為了建立一個(gè)單向模式并沒有任何失誤,我們開發(fā)了一個(gè)特殊的層,我們呼叫超前卷積,如圖3中所示。這層試著學(xué)習(xí)并聯(lián)合每一個(gè)激活神經(jīng)元,讓我們能控制未來需要的文本數(shù)量。超前層是由參數(shù)矩陣決定,并與前面層神經(jīng)元的數(shù)目相匹配。為激活在時(shí)間步數(shù)t上,如下列公式:

百度ICML論文:端對(duì)端中英文語音識(shí)別

我們把超前卷積置于所有周期層之上。在超前卷積下和更好的顆粒,這讓我們能追溯所有的計(jì)算。

百度ICML論文:端對(duì)端中英文語音識(shí)別

圖3:WER的卷積層的不同配置簡(jiǎn)單比較。在所有情況下,卷積后跟7復(fù)發(fā)層和1完全連接層。對(duì)于2D卷積的第一維是頻率和第二維是時(shí)間。每個(gè)模型都與BatchNorm,SortaGrad進(jìn)行訓(xùn)練, 并擁有35M的參數(shù)。

3.6 普通話適應(yīng)

為把傳統(tǒng)的語音識(shí)別管道轉(zhuǎn)向另一個(gè)語言通常需要一定數(shù)量的重要語言指定開發(fā)。例如,經(jīng)常需要手工設(shè)計(jì)的發(fā)音模型。我們可能還需要明確特定語言的發(fā)音特征,如普通話中的聲調(diào)。由于我們的端到端系統(tǒng)能直接預(yù)測(cè)字符,因此可以省去一些步驟。這使得我們能快速創(chuàng)建一個(gè)端到端的漢語語音識(shí)別系統(tǒng)(中文漢字的輸出只需使用上述的一些方法,且不用多做改變)。

我們對(duì)網(wǎng)絡(luò)結(jié)構(gòu)做出的變化是基于中國漢字的特點(diǎn)。網(wǎng)絡(luò)輸出的概率為大約6000個(gè)字符,它包括羅馬字母,因?yàn)橹杏⑽霓D(zhuǎn)錄是常見的。我們?cè)谠u(píng)估時(shí)間整理了詞匯錯(cuò)誤,如果輸入的字符不在這一套之中。這不是一個(gè)大問題,因?yàn)槲覀兊臏y(cè)試集只有0.74%超出詞匯字符。

我們使用的字符等級(jí)是以中文為語言模型因?yàn)樵~語常在文本中通常分割。在6.2部分,我們展示了我們的漢語語音模式是和英語語音模式一樣有結(jié)構(gòu)改進(jìn),同時(shí)也給一種語言轉(zhuǎn)化成另一種語言提供了相關(guān)建模知識(shí)。

4.系統(tǒng)優(yōu)化

我們的網(wǎng)絡(luò)有幾千萬的參數(shù),和一個(gè)訓(xùn)練實(shí)驗(yàn)涉及幾十個(gè)單精度exaFLOPs。由于我們?cè)u(píng)估數(shù)據(jù)和模型假設(shè)能力取決于訓(xùn)練速度,我們基于高性能的計(jì)算設(shè)施(HPC)創(chuàng)建了一個(gè)高度優(yōu)化的培訓(xùn)體系。雖然諸多的框架都是為深度網(wǎng)絡(luò)中平行機(jī)器而存在,我們發(fā)現(xiàn)處理能力經(jīng)常被不優(yōu)化的路線所阻礙,而這些阻礙一直被認(rèn)為是理所當(dāng)然。因此,我們重心放在優(yōu)化用于訓(xùn)練的路徑。具體來說,我們?yōu)榇蜷_MPI創(chuàng)建了定制的All-Reduce碼,并跨越GPU的多個(gè)節(jié)點(diǎn)上總結(jié)梯度,為GPU的快速實(shí)現(xiàn)開發(fā)了CTC,并使用自定義的內(nèi)存分配器??傊@些技術(shù)使我們能夠在每個(gè)節(jié)點(diǎn)上的把理論峰值性能值維持在45%。

我們的培訓(xùn)在多個(gè)GPU分布工作以并行方式與SGD同步,每個(gè)GPU使用本地副本去作用到當(dāng)前的Minibatch, 接著與其他的GPUs交換計(jì)算梯度。我們更傾向于同步SGD因?yàn)樗强芍貜?fù)生產(chǎn)的,這可以促進(jìn)發(fā)現(xiàn)和修護(hù)后退。在此設(shè)置中,然而,GPU必須在每一次重復(fù)迅速交流(使用“All-Reduce(全減少)”操作),以避免浪費(fèi)計(jì)算周期。在此之前的工作使用了異步更新,以緩解此問題。相反,我們側(cè)重于優(yōu)化All-Reduce操作,實(shí)現(xiàn)4X-21X加速,利用技術(shù)為特定網(wǎng)絡(luò)工作減少CPU-GPU交流。同樣,要提高整體的計(jì)算,我們使用來自Nervana系統(tǒng)高度優(yōu)化核心,并且NVIDIA用于深度學(xué)習(xí)應(yīng)用。我們同樣發(fā)現(xiàn),當(dāng)降低GPU和CPU之間的同步次數(shù),自定義的內(nèi)存分配例程在優(yōu)化性能至關(guān)重要。

我們還發(fā)現(xiàn),CTC成本計(jì)算占運(yùn)行時(shí)間的一個(gè)顯著的部分。由于沒有高度優(yōu)化的CTC編碼存在,我們開發(fā)了一個(gè)快速的GPU實(shí)施方法,從而減少了10-20%的總訓(xùn)練時(shí)間。

5. 訓(xùn)練數(shù)據(jù)

大規(guī)模的深度學(xué)習(xí)系統(tǒng)需要豐富的標(biāo)記訓(xùn)練數(shù)據(jù)。為訓(xùn)練我們的英語模式,我們用11940小時(shí)含800萬標(biāo)注的言論,以及普通話系統(tǒng)采用9400小時(shí)含1100萬話語標(biāo)記的講話語音。

5.1 訓(xùn)練集結(jié)構(gòu)

英語和普通話的部分?jǐn)?shù)據(jù)集是從嘈雜音頻剪輯的原始數(shù)據(jù)創(chuàng)建的。為了把音頻段分成若干秒長(zhǎng)的片段,我們依照轉(zhuǎn)錄副本校準(zhǔn)。對(duì)于給定的音頻轉(zhuǎn)錄對(duì)(x,y)的,最可能的校準(zhǔn)被計(jì)算為:

百度ICML論文:端對(duì)端中英文語音識(shí)別

這是一個(gè)基本的ViterBi校對(duì),且是在使用RNN模型培養(yǎng)CTC中發(fā)現(xiàn)的。由于CTC損失函數(shù)集和所有校準(zhǔn),這并不能保證校準(zhǔn)的精確。然而,我們發(fā)現(xiàn),這種方法在采用雙向RNN時(shí)能產(chǎn)生一個(gè)精確的對(duì)準(zhǔn)。

為了過濾質(zhì)量較差的錄音,我們建立具有以下功能的簡(jiǎn)單分類器:始料CTC花費(fèi),由于始料CTC花費(fèi)是基于序列長(zhǎng)度,CTC花費(fèi)則基于錄音長(zhǎng)度進(jìn)行標(biāo)準(zhǔn)化,句子長(zhǎng)度和轉(zhuǎn)錄長(zhǎng)度的比率,轉(zhuǎn)錄中單詞數(shù)和字符數(shù)。我們收集源標(biāo)簽建立這個(gè)數(shù)據(jù)集。對(duì)于英語數(shù)據(jù)集,我們發(fā)現(xiàn)過濾管可以把WER從17%減少到5%,同時(shí)保留50%以上的例子。

此外,在每一階段我們動(dòng)態(tài)地通過添加特有噪聲從0dB到30dB之間的SNR,去增強(qiáng)數(shù)據(jù)集。

5.2 縮放數(shù)據(jù)

我們?cè)诒?中展示了在WER增加標(biāo)注訓(xùn)練數(shù)據(jù)集的效果。這些都是在訓(xùn)練之前從數(shù)據(jù)集中隨機(jī)取樣的。對(duì)于每個(gè)數(shù)據(jù)集,模型被訓(xùn)練長(zhǎng)達(dá)20階段,并且早期就會(huì)停止于錯(cuò)誤,伸展開發(fā)的一套以防止過度擬合。在訓(xùn)練集增加10個(gè)因素,WER則會(huì)下降到40%。我們同時(shí)也關(guān)注WER(60%相似)常規(guī)和嘈雜的數(shù)據(jù)集之間的差距,這意味著更多的數(shù)據(jù)在這兩種情況下也同樣適宜。

百度ICML論文:端對(duì)端中英文語音識(shí)別

表3:英語WER在普通和嘈雜發(fā)展集在增加訓(xùn)練集的比較。模式有9層(2層是2D卷積和7層周期)具有68M參數(shù)。

6. 結(jié)果

為了評(píng)估我們的語音系統(tǒng)對(duì)現(xiàn)實(shí)世界的適用性,我們基于大量測(cè)試集進(jìn)行評(píng)估。我們使用多種公開可用的基準(zhǔn)和幾個(gè)測(cè)試套內(nèi)部收集。所有模式都被訓(xùn)練了20階段,而這些階段都是用于全英文或全中文的數(shù)據(jù)集,如第5節(jié)所述。我們和Nesterov動(dòng)力一起使用隨機(jī)梯度下降,同時(shí)有一個(gè)minibatch帶有512句話。如果梯度的范圍超過400的閾值,則重新調(diào)整為400。選擇培訓(xùn)期間,從執(zhí)行最好的一套模型進(jìn)行評(píng)估。在每一個(gè)階段都有1.2持續(xù)的因素時(shí),學(xué)習(xí)率是從[1×10-4, 6×10-4]中選擇的,為得出更快的集合和鍛煉。

6.1 英語

最好的英語模型有兩層2D卷積,緊隨著的是3層不定向的周期層,在每一層都附有2560GRU,緊隨的還有卷積層預(yù)期層τ=80, 且都是由BatchNorm和SortaGrad訓(xùn)練。我們模型在測(cè)試集中不會(huì)適應(yīng)所有語音的條件。語言模型解碼參數(shù)上持有了一次集開發(fā)設(shè)置。

我們報(bào)告幾個(gè)為系統(tǒng)和人類準(zhǔn)確評(píng)估所用的測(cè)試集的結(jié)果。我們通過詢問工作人員從亞馬遜Mechanical Turk手工抄寫了我們所有的測(cè)試裝置獲得的人類表現(xiàn)水平。大眾不如專業(yè)的,訓(xùn)練有素的轉(zhuǎn)錄員準(zhǔn)確。例如,(李普曼,1997)發(fā)現(xiàn),人類抄寫達(dá)到接近1%WER在WSJ-Eval92集上,接近1%的WER,當(dāng)他們被額外的獎(jiǎng)勵(lì)激勵(lì)時(shí),得到則是一個(gè)較低的WER,以及自動(dòng)錯(cuò)字動(dòng)機(jī)和拼寫更正,并在錯(cuò)誤率進(jìn)一步減少通過使用轉(zhuǎn)錄委員會(huì)會(huì)員時(shí)。

我們采用無獎(jiǎng)勵(lì)機(jī)制和自動(dòng)改正的,因?yàn)橐粋€(gè)有效競(jìng)爭(zhēng)的“ASR wizard-of-Oz”我們力爭(zhēng)勝利。兩個(gè)隨機(jī)工人抄寫。

百度ICML論文:端對(duì)端中英文語音識(shí)別

表4:系統(tǒng)和人類在WER表現(xiàn)對(duì)比

每一個(gè)音頻剪輯,平均約5秒之久每個(gè)。然后,我們?nèi)∵@兩個(gè)轉(zhuǎn)錄教好做最終WER計(jì)算。大多數(shù)工人都在美國,允許多次收聽音頻剪輯,轉(zhuǎn)錄一次平均花費(fèi)27秒。手動(dòng)轉(zhuǎn)錄的結(jié)果進(jìn)行比較,以現(xiàn)有的事實(shí)為基礎(chǔ),以產(chǎn)生一個(gè)WER估計(jì)。而現(xiàn)有的實(shí)況轉(zhuǎn)錄確實(shí)有一些標(biāo)簽誤差,在大多數(shù)集小于1%。

6.1.1 基準(zhǔn)測(cè)試結(jié)果

具有高信噪比閱讀演講可以說是在大詞匯量連續(xù)語音識(shí)別的最簡(jiǎn)單的任務(wù)。我們系統(tǒng)的基準(zhǔn)是兩個(gè)測(cè)試集,一個(gè)是讀取新聞文章的華爾街日?qǐng)?bào)(WSJ)語料庫,另一個(gè)是有聲讀物L(fēng)ibriSpeech語料庫。從表4可看出每4個(gè)測(cè)試集,3個(gè)是系統(tǒng)比人類表現(xiàn)更好。

我們還使用VoxForge(http://www.voxforge.org)測(cè)試了我們的系統(tǒng)對(duì)各種口音適應(yīng)性。該測(cè)試組包含許多不同的口音人的朗讀語音。我們將這些口音分為四類:美國,加拿大,印度,Commonwealth5和European6。我們構(gòu)建了一個(gè)測(cè)試集從VoxForge數(shù)據(jù)組中每1024的例子作為一個(gè)口音組,總共4096的例子。人的水平表現(xiàn)仍明顯高于我們的所有系統(tǒng),但印度口音除外。

最后,我們使用從最近完成的第三個(gè)挑站試驗(yàn)臺(tái)CHiME測(cè)試了嘈雜的講話時(shí)我們的表現(xiàn)。該數(shù)據(jù)集中所含有的話語是從WSJ測(cè)試集中收集而來,而WSJ所含有的話語則是在實(shí)際環(huán)境中收集并且加上了人為的噪音。使用CHiME所有6個(gè)通道可以提供顯著的性能改進(jìn)。我們對(duì)我們所有的模式都使用單一渠道,由于獲得多聲道音頻尚不普遍。當(dāng)數(shù)據(jù)來自一個(gè)真實(shí)的嘈雜的環(huán)境,而不是人工合成將噪聲添加到清晰的語音,我們的系統(tǒng)和人類級(jí)性能之間的差距較大。

6.2 普通話

在表5中我們比較一些結(jié)構(gòu)受訓(xùn)中國普通話語音為開發(fā)的一套2000句語音以及測(cè)試集1882句噪音語音。該開發(fā)套件也被用來調(diào)整解碼參數(shù)。我們發(fā)現(xiàn)最深的模型2D卷積和BatchNorm相對(duì)于優(yōu)于淺層RNN 48%。

百度ICML論文:端對(duì)端中英文語音識(shí)別

表5:不同RNN結(jié)構(gòu)的比較。開發(fā)和測(cè)試集的內(nèi)部語料庫。每:表中的模型有8000萬左右的參數(shù)。

百度ICML論文:端對(duì)端中英文語音識(shí)別

表6:基于兩個(gè)隨機(jī)選擇的測(cè)試集測(cè)試人類和系統(tǒng)。在第一個(gè)集有100個(gè)例子,由5位中國人標(biāo)注。第二個(gè)有250實(shí)例由標(biāo)注一個(gè)人的抄寫。

表6顯示了我們最好的中國普通話語音系統(tǒng)轉(zhuǎn)錄簡(jiǎn)短的語音查詢類似的言論比一個(gè)典型的中國人和一個(gè)委員會(huì)5名中國人一起工作更好。

7.部署

雙向模型即時(shí)轉(zhuǎn)錄設(shè)計(jì)不良:由于RNN有幾個(gè)雙向?qū)?,抄錄話語需要整個(gè)發(fā)聲的方式呈現(xiàn)給RNN;并且由于我們使用寬波束搜索用于搜索,波束搜索可能是昂貴的。

為了增加部署可擴(kuò)展性,同時(shí)提供低延遲的轉(zhuǎn)錄,我們構(gòu)建了一個(gè)批處理調(diào)度稱為批處理調(diào)度(Batch Dispatch),在表現(xiàn)RNN用于宣傳這些批次時(shí),這些批次收集用戶請(qǐng)求數(shù)據(jù)從而制成批次。有了這個(gè)調(diào)度器,我們可以增加貿(mào)易批量大小,從而提高了效率,從而增加延遲。

我們使用一個(gè)積極的批次方案,并且次方案會(huì)積極處理每一批次,只要前一批次完成后,無論多少工作要在此點(diǎn)準(zhǔn)備。這種調(diào)度算法平衡效率和延遲,實(shí)現(xiàn)了相對(duì)較小的動(dòng)態(tài)批量規(guī)模,高達(dá)每批次10個(gè)樣品,其中中間批量大小與服務(wù)器負(fù)載成比例。

百度ICML論文:端對(duì)端中英文語音識(shí)別

表7:延遲分布(毫秒)VS 負(fù)載

我們看到表7中,我們的系統(tǒng)達(dá)到了44毫秒的延遲時(shí)間,而第98百分位的延遲時(shí)間為70毫秒并帶有10合流。此服務(wù)器使用一個(gè)的NVIDIA Quadro K1200 GPU對(duì)RNN進(jìn)行評(píng)價(jià)。正如所設(shè)計(jì),當(dāng)服務(wù)器負(fù)載的增長(zhǎng),批量調(diào)度輪把工作轉(zhuǎn)為更大的批次,保持低延遲。

我們的部署系統(tǒng)評(píng)估在半精度運(yùn)算,它沒有可衡量的精度影響RNNs,但顯著提高效率。我們寫我們自己的16位矩陣乘法程序完成此任務(wù),大大提高了相對(duì)較小批次的吞吐量。

執(zhí)行所述波束搜索過程包括在所述n-gram語言模型重復(fù)查找,其中大部分轉(zhuǎn)化為未緩存中從存儲(chǔ)器中讀取。為了減少這些查找的成本,我們采用啟發(fā)式:只考慮最少數(shù)量的字符的累積概率為至少在P。在實(shí)踐中,我們發(fā)現(xiàn)p= 0.99效果很好,另外我們將搜索范圍限制為40個(gè)字符。這加快了由150倍累計(jì)普通話語言模型查找時(shí)間,并且對(duì)CER(相對(duì)在0.1-0.3%)的影響可以忽略。

7.1 深度語音的生產(chǎn)環(huán)境

深度語音已經(jīng)為用戶應(yīng)用集合了先進(jìn)的語音生產(chǎn)管道。我們發(fā)現(xiàn),一些關(guān)鍵挑戰(zhàn)影響端到端的深度學(xué)習(xí)方法,比如說我們的。首先,我們發(fā)現(xiàn),即使適量的特定應(yīng)用程序的訓(xùn)練數(shù)據(jù)是無價(jià)的,盡管大量語音數(shù)據(jù)用于訓(xùn)練。例如,當(dāng)我們能夠訓(xùn)練上10000小時(shí)以上普通話演講,我們發(fā)現(xiàn)只有500小時(shí)的使用時(shí)間數(shù)據(jù)可以顯著提高應(yīng)用程序的性能。同樣,應(yīng)用特定網(wǎng)絡(luò)語言模型對(duì)實(shí)現(xiàn)最高精確度非常重要,我們充分利用現(xiàn)有的強(qiáng)n-gram模型與我們的深層語音系統(tǒng)。最后,我們注意到,由于我們的系統(tǒng)是從廣泛標(biāo)記的訓(xùn)練數(shù)據(jù)直接輸出的字符,在每個(gè)應(yīng)用程序轉(zhuǎn)錄必須在后處理進(jìn)行處理(如數(shù)字格式)。因此,雖然我們的模型已經(jīng)拆了很多的復(fù)雜性,更多的靈活性,并為端到端的深度學(xué)習(xí)方法的應(yīng)用意識(shí)還有待進(jìn)一步研究。

8.結(jié)論

終端到終端的深度學(xué)習(xí)提出了令人興奮的前景,在數(shù)據(jù)和計(jì)算的增加不斷提高語音識(shí)別系統(tǒng)。由于該方法是高度通用的,我們已經(jīng)發(fā)現(xiàn),它可以迅速地應(yīng)用于新的語言。為兩個(gè)非常不同的語言,創(chuàng)建高性能識(shí)別機(jī)器,英語和普通話,并且不要求關(guān)于該語言的專業(yè)知識(shí)。最后,我們還發(fā)現(xiàn),這種方式是由GPU服務(wù)器和用戶的請(qǐng)求一起高效實(shí)施,提供用戶提供端到端的深度學(xué)習(xí)技術(shù)。

為了實(shí)現(xiàn)這些結(jié)果,我們已經(jīng)探索了各種網(wǎng)絡(luò)架構(gòu),發(fā)現(xiàn)幾種有效的技術(shù):通過SortaGrad和批次規(guī)范化(Batch Normalization)和前瞻卷積單向模式增強(qiáng)優(yōu)化。這種探索是一個(gè)很好的優(yōu)化,高性能計(jì)算體系,使我們?cè)诖笮蛿?shù)據(jù)集里在短短的幾天內(nèi)培訓(xùn)全面的模式。

總體而言,我們相信我們的結(jié)果確定和例證端到端的深度學(xué)習(xí)方法用于語音識(shí)別的價(jià)值。我們相信,這些技術(shù)將會(huì)繼續(xù)擴(kuò)展。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說