丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給AI科技評論
發(fā)送

2

百度ICML論文:端對端中英文語音識別

本文作者: AI科技評論 2016-06-22 11:16
導(dǎo)語:?百度在ICML上發(fā)表了他們在語音識別上的研究成果:一種可以同時識別英語和中文的語音識別算法

論文作者:Dario Amodei , Rishita Anubhai , Eric Battenberg , Carl Case , Jared Casper , Bryan Catanzaro , JingDong Chen , Mike Chrzanowski Baidu USA, Inc., Adam Coates , Greg Diamos Baidu USA, Inc., Erich Elsen Baidu USA, Inc., Jesse Engel , Linxi Fan , Christopher Fougner , Awni Hannun Baidu USA, Inc., Billy Jun , Tony Han , Patrick LeGresley , Xiangang Li Baidu, Libby Lin , Sharan Narang , Andrew Ng , Sherjil Ozair , Ryan Prenger , Sheng Qian Baidu, Jonathan Raiman , Sanjeev SatheeshBaidu SVAIL, David Seetapun , Shubho Sengupta , Chong Wang , Yi Wang , Zhiqian Wang , Bo Xiao , Yan Xie Baidu, Dani Yogatama , Jun Zhan , zhenyao Zhu

摘要

我們展示了一種可用于識別英文和中文語音的端至端深度學(xué)習(xí)方法,盡管它們是兩個截然不同的語言。因為這種方法用神經(jīng)網(wǎng)絡(luò)取代整個了手動設(shè)計的管道狀網(wǎng)絡(luò),并讓我們得以適應(yīng)的多種多樣的語音,包括噪音,口音和不同的語言。方法的關(guān)鍵是HPC技術(shù)的應(yīng)用,使得以前要花幾個星期運行的實驗,現(xiàn)在只用幾天就得以運行。這使得我們更快地迭代以識別更好的架構(gòu)和算法。其結(jié)果是,在一些的情況下,當(dāng)以標(biāo)準(zhǔn)資料組作為測試基準(zhǔn)時,我們的系統(tǒng)足以和人工錄音進(jìn)行競爭。最后,在數(shù)據(jù)中心使用一種稱為GPU批次調(diào)度(Batch Dispatch with GPUs)的技術(shù),我們的系統(tǒng)可以經(jīng)濟(jì)價廉地在網(wǎng)絡(luò)的設(shè)置中部署,并在給大規(guī)模的用戶提供服務(wù)時,提供較低的延遲。

 1. 簡介

幾十年來手工設(shè)計領(lǐng)域積累的知識已經(jīng)進(jìn)入最先進(jìn)的自動語音識別(ASR)等的管道。一個簡單但有效的替代解決方案是訓(xùn)練出端對端語音自動識別模式,使用深度學(xué)習(xí)的方法用一個模型來代替大多數(shù)模式。如同Hannun et al., 2014a and Graves & Jaitly, 2014b在他們的論文所提及一樣。這種端到端的訓(xùn)練方法簡化了訓(xùn)練過程,因為它省去了人工引導(dǎo)/校準(zhǔn)/集群/ HMM 機械裝置,而這些用于建立先進(jìn)的自動語音識別(ASR)模式。在這樣的系統(tǒng)中,建立端對端的深度學(xué)習(xí),我們可以使用一系列的深度學(xué)習(xí)技巧:捕捉大的訓(xùn)練集,訓(xùn)練較大的模型與高性能計算,并且有條不紊地探索神經(jīng)網(wǎng)絡(luò)的空間工作架構(gòu)。

本文詳細(xì)介紹了我們對于語音識別的貢獻(xiàn),如模型架構(gòu),標(biāo)記的大規(guī)模訓(xùn)練數(shù)據(jù)集和計算規(guī)模。這其中還包括模型架構(gòu)進(jìn)行的廣泛調(diào)查,并且我們的數(shù)據(jù)采集管道使我們能夠創(chuàng)建比通常用于訓(xùn)練語音識別系統(tǒng)更大的數(shù)據(jù)集。

我們用了幾個公開可用的測試集測試我們的系統(tǒng),并期待最終達(dá)到人類表現(xiàn)水平。為此,我們還基于這個比較標(biāo)準(zhǔn),測試工人們的表現(xiàn)。發(fā)現(xiàn)我們最好的普通話語音系統(tǒng)錄制簡短的語音查詢類的言論比一個典型的中國人做的還好。

在本文的其余部分如下。我們在開始的部分復(fù)習(xí)有關(guān)深度學(xué)習(xí)內(nèi)容,端到端語音識別和在第二部分提到的可擴展性。.第三部分描述了建筑和算法的改進(jìn)模型,第四部分介紹了如何高效地計算它們。第五部分我們討論進(jìn)一步采取的數(shù)據(jù)和步驟加強培訓(xùn)。第六部分會呈現(xiàn)英語和普通話系統(tǒng)分析的結(jié)果。第七部分,我們以描述如何調(diào)配我們的系統(tǒng)以適應(yīng)真正的用戶結(jié)尾。

2. 相關(guān)工作

這項研究的靈感來源于深度學(xué)習(xí)和語音識別的前期研究。經(jīng)網(wǎng)絡(luò)的聲學(xué)模型進(jìn)行的探討超過了20年(Bourlard & Morgan, 1993; Renals et al., 1994)。周期性的神經(jīng)網(wǎng)絡(luò)和網(wǎng)絡(luò)的卷積幾乎同時用于語音識別(Robinson et al., 1996; Waibel et al., 1989)。 最近DNNs已成為ASR管線一個網(wǎng)絡(luò)連接夾具與幾乎所有先進(jìn)的語音工作都含有某種形式的深神經(jīng)網(wǎng)絡(luò)的現(xiàn)有技術(shù)Mohamed et al., 2011; Hinton et al., 2012; Dahl et al., 2011; N. Jaitly & Vanhoucke,2012; Seide et al., 2011)。卷積網(wǎng)絡(luò)也被發(fā)現(xiàn)對聲學(xué)模式有利(Abdel-Hamidet al., 2012; Sainath et al., 2013)。

周期性神經(jīng)網(wǎng)絡(luò)在先進(jìn)的識別器中開始運用(Graves et al., 2013; H. Sak et al., 2014),并與卷積層一起合作做特征提取(Sainath et al., 2015)。

端至端語音識別是的一個重要研究領(lǐng)域,在它被用于恢復(fù)DNN-HMM的結(jié)果和獨立輸出時,表現(xiàn)出來令人信服的結(jié)果。RNN 的編碼器和解碼器在關(guān)注和預(yù)測音素和字素方面表現(xiàn)突出。CTC功能漏洞加上RNN去處理數(shù)據(jù)同樣配合的很好在端對端的語音識別的字母輸出中。CTC-RNN模式通過詞匯表預(yù)測音素表現(xiàn)很好。

到目前為止在深度學(xué)習(xí)中探索大規(guī)模已成此領(lǐng)域成功的關(guān)鍵。單個GPU訓(xùn)練導(dǎo)致顯著的性能增益,且隨后被線性縮放到兩個或多個GPU。我們利用增加個別GPU的工作效率為了低水平的深度學(xué)習(xí)基元。我們基于過去使用模式平行和數(shù)據(jù)平行或者兩者的結(jié)合,去創(chuàng)建一個快速高效的系統(tǒng),為了加深RNN在語音識別中的訓(xùn)練。

數(shù)據(jù)已成端對端語音識別的關(guān)鍵,并且超過7000小時被標(biāo)示的語音已被運用。增強的數(shù)據(jù)在提高深度學(xué)習(xí)計算機視覺和語音識別性能非常有效。因此現(xiàn)有的語音系統(tǒng)可以用來引導(dǎo)新的數(shù)據(jù)收集。例如,現(xiàn)有的語音引擎可以用來排序和過濾的數(shù)千小時的有聲讀物。我們從過去和加強數(shù)據(jù)的方法中汲取靈感,并用于加強本身數(shù)據(jù)的標(biāo)注。

3. 模型體系結(jié)構(gòu)

圖1顯示了我們的體系結(jié)構(gòu),并提出了我們在本文中詳細(xì)探討了可交換組件。我們的系統(tǒng)是與一個或多個輸入卷積層的遞歸神經(jīng)網(wǎng)絡(luò)(RNN),緊隨著的是多次復(fù)發(fā)(單向或雙向)層和一層完全連接層。該網(wǎng)絡(luò)采用CTC損失函數(shù),這使我們能夠直接從輸入音頻預(yù)測字符序列。

到該網(wǎng)絡(luò)的輸入是動力標(biāo)準(zhǔn)化音頻剪輯,計算上20毫秒窗口的序列。輸出是每種語言的字母。在每一個輸入的步驟,RNN會做一個預(yù)測,在p(Lt /x)中,Lt是一個字母表中的字母或者一個沒用的符號。在英語中,我們有字母a,b,c…..,省略,空格;我們用空格暗示詞與詞之間的界限。對中文系統(tǒng)來說,中文的輸出系統(tǒng)簡化了。

在推理時間,CTC模式搭配的語言模式是基于更大語料庫。我們使用特殊的搜索方法去發(fā)現(xiàn)y的最大值。Q(y) = log(pRNN(yjx)) + log(pLM(y)) + wc(y) (1)。在這個公式中,wc(y)是英文和中文在轉(zhuǎn)錄的單詞數(shù)。α的重量決定著相關(guān)的語言模式和CTC網(wǎng)絡(luò)。β的重量中則鼓勵轉(zhuǎn)錄更多的單詞。這些參數(shù)則基于發(fā)展調(diào)整。

3.1 批量標(biāo)準(zhǔn)化的深層RNNs

在處理訓(xùn)練集時,為更高效吸收理數(shù)據(jù), 必須增加網(wǎng)絡(luò)的深度通過加入更多的周期層。但是卻變得更具挑戰(zhàn)性,因為網(wǎng)絡(luò)的梯度隨著體積和深度在變化。我們用規(guī)范一批的方法進(jìn)行試驗去訓(xùn)練更深更快的網(wǎng)絡(luò)。最近的研究表明,規(guī)范一派能加速RNNs訓(xùn)練的融合,盡管在改善泛化錯誤方面不如意。相比較之下,發(fā)現(xiàn)使用RNN的深度網(wǎng)絡(luò)并基于大數(shù)據(jù)集,規(guī)范一派的變體能改善泛化錯誤和加快速度。

反復(fù)出現(xiàn)的層可以被實現(xiàn)為:

百度ICML論文:端對端中英文語音識別

在ι層在被激活的地方,t可以從先前的百度ICML論文:端對端中英文語音識別層的激活中被聯(lián)合計算出來,以此同時t可以從先前的百度ICML論文:端對端中英文語音識別層激活。

百度ICML論文:端對端中英文語音識別

圖2:從兩條模式的訓(xùn)練曲線,有的有被BN(BatchNorm)訓(xùn)練,有的則沒有。我們能在9-7網(wǎng)絡(luò)線上看到更大的分割距離,而此訓(xùn)練線一共有9條,7條是雙向RNNs模式。5-1網(wǎng)絡(luò)線的差距更小,而5條中只有1條是雙向RNN。我們從訓(xùn)練的第一個階段就開始劃分,但是隨著曲線的變化越來越難預(yù)測,因為在3.2部分提到的SortaGrad課程方法。

如在(Laurent et al., 2015)中提到一樣,有兩種運用BatchNorm的方法去實施重復(fù)操作。自然延伸是為了插入BatchNorm轉(zhuǎn)換——B(·)于每一個非線性之前:

百度ICML論文:端對端中英文語音識別

在這種情況下,平均值和方差的統(tǒng)計信息被累積在minibatch的單個時間步。 我們發(fā)現(xiàn)這個技術(shù)并沒有給優(yōu)化的程度帶來顯著的提高。

另一種(序列明智正?;┦钦;刻幚泶怪边B接。周期性計算如下列公式:

百度ICML論文:端對端中英文語音識別

對于每個隱藏單元我們都會在minibatch計算超過項目序列的長度和所有項目的平均值和方差的統(tǒng)計信息。圖2示出深網(wǎng)絡(luò)與明智序列正?;诤系馗?。表1顯示出了從明智序列正?;男阅芨纳齐S著網(wǎng)絡(luò)的深度增加,與最深的網(wǎng)絡(luò)有12%的性能差異。我們存儲訓(xùn)練過程中收集的神經(jīng)元均值和方差的運行平均值,并使用這些用于評價。

3.2 SortaGrad

即使使用批量標(biāo)準(zhǔn)化,我們發(fā)現(xiàn)與CTC一起訓(xùn)練偶爾會不穩(wěn)定,特別是在早期階段。為了使培訓(xùn)更加穩(wěn)定,我們用培訓(xùn)課程(Bengio et al., 2009; Zaremba & Sutskever, 2014)進(jìn)行試驗,加速訓(xùn)練和也達(dá)到更好的泛化結(jié)果。

從開始培訓(xùn)階段就使用深網(wǎng)絡(luò)(或者是使用步數(shù)很多的RNNs模式)會在訓(xùn)練初期失敗,因為結(jié)果和梯度必須通過權(quán)重許多較差的層傳播。除了變化梯度,CTC最終不太可能轉(zhuǎn)錄長句,因為變化梯度不穩(wěn)定。這一觀察激發(fā)一個學(xué)習(xí)策略課程,LUM學(xué)習(xí)策略。我們的標(biāo)題SortaGrad:我們用話語的長度作為難度的提示,并先從短話語開始訓(xùn)練。

具體來說,在第一個訓(xùn)練時期,我們會在訓(xùn)練集中重復(fù)minibatches為在minibatch中逐漸增加句子長度。在訓(xùn)練的第一個時期將minibatches隨機重復(fù)。表1顯示出了使用和不使用SortaGrad的訓(xùn)練成本,在9個模式層的7個周期層。 SortaGrad提高培訓(xùn)的穩(wěn)定性,并且這種作用是在網(wǎng)絡(luò)中且無BatchNorm的狀態(tài)下特別明顯,因為這些是在數(shù)值上很少穩(wěn)定。

3.2 RNNs和GRUs的比較

到目前為止所用模型是RNNs模型且是由方程3 ReLU激活建模。更復(fù)雜的隱藏單位,如長短期記憶(LSTM)單位和the Gated Recurrent Units(GRU)單位已經(jīng)被證明是對類似的任務(wù)非常有效。我們考察GRUs, 因為在較小的數(shù)據(jù)集實驗表明的GRU和LSTM在相同數(shù)目的參數(shù)下,可達(dá)到類似的精度,但GRUs卻運行更快很少出錯。

無論GRU還是RNN模式都從BatchNorm收益,并在深度網(wǎng)絡(luò)中結(jié)果良好。在表中的最后兩列1顯示,在固定的數(shù)量的參數(shù)和深度網(wǎng)絡(luò)下,GRU模式能比WER實現(xiàn)更好結(jié)果。

3.4卷積頻率

即時卷積常用于語音識別,為有效地即時固定翻譯建模為可變長句。把的EF為可變長度話語音響ciently模型時空平移不變性。卷積頻率試圖把光譜方差建模由于揚聲器的變異更大型連接網(wǎng)絡(luò)模型更準(zhǔn)確。

我們用新加的1或3層卷積進(jìn)行試驗。這些都是在時間和頻率域(2D)和時間唯一的域(1D)。在任何情況下,我們使用了“相同的”卷積。在某些情況下,我們指定一步(二次抽樣)在任一領(lǐng)域,只要能減少輸出的規(guī)模。

百度ICML論文:端對端中英文語音識別

圖3:在2句文本下的卷積結(jié)構(gòu)

我們報告兩個數(shù)據(jù)集的結(jié)果,2048句話的發(fā)展集(“常規(guī)開發(fā)”)和2048句話比較吵鬧數(shù)據(jù)集(“吵鬧開發(fā)”),從CHIME 2015年發(fā)展的數(shù)據(jù)集隨機抽取。我們發(fā)現(xiàn)1D卷積的多個層效果不明顯。2D卷積對噪聲數(shù)據(jù)的結(jié)果有較大提升,但對正常數(shù)據(jù)貢獻(xiàn)不大。從一維卷積一層到二維卷積三層WER模式對噪聲數(shù)據(jù)集改善了23.9%。

3.5 前瞻卷積和單向模式

雙向RNN模型正挑戰(zhàn)在網(wǎng)上運用,低延遲的設(shè)置,因為他們不能從使用者處追溯錄音過程。然而,只有循環(huán)前進(jìn)模型比同類雙向模型表現(xiàn)差,使用一些未來結(jié)構(gòu)對好表現(xiàn)是至關(guān)重要的。一個可能的解決方案是從延遲系統(tǒng)發(fā)射標(biāo)示單位,當(dāng)它有較多上下文時,,但我們發(fā)現(xiàn)在我們的模型中很難實現(xiàn)這一行為。為了建立一個單向模式并沒有任何失誤,我們開發(fā)了一個特殊的層,我們呼叫超前卷積,如圖3中所示。這層試著學(xué)習(xí)并聯(lián)合每一個激活神經(jīng)元,讓我們能控制未來需要的文本數(shù)量。超前層是由參數(shù)矩陣決定,并與前面層神經(jīng)元的數(shù)目相匹配。為激活在時間步數(shù)t上,如下列公式:

百度ICML論文:端對端中英文語音識別

我們把超前卷積置于所有周期層之上。在超前卷積下和更好的顆粒,這讓我們能追溯所有的計算。

百度ICML論文:端對端中英文語音識別

圖3:WER的卷積層的不同配置簡單比較。在所有情況下,卷積后跟7復(fù)發(fā)層和1完全連接層。對于2D卷積的第一維是頻率和第二維是時間。每個模型都與BatchNorm,SortaGrad進(jìn)行訓(xùn)練, 并擁有35M的參數(shù)。

3.6 普通話適應(yīng)

為把傳統(tǒng)的語音識別管道轉(zhuǎn)向另一個語言通常需要一定數(shù)量的重要語言指定開發(fā)。例如,經(jīng)常需要手工設(shè)計的發(fā)音模型。我們可能還需要明確特定語言的發(fā)音特征,如普通話中的聲調(diào)。由于我們的端到端系統(tǒng)能直接預(yù)測字符,因此可以省去一些步驟。這使得我們能快速創(chuàng)建一個端到端的漢語語音識別系統(tǒng)(中文漢字的輸出只需使用上述的一些方法,且不用多做改變)。

我們對網(wǎng)絡(luò)結(jié)構(gòu)做出的變化是基于中國漢字的特點。網(wǎng)絡(luò)輸出的概率為大約6000個字符,它包括羅馬字母,因為中英文轉(zhuǎn)錄是常見的。我們在評估時間整理了詞匯錯誤,如果輸入的字符不在這一套之中。這不是一個大問題,因為我們的測試集只有0.74%超出詞匯字符。

我們使用的字符等級是以中文為語言模型因為詞語常在文本中通常分割。在6.2部分,我們展示了我們的漢語語音模式是和英語語音模式一樣有結(jié)構(gòu)改進(jìn),同時也給一種語言轉(zhuǎn)化成另一種語言提供了相關(guān)建模知識。

4.系統(tǒng)優(yōu)化

我們的網(wǎng)絡(luò)有幾千萬的參數(shù),和一個訓(xùn)練實驗涉及幾十個單精度exaFLOPs。由于我們評估數(shù)據(jù)和模型假設(shè)能力取決于訓(xùn)練速度,我們基于高性能的計算設(shè)施(HPC)創(chuàng)建了一個高度優(yōu)化的培訓(xùn)體系。雖然諸多的框架都是為深度網(wǎng)絡(luò)中平行機器而存在,我們發(fā)現(xiàn)處理能力經(jīng)常被不優(yōu)化的路線所阻礙,而這些阻礙一直被認(rèn)為是理所當(dāng)然。因此,我們重心放在優(yōu)化用于訓(xùn)練的路徑。具體來說,我們?yōu)榇蜷_MPI創(chuàng)建了定制的All-Reduce碼,并跨越GPU的多個節(jié)點上總結(jié)梯度,為GPU的快速實現(xiàn)開發(fā)了CTC,并使用自定義的內(nèi)存分配器??傊?,這些技術(shù)使我們能夠在每個節(jié)點上的把理論峰值性能值維持在45%。

我們的培訓(xùn)在多個GPU分布工作以并行方式與SGD同步,每個GPU使用本地副本去作用到當(dāng)前的Minibatch, 接著與其他的GPUs交換計算梯度。我們更傾向于同步SGD因為它是可重復(fù)生產(chǎn)的,這可以促進(jìn)發(fā)現(xiàn)和修護(hù)后退。在此設(shè)置中,然而,GPU必須在每一次重復(fù)迅速交流(使用“All-Reduce(全減少)”操作),以避免浪費計算周期。在此之前的工作使用了異步更新,以緩解此問題。相反,我們側(cè)重于優(yōu)化All-Reduce操作,實現(xiàn)4X-21X加速,利用技術(shù)為特定網(wǎng)絡(luò)工作減少CPU-GPU交流。同樣,要提高整體的計算,我們使用來自Nervana系統(tǒng)高度優(yōu)化核心,并且NVIDIA用于深度學(xué)習(xí)應(yīng)用。我們同樣發(fā)現(xiàn),當(dāng)降低GPU和CPU之間的同步次數(shù),自定義的內(nèi)存分配例程在優(yōu)化性能至關(guān)重要。

我們還發(fā)現(xiàn),CTC成本計算占運行時間的一個顯著的部分。由于沒有高度優(yōu)化的CTC編碼存在,我們開發(fā)了一個快速的GPU實施方法,從而減少了10-20%的總訓(xùn)練時間。

5. 訓(xùn)練數(shù)據(jù)

大規(guī)模的深度學(xué)習(xí)系統(tǒng)需要豐富的標(biāo)記訓(xùn)練數(shù)據(jù)。為訓(xùn)練我們的英語模式,我們用11940小時含800萬標(biāo)注的言論,以及普通話系統(tǒng)采用9400小時含1100萬話語標(biāo)記的講話語音。

5.1 訓(xùn)練集結(jié)構(gòu)

英語和普通話的部分?jǐn)?shù)據(jù)集是從嘈雜音頻剪輯的原始數(shù)據(jù)創(chuàng)建的。為了把音頻段分成若干秒長的片段,我們依照轉(zhuǎn)錄副本校準(zhǔn)。對于給定的音頻轉(zhuǎn)錄對(x,y)的,最可能的校準(zhǔn)被計算為:

百度ICML論文:端對端中英文語音識別

這是一個基本的ViterBi校對,且是在使用RNN模型培養(yǎng)CTC中發(fā)現(xiàn)的。由于CTC損失函數(shù)集和所有校準(zhǔn),這并不能保證校準(zhǔn)的精確。然而,我們發(fā)現(xiàn),這種方法在采用雙向RNN時能產(chǎn)生一個精確的對準(zhǔn)。

為了過濾質(zhì)量較差的錄音,我們建立具有以下功能的簡單分類器:始料CTC花費,由于始料CTC花費是基于序列長度,CTC花費則基于錄音長度進(jìn)行標(biāo)準(zhǔn)化,句子長度和轉(zhuǎn)錄長度的比率,轉(zhuǎn)錄中單詞數(shù)和字符數(shù)。我們收集源標(biāo)簽建立這個數(shù)據(jù)集。對于英語數(shù)據(jù)集,我們發(fā)現(xiàn)過濾管可以把WER從17%減少到5%,同時保留50%以上的例子。

此外,在每一階段我們動態(tài)地通過添加特有噪聲從0dB到30dB之間的SNR,去增強數(shù)據(jù)集。

5.2 縮放數(shù)據(jù)

我們在表3中展示了在WER增加標(biāo)注訓(xùn)練數(shù)據(jù)集的效果。這些都是在訓(xùn)練之前從數(shù)據(jù)集中隨機取樣的。對于每個數(shù)據(jù)集,模型被訓(xùn)練長達(dá)20階段,并且早期就會停止于錯誤,伸展開發(fā)的一套以防止過度擬合。在訓(xùn)練集增加10個因素,WER則會下降到40%。我們同時也關(guān)注WER(60%相似)常規(guī)和嘈雜的數(shù)據(jù)集之間的差距,這意味著更多的數(shù)據(jù)在這兩種情況下也同樣適宜。

百度ICML論文:端對端中英文語音識別

表3:英語WER在普通和嘈雜發(fā)展集在增加訓(xùn)練集的比較。模式有9層(2層是2D卷積和7層周期)具有68M參數(shù)。

6. 結(jié)果

為了評估我們的語音系統(tǒng)對現(xiàn)實世界的適用性,我們基于大量測試集進(jìn)行評估。我們使用多種公開可用的基準(zhǔn)和幾個測試套內(nèi)部收集。所有模式都被訓(xùn)練了20階段,而這些階段都是用于全英文或全中文的數(shù)據(jù)集,如第5節(jié)所述。我們和Nesterov動力一起使用隨機梯度下降,同時有一個minibatch帶有512句話。如果梯度的范圍超過400的閾值,則重新調(diào)整為400。選擇培訓(xùn)期間,從執(zhí)行最好的一套模型進(jìn)行評估。在每一個階段都有1.2持續(xù)的因素時,學(xué)習(xí)率是從[1×10-4, 6×10-4]中選擇的,為得出更快的集合和鍛煉。

6.1 英語

最好的英語模型有兩層2D卷積,緊隨著的是3層不定向的周期層,在每一層都附有2560GRU,緊隨的還有卷積層預(yù)期層τ=80, 且都是由BatchNorm和SortaGrad訓(xùn)練。我們模型在測試集中不會適應(yīng)所有語音的條件。語言模型解碼參數(shù)上持有了一次集開發(fā)設(shè)置。

我們報告幾個為系統(tǒng)和人類準(zhǔn)確評估所用的測試集的結(jié)果。我們通過詢問工作人員從亞馬遜Mechanical Turk手工抄寫了我們所有的測試裝置獲得的人類表現(xiàn)水平。大眾不如專業(yè)的,訓(xùn)練有素的轉(zhuǎn)錄員準(zhǔn)確。例如,(李普曼,1997)發(fā)現(xiàn),人類抄寫達(dá)到接近1%WER在WSJ-Eval92集上,接近1%的WER,當(dāng)他們被額外的獎勵激勵時,得到則是一個較低的WER,以及自動錯字動機和拼寫更正,并在錯誤率進(jìn)一步減少通過使用轉(zhuǎn)錄委員會會員時。

我們采用無獎勵機制和自動改正的,因為一個有效競爭的“ASR wizard-of-Oz”我們力爭勝利。兩個隨機工人抄寫。

百度ICML論文:端對端中英文語音識別

表4:系統(tǒng)和人類在WER表現(xiàn)對比

每一個音頻剪輯,平均約5秒之久每個。然后,我們?nèi)∵@兩個轉(zhuǎn)錄教好做最終WER計算。大多數(shù)工人都在美國,允許多次收聽音頻剪輯,轉(zhuǎn)錄一次平均花費27秒。手動轉(zhuǎn)錄的結(jié)果進(jìn)行比較,以現(xiàn)有的事實為基礎(chǔ),以產(chǎn)生一個WER估計。而現(xiàn)有的實況轉(zhuǎn)錄確實有一些標(biāo)簽誤差,在大多數(shù)集小于1%。

6.1.1 基準(zhǔn)測試結(jié)果

具有高信噪比閱讀演講可以說是在大詞匯量連續(xù)語音識別的最簡單的任務(wù)。我們系統(tǒng)的基準(zhǔn)是兩個測試集,一個是讀取新聞文章的華爾街日報(WSJ)語料庫,另一個是有聲讀物L(fēng)ibriSpeech語料庫。從表4可看出每4個測試集,3個是系統(tǒng)比人類表現(xiàn)更好。

我們還使用VoxForge(http://www.voxforge.org)測試了我們的系統(tǒng)對各種口音適應(yīng)性。該測試組包含許多不同的口音人的朗讀語音。我們將這些口音分為四類:美國,加拿大,印度,Commonwealth5和European6。我們構(gòu)建了一個測試集從VoxForge數(shù)據(jù)組中每1024的例子作為一個口音組,總共4096的例子。人的水平表現(xiàn)仍明顯高于我們的所有系統(tǒng),但印度口音除外。

最后,我們使用從最近完成的第三個挑站試驗臺CHiME測試了嘈雜的講話時我們的表現(xiàn)。該數(shù)據(jù)集中所含有的話語是從WSJ測試集中收集而來,而WSJ所含有的話語則是在實際環(huán)境中收集并且加上了人為的噪音。使用CHiME所有6個通道可以提供顯著的性能改進(jìn)。我們對我們所有的模式都使用單一渠道,由于獲得多聲道音頻尚不普遍。當(dāng)數(shù)據(jù)來自一個真實的嘈雜的環(huán)境,而不是人工合成將噪聲添加到清晰的語音,我們的系統(tǒng)和人類級性能之間的差距較大。

6.2 普通話

在表5中我們比較一些結(jié)構(gòu)受訓(xùn)中國普通話語音為開發(fā)的一套2000句語音以及測試集1882句噪音語音。該開發(fā)套件也被用來調(diào)整解碼參數(shù)。我們發(fā)現(xiàn)最深的模型2D卷積和BatchNorm相對于優(yōu)于淺層RNN 48%。

百度ICML論文:端對端中英文語音識別

表5:不同RNN結(jié)構(gòu)的比較。開發(fā)和測試集的內(nèi)部語料庫。每:表中的模型有8000萬左右的參數(shù)。

百度ICML論文:端對端中英文語音識別

表6:基于兩個隨機選擇的測試集測試人類和系統(tǒng)。在第一個集有100個例子,由5位中國人標(biāo)注。第二個有250實例由標(biāo)注一個人的抄寫。

表6顯示了我們最好的中國普通話語音系統(tǒng)轉(zhuǎn)錄簡短的語音查詢類似的言論比一個典型的中國人和一個委員會5名中國人一起工作更好。

7.部署

雙向模型即時轉(zhuǎn)錄設(shè)計不良:由于RNN有幾個雙向?qū)?,抄錄話語需要整個發(fā)聲的方式呈現(xiàn)給RNN;并且由于我們使用寬波束搜索用于搜索,波束搜索可能是昂貴的。

為了增加部署可擴展性,同時提供低延遲的轉(zhuǎn)錄,我們構(gòu)建了一個批處理調(diào)度稱為批處理調(diào)度(Batch Dispatch),在表現(xiàn)RNN用于宣傳這些批次時,這些批次收集用戶請求數(shù)據(jù)從而制成批次。有了這個調(diào)度器,我們可以增加貿(mào)易批量大小,從而提高了效率,從而增加延遲。

我們使用一個積極的批次方案,并且次方案會積極處理每一批次,只要前一批次完成后,無論多少工作要在此點準(zhǔn)備。這種調(diào)度算法平衡效率和延遲,實現(xiàn)了相對較小的動態(tài)批量規(guī)模,高達(dá)每批次10個樣品,其中中間批量大小與服務(wù)器負(fù)載成比例。

百度ICML論文:端對端中英文語音識別

表7:延遲分布(毫秒)VS 負(fù)載

我們看到表7中,我們的系統(tǒng)達(dá)到了44毫秒的延遲時間,而第98百分位的延遲時間為70毫秒并帶有10合流。此服務(wù)器使用一個的NVIDIA Quadro K1200 GPU對RNN進(jìn)行評價。正如所設(shè)計,當(dāng)服務(wù)器負(fù)載的增長,批量調(diào)度輪把工作轉(zhuǎn)為更大的批次,保持低延遲。

我們的部署系統(tǒng)評估在半精度運算,它沒有可衡量的精度影響RNNs,但顯著提高效率。我們寫我們自己的16位矩陣乘法程序完成此任務(wù),大大提高了相對較小批次的吞吐量。

執(zhí)行所述波束搜索過程包括在所述n-gram語言模型重復(fù)查找,其中大部分轉(zhuǎn)化為未緩存中從存儲器中讀取。為了減少這些查找的成本,我們采用啟發(fā)式:只考慮最少數(shù)量的字符的累積概率為至少在P。在實踐中,我們發(fā)現(xiàn)p= 0.99效果很好,另外我們將搜索范圍限制為40個字符。這加快了由150倍累計普通話語言模型查找時間,并且對CER(相對在0.1-0.3%)的影響可以忽略。

7.1 深度語音的生產(chǎn)環(huán)境

深度語音已經(jīng)為用戶應(yīng)用集合了先進(jìn)的語音生產(chǎn)管道。我們發(fā)現(xiàn),一些關(guān)鍵挑戰(zhàn)影響端到端的深度學(xué)習(xí)方法,比如說我們的。首先,我們發(fā)現(xiàn),即使適量的特定應(yīng)用程序的訓(xùn)練數(shù)據(jù)是無價的,盡管大量語音數(shù)據(jù)用于訓(xùn)練。例如,當(dāng)我們能夠訓(xùn)練上10000小時以上普通話演講,我們發(fā)現(xiàn)只有500小時的使用時間數(shù)據(jù)可以顯著提高應(yīng)用程序的性能。同樣,應(yīng)用特定網(wǎng)絡(luò)語言模型對實現(xiàn)最高精確度非常重要,我們充分利用現(xiàn)有的強n-gram模型與我們的深層語音系統(tǒng)。最后,我們注意到,由于我們的系統(tǒng)是從廣泛標(biāo)記的訓(xùn)練數(shù)據(jù)直接輸出的字符,在每個應(yīng)用程序轉(zhuǎn)錄必須在后處理進(jìn)行處理(如數(shù)字格式)。因此,雖然我們的模型已經(jīng)拆了很多的復(fù)雜性,更多的靈活性,并為端到端的深度學(xué)習(xí)方法的應(yīng)用意識還有待進(jìn)一步研究。

8.結(jié)論

終端到終端的深度學(xué)習(xí)提出了令人興奮的前景,在數(shù)據(jù)和計算的增加不斷提高語音識別系統(tǒng)。由于該方法是高度通用的,我們已經(jīng)發(fā)現(xiàn),它可以迅速地應(yīng)用于新的語言。為兩個非常不同的語言,創(chuàng)建高性能識別機器,英語和普通話,并且不要求關(guān)于該語言的專業(yè)知識。最后,我們還發(fā)現(xiàn),這種方式是由GPU服務(wù)器和用戶的請求一起高效實施,提供用戶提供端到端的深度學(xué)習(xí)技術(shù)。

為了實現(xiàn)這些結(jié)果,我們已經(jīng)探索了各種網(wǎng)絡(luò)架構(gòu),發(fā)現(xiàn)幾種有效的技術(shù):通過SortaGrad和批次規(guī)范化(Batch Normalization)和前瞻卷積單向模式增強優(yōu)化。這種探索是一個很好的優(yōu)化,高性能計算體系,使我們在大型數(shù)據(jù)集里在短短的幾天內(nèi)培訓(xùn)全面的模式。

總體而言,我們相信我們的結(jié)果確定和例證端到端的深度學(xué)習(xí)方法用于語音識別的價值。我們相信,這些技術(shù)將會繼續(xù)擴展。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說