0
via pixabay
雷鋒網(wǎng) AI 科技評(píng)論按:本文是由來自谷歌語音團(tuán)隊(duì)的科學(xué)家 Tara N. Sainath 和來自谷歌大腦團(tuán)隊(duì)的科學(xué)家 Yonghui Wu 共同撰寫的,文中簡(jiǎn)單介紹了最新論文《State-of-the-art Speech Recognition With Sequence-to-Sequence Models》的主要思想與取得的成果以及 Listen-Attend-Spell(LAS) 的端到端體系結(jié)構(gòu)。雷鋒網(wǎng) AI 科技評(píng)論根據(jù)原文進(jìn)行了編譯。
在谷歌各式各樣的語音搜索應(yīng)用中,都是基于傳統(tǒng)的自動(dòng)語音識(shí)別(Automatic speech recognition, ASR)系統(tǒng)實(shí)現(xiàn)的。傳統(tǒng)的 ASR 系統(tǒng)由聲學(xué)模型(Acoustic model, AM)、發(fā)音模型(Pronunciation model, PM)和語言模型(Language model, LM)組成,所有這些系統(tǒng)都是分開單獨(dú)進(jìn)行訓(xùn)練的并且通常還針對(duì)各自不同的數(shù)據(jù)集進(jìn)行了單獨(dú)的手工設(shè)計(jì)[1]。聲學(xué)模型采用了聲學(xué)特征,用于預(yù)測(cè)一組子字單元(Subword units),它們通常是上下文無關(guān)或者上下文相關(guān)的音素。然后通過手動(dòng)設(shè)計(jì)的詞庫(也即 PM)將由聲學(xué)模型預(yù)測(cè)產(chǎn)生的一系列音素映射到對(duì)應(yīng)的單詞。最終,由語言模型將概率賦予單詞序列。但是對(duì)這三個(gè)模型分開進(jìn)行單獨(dú)訓(xùn)練會(huì)增加訓(xùn)練的復(fù)雜度,并且獨(dú)立訓(xùn)練的效果不如將模型聯(lián)合訓(xùn)練的效果好。在過去的幾年里,開發(fā)端到端(End-to-end)的系統(tǒng)越來越受到學(xué)者們的歡迎,而這些端到端系統(tǒng)試圖將這些獨(dú)立的組件作為一個(gè)單一系統(tǒng)進(jìn)行聯(lián)合訓(xùn)練。雖然在文獻(xiàn)[2, 3]中這些端到端模型已經(jīng)展示出了頗為驚艷的結(jié)果,但是這種端到端的方法是否可以被提升到趕上甚至超越最先進(jìn)的傳統(tǒng)方法卻還仍然是一個(gè)未知數(shù)。
今天我們非常高興能夠與大家分享《State-of-the-art Speech Recognition With Sequence-to-Sequence Models》[4],它介紹了一種超越傳統(tǒng)生產(chǎn)系統(tǒng)[1]性能的全新端到端模型。論文中展示了,我們的端到端系統(tǒng)取得了 5.6% 的單詞錯(cuò)誤率(Word error rate, WER),相比于強(qiáng)大的傳統(tǒng)系統(tǒng)(6.7% WER)取得了 16% 的提升。此外,這個(gè)用于輸出初始單詞假設(shè)的端到端模型,由于沒有獨(dú)立的發(fā)音模型和語言模型,因此比傳統(tǒng)模型小了 18 倍。
我們的系統(tǒng)建立在 Listen-Attend-Spell(LAS) 的端到端體系結(jié)構(gòu)的基礎(chǔ)上,該體系結(jié)構(gòu)最先由[2]提出。LAS 架構(gòu)由三個(gè)組件構(gòu)成。首先是聽者編碼器組件(Listener encoder component),聽者編碼器與標(biāo)準(zhǔn)的聲學(xué)模型相類似,它采用輸入語音信號(hào) x 的時(shí)頻表示,并使用一組神經(jīng)網(wǎng)絡(luò)將輸入映射到更高級(jí)的特征表示 henc。然后聽者編碼器的輸出被輸入到第二個(gè)組件——參與者(Attender),參與者組件使用 henc 來學(xué)習(xí)輸入特征 x 與預(yù)測(cè)的子字單元 {yn, ... y0} 之間的對(duì)應(yīng)關(guān)系,其中每個(gè)子字通常是一個(gè)字素或者字片(Wordpiece)。最終,注意力模塊(Attention module)的輸出將被輸入第三個(gè)組件——拼字者(Speller,例如,解碼器),拼字者組件類似于語言模型,它將輸出一組假設(shè)詞語的概率分布。
LAS 端到端模型組件圖
LAS 模型的所有組件都是被當(dāng)做一個(gè)單一端到端神經(jīng)網(wǎng)絡(luò)模型進(jìn)行聯(lián)合訓(xùn)練,這一點(diǎn)與傳統(tǒng)系統(tǒng)的分開訓(xùn)練不同,同時(shí)也讓訓(xùn)練過程變得更加簡(jiǎn)單。此外,由于 LAS 模型完完全全采用神經(jīng)網(wǎng)絡(luò)模型,所以它不需要手動(dòng)設(shè)計(jì)額外的組件(例如,有限狀態(tài)轉(zhuǎn)換器、詞庫和文本標(biāo)準(zhǔn)化模塊)。最后,與傳統(tǒng)模型不同的是,訓(xùn)練端到端模型不需要來自單獨(dú)訓(xùn)練系統(tǒng)生成的決策樹或者時(shí)間對(duì)準(zhǔn)的引導(dǎo)程序,并且可以訓(xùn)練給定的文本副本(Text transcripts)對(duì)和相應(yīng)的聲學(xué)對(duì)。
在論文[4]中,我們介紹了各種新穎的改進(jìn)結(jié)構(gòu),包括改進(jìn)了傳遞給解碼器的注意力向量(Attention vectors)和采用更長(zhǎng)的子字單元(例如,字片)進(jìn)行訓(xùn)練。此外,我們還介紹了大量的訓(xùn)練優(yōu)化改進(jìn),包括使用最小誤碼率訓(xùn)練[5]策略。這些結(jié)構(gòu)和優(yōu)化上的改進(jìn)正是為何我們的模型相比起傳統(tǒng)模型能夠取得 16% WER 提升的原因。
這項(xiàng)研究的另一項(xiàng)令人興奮的潛在應(yīng)用是多方言(Multi-dialect)和多語言(Multi-lingual)系統(tǒng),其中優(yōu)化單個(gè)神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)便性使得這樣的模型非常具有吸引力。在這里所有方言或者語言都可以結(jié)合起來訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),而不需要為每種方言或者語言去單獨(dú)設(shè)置聲學(xué)模型、發(fā)音模型和語言模型。我們發(fā)現(xiàn)這些模型在 7 個(gè)英語方言[6]和 9 個(gè)印度語[7]上取得了很好的效果,并且同時(shí)還超越了在每個(gè)方言或者語言上進(jìn)行單獨(dú)訓(xùn)練的模型。
雖然我們?yōu)樽罱K的結(jié)果感到非常高興,但是我們的工作卻還遠(yuǎn)遠(yuǎn)沒有完成。當(dāng)前,這些模型還不能實(shí)時(shí)處理語音[8, 9, 10],而做到實(shí)時(shí)處理這一點(diǎn)對(duì)于語音搜索等對(duì)延遲敏感的應(yīng)用而言卻是剛需。另外在采用真實(shí)生產(chǎn)數(shù)據(jù)進(jìn)行評(píng)估時(shí),這些模型的表現(xiàn)依然不夠有效。此外我們的端到端模型是在 22000 個(gè)音頻文本對(duì)話中進(jìn)行學(xué)習(xí)的,而傳統(tǒng)系統(tǒng)通常是在大型語料庫上進(jìn)行訓(xùn)練的。另外,我們提出的模型不能為罕見的詞匯學(xué)習(xí)正確的拼寫,例如那些由手工設(shè)計(jì)的發(fā)音模型來實(shí)現(xiàn)的專有名詞。我們當(dāng)前正在努力攻克這些挑戰(zhàn)。
引用
[1] G. Pundak and T. N. Sainath, “Lower Frame Rate Neural Network Acoustic Models ," in Proc. Interspeech, 2016.
[2] W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals, “Listen, attend and spell ,” CoRR, vol. abs/1508.01211, 2015
[3] R. Prabhavalkar, K. Rao, T. N. Sainath, B. Li, L. Johnson, and N. Jaitly, “A Comparison of Sequence-to-sequence Models for Speech Recognition ,” in Proc. Interspeech, 2017.
[4] C.C. Chiu, T.N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R.J. Weiss, K. Rao, K. Gonina, N. Jaitly, B. Li, J. Chorowski and M. Bacchiani, “State-of-the-art Speech Recognition With Sequence-to-Sequence Models ,” submitted to ICASSP 2018.
[5] R. Prabhavalkar, T.N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C.C. Chiu and A. Kannan, “Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models ,” submitted to ICASSP 2018.
[6] B. Li, T.N. Sainath, K. Sim, M. Bacchiani, E. Weinstein, P. Nguyen, Z. Chen, Y. Wu and K. Rao, “Multi-Dialect Speech Recognition With a Single Sequence-to-Sequence Model” submitted to ICASSP 2018.
[7] S. Toshniwal, T.N. Sainath, R.J. Weiss, B. Li, P. Moreno, E. Weinstein and K. Rao, “End-to-End Multilingual Speech Recognition using Encoder-Decoder Models”, submitted to ICASSP 2018.
[8] T.N. Sainath, C.C. Chiu, R. Prabhavalkar, A. Kannan, Y. Wu, P. Nguyen and Z. Chen, “Improving the Performance of Online Neural Transducer Models ”, submitted to ICASSP 2018.
[9] C.C. Chiu* and C. Raffel*, “Monotonic Chunkwise Attention ,” submitted to ICLR 2018.
[10] D. Lawson*, C.C. Chiu*, G. Tucker*, C. Raffel, K. Swersky, N. Jaitly. “Learning Hard Alignments with Variational Inference”, submitted to ICASSP 2018.
[11] T.N. Sainath, R. Prabhavalkar, S. Kumar, S. Lee, A. Kannan, D. Rybach, V. Schogol, P. Nguyen, B. Li, Y. Wu, Z. Chen and C.C. Chiu, “No Need for a Lexicon? Evaluating the Value of the Pronunciation Lexica in End-to-End Models ,” submitted to ICASSP 2018.
[12] A. Kannan, Y. Wu, P. Nguyen, T.N. Sainath, Z. Chen and R. Prabhavalkar. “An Analysis of Incorporating an External Language Model into a Sequence-to-Sequence Model,” submitted to ICASSP 2018.
Via : Improving End-to-End Models For Speech Recognition , 雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。