谷歌團隊提出全新在線序列到序列模型，可應(yīng)用于噪聲語音識別

本文作者：哈帝?白求恩

編輯：郭奕欣

2017-07-04 09:39

導(dǎo)語：想知道谷歌如何實現(xiàn)在線實時語音翻譯嗎？

近日谷歌團隊發(fā)布了一篇關(guān)于在線語音識別的序列到序列模型論文，雷鋒網(wǎng)了解到，該模型可以實現(xiàn)在線實時的語音識別功能，并且對來自不同揚聲器的聲音具有識別能力。

以下內(nèi)容是雷鋒網(wǎng)AI科技評論根據(jù)論文內(nèi)容進行的部分編譯。

論文摘要

生成式模型一直是語音識別的主要方法。然而，這些模型的成功依賴于使用的精密的組合和復(fù)雜方法。最近，關(guān)于深入學(xué)習(xí)方面的最新研究已經(jīng)產(chǎn)生了一種可以替代生成式模型的識別模型，稱為“序列到序列模型”。這種模型的準(zhǔn)確性幾乎可以與最先進的生成模型相匹配。該模型在機器翻譯，語音識別，圖像標(biāo)題生成等方面取得了相當(dāng)大的經(jīng)驗成果。由于這些模型可以在同一個步驟中端對端地進行培訓(xùn)，因此該模型是非常易于訓(xùn)練的，但它們在實踐中卻具有限制，即只能用于離線識別。這是因為該模型要求在一段話開始時就輸入序列的整體以供使用，然而這對實時語音識別等任務(wù)來說是沒有任何意義的。

谷歌團隊提出全新在線序列到序列模型，可應(yīng)用于噪聲語音識別

圖. 1：本文使用的模型的總體架構(gòu)

為了解決這個問題，谷歌團隊最近引入了在線序列模型。這種在線序列模型具有將產(chǎn)生的輸出作為輸入的特性，同時還可以保留序列到序列模型的因果性質(zhì)。這些模型具有在任何時間t產(chǎn)生的輸出將會影響隨后計算結(jié)果的特征。其中，有一種模型將使用二進制隨機變量來選擇產(chǎn)生輸出的時間步長。該團隊將這個模型稱為神經(jīng)自回歸傳感器（NAT）。這個模型將使用策略梯度方法來訓(xùn)練隨機變量。

谷歌團隊提出全新在線序列到序列模型，可應(yīng)用于噪聲語音識別

圖. 2：熵正則化對排放位置的影響。每行顯示為輸入示例的發(fā)射預(yù)測，每個符號表示3個輸入時間步長。 'x'表示模型選擇在時間步長發(fā)出輸出，而“ - ”則表示相反的情況。頂線 - 沒有熵懲罰，模型在輸入的開始或結(jié)束時發(fā)出符號，并且無法獲得有意義的梯度來學(xué)習(xí)模型。中線 – 使用熵正規(guī)化，該模型及時避免了聚類排放預(yù)測，并學(xué)習(xí)有意義地擴散排放和學(xué)習(xí)模型。底線 - 使用KL發(fā)散規(guī)則排放概率，同時也可以緩解聚類問題，盡管不如熵正則化那樣有效。

通過使用估計目標(biāo)序列相對于參數(shù)模型的對數(shù)概率的梯度來訓(xùn)練該模型。雖然這個模型并不是完全可以微分的，因為它使用的是不可微分的二進制隨機單元，但是可以通過使用策略梯度法來估計關(guān)于模型參數(shù)的梯度。更詳細地說，通過使用監(jiān)督學(xué)習(xí)來訓(xùn)練網(wǎng)絡(luò)進行正確的輸出預(yù)測，并使用加強學(xué)習(xí)以訓(xùn)練網(wǎng)絡(luò)來決定何時發(fā)出各種輸出。

谷歌團隊提出全新在線序列到序列模型，可應(yīng)用于噪聲語音識別

圖. 3：在TIMIT上運行示例培訓(xùn)

圖3b和3c分別示出了混合比例分別為0.25和0.5的兩種情況的訓(xùn)練曲線的實例。在這兩種情況下，都可以看出，該模型學(xué)習(xí)了過適合數(shù)據(jù)。

谷歌團隊還研究使用該模型進行噪聲輸入，其中以不同混合比例將兩個揚聲器的單聲道混合語音作為模型的輸入。

實驗和結(jié)果

使用這個模型對兩種不同的語音語料庫進行了實驗。第一組實驗是對TIMIT進行了初步實驗，以評估可能導(dǎo)致模型穩(wěn)定行為的超參數(shù)。第二組實驗是在不同混合比例下從兩個不同的揚聲器（一個男性和一個女性）混合的語音進行的。這些實驗被稱為Multi-TIMIT。

A：TIMIT

TIMIT數(shù)據(jù)集是音素識別任務(wù)，其中必須從輸入音頻語音推斷音素序列。有關(guān)訓(xùn)練曲線的示例，請參見圖3。可以看出，在學(xué)習(xí)有意義的模型之前，該模型需要更多的更新（> 100K）。然而，一旦學(xué)習(xí)開始，即使模型受到策略梯度的訓(xùn)練，實現(xiàn)了穩(wěn)定的過程。

表I顯示了通過這種方法與其他更成熟的模型對TIMIT實現(xiàn)的結(jié)果。可以看出，該模型與其他單向模型比較，如CTC，DNN-HMM等。如果結(jié)合更復(fù)雜的功能，如卷積模型應(yīng)該可以產(chǎn)生更好的結(jié)果。此外，該模型具有吸收語言模型的能力，因此，應(yīng)該比基于CTC和DNNHMM的模型更適合端到端的培訓(xùn)，該模型不能固有地捕獲語言模型。

谷歌團隊提出全新在線序列到序列模型，可應(yīng)用于噪聲語音識別

表I：針對各種模型使用單向LSTM的TIMIT結(jié)果

B：Multi-TIMIT

通過從原始TIMIT數(shù)據(jù)混合男性聲音和女性聲音來生成新的數(shù)據(jù)集。原始TIMIT數(shù)據(jù)對中的每個發(fā)音都有來自相反性別的聲音。

谷歌團隊提出全新在線序列到序列模型，可應(yīng)用于噪聲語音識別

表II：Multi-TIMIT的結(jié)果：該表顯示了該模型在不同比例的混合中為干擾語音所實現(xiàn)的音素誤差率（PER）。還顯示了深層LSTM 和RNN-自感器的CTC的結(jié)果

表II顯示了使用混合揚聲器的不同混合比例的結(jié)果。可以看出，隨著混合比例的增加，模型的結(jié)果越來越糟糕。對于實驗而言，每個音頻輸入始終與相同的混音音頻輸入配對。有趣的是，可以發(fā)現(xiàn)，將相同的音頻與多個混淆的音頻輸入配對會產(chǎn)生更差的結(jié)果，這是由于產(chǎn)生了更為糟糕的過度配對。這可能是因為該模型強大到足以復(fù)制整個轉(zhuǎn)錄的結(jié)果。

谷歌團隊提出全新在線序列到序列模型，可應(yīng)用于噪聲語音識別

圖. 5：Multi-TIMIT的聲音分布：該圖顯示了在TIMIT中發(fā)出干凈話語的情況下發(fā)出令牌的概率以及Multi-TIMIT中對應(yīng)的噪聲發(fā)音。可以看出，對于Multi-TIMIT語句，該模型稍稍比TIMIT語句發(fā)出符號要晚一點。

圖5顯示為示例Multi-TIMIT話語的模型發(fā)出的符號。并與一個干凈模型的發(fā)出進行比較。一般來說，與TIMIT發(fā)出的模型相比，該模型選擇稍后再發(fā)布Multi-TIMIT。

結(jié)論

在本文中，谷歌團隊引入了一種新的在線序列到序列模型的訓(xùn)練方式，并將其應(yīng)用于具有噪音輸入的環(huán)境。作為因果模型的結(jié)果，這些模型可以結(jié)合語言模型，并且還可以為相同的音頻輸入生成多個不同的轉(zhuǎn)錄結(jié)果。這使它成為一類非常強大的模型。即使在與TIMIT一樣小的數(shù)據(jù)集上，該模型依然能夠適應(yīng)混合語音。從實驗分析的角度來說，每個揚聲器只耦合到一個干擾揚聲器，因此數(shù)據(jù)集的大小是有限的。通過將每個揚聲器與多個其他揚聲器配對，并將每個揚聲器預(yù)測為輸出，應(yīng)該能夠?qū)崿F(xiàn)更強的魯棒性。由于這種能力，該團隊希望可以將這些模型應(yīng)用到未來的多通道、多揚聲器識別中。

via arxiv，雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。