小米加入 AI 研究大家庭！聯(lián)合西工大推出基于注意力機(jī)制的普通話語音識(shí)別算法

本文作者：隔壁王大喵

2017-07-30 00:07

導(dǎo)語：本文是由來自于西北工業(yè)大學(xué)與小米科技公司的研究員聯(lián)合研究的成果。該項(xiàng)工作主要針對(duì)普通話識(shí)別任務(wù)，提出了一種基于注意力機(jī)制的端到端學(xué)習(xí)模型

雷鋒網(wǎng) AI 科技評(píng)論按：小米近期發(fā)布了自己的 AI 音箱，加入了智能家居的戰(zhàn)局。正當(dāng)我們覺得小米會(huì)不會(huì)只是蹭“人工智能”熱點(diǎn)的時(shí)候，小米的這篇論文證明了自己真的是把人工智能作為一件嚴(yán)肅的公司業(yè)務(wù)來做。請(qǐng)?jiān)试S我們代表人工智能研究大家庭對(duì)小米公司表示歡迎，對(duì)小米的研究員們致以敬意！

這篇論文是西北工業(yè)大學(xué)、陜西省語音與圖像信息處理重點(diǎn)實(shí)驗(yàn)室與小米科技公司的研究員聯(lián)合研究的成果。該項(xiàng)工作主要針對(duì)普通話識(shí)別任務(wù)，提出了一種基于注意力機(jī)制的端到端學(xué)習(xí)模型。

以下是雷鋒網(wǎng) AI 科技評(píng)論根據(jù)論文摘要進(jìn)行的編譯簡介。

論文摘要

在最近，語言識(shí)別領(lǐng)域的研究越來越多地采用了端到端（End-to-End）學(xué)習(xí)模式。這種學(xué)習(xí)模式可以直接將輸入的語音轉(zhuǎn)錄成相應(yīng)的文本，而不需要使用到任何預(yù)定義的校準(zhǔn)規(guī)則。據(jù)雷鋒網(wǎng) AI 科技評(píng)論了解，該論文中的研究員們?cè)诙说蕉藢W(xué)習(xí)模式基礎(chǔ)上，探討了一種基于注意力機(jī)制的編解碼模型（Attention-based encoder-decoder model），而該模型主要針對(duì)普通話語音識(shí)別（Mandarin speech recognition）任務(wù)，并且取得了很不錯(cuò)的效果。

小米加入 AI 研究大家庭！聯(lián)合西工大推出基于注意力機(jī)制的普通話語音識(shí)別算法

圖一，上圖展示了編碼模型。該編碼模型是一個(gè)BLSTM，它從輸入x中提取出h。

在訓(xùn)練期間還使用了幀子采樣（Frame sub-sampling）技術(shù)。在該項(xiàng)工作中，研究員通過跳幀（Skipping frames）的方式來縮小原序列的長度，并且正則化了權(quán)重以取得更好的泛化能力和收斂效果。除此之外，本項(xiàng)工作還探究了卷積注意力（Convoluional attention）和注意力平滑（Attention smoothing）這兩種不同的注意力機(jī)制所產(chǎn)生的不同影響，以及模型的性能和波束搜索（Beam search）的寬度之間的關(guān)聯(lián)性。

小米加入 AI 研究大家庭！聯(lián)合西工大推出基于注意力機(jī)制的普通話語音識(shí)別算法

圖二，上圖展示了AttendAndSpell模型。該模型由MLP（注意力機(jī)制）和LSTM（解碼模型）組成。在每一次時(shí)間步驟（time step）t，MLP將結(jié)合隱含狀態(tài)s_t-1和輸入h計(jì)算出上下文向量（context vector）c_t。從而生成新的隱含狀態(tài)s_t和新的標(biāo)簽y_t。

最終，該論文所提出的算法，在MiTV數(shù)據(jù)集上，在沒有使用任何詞匯（Lexicon）或語言模型（Language model）的情況下，實(shí)現(xiàn)了僅為 3.58%的字符錯(cuò)誤率（Character error rate, CER）以及7.43%的句子錯(cuò)誤率（Sentence error rate, SER）。另外值得一提的，該模型在結(jié)合了三元語言模型（Trigram language model）之后，進(jìn)一步取得了2.81%的字符錯(cuò)誤率以及5.77%的句子錯(cuò)誤率。相比另兩種基于內(nèi)容的注意力算法和卷積注意力算法，論文中提出的注意力平滑算法都取得了更好的表現(xiàn)。

論文中還表示，他們的下一步研究目標(biāo)是把現(xiàn)有的技術(shù)和非常深的卷積網(wǎng)絡(luò)結(jié)合，以期獲得更好的表現(xiàn)。他們的后續(xù)成果我們拭目以待，我們期待小米進(jìn)一步深化人工智能在自家產(chǎn)品中的應(yīng)用，也希望更多國內(nèi)企業(yè)都參與到人工智能相關(guān)技術(shù)的研究和應(yīng)用中來。

Via Attention-Based End-to-End Speech Recognition in Mandarin

雷鋒網(wǎng) AI 科技評(píng)論編譯。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。