0
本文作者: 隔壁王大喵 | 2017-07-30 00:07 |
雷鋒網(wǎng) AI 科技評(píng)論按:小米近期發(fā)布了自己的 AI 音箱,加入了智能家居的戰(zhàn)局。正當(dāng)我們覺得小米會(huì)不會(huì)只是蹭“人工智能”熱點(diǎn)的時(shí)候,小米的這篇論文證明了自己真的是把人工智能作為一件嚴(yán)肅的公司業(yè)務(wù)來做。請(qǐng)?jiān)试S我們代表人工智能研究大家庭對(duì)小米公司表示歡迎,對(duì)小米的研究員們致以敬意!
這篇論文是西北工業(yè)大學(xué)、陜西省語音與圖像信息處理重點(diǎn)實(shí)驗(yàn)室與小米科技公司的研究員聯(lián)合研究的成果。該項(xiàng)工作主要針對(duì)普通話識(shí)別任務(wù),提出了一種基于注意力機(jī)制的端到端學(xué)習(xí)模型。
以下是雷鋒網(wǎng) AI 科技評(píng)論根據(jù)論文摘要進(jìn)行的編譯簡介。
在最近,語言識(shí)別領(lǐng)域的研究越來越多地采用了端到端(End-to-End)學(xué)習(xí)模式。這種學(xué)習(xí)模式可以直接將輸入的語音轉(zhuǎn)錄成相應(yīng)的文本,而不需要使用到任何預(yù)定義的校準(zhǔn)規(guī)則。據(jù)雷鋒網(wǎng) AI 科技評(píng)論了解,該論文中的研究員們?cè)诙说蕉藢W(xué)習(xí)模式基礎(chǔ)上,探討了一種基于注意力機(jī)制的編解碼模型(Attention-based encoder-decoder model),而該模型主要針對(duì)普通話語音識(shí)別(Mandarin speech recognition)任務(wù),并且取得了很不錯(cuò)的效果。
圖一,上圖展示了編碼模型。該編碼模型是一個(gè)BLSTM,它從輸入x中提取出h。
在訓(xùn)練期間還使用了幀子采樣(Frame sub-sampling)技術(shù)。在該項(xiàng)工作中,研究員通過跳幀(Skipping frames)的方式來縮小原序列的長度,并且正則化了權(quán)重以取得更好的泛化能力和收斂效果。除此之外,本項(xiàng)工作還探究了卷積注意力(Convoluional attention)和注意力平滑(Attention smoothing)這兩種不同的注意力機(jī)制所產(chǎn)生的不同影響,以及模型的性能和波束搜索(Beam search)的寬度之間的關(guān)聯(lián)性。
圖二,上圖展示了AttendAndSpell模型。該模型由MLP(注意力機(jī)制)和LSTM(解碼模型)組成。在每一次時(shí)間步驟(time step)t,MLP將結(jié)合隱含狀態(tài)st-1和輸入h計(jì)算出上下文向量(context vector)ct。從而生成新的隱含狀態(tài)st和新的標(biāo)簽yt。
最終,該論文所提出的算法,在MiTV數(shù)據(jù)集上,在沒有使用任何詞匯(Lexicon)或語言模型(Language model)的情況下,實(shí)現(xiàn)了僅為 3.58%的字符錯(cuò)誤率(Character error rate, CER)以及7.43%的句子錯(cuò)誤率(Sentence error rate, SER)。另外值得一提的,該模型在結(jié)合了三元語言模型(Trigram language model)之后,進(jìn)一步取得了2.81%的字符錯(cuò)誤率以及5.77%的句子錯(cuò)誤率。相比另兩種基于內(nèi)容的注意力算法和卷積注意力算法,論文中提出的注意力平滑算法都取得了更好的表現(xiàn)。
論文中還表示,他們的下一步研究目標(biāo)是把現(xiàn)有的技術(shù)和非常深的卷積網(wǎng)絡(luò)結(jié)合,以期獲得更好的表現(xiàn)。他們的后續(xù)成果我們拭目以待,我們期待小米進(jìn)一步深化人工智能在自家產(chǎn)品中的應(yīng)用,也希望更多國內(nèi)企業(yè)都參與到人工智能相關(guān)技術(shù)的研究和應(yīng)用中來。
Via Attention-Based End-to-End Speech Recognition in Mandarin
雷鋒網(wǎng) AI 科技評(píng)論編譯。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。