丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

0

云從科技刷新一項語音識別紀錄:將 Librispeech 數(shù)據(jù)集上的錯詞率降至 2.97%

本文作者: 叢末 2018-11-15 10:37
導(dǎo)語:超過阿里、百度、約翰霍普金斯大學(xué)等企業(yè)及高校~
活動
企業(yè):云從科技
操作:刷新記錄
事項:云從科技刷新一項語音識別紀錄
開發(fā)
企業(yè):云從科技
操作:刷新記錄
內(nèi)容:云從科技刷新一項語音識別紀錄
更多相關(guān)

雷鋒網(wǎng) AI 科技評論按:10 月 29 日,云從科技宣布在全球最大的開源語音識別數(shù)據(jù)集 Librispeech 上,將錯詞率(Worderrorrate,WER)降到了 2.97%,并將 Librispeech 的 WER 指標提升了 25%,超過阿里、百度、約翰霍普金斯大學(xué)等企業(yè)及高校,刷新了原先記錄。

將 Librispeech 數(shù)據(jù)集上的錯詞率降至 2.97%

Librispeech 是當(dāng)前衡量語音識別技術(shù)的最權(quán)威主流的開源數(shù)據(jù)集,錯詞率(Worderrorrate,WER)是衡量語音識別技術(shù)水平的核心指標。

云從科技刷新一項語音識別紀錄:將 Librispeech 數(shù)據(jù)集上的錯詞率降至 2.97%

 DS2:百度,ESPnet:約翰霍普金斯大學(xué),DFSMN-CE:阿里

云從科技在 Librispeech 數(shù)據(jù)集上將錯詞率(Worderrorrate,WER)降到了 2.97%,較之前提升了 25%。這項成果有利于語音識別技術(shù)的進步,也有助于推動語音識別帶來良好的智慧交互體驗。

云從科技此次推出的語音識別模型 Pyramidal-FSMN 融合圖像識別與語音識別的優(yōu)勢,將殘差卷積網(wǎng)絡(luò)和金字塔記憶模塊的序列記憶網(wǎng)絡(luò)相結(jié)合, 能夠同時有效的提取空間和時間上不同粒度的信息,對比目前業(yè)界使用最為廣泛的 LSTM 模型,訓(xùn)練速度更快、識別準確率更高。

語音識別技術(shù)近年進展

2017 年 3 月,IBM 結(jié)合了 LSTM 模型和帶有 3 個強聲學(xué)模型的 WaveNet 語言模型?!讣袛U展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 錯詞率的突破」。相對應(yīng)的是去年 5 月的 6.9%。

2017 年 8 月,微軟發(fā)布新的里程碑,通過改進微軟語音識別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽覺和語言模型,在去年基礎(chǔ)上降低了大約 12% 的出錯率,錯詞率為 5.1%,聲稱超過專業(yè)速記員。相對應(yīng)的是去年 10 月的 5.9%,聲稱超過人類。

2017 年 12 月,谷歌發(fā)布全新端到端語音識別系統(tǒng)(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),錯詞率降低至 5.6%。相對于強大的傳統(tǒng)系統(tǒng)有 16% 的性能提升。

2018 年 6 月,阿里巴巴達摩院推出了新一代語音識別模型 DFSMN,將全球語音識別準確率紀錄提高至 96.04%,錯詞率降低至 3.96%。

2018 年 10 月,云從科技發(fā)布全新 Pyramidal-FSMN 語音識別模型,將錯詞率(Worderrorrate,WER)降低至 2.97%,較之前提升了 25%。

Pyramidal-FSMN 語音識別模型原理解析

云從科技提出的新型網(wǎng)絡(luò)結(jié)構(gòu),能更加有效的提取空間和時間特征的角度,為語音識別進一步發(fā)展提供了一些新的思路: 

  • 模型設(shè)計采用一種殘差卷積網(wǎng)絡(luò)和金字塔記憶模塊的序列記憶網(wǎng)絡(luò)相結(jié)合的結(jié)構(gòu); 

  • 訓(xùn)練方式使用 lattice-free 最大互信息(lattice-free maximum mutual information,LF-MMI/Chain)與交叉熵(cross entropy,CE)損失函數(shù)相結(jié)合的多任務(wù)學(xué)習(xí)技術(shù);

  • 解碼部分采取 RNNLM rescoring 的方式,利用 RNN 提取一個句子中的長期語義信息,從而更有效地幫助聲學(xué)模型得到準確的句子。

如下圖所示,作者采用了由 6 層 Residual CNN 和 10 層 Pyramidal-FSMN 相結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)。前端網(wǎng)絡(luò)借鑒了圖像識別中經(jīng)典的 Residual CNN 結(jié)構(gòu),更有效地提取特征與時間相互的關(guān)聯(lián)信息,同時 skip connection 避免了 CNN 網(wǎng)絡(luò)加深之后梯度消失和梯度爆炸問題。在金字塔記憶模塊中,淺層的網(wǎng)絡(luò)主要聚焦于音素本身的特征學(xué)習(xí),所以只需抽取短時上下文信息,而深層的網(wǎng)絡(luò)由于已經(jīng)學(xué)習(xí)到了足夠的固定時間的音素信息,需要學(xué)習(xí)長時間包括語義和語法特征,所以深層抽取長時間的上下文信息。利用這樣的金字塔結(jié)構(gòu),既能減少參數(shù),縮小模型結(jié)構(gòu),也能更加精巧的模擬人類處理語音信號的過程,提高識別效果。

云從科技刷新一項語音識別紀錄:將 Librispeech 數(shù)據(jù)集上的錯詞率降至 2.97%

在損失函數(shù)部分,作者采用了基于 LF-MMI 的序列性訓(xùn)練方式。同時為了解決序列性訓(xùn)練容易導(dǎo)致過擬合的問題,又引入了傳統(tǒng)的交叉熵損失函數(shù),在 LF-MMI 輸出之外加入另一個輸出層作為一個正則技術(shù),通過設(shè)置交叉熵的正則化系數(shù),兩個目標能夠有效地學(xué)習(xí)并且避免過擬合問題。

最后,作者使用了 RNNLM rescoring 技術(shù)對解碼做進一步處理。在沒有 RNNLM rescoring 的情況下,Pyramidal-FSMN 已經(jīng)達到了目前最好的結(jié)果,rescoring 之后又有了更進一步的提升。

聲學(xué)模型和 RNNLM 的訓(xùn)練數(shù)據(jù)完全基于 Librispeech 和通用的語言模型數(shù)據(jù)集,并沒有額外引入其他的訓(xùn)練數(shù)據(jù)這樣的「技巧」性策略。

論文地址:https://arxiv.org/abs/1810.11352

相關(guān)介紹:

LibriSpeech 數(shù)據(jù)集:世界最大的免費語音識別數(shù)據(jù)庫,包含文本和語音的有聲讀物數(shù)據(jù)集,由 1000 小時的多人朗讀的清晰音頻組成,且包含書籍的章節(jié)結(jié)構(gòu)。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

云從科技刷新一項語音識別紀錄:將 Librispeech 數(shù)據(jù)集上的錯詞率降至 2.97%

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說