微軟研究院新成果！對話語音識別水平超人類，錯誤率僅為 5.9 %

本文作者：劉子榆

2016-10-19 14:59

導(dǎo)語：微軟本周宣布，在識別人類聲音領(lǐng)域，經(jīng)過微軟工程師訓(xùn)練的神經(jīng)網(wǎng)絡(luò)（neural network）的準(zhǔn)確率已經(jīng)達(dá)到了人類的最高水平。

據(jù)國外媒體報道，微軟的研究人員本周宣布，在識別人類聲音領(lǐng)域，經(jīng)過微軟工程師訓(xùn)練的神經(jīng)網(wǎng)絡(luò)（neural network）的準(zhǔn)確率已經(jīng)達(dá)到了人類的最高水平。

微軟介紹，其人工智能實驗室讓 NIST 2000 自動化系統(tǒng)與人類專業(yè)的速記員進(jìn)行了比賽。在當(dāng)?shù)貢r間本周一發(fā)布的論文中，結(jié)果顯示，自動化系統(tǒng)的錯誤率（Word Error Rate, 簡稱 WER）第一次低于人工——僅為 5.9%。

讓我們來看一看，5.9 % 的錯誤率是什么概念？

在行業(yè)標(biāo)準(zhǔn) Switchboard 語音識別任務(wù)測試中，由專業(yè)速記員組成的人類對照組將對話語音轉(zhuǎn)錄成文字，目前，該記錄的最低詞錯率就是 5.9%。這就意味著微軟的語音識別系統(tǒng)的識別能力已經(jīng)高于世界上的絕大多數(shù)人，甚至能夠達(dá)到速記員的水準(zhǔn)。

上個月的 14 日，微軟的對話語音識別技術(shù)在 Switchboard 語音識別基準(zhǔn)測試中實現(xiàn)了詞錯率 6.3 % 的突破，創(chuàng)造了當(dāng)時該領(lǐng)域內(nèi)錯誤率最低的紀(jì)錄。而令人高興的是，從 6.3% 到 5.9%，微軟人工智能與研究部門只花了一個多月的時間。這讓人們有理由相信，計算機真正超越人類語音識別能力那一天已經(jīng)不遠(yuǎn)了。

據(jù)了解，微軟團(tuán)隊使用的是一個基于多年技術(shù)積累開發(fā)的本地化深度學(xué)習(xí)系統(tǒng) CNTK。CNTK 工具包已于一年前在 GitHub 上進(jìn)行開源。目前，包括微軟人工智能的個人助理小娜和混合現(xiàn)實全息眼鏡 HoloLens在內(nèi)的語音識別都是基于 CNTK 得以實現(xiàn)。

此次語音識別的里程碑式突破將對消費者和商業(yè)產(chǎn)品產(chǎn)生深遠(yuǎn)影響，因為語音識別技術(shù)能夠顯著增強人們的日常計算體驗。

微軟在官方博客中表示：“這一里程碑將給用戶和商業(yè)產(chǎn)品帶來廣泛影響，語音識別技術(shù)將帶來明顯的增強。這些產(chǎn)品包括像 Xbox 的娛樂設(shè)備、像微軟小娜（Cortana）的生產(chǎn)力工具以及類似 Cortana 的實現(xiàn)實時語音到文本轉(zhuǎn)錄的語音助手。”

微軟表示，該團(tuán)隊接下來的努力方向之一就是確保語音識別技術(shù)能在喧鬧的集體聚會或是背景聲音較大的高速公路上，類似這些更復(fù)雜的現(xiàn)實生活場景中也能夠進(jìn)行精準(zhǔn)地判斷。研發(fā)人員希望能夠?qū)崿F(xiàn)這一目標(biāo)的方法進(jìn)行完善，甚至幫助計算機在多人說話的場合為每位發(fā)言者分配名字，還要確保計算機能不受發(fā)言者的年齡、口音和音量大小的影響而準(zhǔn)確地識別出各種語音。

微軟本周發(fā)布的這篇論文題為“Achieving Human Parity in Conversational Speech Recognition”。以下為其摘要：

自 20 世紀(jì) 90 年代，DARPA Switchboard 語料庫發(fā)布之后，對話語音識別技術(shù)（Conversational Speech Recognition）就一直成為語音識別領(lǐng)域的重要組成部分。在本篇論文中，我們進(jìn)行測試的 NIST 2000 自動化系統(tǒng)的對話語音識別技術(shù)已經(jīng)可以與人類最高水平媲美。據(jù) Switchboard 的數(shù)據(jù)顯示，專業(yè)速記員的誤差率是 5.9%， CallHome （朋友和家人進(jìn)行開放式對話的環(huán)境）測試表明，速記員的誤差率是為 11.3 %。我們的 NIST 2000 系統(tǒng) 在這兩個案例中建立了一個新的、迄今為止最前沿的超越人類水平的基準(zhǔn)。這意味著有史以來機器首次在對話語音上達(dá)到了人類水平。我們成功的關(guān)鍵在于系統(tǒng)地使用了卷積和 LSTM 神經(jīng)網(wǎng)絡(luò)與全新的空間平滑方法（spatial smoothing method）以及 lattice-free MMI 聲學(xué)訓(xùn)練。

論文PDF戳這里。

微軟研究院新成果！對話語音識別水平超人類，錯誤率僅為 5.9 %

微軟研究院新成果！對話語音識別水平超人類，錯誤率僅為 5.9 %