2
本文作者: 劉子榆 | 2016-10-19 14:59 |
據(jù)國外媒體報道,微軟的研究人員本周宣布,在識別人類聲音領域,經(jīng)過微軟工程師訓練的神經(jīng)網(wǎng)絡(neural network)的準確率已經(jīng)達到了人類的最高水平。
微軟介紹,其人工智能實驗室讓 NIST 2000 自動化系統(tǒng)與人類專業(yè)的速記員進行了比賽。在當?shù)貢r間本周一發(fā)布的論文中,結果顯示,自動化系統(tǒng)的錯誤率(Word Error Rate, 簡稱 WER)第一次低于人工——僅為 5.9%。
讓我們來看一看,5.9 % 的錯誤率是什么概念?
在行業(yè)標準 Switchboard 語音識別任務測試中,由專業(yè)速記員組成的人類對照組將對話語音轉錄成文字,目前,該記錄的最低詞錯率就是 5.9%。這就意味著微軟的語音識別系統(tǒng)的識別能力已經(jīng)高于世界上的絕大多數(shù)人,甚至能夠達到速記員的水準。
上個月的 14 日,微軟的對話語音識別技術在 Switchboard 語音識別基準測試中實現(xiàn)了詞錯率 6.3 % 的突破,創(chuàng)造了當時該領域內(nèi)錯誤率最低的紀錄。而令人高興的是,從 6.3% 到 5.9%,微軟人工智能與研究部門只花了一個多月的時間。這讓人們有理由相信,計算機真正超越人類語音識別能力那一天已經(jīng)不遠了。
據(jù)了解,微軟團隊使用的是一個基于多年技術積累開發(fā)的本地化深度學習系統(tǒng) CNTK。CNTK 工具包已于一年前在 GitHub 上進行開源。目前,包括微軟人工智能的個人助理小娜和混合現(xiàn)實全息眼鏡 HoloLens在內(nèi)的語音識別都是基于 CNTK 得以實現(xiàn)。
此次語音識別的里程碑式突破將對消費者和商業(yè)產(chǎn)品產(chǎn)生深遠影響,因為語音識別技術能夠顯著增強人們的日常計算體驗。
微軟在官方博客中表示:“這一里程碑將給用戶和商業(yè)產(chǎn)品帶來廣泛影響,語音識別技術將帶來明顯的增強。這些產(chǎn)品包括像 Xbox 的娛樂設備、像微軟小娜(Cortana)的生產(chǎn)力工具以及類似 Cortana 的實現(xiàn)實時語音到文本轉錄的語音助手?!?/p>
微軟表示,該團隊接下來的努力方向之一就是確保語音識別技術能在喧鬧的集體聚會或是背景聲音較大的高速公路上,類似這些更復雜的現(xiàn)實生活場景中也能夠進行精準地判斷。研發(fā)人員希望能夠將實現(xiàn)這一目標的方法進行完善,甚至幫助計算機在多人說話的場合為每位發(fā)言者分配名字,還要確保計算機能不受發(fā)言者的年齡、口音和音量大小的影響而準確地識別出各種語音。
微軟本周發(fā)布的這篇論文題為“Achieving Human Parity in Conversational Speech Recognition”。以下為其摘要:
自 20 世紀 90 年代,DARPA Switchboard 語料庫發(fā)布之后,對話語音識別技術(Conversational Speech Recognition)就一直成為語音識別領域的重要組成部分。在本篇論文中,我們進行測試的 NIST 2000 自動化系統(tǒng)的對話語音識別技術已經(jīng)可以與人類最高水平媲美。 據(jù) Switchboard 的數(shù)據(jù)顯示,專業(yè)速記員的誤差率是 5.9%, CallHome (朋友和家人進行開放式對話的環(huán)境)測試表明,速記員的誤差率是為 11.3 %。我們的 NIST 2000 系統(tǒng) 在這兩個案例中建立了一個新的、迄今為止最前沿的超越人類水平的基準。這意味著有史以來機器首次在對話語音上達到了人類水平。我們成功的關鍵在于系統(tǒng)地使用了卷積和 LSTM 神經(jīng)網(wǎng)絡與全新的空間平滑方法(spatial smoothing method)以及 lattice-free MMI 聲學訓練。
論文PDF戳這里。
推薦閱讀:
五分鐘讀完美國白皮書:為了人工智能的未來,政府都做了哪些準備?
AI 是新的電能,百度如何將人工智能變成今天的“基礎設施”?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。