2
本文作者: 老王 | 2017-01-16 20:28 |
在去年的錘子發(fā)布會中,羅永浩現場演示了訊飛輸入法后讓用戶意識到當下語音識別能力的強大。當然,語音識別在安靜環(huán)境、常用字詞、發(fā)音標準情況下已非常成熟,但在復雜環(huán)境下如遠場識別、帶噪聲識別等情況下仍有一定的提升空間。
2016 年語音識別領域有著不小的進展,其主要體現在模型方面的突破:
Deep CNN 模型大熱,百度把 Deep CNN 應用于語音識別聲學建模中,將其與基于 LSTM 和 CTC 的端對端語音識別技術相結合,大大提升了語音識別能力;微軟則是把 ResNet 應用于語音識別,在產業(yè)標準 Switchboard 語音識別基準測試中,實現了詞錯率(WER)低至 5.9% 的新突破;科大訊飛也推出了全新的深度全序列卷積神經網絡 DFCNN。
與此同時,新的深度學習開源框架層出不窮,開發(fā)者做語音識別到底是用 Kaldi 這類傳統(tǒng)框架還是用 TensorFlow 這類新型框架呢?
針對上述幾大話題,雷鋒網硬創(chuàng)公開課特邀供職于阿里巴巴最神秘的研究部門 iDST 的語音專家薛少飛博士,從聲學模型和算法角度深入講述 2016 年語音識別領域的重大突破。
薛少飛,阿里巴巴 iDST 語音識別專家,中國科學技術大學博士?,F負責阿里聲學模型研究與應用:包括語音識別聲學建模和深度學習在業(yè)務場景中的應用。博士期間的研究方向為語音識別說話人自適應,提出基于 Speaker Code 的模型域自適應方法,在語音相關的會議和期刊上發(fā)表論文十余篇。
本期公開課內容將包括但不限于:
語音識別領域的最新進展。
詳解阿里的聲學模型。
Deep CNN 的原理,相比于之前的 LSTM、RNN、CTC 模型有哪些不同和優(yōu)勢。
介紹不同單位提出的 Deep CNN 結構,如科大訊飛提出的深度全序列卷積神經網絡 DFCNN 等。
ResNet 在語音識別中的應用。
對比傳統(tǒng)語音識別開源框架(Kaldi、CMU Sphinx、Julius)與深度學習開源框架(CNTK、TensorFlow)
活動詳情
主題:解讀全新聲學模型與算法:2016 年語音識別的重大進步
嘉賓:薛少飛
時間:1 月 19 日周四晚上 20:00
形式:斗魚直播+微信群與嘉賓問答互動
地址:硬創(chuàng)公開課 斗魚直播間(房間號:788495)
本期雷鋒網硬創(chuàng)公開課將會有【斗魚直播+微信群問答】兩個環(huán)節(jié)。嘉賓直播授課分享結束后,將會在微信群與群友問答互動。
為了打造高質量且細分的讀者交流群,我們需要您提交一些基本資料作簡單審核,而本次公開課讀者群將優(yōu)先 NLP 相關從業(yè)者和學生進入。
掃描下方海報上的二維碼,進入雷鋒網人工智能垂直微信公眾號【AI 科技評論】后,可獲得詳細入群方式。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。