0
2016 年是雷鋒網(wǎng) AI 科技評論非常重要的一年,我們圍繞人工智能做了一系列的業(yè)界、學界、開發(fā)者報道,也請了一系列導師大牛過來給我們做技術解讀的公開課,在給這些導師大牛提供了一個絕佳展示舞臺的同時,也給讀者們帶來了最深度的公開課內(nèi)容,下面是雷鋒網(wǎng) AI 科技評論年度盤點之語音識別篇。
從聲學模型算法總結(jié) 2016 年語音識別的重大進步
嘉賓介紹:薛少飛,阿里巴巴 iDST 語音識別專家,中國科學技術大學博士?,F(xiàn)負責阿里聲學模型研究與應用:包括語音識別聲學建模和深度學習在業(yè)務場景中的應用。博士期間的研究方向為語音識別說話人自適應,提出基于 Speaker Code 的模型域自適應方法,在語音相關的會議和期刊上發(fā)表論文十余篇。
在過去的一年中,語音識別再次取得非常大的突破。IBM、微軟等多家機構(gòu)相繼推出了自己的 Deep CNN 模型,提升了語音識別的準確率;Residual/Highway 網(wǎng)絡的提出使我們可以把神經(jīng)網(wǎng)絡訓練的更加深。
而諸如 CTC、Low Frame Rate、Chain 模型等粗粒度建模單元技術使得語音識別準確率得到提升的同時,解碼速度也可以大大加快。
本期雷鋒網(wǎng)硬創(chuàng)公開課特邀供職于阿里巴巴 iDST 的語音專家薛少飛博士,從學術的角度回顧過去一段時間里語音識別技術的發(fā)展狀況。
本期雷鋒網(wǎng)硬創(chuàng)公開課的分享主要包括三大部分:
深度神經(jīng)網(wǎng)絡聲學模型發(fā)展回顧:簡單回顧深度神經(jīng)網(wǎng)絡技術在語音識別聲學模型中的應用歷史;
前沿聲學模型技術進展:介紹近期幾個比較有意思的聲學模型技術進展,包括 Deep CNN 技術、Residual/Highway 網(wǎng)絡技術和粗粒度建模單元技術。當然這里并沒有把所有的新技術進展都囊括進來,比如 Attention 技術。只是以這三條線路為例看看語 音識別聲學模型技術的進展和未來的發(fā)展趨勢。
介紹紹阿里巴巴的語音識別聲學模型技術。
嘉賓介紹:李洪亮,畢業(yè)于中國科學技術大學??拼笥嶏w資深研發(fā)工程師,長期從事語音引擎和語音類云計算相關開發(fā),科大訊飛語音云的締造者之一,主導研發(fā)的用于訊飛語音云平臺上的語音編解碼庫,日使用量超過二十億。主導語音類國家標準體系的建設,主導、參與多個語音類國家標準的制定。
他今天的分享將分為兩大部分,第一部分是端點檢測和降噪,第二部分是音頻壓縮。
作為一種人機交互的手段,語音的端點檢測在解放人類雙手方面意義重大。同時,工作環(huán)境存在著各種各樣的背景噪聲,這些噪聲會嚴重降低語音的質(zhì)量從而影響語音應用的效果,比如會降低識別率。未經(jīng)壓縮的語音數(shù)據(jù),網(wǎng)絡交互應用中的網(wǎng)絡流量偏大,從而降低語音應用的成功率。因此,音頻的端點檢測、降噪和音頻壓縮始終是終端語音處理關注的重點,目前仍是活躍的研究主題。
為了能和您一起了解端點檢測和降噪的基本原理,帶您一起一窺音頻壓縮的奧秘,本次硬創(chuàng)公開課的嘉賓科大訊飛資深研發(fā)工程師李洪亮,將為我們帶來主題演講:詳解語音處理檢測技術中的熱點——端點檢測、降噪和壓縮 。
嘉賓介紹:趙艷軍,AIUI項目負責人,科大訊飛云平臺研發(fā)主管,負責訊飛開放平語音識別、語音合成、聲紋、喚醒等多項產(chǎn)品研發(fā),同時負責人機交互解決方案AIUI的開發(fā),致力于把核心技術更好的產(chǎn)品化,使人與機器的交流像人與人之間一樣簡單,自然。
語音識別是目前應用最成熟的人機交互方式,從最初大家體驗過的有屏手持設備這種近場的語音識別,如Siri以及各種語音助手,到現(xiàn)在,語音識別的應用已經(jīng)完成了向智能硬件以及機器人上延伸,不過,新的人機交互對硬件、算法要求更加苛刻,各企業(yè)正面臨著巨大的挑戰(zhàn)。
那么實現(xiàn)人機交互需要解決哪些問題?這其中的關鍵技術有哪些?人機交互的未來趨勢如何?本期硬創(chuàng)公開課邀請了科大訊飛的研發(fā)主管趙艷軍為大家答疑解惑。
語音作為目前人機交互的主要方式,大家如果使用過,應該都能舉出一些例子。比如說話要靠近,發(fā)音要標準,環(huán)境要安靜,不能持續(xù)對話,不能打斷等。
當前的人機交互產(chǎn)品,在真正面對用戶時,在面對復雜環(huán)境時,魯棒性還不夠好。今天的分享,我們一起探討如何解決這些問題,不管是通過算法,還是工程,抑或產(chǎn)品,都是我們可以選擇的途徑。
大家首先要有個共識,人機交互目前所面臨的問題,不是一朝一夕,一蹴而就能解決的,需要在各個方向在核心技術上不斷進步。
嘉賓介紹:陳偉,搜狗公司桌面事業(yè)部專家研究員,語音交互中心語音技術部負責人,負責搜狗語音識別、語音合成、音樂檢索、聲紋識別、手寫識別等多項技術的研發(fā)工作,同時負責搜狗知音引擎語音技術的研發(fā),致力于通過技術和產(chǎn)品的創(chuàng)新提升語音交互品質(zhì),為用戶提供優(yōu)質(zhì)的語音使用體驗。
語音識別建模對語音識別來說是不可或缺的一部分,因為不同的建模技術通常意味著不同的識別性能,所以這是各個語音識別團隊重點優(yōu)化的方向。也正是因為如此,語音識別的模型也層出不窮,其中語言模型包括了N-gram、RNNLM等,在聲學模型里面又涵蓋了HMM、DNN、RNN等模型...
簡單來說,聲學模型的任務就是描述語音的物理變化規(guī)律,而語言模型則表達了自然語言包含的語言學知識。本期硬創(chuàng)公開課邀請到了搜狗語音交互中心語音技術部負責人陳偉來為大家分享伴隨著本輪人工智能浪潮下語音識別建模技術的演進,希望能夠幫大家理清主流的識別建模脈絡以及背后的思考。
嘉賓介紹:翟吉博,訊飛輸入法產(chǎn)品總監(jiān)。2009年以碼農(nóng)的身份加入科大訊飛,2010年創(chuàng)建訊飛輸入法并擔任產(chǎn)品總監(jiān)至今,參與了訊飛輸入法從0發(fā)展到4億用戶的全過程,曾經(jīng)3天時間就寫出了訊飛輸入法的Demo,目前訊飛輸入法月活躍用戶超過1億。
據(jù)說,看了錘子手機發(fā)布會的人,印象最深的就是老羅演示訊飛語音輸入那一段(從視頻的第100分鐘開始)。很多人表示自己受到了深深的震撼。但“震撼”之余,我們也應該冷靜下來,清醒地認識到語音輸入的春天,在科技史上已經(jīng)來過 N 次了。究竟是什么,讓2016年的語音輸入變得不一樣,讓訊飛的語音輸入變得不一樣?
為了解答這個問題,雷鋒網(wǎng)請來了訊飛輸入法產(chǎn)品總監(jiān),或者用時髦的說法“訊飛輸入法之父”,為大家解解饞。
嘉賓介紹:陳孝良,博士,聲智科技創(chuàng)始人,曾任中科院聲學所副研究員和信息化辦公室主任,中科院上海高等研究院客座,北京市公安局首屆網(wǎng)絡應急專家,主要從事聲學信號處理和 GPU 深度學習算法研究工作。
現(xiàn)在的大部分研究都是有關動態(tài)實時檢測方面的,動態(tài)檢測的方法自然要利用靜態(tài)檢測的各種原理方法,同時也需要增加其他很多算法, 比如VAD、降噪、去混響等。VAD的目的是檢測是不是人的聲音,降噪和去混響是排除環(huán)境干擾,這不僅對于聲紋檢測很中重要,對于語音識別更加重要。
VAD常用兩個方法,基于能量檢測和LTSD(Long-Term Spectral Divergence),當前用的較多是LTSD,另外特征提取方面還需要:動態(tài)時間規(guī)整 (DTW)、矢量量化 (VQ)、支持向量機 (SVM),模型方面則需要隱馬爾可夫模型 (HMM)和高斯混合模型 (GMM)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。