年度盤點(diǎn)｜AI 科技評(píng)論做過的語音識(shí)別公開課

本文作者：老王

2017-01-28 11:36

導(dǎo)語：六篇公開課深度文帶你回顧 2016 年語音識(shí)別的那些事兒。

2016 年是雷鋒網(wǎng) AI 科技評(píng)論非常重要的一年，我們圍繞人工智能做了一系列的業(yè)界、學(xué)界、開發(fā)者報(bào)道，也請(qǐng)了一系列導(dǎo)師大牛過來給我們做技術(shù)解讀的公開課，在給這些導(dǎo)師大牛提供了一個(gè)絕佳展示舞臺(tái)的同時(shí)，也給讀者們帶來了最深度的公開課內(nèi)容，下面是雷鋒網(wǎng) AI 科技評(píng)論年度盤點(diǎn)之語音識(shí)別篇。

從聲學(xué)模型算法總結(jié) 2016 年語音識(shí)別的重大進(jìn)步

嘉賓介紹：薛少飛，阿里巴巴 iDST 語音識(shí)別專家，中國(guó)科學(xué)技術(shù)大學(xué)博士。現(xiàn)負(fù)責(zé)阿里聲學(xué)模型研究與應(yīng)用：包括語音識(shí)別聲學(xué)建模和深度學(xué)習(xí)在業(yè)務(wù)場(chǎng)景中的應(yīng)用。博士期間的研究方向?yàn)檎Z音識(shí)別說話人自適應(yīng)，提出基于 Speaker Code 的模型域自適應(yīng)方法，在語音相關(guān)的會(huì)議和期刊上發(fā)表論文十余篇。

在過去的一年中，語音識(shí)別再次取得非常大的突破。IBM、微軟等多家機(jī)構(gòu)相繼推出了自己的 Deep CNN 模型，提升了語音識(shí)別的準(zhǔn)確率；Residual/Highway 網(wǎng)絡(luò)的提出使我們可以把神經(jīng)網(wǎng)絡(luò)訓(xùn)練的更加深。

而諸如 CTC、Low Frame Rate、Chain 模型等粗粒度建模單元技術(shù)使得語音識(shí)別準(zhǔn)確率得到提升的同時(shí)，解碼速度也可以大大加快。

本期雷鋒網(wǎng)硬創(chuàng)公開課特邀供職于阿里巴巴 iDST 的語音專家薛少飛博士，從學(xué)術(shù)的角度回顧過去一段時(shí)間里語音識(shí)別技術(shù)的發(fā)展?fàn)顩r。

本期雷鋒網(wǎng)硬創(chuàng)公開課的分享主要包括三大部分：

深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型發(fā)展回顧：簡(jiǎn)單回顧深度神經(jīng)網(wǎng)絡(luò)技術(shù)在語音識(shí)別聲學(xué)模型中的應(yīng)用歷史；
前沿聲學(xué)模型技術(shù)進(jìn)展：介紹近期幾個(gè)比較有意思的聲學(xué)模型技術(shù)進(jìn)展，包括 Deep CNN 技術(shù)、Residual/Highway 網(wǎng)絡(luò)技術(shù)和粗粒度建模單元技術(shù)。當(dāng)然這里并沒有把所有的新技術(shù)進(jìn)展都囊括進(jìn)來，比如 Attention 技術(shù)。只是以這三條線路為例看看語音識(shí)別聲學(xué)模型技術(shù)的進(jìn)展和未來的發(fā)展趨勢(shì)。
介紹紹阿里巴巴的語音識(shí)別聲學(xué)模型技術(shù)。

詳解語音處理檢測(cè)技術(shù)中的熱點(diǎn)——端點(diǎn)檢測(cè)、降噪和壓縮

嘉賓介紹：李洪亮，畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)?？拼笥嶏w資深研發(fā)工程師，長(zhǎng)期從事語音引擎和語音類云計(jì)算相關(guān)開發(fā)，科大訊飛語音云的締造者之一，主導(dǎo)研發(fā)的用于訊飛語音云平臺(tái)上的語音編解碼庫(kù)，日使用量超過二十億。主導(dǎo)語音類國(guó)家標(biāo)準(zhǔn)體系的建設(shè)，主導(dǎo)、參與多個(gè)語音類國(guó)家標(biāo)準(zhǔn)的制定。

他今天的分享將分為兩大部分，第一部分是端點(diǎn)檢測(cè)和降噪，第二部分是音頻壓縮。

作為一種人機(jī)交互的手段，語音的端點(diǎn)檢測(cè)在解放人類雙手方面意義重大。同時(shí)，工作環(huán)境存在著各種各樣的背景噪聲，這些噪聲會(huì)嚴(yán)重降低語音的質(zhì)量從而影響語音應(yīng)用的效果，比如會(huì)降低識(shí)別率。未經(jīng)壓縮的語音數(shù)據(jù)，網(wǎng)絡(luò)交互應(yīng)用中的網(wǎng)絡(luò)流量偏大，從而降低語音應(yīng)用的成功率。因此，音頻的端點(diǎn)檢測(cè)、降噪和音頻壓縮始終是終端語音處理關(guān)注的重點(diǎn)，目前仍是活躍的研究主題。

為了能和您一起了解端點(diǎn)檢測(cè)和降噪的基本原理，帶您一起一窺音頻壓縮的奧秘，本次硬創(chuàng)公開課的嘉賓科大訊飛資深研發(fā)工程師李洪亮，將為我們帶來主題演講：詳解語音處理檢測(cè)技術(shù)中的熱點(diǎn)——端點(diǎn)檢測(cè)、降噪和壓縮。

語音識(shí)別的痛點(diǎn)在哪，從交互到精準(zhǔn)識(shí)別如何做？

嘉賓介紹：趙艷軍，AIUI項(xiàng)目負(fù)責(zé)人，科大訊飛云平臺(tái)研發(fā)主管，負(fù)責(zé)訊飛開放平語音識(shí)別、語音合成、聲紋、喚醒等多項(xiàng)產(chǎn)品研發(fā)，同時(shí)負(fù)責(zé)人機(jī)交互解決方案AIUI的開發(fā)，致力于把核心技術(shù)更好的產(chǎn)品化，使人與機(jī)器的交流像人與人之間一樣簡(jiǎn)單，自然。

語音識(shí)別是目前應(yīng)用最成熟的人機(jī)交互方式，從最初大家體驗(yàn)過的有屏手持設(shè)備這種近場(chǎng)的語音識(shí)別，如Siri以及各種語音助手，到現(xiàn)在，語音識(shí)別的應(yīng)用已經(jīng)完成了向智能硬件以及機(jī)器人上延伸，不過，新的人機(jī)交互對(duì)硬件、算法要求更加苛刻，各企業(yè)正面臨著巨大的挑戰(zhàn)。

那么實(shí)現(xiàn)人機(jī)交互需要解決哪些問題？這其中的關(guān)鍵技術(shù)有哪些？人機(jī)交互的未來趨勢(shì)如何？本期硬創(chuàng)公開課邀請(qǐng)了科大訊飛的研發(fā)主管趙艷軍為大家答疑解惑。

語音作為目前人機(jī)交互的主要方式，大家如果使用過，應(yīng)該都能舉出一些例子。比如說話要靠近，發(fā)音要標(biāo)準(zhǔn)，環(huán)境要安靜，不能持續(xù)對(duì)話，不能打斷等。

當(dāng)前的人機(jī)交互產(chǎn)品，在真正面對(duì)用戶時(shí)，在面對(duì)復(fù)雜環(huán)境時(shí)，魯棒性還不夠好。今天的分享，我們一起探討如何解決這些問題，不管是通過算法，還是工程，抑或產(chǎn)品，都是我們可以選擇的途徑。

大家首先要有個(gè)共識(shí)，人機(jī)交互目前所面臨的問題，不是一朝一夕，一蹴而就能解決的，需要在各個(gè)方向在核心技術(shù)上不斷進(jìn)步。

AI 浪潮下，語音識(shí)別建模技術(shù)的演進(jìn)

嘉賓介紹：陳偉，搜狗公司桌面事業(yè)部專家研究員，語音交互中心語音技術(shù)部負(fù)責(zé)人，負(fù)責(zé)搜狗語音識(shí)別、語音合成、音樂檢索、聲紋識(shí)別、手寫識(shí)別等多項(xiàng)技術(shù)的研發(fā)工作，同時(shí)負(fù)責(zé)搜狗知音引擎語音技術(shù)的研發(fā)，致力于通過技術(shù)和產(chǎn)品的創(chuàng)新提升語音交互品質(zhì)，為用戶提供優(yōu)質(zhì)的語音使用體驗(yàn)。

語音識(shí)別建模對(duì)語音識(shí)別來說是不可或缺的一部分，因?yàn)椴煌慕＜夹g(shù)通常意味著不同的識(shí)別性能，所以這是各個(gè)語音識(shí)別團(tuán)隊(duì)重點(diǎn)優(yōu)化的方向。也正是因?yàn)槿绱耍Z音識(shí)別的模型也層出不窮，其中語言模型包括了N-gram、RNNLM等，在聲學(xué)模型里面又涵蓋了HMM、DNN、RNN等模型...

簡(jiǎn)單來說，聲學(xué)模型的任務(wù)就是描述語音的物理變化規(guī)律，而語言模型則表達(dá)了自然語言包含的語言學(xué)知識(shí)。本期硬創(chuàng)公開課邀請(qǐng)到了搜狗語音交互中心語音技術(shù)部負(fù)責(zé)人陳偉來為大家分享伴隨著本輪人工智能浪潮下語音識(shí)別建模技術(shù)的演進(jìn)，希望能夠幫大家理清主流的識(shí)別建模脈絡(luò)以及背后的思考。

老羅推薦的訊飛語音，有這些 know-how

嘉賓介紹：翟吉博，訊飛輸入法產(chǎn)品總監(jiān)。2009年以碼農(nóng)的身份加入科大訊飛，2010年創(chuàng)建訊飛輸入法并擔(dān)任產(chǎn)品總監(jiān)至今，參與了訊飛輸入法從0發(fā)展到4億用戶的全過程，曾經(jīng)3天時(shí)間就寫出了訊飛輸入法的Demo，目前訊飛輸入法月活躍用戶超過1億。

據(jù)說，看了錘子手機(jī)發(fā)布會(huì)的人，印象最深的就是老羅演示訊飛語音輸入那一段（從視頻的第100分鐘開始）。很多人表示自己受到了深深的震撼。但“震撼”之余，我們也應(yīng)該冷靜下來，清醒地認(rèn)識(shí)到語音輸入的春天，在科技史上已經(jīng)來過 N 次了。究竟是什么，讓2016年的語音輸入變得不一樣，讓訊飛的語音輸入變得不一樣？

為了解答這個(gè)問題，雷鋒網(wǎng)請(qǐng)來了訊飛輸入法產(chǎn)品總監(jiān)，或者用時(shí)髦的說法“訊飛輸入法之父”，為大家解解饞。

聲紋識(shí)別技術(shù)的現(xiàn)狀、局限與趨勢(shì)

嘉賓介紹：陳孝良，博士，聲智科技創(chuàng)始人，曾任中科院聲學(xué)所副研究員和信息化辦公室主任，中科院上海高等研究院客座，北京市公安局首屆網(wǎng)絡(luò)應(yīng)急專家，主要從事聲學(xué)信號(hào)處理和 GPU 深度學(xué)習(xí)算法研究工作。

現(xiàn)在的大部分研究都是有關(guān)動(dòng)態(tài)實(shí)時(shí)檢測(cè)方面的，動(dòng)態(tài)檢測(cè)的方法自然要利用靜態(tài)檢測(cè)的各種原理方法，同時(shí)也需要增加其他很多算法，比如VAD、降噪、去混響等。VAD的目的是檢測(cè)是不是人的聲音，降噪和去混響是排除環(huán)境干擾，這不僅對(duì)于聲紋檢測(cè)很中重要，對(duì)于語音識(shí)別更加重要。

VAD常用兩個(gè)方法，基于能量檢測(cè)和LTSD（Long-Term Spectral Divergence)，當(dāng)前用的較多是LTSD，另外特征提取方面還需要：動(dòng)態(tài)時(shí)間規(guī)整 (DTW)、矢量量化 (VQ)、支持向量機(jī) (SVM)，模型方面則需要隱馬爾可夫模型 (HMM)和高斯混合模型 (GMM)。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

5人收藏

相關(guān)文章

老王

編輯

微信 wangyafeng123456

發(fā)私信

當(dāng)月熱門文章