丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給老王
發(fā)送

0

年度盤點(diǎn)|AI 科技評(píng)論做過的語音識(shí)別公開課

本文作者: 老王 2017-01-28 11:36
導(dǎo)語:六篇公開課深度文帶你回顧 2016 年語音識(shí)別的那些事兒。

2016 年是雷鋒網(wǎng) AI 科技評(píng)論非常重要的一年,我們圍繞人工智能做了一系列的業(yè)界、學(xué)界、開發(fā)者報(bào)道,也請(qǐng)了一系列導(dǎo)師大牛過來給我們做技術(shù)解讀的公開課,在給這些導(dǎo)師大牛提供了一個(gè)絕佳展示舞臺(tái)的同時(shí),也給讀者們帶來了最深度的公開課內(nèi)容,下面是雷鋒網(wǎng) AI 科技評(píng)論年度盤點(diǎn)之語音識(shí)別篇。

從聲學(xué)模型算法總結(jié) 2016 年語音識(shí)別的重大進(jìn)步

嘉賓介紹:薛少飛,阿里巴巴 iDST 語音識(shí)別專家,中國(guó)科學(xué)技術(shù)大學(xué)博士。現(xiàn)負(fù)責(zé)阿里聲學(xué)模型研究與應(yīng)用:包括語音識(shí)別聲學(xué)建模和深度學(xué)習(xí)在業(yè)務(wù)場(chǎng)景中的應(yīng)用。博士期間的研究方向?yàn)檎Z音識(shí)別說話人自適應(yīng),提出基于 Speaker Code 的模型域自適應(yīng)方法,在語音相關(guān)的會(huì)議和期刊上發(fā)表論文十余篇。

在過去的一年中,語音識(shí)別再次取得非常大的突破。IBM、微軟等多家機(jī)構(gòu)相繼推出了自己的 Deep CNN 模型,提升了語音識(shí)別的準(zhǔn)確率;Residual/Highway 網(wǎng)絡(luò)的提出使我們可以把神經(jīng)網(wǎng)絡(luò)訓(xùn)練的更加深。

而諸如 CTC、Low Frame Rate、Chain 模型等粗粒度建模單元技術(shù)使得語音識(shí)別準(zhǔn)確率得到提升的同時(shí),解碼速度也可以大大加快。

本期雷鋒網(wǎng)硬創(chuàng)公開課特邀供職于阿里巴巴 iDST 的語音專家薛少飛博士,從學(xué)術(shù)的角度回顧過去一段時(shí)間里語音識(shí)別技術(shù)的發(fā)展?fàn)顩r。

本期雷鋒網(wǎng)硬創(chuàng)公開課的分享主要包括三大部分:

  • 深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型發(fā)展回顧:簡(jiǎn)單回顧深度神經(jīng)網(wǎng)絡(luò)技術(shù)在語音識(shí)別聲學(xué)模型中的應(yīng)用歷史;

  • 前沿聲學(xué)模型技術(shù)進(jìn)展:介紹近期幾個(gè)比較有意思的聲學(xué)模型技術(shù)進(jìn)展,包括 Deep CNN 技術(shù)、Residual/Highway 網(wǎng)絡(luò)技術(shù)和粗粒度建模單元技術(shù)。當(dāng)然這里并沒有把所有的新技術(shù)進(jìn)展都囊括進(jìn)來,比如 Attention 技術(shù)。只是以這三條線路為例看看語 音識(shí)別聲學(xué)模型技術(shù)的進(jìn)展和未來的發(fā)展趨勢(shì)。

  • 介紹紹阿里巴巴的語音識(shí)別聲學(xué)模型技術(shù)。 

詳解語音處理檢測(cè)技術(shù)中的熱點(diǎn)——端點(diǎn)檢測(cè)、降噪和壓縮

嘉賓介紹:李洪亮,畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)??拼笥嶏w資深研發(fā)工程師,長(zhǎng)期從事語音引擎和語音類云計(jì)算相關(guān)開發(fā),科大訊飛語音云的締造者之一,主導(dǎo)研發(fā)的用于訊飛語音云平臺(tái)上的語音編解碼庫(kù),日使用量超過二十億。主導(dǎo)語音類國(guó)家標(biāo)準(zhǔn)體系的建設(shè),主導(dǎo)、參與多個(gè)語音類國(guó)家標(biāo)準(zhǔn)的制定。 

他今天的分享將分為兩大部分,第一部分是端點(diǎn)檢測(cè)和降噪,第二部分是音頻壓縮。

作為一種人機(jī)交互的手段,語音的端點(diǎn)檢測(cè)在解放人類雙手方面意義重大。同時(shí),工作環(huán)境存在著各種各樣的背景噪聲,這些噪聲會(huì)嚴(yán)重降低語音的質(zhì)量從而影響語音應(yīng)用的效果,比如會(huì)降低識(shí)別率。未經(jīng)壓縮的語音數(shù)據(jù),網(wǎng)絡(luò)交互應(yīng)用中的網(wǎng)絡(luò)流量偏大,從而降低語音應(yīng)用的成功率。因此,音頻的端點(diǎn)檢測(cè)、降噪和音頻壓縮始終是終端語音處理關(guān)注的重點(diǎn),目前仍是活躍的研究主題。

為了能和您一起了解端點(diǎn)檢測(cè)和降噪的基本原理,帶您一起一窺音頻壓縮的奧秘,本次硬創(chuàng)公開課的嘉賓科大訊飛資深研發(fā)工程師李洪亮,將為我們帶來主題演講:詳解語音處理檢測(cè)技術(shù)中的熱點(diǎn)——端點(diǎn)檢測(cè)、降噪和壓縮 。

語音識(shí)別的痛點(diǎn)在哪,從交互到精準(zhǔn)識(shí)別如何做?

嘉賓介紹:趙艷軍,AIUI項(xiàng)目負(fù)責(zé)人,科大訊飛云平臺(tái)研發(fā)主管,負(fù)責(zé)訊飛開放平語音識(shí)別、語音合成、聲紋、喚醒等多項(xiàng)產(chǎn)品研發(fā),同時(shí)負(fù)責(zé)人機(jī)交互解決方案AIUI的開發(fā),致力于把核心技術(shù)更好的產(chǎn)品化,使人與機(jī)器的交流像人與人之間一樣簡(jiǎn)單,自然。

語音識(shí)別是目前應(yīng)用最成熟的人機(jī)交互方式,從最初大家體驗(yàn)過的有屏手持設(shè)備這種近場(chǎng)的語音識(shí)別,如Siri以及各種語音助手,到現(xiàn)在,語音識(shí)別的應(yīng)用已經(jīng)完成了向智能硬件以及機(jī)器人上延伸,不過,新的人機(jī)交互對(duì)硬件、算法要求更加苛刻,各企業(yè)正面臨著巨大的挑戰(zhàn)。

那么實(shí)現(xiàn)人機(jī)交互需要解決哪些問題?這其中的關(guān)鍵技術(shù)有哪些?人機(jī)交互的未來趨勢(shì)如何?本期硬創(chuàng)公開課邀請(qǐng)了科大訊飛的研發(fā)主管趙艷軍為大家答疑解惑。

語音作為目前人機(jī)交互的主要方式,大家如果使用過,應(yīng)該都能舉出一些例子。比如說話要靠近,發(fā)音要標(biāo)準(zhǔn),環(huán)境要安靜,不能持續(xù)對(duì)話,不能打斷等。

當(dāng)前的人機(jī)交互產(chǎn)品,在真正面對(duì)用戶時(shí),在面對(duì)復(fù)雜環(huán)境時(shí),魯棒性還不夠好。今天的分享,我們一起探討如何解決這些問題,不管是通過算法,還是工程,抑或產(chǎn)品,都是我們可以選擇的途徑。

大家首先要有個(gè)共識(shí),人機(jī)交互目前所面臨的問題,不是一朝一夕,一蹴而就能解決的,需要在各個(gè)方向在核心技術(shù)上不斷進(jìn)步。

AI 浪潮下,語音識(shí)別建模技術(shù)的演進(jìn)

嘉賓介紹:陳偉,搜狗公司桌面事業(yè)部專家研究員,語音交互中心語音技術(shù)部負(fù)責(zé)人,負(fù)責(zé)搜狗語音識(shí)別、語音合成、音樂檢索、聲紋識(shí)別、手寫識(shí)別等多項(xiàng)技術(shù)的研發(fā)工作,同時(shí)負(fù)責(zé)搜狗知音引擎語音技術(shù)的研發(fā),致力于通過技術(shù)和產(chǎn)品的創(chuàng)新提升語音交互品質(zhì),為用戶提供優(yōu)質(zhì)的語音使用體驗(yàn)。

語音識(shí)別建模對(duì)語音識(shí)別來說是不可或缺的一部分,因?yàn)椴煌慕<夹g(shù)通常意味著不同的識(shí)別性能,所以這是各個(gè)語音識(shí)別團(tuán)隊(duì)重點(diǎn)優(yōu)化的方向。也正是因?yàn)槿绱耍Z音識(shí)別的模型也層出不窮,其中語言模型包括了N-gram、RNNLM等,在聲學(xué)模型里面又涵蓋了HMM、DNN、RNN等模型...

簡(jiǎn)單來說,聲學(xué)模型的任務(wù)就是描述語音的物理變化規(guī)律,而語言模型則表達(dá)了自然語言包含的語言學(xué)知識(shí)。本期硬創(chuàng)公開課邀請(qǐng)到了搜狗語音交互中心語音技術(shù)部負(fù)責(zé)人陳偉來為大家分享伴隨著本輪人工智能浪潮下語音識(shí)別建模技術(shù)的演進(jìn),希望能夠幫大家理清主流的識(shí)別建模脈絡(luò)以及背后的思考。

老羅推薦的訊飛語音,有這些 know-how 

嘉賓介紹:翟吉博,訊飛輸入法產(chǎn)品總監(jiān)。2009年以碼農(nóng)的身份加入科大訊飛,2010年創(chuàng)建訊飛輸入法并擔(dān)任產(chǎn)品總監(jiān)至今,參與了訊飛輸入法從0發(fā)展到4億用戶的全過程,曾經(jīng)3天時(shí)間就寫出了訊飛輸入法的Demo,目前訊飛輸入法月活躍用戶超過1億。

據(jù)說,看了錘子手機(jī)發(fā)布會(huì)的人,印象最深的就是老羅演示訊飛語音輸入那一段(從視頻的第100分鐘開始)。很多人表示自己受到了深深的震撼。但“震撼”之余,我們也應(yīng)該冷靜下來,清醒地認(rèn)識(shí)到語音輸入的春天,在科技史上已經(jīng)來過 N 次了。究竟是什么,讓2016年的語音輸入變得不一樣,讓訊飛的語音輸入變得不一樣?

為了解答這個(gè)問題,雷鋒網(wǎng)請(qǐng)來了訊飛輸入法產(chǎn)品總監(jiān),或者用時(shí)髦的說法“訊飛輸入法之父”,為大家解解饞。

聲紋識(shí)別技術(shù)的現(xiàn)狀、局限與趨勢(shì)

嘉賓介紹:陳孝良,博士,聲智科技創(chuàng)始人,曾任中科院聲學(xué)所副研究員和信息化辦公室主任,中科院上海高等研究院客座,北京市公安局首屆網(wǎng)絡(luò)應(yīng)急專家,主要從事聲學(xué)信號(hào)處理和 GPU 深度學(xué)習(xí)算法研究工作。

現(xiàn)在的大部分研究都是有關(guān)動(dòng)態(tài)實(shí)時(shí)檢測(cè)方面的,動(dòng)態(tài)檢測(cè)的方法自然要利用靜態(tài)檢測(cè)的各種原理方法,同時(shí)也需要增加其他很多算法, 比如VAD、降噪、去混響等。VAD的目的是檢測(cè)是不是人的聲音,降噪和去混響是排除環(huán)境干擾,這不僅對(duì)于聲紋檢測(cè)很中重要,對(duì)于語音識(shí)別更加重要。    

VAD常用兩個(gè)方法,基于能量檢測(cè)和LTSD(Long-Term Spectral Divergence),當(dāng)前用的較多是LTSD,另外特征提取方面還需要:動(dòng)態(tài)時(shí)間規(guī)整 (DTW)、矢量量化 (VQ)、支持向量機(jī) (SVM),模型方面則需要隱馬爾可夫模型 (HMM)和高斯混合模型 (GMM)。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

年度盤點(diǎn)|AI 科技評(píng)論做過的語音識(shí)別公開課

分享:
相關(guān)文章

編輯

微信 wangyafeng123456
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說