丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給楊鯉萍
發(fā)送

0

語音識別 AI 挑戰(zhàn)賽上線:用深度學(xué)習(xí)三種結(jié)構(gòu),對 50 種環(huán)境聲音分類!

本文作者: 楊鯉萍 2020-02-24 18:27
導(dǎo)語:AI 研習(xí)社最新挑戰(zhàn)賽

雷鋒網(wǎng) AI 源創(chuàng)評論按:此前,AI 研習(xí)社(https://god.yanxishe.com )陸續(xù)推出了醫(yī)療、美食、安全等多個(gè)領(lǐng)域的圖像識別挑戰(zhàn)賽以及 NLP 方向的挑戰(zhàn)賽 30 余場。在這過程中,各位 AI 大神在各個(gè)挑戰(zhàn)賽中不僅進(jìn)一步提升了自己的編程實(shí)力,也為更多開發(fā)者留下了令人印象深刻、受益匪淺的作品。

據(jù)一些大神選手反饋,可以肯定的是比賽主題選取都很新穎且有實(shí)際意義,只是現(xiàn)在的他們已經(jīng)不再滿足于初級難度的挑戰(zhàn)啦,并詢問我們是否能夠推出難度更高的比賽呢?

當(dāng)然沒問題!這不,難度再次升級的「50 種環(huán)境聲音分類」的語音識別挑戰(zhàn)賽,來了!

語音識別 AI 挑戰(zhàn)賽上線:用深度學(xué)習(xí)三種結(jié)構(gòu),對 50 種環(huán)境聲音分類!

深度學(xué)習(xí)與語音識別

在目前大多數(shù)語音識別應(yīng)用中,深度學(xué)習(xí)是較為常見的一種方法。它通過模仿人腦結(jié)構(gòu),建立起了一個(gè)深層神經(jīng)網(wǎng)絡(luò);通過輸入層輸入數(shù)據(jù),由低到高逐層提取特征,建立起低級特征到高級語義之間復(fù)雜的映射關(guān)系。

從而實(shí)現(xiàn)對輸入的復(fù)雜數(shù)據(jù)的高效處理,使機(jī)器可以像人一樣智能地學(xué)習(xí)不同的知識,并且有效地解決多類復(fù)雜的智能問題;例如:語音識別、圖像視頻識別、語言處理和信息檢索等領(lǐng)域。

根據(jù)深層神經(jīng)網(wǎng)絡(luò)的構(gòu)造方式、訓(xùn)練方法等因素,我們將深度學(xué)習(xí)分為了 3 大類別:生成深層結(jié)構(gòu)、判別深層結(jié)構(gòu)以及混合深層結(jié)構(gòu)。

語音識別 AI 挑戰(zhàn)賽上線:用深度學(xué)習(xí)三種結(jié)構(gòu),對 50 種環(huán)境聲音分類!

深度學(xué)習(xí)與語音識別

深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

一、生成深層結(jié)構(gòu)

美國哲學(xué)家喬姆斯基將語言的結(jié)構(gòu)分為「深層結(jié)構(gòu)」和「表層結(jié)構(gòu)」兩種結(jié)構(gòu)。語言按一定的短語規(guī)則和句子規(guī)則生成深層結(jié)構(gòu) (語義介入),而深層結(jié)構(gòu)經(jīng)轉(zhuǎn)換規(guī)則處理后變成表層結(jié)構(gòu) (語音介入),于是轉(zhuǎn)換為了人類看得見聽得懂的話語。

而生成深層結(jié)構(gòu)則是使得機(jī)器能夠通過學(xué)習(xí)觀測數(shù)據(jù)高階相關(guān)性,或觀測數(shù)據(jù)和關(guān)聯(lián)類別之間的統(tǒng)計(jì)特征分布來實(shí)現(xiàn)模式分類,從而轉(zhuǎn)換為機(jī)器可以識別語言的一類深層結(jié)構(gòu)。

語音識別 AI 挑戰(zhàn)賽上線:用深度學(xué)習(xí)三種結(jié)構(gòu),對 50 種環(huán)境聲音分類!

DBN 的組成元件是受限玻爾茲曼機(jī)(RBM)

生成深層結(jié)構(gòu)的代表模型是由 Geoffrey Hinton 在 2006 年提出深度信任網(wǎng)絡(luò)(Deep Belief Networks,DBN)。它由多層神經(jīng)元構(gòu)成,通過一層一層訓(xùn)練其神經(jīng)元間的權(quán)重,可以讓整個(gè)神經(jīng)網(wǎng)絡(luò)按照最大概率來生成訓(xùn)練數(shù)據(jù)。

此外,該模型除了可以使用 DBN 識別特征、分類數(shù)據(jù)之外,它還可以被用來生成數(shù)據(jù)。

參考文獻(xiàn):

《A Fast Learning Algorithm for Deep Belief Nets 》by Geoffrey E. Hinton and Simon Osindero.

https://www.mitpressjournals.org/doi/pdfplus/10.1162/neco.2006.18.7.1527 

二、判別深層結(jié)構(gòu)

判別深層結(jié)構(gòu)是通過直接學(xué)習(xí)不同類別之間的區(qū)分表達(dá)能力來實(shí)現(xiàn)模式分類的一類深層結(jié)構(gòu)。其代表模型是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)。

目前在語音識別方向,deep cnn 算是其中較為熱門的方向,這和 CNN 的三個(gè)重要的思想架構(gòu),包括:局部區(qū)域感知、權(quán)重共享、空間或時(shí)間上的采樣有著極強(qiáng)的關(guān)聯(lián)。

 語音識別 AI 挑戰(zhàn)賽上線:用深度學(xué)習(xí)三種結(jié)構(gòu),對 50 種環(huán)境聲音分類!

CNN 模型

我們知道在通常情況下,語音識別都是基于時(shí)頻分析后的語音譜完成的,而其中語音時(shí)頻譜則具有較強(qiáng)的結(jié)構(gòu)特點(diǎn)。而卷積神經(jīng)網(wǎng)絡(luò)恰好提供了在時(shí)間和空間上的平移不變性卷積,將這一思想應(yīng)用到語音識別的聲學(xué)建模中,則可以很好的克服語音信號本身的多樣性。

從這一角度來看,CNN 可以視為將整個(gè)語音信號分析得到的時(shí)頻譜,當(dāng)作一張圖像來處理,然后再采用圖像中廣泛應(yīng)用的深層卷積網(wǎng)絡(luò)對其進(jìn)行識別。

參考文獻(xiàn):

《ImageNet Classification with Deep Convolutional Neural Networks》by Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton.

http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf 

三、混合深層結(jié)構(gòu)

混合深層結(jié)構(gòu)是將上述生成深層模型和判別生成模式相結(jié)合而成的一類深層結(jié)構(gòu)。在大部分混合深層模型訓(xùn)練中,生成單元首先將模型參數(shù)初始化為近似最優(yōu)解,再使用判別單元全局微調(diào),從而解決高度復(fù)雜問題的建模與推廣問題。

例如:使用連續(xù)受限玻爾茲曼機(jī)(continuous restricted Boltzmann machine,CRBM)代替 RBM 對連續(xù)數(shù)據(jù)建模;將傳統(tǒng) CNN 與貪心逐層無監(jiān)督學(xué)習(xí)算法結(jié)合從而提高有標(biāo)簽數(shù)據(jù)稀少時(shí)特征提取器的訓(xùn)練性能;用預(yù)訓(xùn)練算法(CD 算法)提高 RBM 的訓(xùn)練效率;或是采用全局優(yōu)化算法解決深層神經(jīng)網(wǎng)絡(luò)模型中收斂速度慢、易于過擬合等問題。

這一結(jié)構(gòu)往往更加復(fù)雜,但最終取得的效果也更佳。曾有一些研究者在遷移學(xué)習(xí)的基礎(chǔ)上,將深度學(xué)習(xí)和機(jī)械學(xué)習(xí)相結(jié)合、并可在前端嵌入式實(shí)現(xiàn)的算法,使得最終環(huán)境聲音識別準(zhǔn)確率達(dá)到 88%(比此前全球最佳算法提高了近 2 個(gè)百分點(diǎn))。

語音識別 AI 挑戰(zhàn)賽上線:用深度學(xué)習(xí)三種結(jié)構(gòu),對 50 種環(huán)境聲音分類!混合深層結(jié)構(gòu)語音識別結(jié)果對比

50 種環(huán)境聲音分類

在語音識別中,通常我們根據(jù)不同識別側(cè)重點(diǎn),將任務(wù)細(xì)化為不同類別,如:音樂流派識別、說話者識別、說話者性別分類、語音種類分類等,從而提高語音識別的準(zhǔn)確率。

在本次 AI 研習(xí)社(https://god.yanxishe.com/ )推出的挑戰(zhàn)賽中,我們選取了語音種類分類中的「50 種環(huán)境聲音分類」主題。

語音識別 AI 挑戰(zhàn)賽上線:用深度學(xué)習(xí)三種結(jié)構(gòu),對 50 種環(huán)境聲音分類!

圖片來源:AI 研習(xí)社

開始時(shí)間:2020-2-21 09:00:00

結(jié)束時(shí)間:2020-3-20 23:59:59

本次比賽需要選手準(zhǔn)確識別 5 種大類,共計(jì) 50 種小類的音頻,每個(gè)音頻文件時(shí)長 5 秒,格式為 wav。數(shù)據(jù)集來自 freesound.org 公開項(xiàng)目,從中手動提取,訓(xùn)練集共計(jì) 1600 個(gè),測試集 400 個(gè)。

語音識別 AI 挑戰(zhàn)賽上線:用深度學(xué)習(xí)三種結(jié)構(gòu),對 50 種環(huán)境聲音分類!

5 大類語音分類詳情

其中數(shù)據(jù)集詳細(xì)文件格式如下所示:

文件名命名:{FOLD}-{CLIP_ID}-{TAKE}-{TARGET}.wav

  • {FOLD} -索引

  • {CLIP_ID}-原始剪輯的 ID

  • {TAKE} -在同一剪輯的不同片段之間進(jìn)行歧義消除的字母

  • {TARGET} -類別-數(shù)字格式 [0,49]

數(shù)據(jù)集下載鏈接:

https://static.leiphone.com/sound_classification_50.zip

評審標(biāo)準(zhǔn)與獎(jiǎng)金

最終提交結(jié)果文件如下所示,其中,第一個(gè)字段位:測試集 ID(注意 ID 即文件名是從 0 開始的);第二個(gè)字段:類別-數(shù)字 [0,49]。

Ps:結(jié)果文件建議使用 UTF-8(BOM)編碼~

語音識別 AI 挑戰(zhàn)賽上線:用深度學(xué)習(xí)三種結(jié)構(gòu),對 50 種環(huán)境聲音分類!

(答案示例圖片使用 Notepad++打開)

整個(gè)比賽的評審?fù)耆该骰?,我們將會對比選手提交的 csv 文件,確認(rèn)正確分辨圖片數(shù)據(jù),并按照如下公式計(jì)算得分,其中:

  • True:模型分類正確數(shù)量

  • Total :測試集樣本總數(shù)量

語音識別 AI 挑戰(zhàn)賽上線:用深度學(xué)習(xí)三種結(jié)構(gòu),對 50 種環(huán)境聲音分類!

本次大賽依舊提供了基礎(chǔ)獎(jiǎng)金池為 3000 元,共設(shè)置了三種獎(jiǎng)項(xiàng),包括:參與獎(jiǎng)(30%)、突破獎(jiǎng)(20%)、排名獎(jiǎng)(50%);以上三種獎(jiǎng)項(xiàng)均互不沖突,只要你足夠秀,全部拿走也是沒問題的!

語音識別 AI 挑戰(zhàn)賽上線:用深度學(xué)習(xí)三種結(jié)構(gòu),對 50 種環(huán)境聲音分類!

每日 24:00,我們也會將最新結(jié)果更新在官網(wǎng)排行榜上,你可以隨時(shí)隨地查看自己的排名情況。

更多信息,可進(jìn)入?yún)①愔黜摬榭矗?br/>

https://god.yanxishe.com/37 

雷鋒網(wǎng) AI 源創(chuàng)評論 雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

語音識別 AI 挑戰(zhàn)賽上線:用深度學(xué)習(xí)三種結(jié)構(gòu),對 50 種環(huán)境聲音分類!

分享:
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說