0
本文作者: 楊鯉萍 | 2020-02-24 18:27 |
雷鋒網(wǎng) AI 源創(chuàng)評論按:此前,AI 研習(xí)社(https://god.yanxishe.com )陸續(xù)推出了醫(yī)療、美食、安全等多個(gè)領(lǐng)域的圖像識別挑戰(zhàn)賽以及 NLP 方向的挑戰(zhàn)賽 30 余場。在這過程中,各位 AI 大神在各個(gè)挑戰(zhàn)賽中不僅進(jìn)一步提升了自己的編程實(shí)力,也為更多開發(fā)者留下了令人印象深刻、受益匪淺的作品。
據(jù)一些大神選手反饋,可以肯定的是比賽主題選取都很新穎且有實(shí)際意義,只是現(xiàn)在的他們已經(jīng)不再滿足于初級難度的挑戰(zhàn)啦,并詢問我們是否能夠推出難度更高的比賽呢?
當(dāng)然沒問題!這不,難度再次升級的「50 種環(huán)境聲音分類」的語音識別挑戰(zhàn)賽,來了!
在目前大多數(shù)語音識別應(yīng)用中,深度學(xué)習(xí)是較為常見的一種方法。它通過模仿人腦結(jié)構(gòu),建立起了一個(gè)深層神經(jīng)網(wǎng)絡(luò);通過輸入層輸入數(shù)據(jù),由低到高逐層提取特征,建立起低級特征到高級語義之間復(fù)雜的映射關(guān)系。
從而實(shí)現(xiàn)對輸入的復(fù)雜數(shù)據(jù)的高效處理,使機(jī)器可以像人一樣智能地學(xué)習(xí)不同的知識,并且有效地解決多類復(fù)雜的智能問題;例如:語音識別、圖像視頻識別、語言處理和信息檢索等領(lǐng)域。
根據(jù)深層神經(jīng)網(wǎng)絡(luò)的構(gòu)造方式、訓(xùn)練方法等因素,我們將深度學(xué)習(xí)分為了 3 大類別:生成深層結(jié)構(gòu)、判別深層結(jié)構(gòu)以及混合深層結(jié)構(gòu)。
深度學(xué)習(xí)與語音識別
一、生成深層結(jié)構(gòu)
美國哲學(xué)家喬姆斯基將語言的結(jié)構(gòu)分為「深層結(jié)構(gòu)」和「表層結(jié)構(gòu)」兩種結(jié)構(gòu)。語言按一定的短語規(guī)則和句子規(guī)則生成深層結(jié)構(gòu) (語義介入),而深層結(jié)構(gòu)經(jīng)轉(zhuǎn)換規(guī)則處理后變成表層結(jié)構(gòu) (語音介入),于是轉(zhuǎn)換為了人類看得見聽得懂的話語。
而生成深層結(jié)構(gòu)則是使得機(jī)器能夠通過學(xué)習(xí)觀測數(shù)據(jù)高階相關(guān)性,或觀測數(shù)據(jù)和關(guān)聯(lián)類別之間的統(tǒng)計(jì)特征分布來實(shí)現(xiàn)模式分類,從而轉(zhuǎn)換為機(jī)器可以識別語言的一類深層結(jié)構(gòu)。
DBN 的組成元件是受限玻爾茲曼機(jī)(RBM)
生成深層結(jié)構(gòu)的代表模型是由 Geoffrey Hinton 在 2006 年提出深度信任網(wǎng)絡(luò)(Deep Belief Networks,DBN)。它由多層神經(jīng)元構(gòu)成,通過一層一層訓(xùn)練其神經(jīng)元間的權(quán)重,可以讓整個(gè)神經(jīng)網(wǎng)絡(luò)按照最大概率來生成訓(xùn)練數(shù)據(jù)。
此外,該模型除了可以使用 DBN 識別特征、分類數(shù)據(jù)之外,它還可以被用來生成數(shù)據(jù)。
參考文獻(xiàn):
《A Fast Learning Algorithm for Deep Belief Nets 》by Geoffrey E. Hinton and Simon Osindero.
https://www.mitpressjournals.org/doi/pdfplus/10.1162/neco.2006.18.7.1527
二、判別深層結(jié)構(gòu)
判別深層結(jié)構(gòu)是通過直接學(xué)習(xí)不同類別之間的區(qū)分表達(dá)能力來實(shí)現(xiàn)模式分類的一類深層結(jié)構(gòu)。其代表模型是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)。
目前在語音識別方向,deep cnn 算是其中較為熱門的方向,這和 CNN 的三個(gè)重要的思想架構(gòu),包括:局部區(qū)域感知、權(quán)重共享、空間或時(shí)間上的采樣有著極強(qiáng)的關(guān)聯(lián)。
CNN 模型
我們知道在通常情況下,語音識別都是基于時(shí)頻分析后的語音譜完成的,而其中語音時(shí)頻譜則具有較強(qiáng)的結(jié)構(gòu)特點(diǎn)。而卷積神經(jīng)網(wǎng)絡(luò)恰好提供了在時(shí)間和空間上的平移不變性卷積,將這一思想應(yīng)用到語音識別的聲學(xué)建模中,則可以很好的克服語音信號本身的多樣性。
從這一角度來看,CNN 可以視為將整個(gè)語音信號分析得到的時(shí)頻譜,當(dāng)作一張圖像來處理,然后再采用圖像中廣泛應(yīng)用的深層卷積網(wǎng)絡(luò)對其進(jìn)行識別。
參考文獻(xiàn):
《ImageNet Classification with Deep Convolutional Neural Networks》by Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton.
http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
三、混合深層結(jié)構(gòu)
混合深層結(jié)構(gòu)是將上述生成深層模型和判別生成模式相結(jié)合而成的一類深層結(jié)構(gòu)。在大部分混合深層模型訓(xùn)練中,生成單元首先將模型參數(shù)初始化為近似最優(yōu)解,再使用判別單元全局微調(diào),從而解決高度復(fù)雜問題的建模與推廣問題。
例如:使用連續(xù)受限玻爾茲曼機(jī)(continuous restricted Boltzmann machine,CRBM)代替 RBM 對連續(xù)數(shù)據(jù)建模;將傳統(tǒng) CNN 與貪心逐層無監(jiān)督學(xué)習(xí)算法結(jié)合從而提高有標(biāo)簽數(shù)據(jù)稀少時(shí)特征提取器的訓(xùn)練性能;用預(yù)訓(xùn)練算法(CD 算法)提高 RBM 的訓(xùn)練效率;或是采用全局優(yōu)化算法解決深層神經(jīng)網(wǎng)絡(luò)模型中收斂速度慢、易于過擬合等問題。
這一結(jié)構(gòu)往往更加復(fù)雜,但最終取得的效果也更佳。曾有一些研究者在遷移學(xué)習(xí)的基礎(chǔ)上,將深度學(xué)習(xí)和機(jī)械學(xué)習(xí)相結(jié)合、并可在前端嵌入式實(shí)現(xiàn)的算法,使得最終環(huán)境聲音識別準(zhǔn)確率達(dá)到 88%(比此前全球最佳算法提高了近 2 個(gè)百分點(diǎn))。
混合深層結(jié)構(gòu)語音識別結(jié)果對比
在語音識別中,通常我們根據(jù)不同識別側(cè)重點(diǎn),將任務(wù)細(xì)化為不同類別,如:音樂流派識別、說話者識別、說話者性別分類、語音種類分類等,從而提高語音識別的準(zhǔn)確率。
在本次 AI 研習(xí)社(https://god.yanxishe.com/ )推出的挑戰(zhàn)賽中,我們選取了語音種類分類中的「50 種環(huán)境聲音分類」主題。
圖片來源:AI 研習(xí)社
開始時(shí)間:2020-2-21 09:00:00
結(jié)束時(shí)間:2020-3-20 23:59:59
本次比賽需要選手準(zhǔn)確識別 5 種大類,共計(jì) 50 種小類的音頻,每個(gè)音頻文件時(shí)長 5 秒,格式為 wav。數(shù)據(jù)集來自 freesound.org 公開項(xiàng)目,從中手動提取,訓(xùn)練集共計(jì) 1600 個(gè),測試集 400 個(gè)。
5 大類語音分類詳情
其中數(shù)據(jù)集詳細(xì)文件格式如下所示:
文件名命名:{FOLD}-{CLIP_ID}-{TAKE}-{TARGET}.wav
{FOLD} -索引
{CLIP_ID}-原始剪輯的 ID
{TAKE} -在同一剪輯的不同片段之間進(jìn)行歧義消除的字母
{TARGET} -類別-數(shù)字格式 [0,49]
數(shù)據(jù)集下載鏈接:
最終提交結(jié)果文件如下所示,其中,第一個(gè)字段位:測試集 ID(注意 ID 即文件名是從 0 開始的);第二個(gè)字段:類別-數(shù)字 [0,49]。
Ps:結(jié)果文件建議使用 UTF-8(BOM)編碼~
(答案示例圖片使用 Notepad++打開)
整個(gè)比賽的評審?fù)耆该骰?,我們將會對比選手提交的 csv 文件,確認(rèn)正確分辨圖片數(shù)據(jù),并按照如下公式計(jì)算得分,其中:
True:模型分類正確數(shù)量
Total :測試集樣本總數(shù)量
本次大賽依舊提供了基礎(chǔ)獎(jiǎng)金池為 3000 元,共設(shè)置了三種獎(jiǎng)項(xiàng),包括:參與獎(jiǎng)(30%)、突破獎(jiǎng)(20%)、排名獎(jiǎng)(50%);以上三種獎(jiǎng)項(xiàng)均互不沖突,只要你足夠秀,全部拿走也是沒問題的!
每日 24:00,我們也會將最新結(jié)果更新在官網(wǎng)排行榜上,你可以隨時(shí)隨地查看自己的排名情況。
更多信息,可進(jìn)入?yún)①愔黜摬榭矗?br/>
雷鋒網(wǎng) AI 源創(chuàng)評論 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。