語(yǔ)音識(shí)別 AI 挑戰(zhàn)賽上線：用深度學(xué)習(xí)三種結(jié)構(gòu)，對(duì) 50 種環(huán)境聲音分類！

本文作者：楊鯉萍

2020-02-24 18:27

導(dǎo)語(yǔ)：AI 研習(xí)社最新挑戰(zhàn)賽

雷鋒網(wǎng) AI 源創(chuàng)評(píng)論按：此前，AI 研習(xí)社（https://god.yanxishe.com ）陸續(xù)推出了醫(yī)療、美食、安全等多個(gè)領(lǐng)域的圖像識(shí)別挑戰(zhàn)賽以及 NLP 方向的挑戰(zhàn)賽 30 余場(chǎng)。在這過程中，各位 AI 大神在各個(gè)挑戰(zhàn)賽中不僅進(jìn)一步提升了自己的編程實(shí)力，也為更多開發(fā)者留下了令人印象深刻、受益匪淺的作品。

據(jù)一些大神選手反饋，可以肯定的是比賽主題選取都很新穎且有實(shí)際意義，只是現(xiàn)在的他們已經(jīng)不再滿足于初級(jí)難度的挑戰(zhàn)啦，并詢問我們是否能夠推出難度更高的比賽呢？

當(dāng)然沒問題！這不，難度再次升級(jí)的「50 種環(huán)境聲音分類」的語(yǔ)音識(shí)別挑戰(zhàn)賽，來了！

語(yǔ)音識(shí)別 AI 挑戰(zhàn)賽上線：用深度學(xué)習(xí)三種結(jié)構(gòu)，對(duì) 50 種環(huán)境聲音分類！

深度學(xué)習(xí)與語(yǔ)音識(shí)別

在目前大多數(shù)語(yǔ)音識(shí)別應(yīng)用中，深度學(xué)習(xí)是較為常見的一種方法。它通過模仿人腦結(jié)構(gòu)，建立起了一個(gè)深層神經(jīng)網(wǎng)絡(luò)；通過輸入層輸入數(shù)據(jù)，由低到高逐層提取特征，建立起低級(jí)特征到高級(jí)語(yǔ)義之間復(fù)雜的映射關(guān)系。

從而實(shí)現(xiàn)對(duì)輸入的復(fù)雜數(shù)據(jù)的高效處理，使機(jī)器可以像人一樣智能地學(xué)習(xí)不同的知識(shí)，并且有效地解決多類復(fù)雜的智能問題；例如：語(yǔ)音識(shí)別、圖像視頻識(shí)別、語(yǔ)言處理和信息檢索等領(lǐng)域。

根據(jù)深層神經(jīng)網(wǎng)絡(luò)的構(gòu)造方式、訓(xùn)練方法等因素，我們將深度學(xué)習(xí)分為了 3 大類別：生成深層結(jié)構(gòu)、判別深層結(jié)構(gòu)以及混合深層結(jié)構(gòu)。

語(yǔ)音識(shí)別 AI 挑戰(zhàn)賽上線：用深度學(xué)習(xí)三種結(jié)構(gòu)，對(duì) 50 種環(huán)境聲音分類！

深度學(xué)習(xí)與語(yǔ)音識(shí)別

深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

一、生成深層結(jié)構(gòu)

美國(guó)哲學(xué)家喬姆斯基將語(yǔ)言的結(jié)構(gòu)分為「深層結(jié)構(gòu)」和「表層結(jié)構(gòu)」兩種結(jié)構(gòu)。語(yǔ)言按一定的短語(yǔ)規(guī)則和句子規(guī)則生成深層結(jié)構(gòu) (語(yǔ)義介入)，而深層結(jié)構(gòu)經(jīng)轉(zhuǎn)換規(guī)則處理后變成表層結(jié)構(gòu) (語(yǔ)音介入)，于是轉(zhuǎn)換為了人類看得見聽得懂的話語(yǔ)。

而生成深層結(jié)構(gòu)則是使得機(jī)器能夠通過學(xué)習(xí)觀測(cè)數(shù)據(jù)高階相關(guān)性，或觀測(cè)數(shù)據(jù)和關(guān)聯(lián)類別之間的統(tǒng)計(jì)特征分布來實(shí)現(xiàn)模式分類，從而轉(zhuǎn)換為機(jī)器可以識(shí)別語(yǔ)言的一類深層結(jié)構(gòu)。

語(yǔ)音識(shí)別 AI 挑戰(zhàn)賽上線：用深度學(xué)習(xí)三種結(jié)構(gòu)，對(duì) 50 種環(huán)境聲音分類！

DBN 的組成元件是受限玻爾茲曼機(jī)（RBM）

生成深層結(jié)構(gòu)的代表模型是由 Geoffrey Hinton 在 2006 年提出深度信任網(wǎng)絡(luò)（Deep Belief Networks，DBN）。它由多層神經(jīng)元構(gòu)成，通過一層一層訓(xùn)練其神經(jīng)元間的權(quán)重，可以讓整個(gè)神經(jīng)網(wǎng)絡(luò)按照最大概率來生成訓(xùn)練數(shù)據(jù)。

此外，該模型除了可以使用 DBN 識(shí)別特征、分類數(shù)據(jù)之外，它還可以被用來生成數(shù)據(jù)。

參考文獻(xiàn)：
《A Fast Learning Algorithm for Deep Belief Nets 》by Geoffrey E. Hinton and Simon Osindero.
https://www.mitpressjournals.org/doi/pdfplus/10.1162/neco.2006.18.7.1527

二、判別深層結(jié)構(gòu)

判別深層結(jié)構(gòu)是通過直接學(xué)習(xí)不同類別之間的區(qū)分表達(dá)能力來實(shí)現(xiàn)模式分類的一類深層結(jié)構(gòu)。其代表模型是卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）。

目前在語(yǔ)音識(shí)別方向，deep cnn 算是其中較為熱門的方向，這和 CNN 的三個(gè)重要的思想架構(gòu)，包括：局部區(qū)域感知、權(quán)重共享、空間或時(shí)間上的采樣有著極強(qiáng)的關(guān)聯(lián)。

語(yǔ)音識(shí)別 AI 挑戰(zhàn)賽上線：用深度學(xué)習(xí)三種結(jié)構(gòu)，對(duì) 50 種環(huán)境聲音分類！

CNN 模型

我們知道在通常情況下，語(yǔ)音識(shí)別都是基于時(shí)頻分析后的語(yǔ)音譜完成的，而其中語(yǔ)音時(shí)頻譜則具有較強(qiáng)的結(jié)構(gòu)特點(diǎn)。而卷積神經(jīng)網(wǎng)絡(luò)恰好提供了在時(shí)間和空間上的平移不變性卷積，將這一思想應(yīng)用到語(yǔ)音識(shí)別的聲學(xué)建模中，則可以很好的克服語(yǔ)音信號(hào)本身的多樣性。

從這一角度來看，CNN 可以視為將整個(gè)語(yǔ)音信號(hào)分析得到的時(shí)頻譜，當(dāng)作一張圖像來處理，然后再采用圖像中廣泛應(yīng)用的深層卷積網(wǎng)絡(luò)對(duì)其進(jìn)行識(shí)別。

參考文獻(xiàn)：
《ImageNet Classification with Deep Convolutional Neural Networks》by Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton.
http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

三、混合深層結(jié)構(gòu)

混合深層結(jié)構(gòu)是將上述生成深層模型和判別生成模式相結(jié)合而成的一類深層結(jié)構(gòu)。在大部分混合深層模型訓(xùn)練中，生成單元首先將模型參數(shù)初始化為近似最優(yōu)解，再使用判別單元全局微調(diào)，從而解決高度復(fù)雜問題的建模與推廣問題。

例如：使用連續(xù)受限玻爾茲曼機(jī)（continuous restricted Boltzmann machine，CRBM）代替 RBM 對(duì)連續(xù)數(shù)據(jù)建模；將傳統(tǒng) CNN 與貪心逐層無監(jiān)督學(xué)習(xí)算法結(jié)合從而提高有標(biāo)簽數(shù)據(jù)稀少時(shí)特征提取器的訓(xùn)練性能；用預(yù)訓(xùn)練算法（CD 算法）提高 RBM 的訓(xùn)練效率；或是采用全局優(yōu)化算法解決深層神經(jīng)網(wǎng)絡(luò)模型中收斂速度慢、易于過擬合等問題。

這一結(jié)構(gòu)往往更加復(fù)雜，但最終取得的效果也更佳。曾有一些研究者在遷移學(xué)習(xí)的基礎(chǔ)上，將深度學(xué)習(xí)和機(jī)械學(xué)習(xí)相結(jié)合、并可在前端嵌入式實(shí)現(xiàn)的算法，使得最終環(huán)境聲音識(shí)別準(zhǔn)確率達(dá)到 88％（比此前全球最佳算法提高了近 2 個(gè)百分點(diǎn)）。

語(yǔ)音識(shí)別 AI 挑戰(zhàn)賽上線：用深度學(xué)習(xí)三種結(jié)構(gòu)，對(duì) 50 種環(huán)境聲音分類！混合深層結(jié)構(gòu)語(yǔ)音識(shí)別結(jié)果對(duì)比

50 種環(huán)境聲音分類

在語(yǔ)音識(shí)別中，通常我們根據(jù)不同識(shí)別側(cè)重點(diǎn)，將任務(wù)細(xì)化為不同類別，如：音樂流派識(shí)別、說話者識(shí)別、說話者性別分類、語(yǔ)音種類分類等，從而提高語(yǔ)音識(shí)別的準(zhǔn)確率。

在本次 AI 研習(xí)社（https://god.yanxishe.com/ ）推出的挑戰(zhàn)賽中，我們選取了語(yǔ)音種類分類中的「50 種環(huán)境聲音分類」主題。

語(yǔ)音識(shí)別 AI 挑戰(zhàn)賽上線：用深度學(xué)習(xí)三種結(jié)構(gòu)，對(duì) 50 種環(huán)境聲音分類！

圖片來源：AI 研習(xí)社

開始時(shí)間：2020-2-21 09:00:00
結(jié)束時(shí)間：2020-3-20 23:59:59

本次比賽需要選手準(zhǔn)確識(shí)別 5 種大類，共計(jì) 50 種小類的音頻，每個(gè)音頻文件時(shí)長(zhǎng) 5 秒，格式為 wav。數(shù)據(jù)集來自 freesound.org 公開項(xiàng)目，從中手動(dòng)提取，訓(xùn)練集共計(jì) 1600 個(gè)，測(cè)試集 400 個(gè)。

語(yǔ)音識(shí)別 AI 挑戰(zhàn)賽上線：用深度學(xué)習(xí)三種結(jié)構(gòu)，對(duì) 50 種環(huán)境聲音分類！

5 大類語(yǔ)音分類詳情

其中數(shù)據(jù)集詳細(xì)文件格式如下所示：

文件名命名：{FOLD}-{CLIP_ID}-{TAKE}-{TARGET}.wav

{FOLD} -索引
{CLIP_ID}-原始剪輯的 ID
{TAKE} -在同一剪輯的不同片段之間進(jìn)行歧義消除的字母
{TARGET} -類別-數(shù)字格式 [0，49]

數(shù)據(jù)集下載鏈接：
https://static.leiphone.com/sound_classification_50.zip

評(píng)審標(biāo)準(zhǔn)與獎(jiǎng)金

最終提交結(jié)果文件如下所示，其中，第一個(gè)字段位：測(cè)試集 ID（注意 ID 即文件名是從 0 開始的）；第二個(gè)字段：類別-數(shù)字 [0，49]。

Ps：結(jié)果文件建議使用 UTF-8（BOM）編碼~

語(yǔ)音識(shí)別 AI 挑戰(zhàn)賽上線：用深度學(xué)習(xí)三種結(jié)構(gòu)，對(duì) 50 種環(huán)境聲音分類！

（答案示例圖片使用 Notepad++打開）

整個(gè)比賽的評(píng)審?fù)耆该骰?，我們將?huì)對(duì)比選手提交的 csv 文件，確認(rèn)正確分辨圖片數(shù)據(jù)，并按照如下公式計(jì)算得分，其中：

True：模型分類正確數(shù)量
Total ：測(cè)試集樣本總數(shù)量

語(yǔ)音識(shí)別 AI 挑戰(zhàn)賽上線：用深度學(xué)習(xí)三種結(jié)構(gòu)，對(duì) 50 種環(huán)境聲音分類！

本次大賽依舊提供了基礎(chǔ)獎(jiǎng)金池為 3000 元，共設(shè)置了三種獎(jiǎng)項(xiàng)，包括：參與獎(jiǎng)（30%）、突破獎(jiǎng)（20%）、排名獎(jiǎng)（50%）；以上三種獎(jiǎng)項(xiàng)均互不沖突，只要你足夠秀，全部拿走也是沒問題的！

語(yǔ)音識(shí)別 AI 挑戰(zhàn)賽上線：用深度學(xué)習(xí)三種結(jié)構(gòu)，對(duì) 50 種環(huán)境聲音分類！

每日 24:00，我們也會(huì)將最新結(jié)果更新在官網(wǎng)排行榜上，你可以隨時(shí)隨地查看自己的排名情況。

更多信息，可進(jìn)入?yún)①愔黜?yè)查看：
https://god.yanxishe.com/37

雷鋒網(wǎng) AI 源創(chuàng)評(píng)論雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

楊鯉萍

編輯

發(fā)私信

當(dāng)月熱門文章

語(yǔ)音識(shí)別 AI 挑戰(zhàn)賽上線：用深度學(xué)習(xí)三種結(jié)構(gòu)，對(duì) 50 種環(huán)境聲音分類！

深度學(xué)習(xí)與語(yǔ)音識(shí)別

深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

50 種環(huán)境聲音分類

評(píng)審標(biāo)準(zhǔn)與獎(jiǎng)金

語(yǔ)音識(shí)別 AI 挑戰(zhàn)賽上線：用深度學(xué)習(xí)三種結(jié)構(gòu)，對(duì) 50 種環(huán)境聲音分類！