0
本文作者: 三川 | 2017-08-25 08:14 |
谷歌的工程師們經(jīng)常被問到這么個問題:
怎么上手用深度學(xué)習(xí)做語音識別或其它音頻識別,比如關(guān)鍵詞或指令?
雖然,現(xiàn)在出現(xiàn)了些很優(yōu)秀的開源語音識別系統(tǒng),比如 Kaldi,就能把神經(jīng)網(wǎng)絡(luò)作為其中的一個模塊。但其高度復(fù)雜性,讓它們并不適合作為解決簡單任務(wù)的指南。更重要的是,對于新手而言,免費(fèi)、可公開獲取的數(shù)據(jù)集并不多,經(jīng)過預(yù)處理的、或適合于簡單的關(guān)鍵詞檢測的也很少。
為解決這些問題,谷歌的 TensorFlow 和 AIY 團(tuán)隊(duì)創(chuàng)建了 Speech Commands Dataset,即“語音命令數(shù)據(jù)集”,并基于它向 TensorFlow 添加訓(xùn)練和推理的示例代碼。
雷鋒網(wǎng)消息,谷歌在今日宣布開源該數(shù)據(jù)集。
對 30 個命令短語,該數(shù)據(jù)集有 65000 次的長約一秒鐘的發(fā)音。這來自數(shù)千個不同的人向 AIY 網(wǎng)站提交的貢獻(xiàn)。它以 Creative Commons BY 4.0 許可發(fā)布,隨著新貢獻(xiàn)的添加,該數(shù)據(jù)集在未來會不斷擴(kuò)大。
建立這個數(shù)據(jù)集的目的,是幫助大家為應(yīng)用創(chuàng)建基礎(chǔ)但有用的語音交互,比如“Yes”、“No”、數(shù)字、方向等詞語。谷歌也已經(jīng)將開發(fā)這一數(shù)據(jù)集的基礎(chǔ)設(shè)施開源,并希望看到更多人借此創(chuàng)建更多版本的數(shù)據(jù)集,尤其是針對冷門語言和應(yīng)用。
下載預(yù)建的 TensorFlow 安卓演示 APP,打開 “TF Speech”,就能體驗(yàn)谷歌基于該數(shù)據(jù)集開發(fā)的識別模型。另外,你可以通過 TensorFlow.org 的音頻識別 tutorial 學(xué)習(xí)怎么開發(fā)你自己的模型。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。