丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

0

谷歌用新的語音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語音識(shí)別準(zhǔn)確率

本文作者: 楊曉凡 2019-04-24 10:52
導(dǎo)語:別老盯著模型,也可以對(duì)數(shù)據(jù)下下功夫

雷鋒網(wǎng) AI 科技評(píng)論按:把一段輸入音頻轉(zhuǎn)換為一段文本的任務(wù)「自動(dòng)語音識(shí)別(ASR)」,是深度神經(jīng)網(wǎng)絡(luò)的流行帶來了極大變革的人工智能任務(wù)之一。如今常用的手機(jī)語音輸入、YouTube 自動(dòng)字幕生成、智能家電的語音控制都受益于自動(dòng)語音識(shí)別技術(shù)的發(fā)展。不過,開發(fā)基于深度學(xué)習(xí)的語音識(shí)別系統(tǒng)還不是一個(gè)已經(jīng)完善解決的問題,其中一方面的難點(diǎn)在于,含有大量參數(shù)的語音識(shí)別系統(tǒng)很容易過擬合到訓(xùn)練數(shù)據(jù)上,當(dāng)訓(xùn)練不夠充分時(shí)就無法很好地泛化到從未見過的數(shù)據(jù)。

谷歌用新的語音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語音識(shí)別準(zhǔn)確率

當(dāng)對(duì)于圖像分類任務(wù),當(dāng)訓(xùn)練數(shù)據(jù)的數(shù)量不足的時(shí)候我們可以使用各種數(shù)據(jù)擴(kuò)增(data augmentation)方法生成更多數(shù)據(jù),提高網(wǎng)絡(luò)的表現(xiàn)。但是在自動(dòng)語音識(shí)別任務(wù)中情況有所不同,傳統(tǒng)的數(shù)據(jù)擴(kuò)增方法一般是對(duì)音頻波形做一些變形(比如加速、減速),或者增加背景噪聲,都可以生成新的訓(xùn)練數(shù)據(jù),起到把訓(xùn)練數(shù)據(jù)集變大的效果,幫助網(wǎng)絡(luò)更好地學(xué)習(xí)到有用的特征。不過,現(xiàn)有的傳統(tǒng)音頻數(shù)據(jù)擴(kuò)增方法會(huì)帶來明顯的額外計(jì)算能力開銷,有時(shí)也避免不了需要使用額外的數(shù)據(jù)。

在谷歌 AI 的近期論文《SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition》(SpecAugment:一個(gè)用于自動(dòng)語音識(shí)別的簡單數(shù)據(jù)擴(kuò)增方法,https://arxiv.org/abs/1904.08779)中,谷歌的研究人員們提出了一種擴(kuò)增音頻數(shù)據(jù)的新方法,主要思路是把它看做是一個(gè)視覺問題而不是音頻問題。具體來說,他們?cè)?SpecAugment 不再直接使用傳統(tǒng)的數(shù)據(jù)擴(kuò)增方法,而是在音頻的光譜圖上(音頻波形的一種視覺表示)施加擴(kuò)增策略。這種方法簡單、計(jì)算力需求低,而且不需要額外的數(shù)據(jù)。它能非常有效地提高語音識(shí)別系統(tǒng)的表現(xiàn)。雷鋒網(wǎng) AI 科技評(píng)論根據(jù)谷歌技術(shù)博客介紹如下。

新的音頻數(shù)據(jù)擴(kuò)增方法 SpecAugment

對(duì)于傳統(tǒng)語音識(shí)別系統(tǒng),音頻波形在輸入網(wǎng)絡(luò)之前通常都需要編碼為某種視覺表示,比如編碼為光譜圖。而傳統(tǒng)的語音數(shù)據(jù)擴(kuò)增方法一般都是在編碼為光譜圖之前進(jìn)行的,這樣每次數(shù)據(jù)擴(kuò)增之后都要重新生成新的光譜圖。在這項(xiàng)研究中,作者們嘗試就在光譜圖上進(jìn)行數(shù)據(jù)擴(kuò)增。由于直接作用于網(wǎng)絡(luò)的輸入特征,數(shù)據(jù)擴(kuò)增過程可以在網(wǎng)絡(luò)的訓(xùn)練過程中運(yùn)行,而且不會(huì)對(duì)訓(xùn)練速度造成顯著影響。

谷歌用新的語音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語音識(shí)別準(zhǔn)確率

音頻波形(時(shí)間-振幅)關(guān)系轉(zhuǎn)化為梅爾頻譜圖(時(shí)間-梅爾頻率),然后再輸入網(wǎng)絡(luò)

SpecAugment 對(duì)光譜圖的修改方式有:沿著時(shí)間方向扭曲,遮蔽某一些頻率段的信號(hào),以及遮蔽某一些時(shí)間段的發(fā)音。作者們選擇使用的這些擴(kuò)增方式可以幫助網(wǎng)絡(luò)面對(duì)時(shí)間方向的變形、部分頻率信號(hào)的損失以及部分時(shí)間段的信號(hào)缺失時(shí)更加魯棒。這些擴(kuò)增策略的示意圖如下。

谷歌用新的語音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語音識(shí)別準(zhǔn)確率

圖中的梅爾頻譜圖經(jīng)過了時(shí)間方向扭曲、多個(gè)頻率段信號(hào)遮蔽(橫條)以及多個(gè)時(shí)間段遮蔽(縱向條)。圖中的遮蔽程度有所夸張。

作者們?cè)?nbsp;LibriSpeech 數(shù)據(jù)集上用實(shí)驗(yàn)測試了 SpecAugment 的效果。他們選取了三個(gè)語音識(shí)別常用的端到端 LAS 模型,對(duì)比使用數(shù)據(jù)擴(kuò)增和不使用數(shù)據(jù)擴(kuò)增的網(wǎng)絡(luò)表現(xiàn)。自動(dòng)語音識(shí)別模型表現(xiàn)的測量指標(biāo)是單詞錯(cuò)誤率(WER),用模型輸出的轉(zhuǎn)錄文本和標(biāo)準(zhǔn)文本對(duì)比得到。在下面的對(duì)比試驗(yàn)中,訓(xùn)練模型使用的超參數(shù)不變、每組對(duì)比中模型的參數(shù)數(shù)量也保持固定,只有訓(xùn)練模型用的數(shù)據(jù)有區(qū)別(使用以及不使用數(shù)據(jù)擴(kuò)增)。試驗(yàn)結(jié)果表明,SpecAugment 不需要任何額外的調(diào)節(jié)就可以提高網(wǎng)絡(luò)的表現(xiàn)。

谷歌用新的語音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語音識(shí)別準(zhǔn)確率

在 LibriSpeech 數(shù)據(jù)集上的測試中,每組測試中經(jīng)過數(shù)據(jù)增強(qiáng)(藍(lán)色條)都取得了更低的單詞錯(cuò)誤率。Test-other 數(shù)據(jù)集含有噪聲,Test-clean 數(shù)據(jù)集不含有噪聲

更重要的是,由于 SpecAugment 擴(kuò)增后的數(shù)據(jù)里有故意損壞的部分,這避免了模型過擬合到訓(xùn)練數(shù)據(jù)上。作者們進(jìn)行了對(duì)比試驗(yàn)如下,未使用數(shù)據(jù)擴(kuò)增的模型(棕黃色線)在訓(xùn)練數(shù)據(jù)集上取得了極低的單詞錯(cuò)誤率,但是在 Dev-other(有噪聲測試集)和 Dev-clean(無噪聲數(shù)據(jù)集)上的表現(xiàn)就要差很多;使用了數(shù)據(jù)擴(kuò)增的模型(藍(lán)色線)則正相反,在訓(xùn)練數(shù)據(jù)集上的單詞錯(cuò)誤率較高,然后在 Dev-other 和 Dev-clean 上都取得了優(yōu)秀的表現(xiàn),甚至在 Dev-clean 上的錯(cuò)誤率還要低于訓(xùn)練數(shù)據(jù)集上的錯(cuò)誤率;這表明 SpecAugment 數(shù)據(jù)擴(kuò)增方法不僅提高了網(wǎng)絡(luò)表現(xiàn),還有效防止了過擬合的發(fā)生。

谷歌用新的語音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語音識(shí)別準(zhǔn)確率

借助 SpecAugment 取得前所未有的模型表現(xiàn)

由于 SpecAugment 可以帶來沒有過擬合的表現(xiàn)提升,研究人員們甚至可以嘗試使用更大容量的網(wǎng)絡(luò),得到表現(xiàn)更好的模型。論文作者們進(jìn)行了實(shí)驗(yàn),在使用 SpecAugment 的同時(shí),使用參數(shù)更多的模型、更長的訓(xùn)練時(shí)間,他們分別在 LibriSpeech 960h 和 Switchboard 300h 兩個(gè)數(shù)據(jù)集上都大幅刷新了此前的最佳表現(xiàn)記錄(SOTA)。

谷歌用新的語音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語音識(shí)別準(zhǔn)確率

作者們也為這種方法的出色表現(xiàn)感到驚訝,甚至于,以往在 LibriSpeech和 Switchboard 這樣較小的數(shù)據(jù)集上有優(yōu)勢(shì)的傳統(tǒng)語音識(shí)別模型也不再領(lǐng)先。

谷歌用新的語音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語音識(shí)別準(zhǔn)確率

借助語言模型再上一層樓?甚至都不需要

自動(dòng)語音識(shí)別模型的表現(xiàn)還可以通過語言模型進(jìn)一步提高。在大量純文本數(shù)據(jù)上訓(xùn)練出的語言模型可以學(xué)到一些語言規(guī)律,然后用它來更正、優(yōu)化語音識(shí)別模型的輸出。不過,語言模型通常需要獨(dú)立于語音識(shí)別模型訓(xùn)練,而且模型的體積很大,很難在手機(jī)之類的小型設(shè)備上使用。

在 SpecAugment 的研究中,作者們意外發(fā)現(xiàn)借助 SpecAugment 訓(xùn)練的模型,在不使用語言模型增強(qiáng)的情況下就已經(jīng)可以擊敗之前的所有使用語言模型增強(qiáng)的模型。這不僅意味著語音識(shí)別模型+語言模型的總體表現(xiàn)也被刷新,更意味著未來語音識(shí)別模型完全可以拋棄語言模型獨(dú)立工作。

谷歌用新的語音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語音識(shí)別準(zhǔn)確率

以往的自動(dòng)語音識(shí)別系統(tǒng)研究多數(shù)都關(guān)注于找到更好的網(wǎng)絡(luò)結(jié)構(gòu),谷歌的這項(xiàng)研究也展現(xiàn)了一個(gè)被人忽略的研究方向:用更好的方法訓(xùn)練模型,也可以帶來大幅提升的網(wǎng)絡(luò)表現(xiàn)。

論文原文見:https://arxiv.org/abs/1904.08779

via ai.googleblog.com,雷鋒網(wǎng) AI 科技評(píng)論報(bào)道

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

谷歌用新的語音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語音識(shí)別準(zhǔn)確率

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說