百度發(fā)布Deep Speaker：大規(guī)模聲紋識別的端對端系統(tǒng)

本文作者：彭鵬

編輯：郭奕欣

2017-05-11 17:53

導語：日前，百度美研院宣布了其在聲紋識別上所取得的突破性成果。研究表明：利用深度學習的方法比傳統(tǒng)的i-vector方法在識別準確率上獲得了顯著的提高。

雷鋒網(wǎng)按：此前雷鋒網(wǎng)曾經(jīng)報道過百度在語音技術上的進展。日前，百度美研院宣布了其在聲紋識別上所取得的突破性成果。研究表明：利用深度學習的方法比傳統(tǒng)的i-vector方法在識別準確率上獲得了顯著的提高。

聲紋識別算法尋求從音頻中識別說話者的身份。兩個常見的識別任務是確認（說話者是不是他宣稱的那個人）和說話者身份識別（在一群未知的說話者中確認聲音的來源）。

該項技術已經(jīng)有了各種應用。例如，聲紋可以用來登錄設備。說話者確認也可以作為金融交易的額外安全措施。此外，類似于智能家居助手之類的共享設備也可以利用這項技術來提供個性化的服務。

最近使用神經(jīng)網(wǎng)絡來進行聲紋識別的論文已經(jīng)改進了傳統(tǒng)的i-vector方法（參考Interspeech教程的原始論文或者幻燈片）。i-vector方法認為說話內(nèi)容可以被分為兩個部分，一個部分依賴于說話者和信道可變性，另一個部分依賴于其它的相關因素。i-vector聲紋識別是一個多步過程，其涉及到使用不同說話者的數(shù)據(jù)來估計一個通用的背景模型（通常是高斯混合模型），收集充分的統(tǒng)計數(shù)據(jù)，提取i-vector，最后使用一個分類器來進行識別任務。

一些論文用神經(jīng)網(wǎng)絡代替了i-vector流水線的方法。其它研究者要么訓練了一個文本相關（使用者必須說同樣的話）的端對端語者識別系統(tǒng)，要么訓練了文本獨立（這個模型與說話內(nèi)容不相關）的端對端語者識別系統(tǒng)。我們介紹Deep Speaker：一個端對端的神經(jīng)聲紋識別系統(tǒng)，它在文本相關和文本獨立的場景下都取得了良好的效果。這意味這個系統(tǒng)可以被訓練來識別誰在說話，無論是當你對你的家庭助手說“wake”或者你在會議中發(fā)言。

Deep Speaker由深度神經(jīng)網(wǎng)絡層組成，從音頻中提取特征，基于余弦相似性的時間池和三元組損失（triplet loss）。百度美研院探究了ResNet激活的卷積模型和現(xiàn)有模型在提取聲學特征上的效果。

百度發(fā)布Deep Speaker：大規(guī)模聲紋識別的端對端系統(tǒng)

說明：在這里百度美研院使用了人臉識別中采用的三元組損失。在訓練過程中，他們選擇了一個說話者的話語，然后計算一個嵌入（標記為“Anchor”）。再產(chǎn)生兩個嵌入，一個來自相同的演講者（標記為“Positive”），一個來自于不同的演講者（標記為“Negative”）。在訓練過程中，其目標是讓Anchor與positive嵌入之間的余弦相似度高于Anchor與negative嵌入之間的余弦相似度。

百度美研院展示了Deep Speaker在三個不同數(shù)據(jù)集上的有效性，包括文本相關和文本獨立的任務。其中之一的UIDs數(shù)據(jù)集包括大約250000名說話者，是知識文獻中最大的數(shù)據(jù)集。實驗結(jié)果表明：Deep Speaker要明顯優(yōu)于基于DNN 的i-vector方法。例如，在一個文本獨立的數(shù)據(jù)集中隨機挑選出100個演講者，Deep Speaker在說話者身份確認任務上的錯誤率是1.83%，正確率是92.58%。相比于基于DNN 的i-vector方法，它降低了50%的錯誤率，提高了60%的正確率。

百度發(fā)布Deep Speaker：大規(guī)模聲紋識別的端對端系統(tǒng)

說明：在實驗中百度美研院所使用的數(shù)據(jù)集是 UIDs，XiaoDu，和Mandarin。UIDs和XiaoDu是普通話數(shù)據(jù)集，Mturk是英語數(shù)據(jù)集。UIDs和Mturk是文本獨立的數(shù)據(jù)集，XiaoDu是文本相關的數(shù)據(jù)集，其基于百度的喚醒字（wake word）。為了在不同大小的訓練集上做實驗，他們用了全部的UIDs數(shù)據(jù)集（250,000）和它的一個子集（50,000）。在評估階段，他們選擇了一個Anchor，然后再從測試部分隨機地選擇1個Anchor positive樣本和99個Anchor negatives樣本。

團隊還發(fā)現(xiàn)Deep Speaker學習到了與語言無關的特征。當在普通話語境下訓練時，Deep Speaker卻能在英文確認和識別的任務上達到5.57%的錯誤率和88%的正確率。此外，先用普通話再用英文訓練可相比于只用英文訓練，提高了英文識別的準確率。這些結(jié)果都顯示出盡管不同的語言聽起來非常不同,深度語者卻學習到了跨語言的聲音特征。這些結(jié)果與Deep Speech 2的結(jié)果類似，同樣的架構(gòu)都可以用來辨認不同語言的聲紋識別。

關于Deep Speaker模型的更多細節(jié)，訓練技巧和實驗結(jié)果都可以在論文中找到。

論文地址：https://arxiv.org/abs/1705.02304

via research.baidu，雷鋒網(wǎng)翻譯

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

彭鵬

編輯

發(fā)私信

當月熱門文章