思必馳俞凱：端到端與半監(jiān)督語(yǔ)音識(shí)別的技術(shù)進(jìn)展 | CCF-GAIR 2020

本文作者：楊麗

2020-08-12 11:52

專題：CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì)

導(dǎo)語(yǔ)：語(yǔ)音識(shí)別領(lǐng)域正研究什么？

雷鋒網(wǎng)按：如何低成本高效率地利用少量帶標(biāo)注的數(shù)據(jù)，挖掘大量語(yǔ)音數(shù)據(jù)中的有效信息，半監(jiān)督學(xué)習(xí)正成為當(dāng)下研究趨勢(shì)之一。在這種趨勢(shì)背景下，端到端的訓(xùn)練方法也正嘗試結(jié)合預(yù)訓(xùn)練或先驗(yàn)知識(shí)，投入在語(yǔ)音識(shí)別網(wǎng)絡(luò)的探索中。

在8月8日的CCF-GAIR 2020全球人工智能與機(jī)器人大會(huì)·前沿語(yǔ)音技術(shù)專場(chǎng)上，俞凱教授分享了端到端和半監(jiān)督學(xué)習(xí)技術(shù)在語(yǔ)音識(shí)別問題中的最新研究思路及進(jìn)展。

思必馳俞凱：端到端與半監(jiān)督語(yǔ)音識(shí)別的技術(shù)進(jìn)展 | CCF-GAIR 2020

簡(jiǎn)介：俞凱，上海交通大學(xué)計(jì)算機(jī)系教授，思必馳創(chuàng)始人之一、首席科學(xué)家。俞教授長(zhǎng)期從事對(duì)話式人工智能的研究和產(chǎn)業(yè)化工作，獲得過多個(gè)國(guó)際期刊及會(huì)議優(yōu)秀論文獎(jiǎng)和研究評(píng)測(cè)冠軍，還入選為國(guó)家級(jí)人才項(xiàng)目、優(yōu)青，上海市“東方學(xué)者”特聘教授。

俞教授指出，在深度學(xué)習(xí)發(fā)展以來(lái)，語(yǔ)音識(shí)別研究領(lǐng)域現(xiàn)在所面臨的問題，除了在工程技巧和數(shù)據(jù)對(duì)接上做一些工作之外，最重要的事情是長(zhǎng)尾的非配合語(yǔ)音識(shí)別。

其中，具備高效率的高精度系統(tǒng)和高質(zhì)量的精準(zhǔn)大數(shù)據(jù)構(gòu)建是兩個(gè)比較重要的進(jìn)展和趨勢(shì)。

一是具備高效率的高精度系統(tǒng)。高精度語(yǔ)音識(shí)別在前幾年已經(jīng)超過人的識(shí)別，但是高精度語(yǔ)音識(shí)別在長(zhǎng)尾上仍有很多工作值得研究。很重要的一點(diǎn)是，現(xiàn)在大家的關(guān)注點(diǎn)由一般意義的高精度語(yǔ)音識(shí)別變成高效率的語(yǔ)音識(shí)別。如何在保持高精度的同時(shí)，還要保證系統(tǒng)構(gòu)建和復(fù)雜度、響應(yīng)速度、規(guī)?；芰挽`活性都必須同等提高，這是目前端到端語(yǔ)音識(shí)別引起很大興趣的原因。

二是高質(zhì)量精準(zhǔn)大數(shù)據(jù)。大數(shù)據(jù)很有用，但有了大數(shù)據(jù)，精度就能提高嗎？其實(shí)并非如此，越來(lái)越多的人發(fā)現(xiàn)真正的大數(shù)據(jù)應(yīng)該是結(jié)構(gòu)上的大，而不僅僅是數(shù)量上的大，也就是要在聲學(xué)因素的分布、監(jiān)督信號(hào)獲取和識(shí)別系統(tǒng)適配方面，有高質(zhì)量的精準(zhǔn)數(shù)據(jù)。于是，也就出現(xiàn)了很多半監(jiān)督、生成式的數(shù)據(jù)擴(kuò)充方法。

何為端到端，以及為什么需要端到端？

在俞教授看來(lái)，傳統(tǒng)的識(shí)別框架是結(jié)構(gòu)不同的模型模塊組成，稱之為異構(gòu)識(shí)別系統(tǒng)。首先，它本質(zhì)上不是統(tǒng)一的參數(shù)化模型，中間需要WFST解碼器，對(duì)各個(gè)模塊分別建模訓(xùn)練；其次，聲學(xué)、語(yǔ)言、字典等模型的類型和結(jié)構(gòu)本質(zhì)上完全不同，且解碼器是不可缺少的連接模塊信息的核心，需要構(gòu)建復(fù)雜的搜索網(wǎng)絡(luò)。

端到端識(shí)別框架不同之處在于，在大數(shù)據(jù)的背景下，能通過完整神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)聲學(xué)信號(hào)到識(shí)別結(jié)果的直接映射，各個(gè)組成部分是“同構(gòu)”的。今天報(bào)告中談到的端到端更多指的是，直接或簡(jiǎn)單轉(zhuǎn)換后輸出結(jié)果是“詞序列”。

從優(yōu)勢(shì)上講，端到端能夠降低復(fù)雜度，減少參數(shù)量（不是聲學(xué)上的減少，有神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的參數(shù)來(lái)描述語(yǔ)言空間），從而使得訓(xùn)練的流水線得以簡(jiǎn)化。其次，大數(shù)據(jù)資源的使用更為簡(jiǎn)單，數(shù)據(jù)驅(qū)動(dòng)更為友好；此外，搜索解碼速度加快，但是否真的需要構(gòu)建搜索網(wǎng)絡(luò)，俞教授指出，這項(xiàng)研究目前存在爭(zhēng)議。

端到端的定義與分類

端到端主要分為兩類，一類是同步框架，另一類是異步框架，主要解決語(yǔ)音識(shí)別的兩個(gè)基本問題：分類與對(duì)齊。解決“對(duì)齊”問題通常采用的思路包括：馬爾可夫模型（HMM）、標(biāo)簽填充、序列解碼網(wǎng)絡(luò)等方法。其中，后兩種是端到端中比較常用的方法。

同步端到端框架采用的是，與輸入同步逐幀輸出，通過引入blank標(biāo)簽實(shí)現(xiàn)變長(zhǎng)序列對(duì)齊；異步端到端框架采用的是，輸入與輸出使用兩個(gè)網(wǎng)絡(luò)分別處理，使用attention（注意力機(jī)制）解決對(duì)齊問題。

同步端到端框架最典型的就是CTC和RNN-T：前者通過引入相應(yīng)的標(biāo)簽填充，同時(shí)在條件獨(dú)立性假設(shè)上，每一幀輸出之間條件獨(dú)立，而后者沒有條件獨(dú)立性的假設(shè)。

隨后，俞教授詳細(xì)討論了異步端到端存在的研究?jī)r(jià)值和爭(zhēng)議。

俞教授表示，異步端到端最大的特點(diǎn)是輸出與輸入沒有統(tǒng)一的時(shí)鐘，是兩個(gè)不同的網(wǎng)絡(luò)。

在encoder-decoder架構(gòu)上，encoder對(duì)整體輸入序列提取所有信息，然后根據(jù)輸出的要求再進(jìn)行輸出，時(shí)鐘和輸出標(biāo)簽是逐詞進(jìn)行的。這時(shí)，會(huì)通過attention的方式處理對(duì)齊。一般情況下，輸出序列的個(gè)數(shù)會(huì)遠(yuǎn)遠(yuǎn)小于時(shí)間幀的個(gè)數(shù)，這種情況下，輸出序列信息速率會(huì)遠(yuǎn)低于輸入信息速率，beam搜索效率會(huì)變得很高。

不少研究指出，異步端到端的識(shí)別精度會(huì)優(yōu)于同步端到端模型（上文講到的CTC 、RNN-T），但這目前也是存在爭(zhēng)議的。

端到端的問題與挑戰(zhàn)

即便端到端存在一定優(yōu)勢(shì)，但問題在于，類似于encoder-decoder這樣的架構(gòu)，實(shí)時(shí)響應(yīng)遲延可能會(huì)變長(zhǎng)；同時(shí)，端到端的提出主要是在聲學(xué)數(shù)據(jù)上的訓(xùn)練，對(duì)語(yǔ)言數(shù)據(jù)使用的討論不夠充分，直到最近才有一些新的工作。那么，端到端具體會(huì)有怎樣的挑戰(zhàn)？

一是在線編碼的遲延問題。

這種情況下雙向的神經(jīng)網(wǎng)絡(luò)無(wú)法使用，只能用單向網(wǎng)絡(luò)，這就造成輸入的信息變少。這時(shí)，如果通過注意力機(jī)制進(jìn)行在線化解碼，從而得到即時(shí)的、短遲延識(shí)別結(jié)果，就會(huì)變得非常有挑戰(zhàn)性。

二是文本資源及語(yǔ)言空間的約束問題。端到端模型需要有標(biāo)注語(yǔ)音數(shù)據(jù)，而最開始研究端到端時(shí)，用到的是聲學(xué)模型的數(shù)據(jù)，并沒有用到大規(guī)模文本語(yǔ)料。

為此，俞教授指出，當(dāng)下解決端到端的在線解碼遲延問題，已有的思路主要有三類：一是固定短時(shí)窗口預(yù)測(cè)（Neural Transducer）；二是基于單幀觸發(fā)的變長(zhǎng)窗口方法（MoChA，Triggered Attention）；三是基于多幀累計(jì)觸發(fā)閾值的方法（Adaptive Computing Steps）。其本質(zhì)都是只用歷史信息或非常小的前探信息。

再回來(lái)上文所提到的，早期的端到端模型是融合聲學(xué)語(yǔ)料文本的超大聲學(xué)模型，它并不包括語(yǔ)言模型，那么海量的文本數(shù)據(jù)如何使用？

當(dāng)前端到端框架下的文本數(shù)據(jù)使用的解題思路主要有三種：一是模型融合（Fusion）——將文本數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)LM，在decoder輸出層進(jìn)行插值融合；二是語(yǔ)言模型模塊嵌入——將端到端系統(tǒng)的部分網(wǎng)絡(luò)作為L(zhǎng)M建模，允許額外文本數(shù)據(jù)訓(xùn)練更新；三是半監(jiān)督訓(xùn)練——利用文本數(shù)據(jù)做端到端模型訓(xùn)練的數(shù)據(jù)擴(kuò)充（無(wú)顯示的語(yǔ)言空間建模）。

從海量數(shù)據(jù)到高質(zhì)量精準(zhǔn)大數(shù)據(jù)

想要從海量數(shù)據(jù)中提取到高質(zhì)量、精準(zhǔn)的大數(shù)據(jù)，最大的挑戰(zhàn)在于沒有監(jiān)督信號(hào)、標(biāo)注起來(lái)也很難。解決該問題主要會(huì)運(yùn)用到三個(gè)思想：一是自監(jiān)督預(yù)訓(xùn)練，二是半監(jiān)督訓(xùn)練，三是使用生成數(shù)據(jù)訓(xùn)練。

首先是自監(jiān)督預(yù)訓(xùn)練，這種思路下數(shù)據(jù)自身就是標(biāo)注，不需要額外標(biāo)注，這與自然語(yǔ)言處理使用詞序列作為標(biāo)注，設(shè)計(jì)一些訓(xùn)練任務(wù)使得能夠提取比較好的預(yù)訓(xùn)練特征是比較一致的方法。比較典型的是wav2vec或結(jié)合了預(yù)訓(xùn)練模型BERT的方法，以及重構(gòu)任務(wù)DecoAR。

其次是半監(jiān)督訓(xùn)練，可以是海量無(wú)標(biāo)注音頻或海量文本加適量有標(biāo)注音頻的方式。大體思路也有三種：置信度選擇、先驗(yàn)知識(shí)蒸餾、音頻文本一致性訓(xùn)練。

在報(bào)告最后，俞教授還表達(dá)了對(duì)精準(zhǔn)的環(huán)境數(shù)據(jù)擴(kuò)充及語(yǔ)音合成研究方向的看好。對(duì)于語(yǔ)音合成，俞教授認(rèn)為合成語(yǔ)音數(shù)據(jù)的難點(diǎn)在于，不同于語(yǔ)音識(shí)別，語(yǔ)音合成是一個(gè)信息增加的過程，這個(gè)過程需要解決的問題會(huì)更為復(fù)雜，往往這種“無(wú)中生有”的過程基本上是通過引入生成模型進(jìn)行解決。比方說，在低資源數(shù)據(jù)下使用VAE建模說話人空間，或者不使用句子級(jí)的VAE，而是通過逐個(gè)phone的音頻提取隱變量序列z。這些都是當(dāng)下比較主流的解決問題的思路。

（雷鋒網(wǎng)雷鋒網(wǎng)）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。