0
本文作者: 楊麗 | 2020-08-12 11:52 | 專題:CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì) |
雷鋒網(wǎng)按:如何低成本高效率地利用少量帶標(biāo)注的數(shù)據(jù),挖掘大量語(yǔ)音數(shù)據(jù)中的有效信息,半監(jiān)督學(xué)習(xí)正成為當(dāng)下研究趨勢(shì)之一。在這種趨勢(shì)背景下,端到端的訓(xùn)練方法也正嘗試結(jié)合預(yù)訓(xùn)練或先驗(yàn)知識(shí),投入在語(yǔ)音識(shí)別網(wǎng)絡(luò)的探索中。
在8月8日的CCF-GAIR 2020全球人工智能與機(jī)器人大會(huì)·前沿語(yǔ)音技術(shù)專場(chǎng)上,俞凱教授分享了端到端和半監(jiān)督學(xué)習(xí)技術(shù)在語(yǔ)音識(shí)別問題中的最新研究思路及進(jìn)展。
簡(jiǎn)介:俞凱,上海交通大學(xué)計(jì)算機(jī)系教授,思必馳創(chuàng)始人之一、首席科學(xué)家。俞教授長(zhǎng)期從事對(duì)話式人工智能的研究和產(chǎn)業(yè)化工作,獲得過多個(gè)國(guó)際期刊及會(huì)議優(yōu)秀論文獎(jiǎng)和研究評(píng)測(cè)冠軍,還入選為國(guó)家級(jí)人才項(xiàng)目、優(yōu)青,上海市“東方學(xué)者”特聘教授。
俞教授指出,在深度學(xué)習(xí)發(fā)展以來(lái),語(yǔ)音識(shí)別研究領(lǐng)域現(xiàn)在所面臨的問題,除了在工程技巧和數(shù)據(jù)對(duì)接上做一些工作之外,最重要的事情是長(zhǎng)尾的非配合語(yǔ)音識(shí)別。
其中,具備高效率的高精度系統(tǒng)和高質(zhì)量的精準(zhǔn)大數(shù)據(jù)構(gòu)建是兩個(gè)比較重要的進(jìn)展和趨勢(shì)。
一是具備高效率的高精度系統(tǒng)。高精度語(yǔ)音識(shí)別在前幾年已經(jīng)超過人的識(shí)別,但是高精度語(yǔ)音識(shí)別在長(zhǎng)尾上仍有很多工作值得研究。很重要的一點(diǎn)是,現(xiàn)在大家的關(guān)注點(diǎn)由一般意義的高精度語(yǔ)音識(shí)別變成高效率的語(yǔ)音識(shí)別。如何在保持高精度的同時(shí),還要保證系統(tǒng)構(gòu)建和復(fù)雜度、響應(yīng)速度、規(guī)?;芰挽`活性都必須同等提高,這是目前端到端語(yǔ)音識(shí)別引起很大興趣的原因。
二是高質(zhì)量精準(zhǔn)大數(shù)據(jù)。大數(shù)據(jù)很有用,但有了大數(shù)據(jù),精度就能提高嗎?其實(shí)并非如此,越來(lái)越多的人發(fā)現(xiàn)真正的大數(shù)據(jù)應(yīng)該是結(jié)構(gòu)上的大,而不僅僅是數(shù)量上的大,也就是要在聲學(xué)因素的分布、監(jiān)督信號(hào)獲取和識(shí)別系統(tǒng)適配方面,有高質(zhì)量的精準(zhǔn)數(shù)據(jù)。于是,也就出現(xiàn)了很多半監(jiān)督、生成式的數(shù)據(jù)擴(kuò)充方法。
何為端到端,以及為什么需要端到端?
在俞教授看來(lái),傳統(tǒng)的識(shí)別框架是結(jié)構(gòu)不同的模型模塊組成,稱之為異構(gòu)識(shí)別系統(tǒng)。首先,它本質(zhì)上不是統(tǒng)一的參數(shù)化模型,中間需要WFST解碼器,對(duì)各個(gè)模塊分別建模訓(xùn)練;其次,聲學(xué)、語(yǔ)言、字典等模型的類型和結(jié)構(gòu)本質(zhì)上完全不同,且解碼器是不可缺少的連接模塊信息的核心,需要構(gòu)建復(fù)雜的搜索網(wǎng)絡(luò)。
端到端識(shí)別框架不同之處在于,在大數(shù)據(jù)的背景下,能通過完整神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)聲學(xué)信號(hào)到識(shí)別結(jié)果的直接映射,各個(gè)組成部分是“同構(gòu)”的。今天報(bào)告中談到的端到端更多指的是,直接或簡(jiǎn)單轉(zhuǎn)換后輸出結(jié)果是“詞序列”。
從優(yōu)勢(shì)上講,端到端能夠降低復(fù)雜度,減少參數(shù)量(不是聲學(xué)上的減少,有神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的參數(shù)來(lái)描述語(yǔ)言空間),從而使得訓(xùn)練的流水線得以簡(jiǎn)化。其次,大數(shù)據(jù)資源的使用更為簡(jiǎn)單,數(shù)據(jù)驅(qū)動(dòng)更為友好;此外,搜索解碼速度加快,但是否真的需要構(gòu)建搜索網(wǎng)絡(luò),俞教授指出,這項(xiàng)研究目前存在爭(zhēng)議。
端到端的定義與分類
端到端主要分為兩類,一類是同步框架,另一類是異步框架,主要解決語(yǔ)音識(shí)別的兩個(gè)基本問題:分類與對(duì)齊。解決“對(duì)齊”問題通常采用的思路包括:馬爾可夫模型(HMM)、標(biāo)簽填充、序列解碼網(wǎng)絡(luò)等方法。其中,后兩種是端到端中比較常用的方法。
同步端到端框架采用的是,與輸入同步逐幀輸出,通過引入blank標(biāo)簽實(shí)現(xiàn)變長(zhǎng)序列對(duì)齊;異步端到端框架采用的是,輸入與輸出使用兩個(gè)網(wǎng)絡(luò)分別處理,使用attention(注意力機(jī)制)解決對(duì)齊問題。
同步端到端框架最典型的就是CTC和RNN-T:前者通過引入相應(yīng)的標(biāo)簽填充,同時(shí)在條件獨(dú)立性假設(shè)上,每一幀輸出之間條件獨(dú)立,而后者沒有條件獨(dú)立性的假設(shè)。
隨后,俞教授詳細(xì)討論了異步端到端存在的研究?jī)r(jià)值和爭(zhēng)議。
俞教授表示,異步端到端最大的特點(diǎn)是輸出與輸入沒有統(tǒng)一的時(shí)鐘,是兩個(gè)不同的網(wǎng)絡(luò)。
在encoder-decoder架構(gòu)上,encoder對(duì)整體輸入序列提取所有信息,然后根據(jù)輸出的要求再進(jìn)行輸出,時(shí)鐘和輸出標(biāo)簽是逐詞進(jìn)行的。這時(shí),會(huì)通過attention的方式處理對(duì)齊。一般情況下,輸出序列的個(gè)數(shù)會(huì)遠(yuǎn)遠(yuǎn)小于時(shí)間幀的個(gè)數(shù),這種情況下,輸出序列信息速率會(huì)遠(yuǎn)低于輸入信息速率,beam搜索效率會(huì)變得很高。
不少研究指出,異步端到端的識(shí)別精度會(huì)優(yōu)于同步端到端模型(上文講到的CTC 、RNN-T),但這目前也是存在爭(zhēng)議的。
端到端的問題與挑戰(zhàn)
即便端到端存在一定優(yōu)勢(shì),但問題在于,類似于encoder-decoder這樣的架構(gòu),實(shí)時(shí)響應(yīng)遲延可能會(huì)變長(zhǎng);同時(shí),端到端的提出主要是在聲學(xué)數(shù)據(jù)上的訓(xùn)練,對(duì)語(yǔ)言數(shù)據(jù)使用的討論不夠充分,直到最近才有一些新的工作。那么,端到端具體會(huì)有怎樣的挑戰(zhàn)?
一是在線編碼的遲延問題。
這種情況下雙向的神經(jīng)網(wǎng)絡(luò)無(wú)法使用,只能用單向網(wǎng)絡(luò),這就造成輸入的信息變少。這時(shí),如果通過注意力機(jī)制進(jìn)行在線化解碼,從而得到即時(shí)的、短遲延識(shí)別結(jié)果,就會(huì)變得非常有挑戰(zhàn)性。
二是文本資源及語(yǔ)言空間的約束問題。端到端模型需要有標(biāo)注語(yǔ)音數(shù)據(jù),而最開始研究端到端時(shí),用到的是聲學(xué)模型的數(shù)據(jù),并沒有用到大規(guī)模文本語(yǔ)料。
為此,俞教授指出,當(dāng)下解決端到端的在線解碼遲延問題,已有的思路主要有三類:一是固定短時(shí)窗口預(yù)測(cè)(Neural Transducer);二是基于單幀觸發(fā)的變長(zhǎng)窗口方法(MoChA,Triggered Attention);三是基于多幀累計(jì)觸發(fā)閾值的方法(Adaptive Computing Steps)。其本質(zhì)都是只用歷史信息或非常小的前探信息。
再回來(lái)上文所提到的,早期的端到端模型是融合聲學(xué)語(yǔ)料文本的超大聲學(xué)模型,它并不包括語(yǔ)言模型,那么海量的文本數(shù)據(jù)如何使用?
當(dāng)前端到端框架下的文本數(shù)據(jù)使用的解題思路主要有三種:一是模型融合(Fusion)——將文本數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)LM,在decoder輸出層進(jìn)行插值融合; 二是語(yǔ)言模型模塊嵌入——將端到端系統(tǒng)的部分網(wǎng)絡(luò)作為L(zhǎng)M建模,允許額外文本數(shù)據(jù)訓(xùn)練更新; 三是半監(jiān)督訓(xùn)練——利用文本數(shù)據(jù)做端到端模型訓(xùn)練的數(shù)據(jù)擴(kuò)充(無(wú)顯示的語(yǔ)言空間建模)。
從海量數(shù)據(jù)到高質(zhì)量精準(zhǔn)大數(shù)據(jù)
想要從海量數(shù)據(jù)中提取到高質(zhì)量、精準(zhǔn)的大數(shù)據(jù),最大的挑戰(zhàn)在于沒有監(jiān)督信號(hào)、標(biāo)注起來(lái)也很難。解決該問題主要會(huì)運(yùn)用到三個(gè)思想:一是自監(jiān)督預(yù)訓(xùn)練,二是半監(jiān)督訓(xùn)練,三是使用生成數(shù)據(jù)訓(xùn)練。
首先是自監(jiān)督預(yù)訓(xùn)練,這種思路下數(shù)據(jù)自身就是標(biāo)注,不需要額外標(biāo)注,這與自然語(yǔ)言處理使用詞序列作為標(biāo)注,設(shè)計(jì)一些訓(xùn)練任務(wù)使得能夠提取比較好的預(yù)訓(xùn)練特征是比較一致的方法。比較典型的是wav2vec或結(jié)合了預(yù)訓(xùn)練模型BERT的方法,以及重構(gòu)任務(wù)DecoAR。
其次是半監(jiān)督訓(xùn)練,可以是海量無(wú)標(biāo)注音頻或海量文本加適量有標(biāo)注音頻的方式。大體思路也有三種:置信度選擇、先驗(yàn)知識(shí)蒸餾、音頻文本一致性訓(xùn)練。
在報(bào)告最后,俞教授還表達(dá)了對(duì)精準(zhǔn)的環(huán)境數(shù)據(jù)擴(kuò)充及語(yǔ)音合成研究方向的看好。對(duì)于語(yǔ)音合成,俞教授認(rèn)為合成語(yǔ)音數(shù)據(jù)的難點(diǎn)在于,不同于語(yǔ)音識(shí)別,語(yǔ)音合成是一個(gè)信息增加的過程,這個(gè)過程需要解決的問題會(huì)更為復(fù)雜,往往這種“無(wú)中生有”的過程基本上是通過引入生成模型進(jìn)行解決。比方說,在低資源數(shù)據(jù)下使用VAE建模說話人空間,或者不使用句子級(jí)的VAE,而是通過逐個(gè)phone的音頻提取隱變量序列z。這些都是當(dāng)下比較主流的解決問題的思路。
(雷鋒網(wǎng)雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章