0
本文作者: 楊麗 | 2020-08-12 11:52 | 專題:CCF-GAIR 2020 全球人工智能與機器人峰會 |
雷鋒網(wǎng)按:如何低成本高效率地利用少量帶標注的數(shù)據(jù),挖掘大量語音數(shù)據(jù)中的有效信息,半監(jiān)督學(xué)習(xí)正成為當(dāng)下研究趨勢之一。在這種趨勢背景下,端到端的訓(xùn)練方法也正嘗試結(jié)合預(yù)訓(xùn)練或先驗知識,投入在語音識別網(wǎng)絡(luò)的探索中。
在8月8日的CCF-GAIR 2020全球人工智能與機器人大會·前沿語音技術(shù)專場上,俞凱教授分享了端到端和半監(jiān)督學(xué)習(xí)技術(shù)在語音識別問題中的最新研究思路及進展。
簡介:俞凱,上海交通大學(xué)計算機系教授,思必馳創(chuàng)始人之一、首席科學(xué)家。俞教授長期從事對話式人工智能的研究和產(chǎn)業(yè)化工作,獲得過多個國際期刊及會議優(yōu)秀論文獎和研究評測冠軍,還入選為國家級人才項目、優(yōu)青,上海市“東方學(xué)者”特聘教授。
俞教授指出,在深度學(xué)習(xí)發(fā)展以來,語音識別研究領(lǐng)域現(xiàn)在所面臨的問題,除了在工程技巧和數(shù)據(jù)對接上做一些工作之外,最重要的事情是長尾的非配合語音識別。
其中,具備高效率的高精度系統(tǒng)和高質(zhì)量的精準大數(shù)據(jù)構(gòu)建是兩個比較重要的進展和趨勢。
一是具備高效率的高精度系統(tǒng)。高精度語音識別在前幾年已經(jīng)超過人的識別,但是高精度語音識別在長尾上仍有很多工作值得研究。很重要的一點是,現(xiàn)在大家的關(guān)注點由一般意義的高精度語音識別變成高效率的語音識別。如何在保持高精度的同時,還要保證系統(tǒng)構(gòu)建和復(fù)雜度、響應(yīng)速度、規(guī)?;芰挽`活性都必須同等提高,這是目前端到端語音識別引起很大興趣的原因。
二是高質(zhì)量精準大數(shù)據(jù)。大數(shù)據(jù)很有用,但有了大數(shù)據(jù),精度就能提高嗎?其實并非如此,越來越多的人發(fā)現(xiàn)真正的大數(shù)據(jù)應(yīng)該是結(jié)構(gòu)上的大,而不僅僅是數(shù)量上的大,也就是要在聲學(xué)因素的分布、監(jiān)督信號獲取和識別系統(tǒng)適配方面,有高質(zhì)量的精準數(shù)據(jù)。于是,也就出現(xiàn)了很多半監(jiān)督、生成式的數(shù)據(jù)擴充方法。
何為端到端,以及為什么需要端到端?
在俞教授看來,傳統(tǒng)的識別框架是結(jié)構(gòu)不同的模型模塊組成,稱之為異構(gòu)識別系統(tǒng)。首先,它本質(zhì)上不是統(tǒng)一的參數(shù)化模型,中間需要WFST解碼器,對各個模塊分別建模訓(xùn)練;其次,聲學(xué)、語言、字典等模型的類型和結(jié)構(gòu)本質(zhì)上完全不同,且解碼器是不可缺少的連接模塊信息的核心,需要構(gòu)建復(fù)雜的搜索網(wǎng)絡(luò)。
端到端識別框架不同之處在于,在大數(shù)據(jù)的背景下,能通過完整神經(jīng)網(wǎng)絡(luò)實現(xiàn)聲學(xué)信號到識別結(jié)果的直接映射,各個組成部分是“同構(gòu)”的。今天報告中談到的端到端更多指的是,直接或簡單轉(zhuǎn)換后輸出結(jié)果是“詞序列”。
從優(yōu)勢上講,端到端能夠降低復(fù)雜度,減少參數(shù)量(不是聲學(xué)上的減少,有神經(jīng)網(wǎng)絡(luò)語言模型的參數(shù)來描述語言空間),從而使得訓(xùn)練的流水線得以簡化。其次,大數(shù)據(jù)資源的使用更為簡單,數(shù)據(jù)驅(qū)動更為友好;此外,搜索解碼速度加快,但是否真的需要構(gòu)建搜索網(wǎng)絡(luò),俞教授指出,這項研究目前存在爭議。
端到端的定義與分類
端到端主要分為兩類,一類是同步框架,另一類是異步框架,主要解決語音識別的兩個基本問題:分類與對齊。解決“對齊”問題通常采用的思路包括:馬爾可夫模型(HMM)、標簽填充、序列解碼網(wǎng)絡(luò)等方法。其中,后兩種是端到端中比較常用的方法。
同步端到端框架采用的是,與輸入同步逐幀輸出,通過引入blank標簽實現(xiàn)變長序列對齊;異步端到端框架采用的是,輸入與輸出使用兩個網(wǎng)絡(luò)分別處理,使用attention(注意力機制)解決對齊問題。
同步端到端框架最典型的就是CTC和RNN-T:前者通過引入相應(yīng)的標簽填充,同時在條件獨立性假設(shè)上,每一幀輸出之間條件獨立,而后者沒有條件獨立性的假設(shè)。
隨后,俞教授詳細討論了異步端到端存在的研究價值和爭議。
俞教授表示,異步端到端最大的特點是輸出與輸入沒有統(tǒng)一的時鐘,是兩個不同的網(wǎng)絡(luò)。
在encoder-decoder架構(gòu)上,encoder對整體輸入序列提取所有信息,然后根據(jù)輸出的要求再進行輸出,時鐘和輸出標簽是逐詞進行的。這時,會通過attention的方式處理對齊。一般情況下,輸出序列的個數(shù)會遠遠小于時間幀的個數(shù),這種情況下,輸出序列信息速率會遠低于輸入信息速率,beam搜索效率會變得很高。
不少研究指出,異步端到端的識別精度會優(yōu)于同步端到端模型(上文講到的CTC 、RNN-T),但這目前也是存在爭議的。
端到端的問題與挑戰(zhàn)
即便端到端存在一定優(yōu)勢,但問題在于,類似于encoder-decoder這樣的架構(gòu),實時響應(yīng)遲延可能會變長;同時,端到端的提出主要是在聲學(xué)數(shù)據(jù)上的訓(xùn)練,對語言數(shù)據(jù)使用的討論不夠充分,直到最近才有一些新的工作。那么,端到端具體會有怎樣的挑戰(zhàn)?
一是在線編碼的遲延問題。
這種情況下雙向的神經(jīng)網(wǎng)絡(luò)無法使用,只能用單向網(wǎng)絡(luò),這就造成輸入的信息變少。這時,如果通過注意力機制進行在線化解碼,從而得到即時的、短遲延識別結(jié)果,就會變得非常有挑戰(zhàn)性。
二是文本資源及語言空間的約束問題。端到端模型需要有標注語音數(shù)據(jù),而最開始研究端到端時,用到的是聲學(xué)模型的數(shù)據(jù),并沒有用到大規(guī)模文本語料。
為此,俞教授指出,當(dāng)下解決端到端的在線解碼遲延問題,已有的思路主要有三類:一是固定短時窗口預(yù)測(Neural Transducer);二是基于單幀觸發(fā)的變長窗口方法(MoChA,Triggered Attention);三是基于多幀累計觸發(fā)閾值的方法(Adaptive Computing Steps)。其本質(zhì)都是只用歷史信息或非常小的前探信息。
再回來上文所提到的,早期的端到端模型是融合聲學(xué)語料文本的超大聲學(xué)模型,它并不包括語言模型,那么海量的文本數(shù)據(jù)如何使用?
當(dāng)前端到端框架下的文本數(shù)據(jù)使用的解題思路主要有三種:一是模型融合(Fusion)——將文本數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)LM,在decoder輸出層進行插值融合; 二是語言模型模塊嵌入——將端到端系統(tǒng)的部分網(wǎng)絡(luò)作為LM建模,允許額外文本數(shù)據(jù)訓(xùn)練更新; 三是半監(jiān)督訓(xùn)練——利用文本數(shù)據(jù)做端到端模型訓(xùn)練的數(shù)據(jù)擴充(無顯示的語言空間建模)。
從海量數(shù)據(jù)到高質(zhì)量精準大數(shù)據(jù)
想要從海量數(shù)據(jù)中提取到高質(zhì)量、精準的大數(shù)據(jù),最大的挑戰(zhàn)在于沒有監(jiān)督信號、標注起來也很難。解決該問題主要會運用到三個思想:一是自監(jiān)督預(yù)訓(xùn)練,二是半監(jiān)督訓(xùn)練,三是使用生成數(shù)據(jù)訓(xùn)練。
首先是自監(jiān)督預(yù)訓(xùn)練,這種思路下數(shù)據(jù)自身就是標注,不需要額外標注,這與自然語言處理使用詞序列作為標注,設(shè)計一些訓(xùn)練任務(wù)使得能夠提取比較好的預(yù)訓(xùn)練特征是比較一致的方法。比較典型的是wav2vec或結(jié)合了預(yù)訓(xùn)練模型BERT的方法,以及重構(gòu)任務(wù)DecoAR。
其次是半監(jiān)督訓(xùn)練,可以是海量無標注音頻或海量文本加適量有標注音頻的方式。大體思路也有三種:置信度選擇、先驗知識蒸餾、音頻文本一致性訓(xùn)練。
在報告最后,俞教授還表達了對精準的環(huán)境數(shù)據(jù)擴充及語音合成研究方向的看好。對于語音合成,俞教授認為合成語音數(shù)據(jù)的難點在于,不同于語音識別,語音合成是一個信息增加的過程,這個過程需要解決的問題會更為復(fù)雜,往往這種“無中生有”的過程基本上是通過引入生成模型進行解決。比方說,在低資源數(shù)據(jù)下使用VAE建模說話人空間,或者不使用句子級的VAE,而是通過逐個phone的音頻提取隱變量序列z。這些都是當(dāng)下比較主流的解決問題的思路。
(雷鋒網(wǎng)雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章