0
本文作者: 楊曉凡 | 2017-10-31 18:37 |
雷鋒網(wǎng) AI 科技評(píng)論按:美國(guó)時(shí)間10月31日,百度研究院發(fā)出博文,宣布發(fā)布新一代深度語(yǔ)音識(shí)別系統(tǒng) Deep Speech 3。繼2014首秀的第一代Deep Speech和被MIT科技評(píng)論評(píng)為“2016年十大突破技術(shù)之一”的 Deep Speech 2之后,百度再一次展現(xiàn)出自己的研究水平以及技術(shù)應(yīng)用的愿景。雷鋒網(wǎng) AI 科技評(píng)論把百度研究院這篇博文編譯如下。
準(zhǔn)確的語(yǔ)音識(shí)別系統(tǒng)是許多商業(yè)應(yīng)用中不可或缺的一環(huán),比如虛擬助手接收命令、能理解用戶反饋的視頻評(píng)價(jià),或者是用來(lái)提升客戶服務(wù)質(zhì)量。不過(guò),目前想要構(gòu)建一個(gè)水平領(lǐng)先的語(yǔ)音識(shí)別系統(tǒng),要么需要從第三方數(shù)據(jù)提供商購(gòu)買用戶數(shù)據(jù),要么就要從全球排名前幾位的語(yǔ)音和語(yǔ)言技術(shù)機(jī)構(gòu)挖人。
百度研究院的研究人員們一直都在努力開(kāi)發(fā)一個(gè)語(yǔ)音識(shí)別系統(tǒng),它不僅要有好的表現(xiàn),而且系統(tǒng)的構(gòu)建、調(diào)試、改進(jìn)的時(shí)候都只需要一支語(yǔ)音識(shí)別入門水平、甚至完全不了解語(yǔ)音識(shí)別技術(shù)的團(tuán)隊(duì)就可以(不過(guò)他們還是需要對(duì)機(jī)器學(xué)習(xí)有深入的理解)。百度的研究人員們相信,一個(gè)高度易用的語(yǔ)音識(shí)別流水線可以讓語(yǔ)音識(shí)別平民化,就像卷積神經(jīng)網(wǎng)絡(luò)帶來(lái)了計(jì)算機(jī)視覺(jué)領(lǐng)域的革命一樣。
在這個(gè)持續(xù)的努力過(guò)程中,百度首先開(kāi)發(fā)出了第一代Deep Speech,這是一個(gè)概念驗(yàn)證性的產(chǎn)品,但它也表明了一個(gè)簡(jiǎn)單模型的表現(xiàn)就可以和當(dāng)時(shí)頂尖模型的表現(xiàn)相媲美。隨著Deep Speech 2的發(fā)布,百度表明了這樣的模型對(duì)不同的語(yǔ)言具有良好的泛化性,并開(kāi)始把它部署在許多實(shí)際應(yīng)用中。
10月31日,百度的硅谷AI實(shí)驗(yàn)室發(fā)布了Deep Speech 3,這是下一代的語(yǔ)音識(shí)別模型,它進(jìn)一步簡(jiǎn)化了模型,并且可以在使用預(yù)訓(xùn)練過(guò)的語(yǔ)言模型時(shí)繼續(xù)進(jìn)行端到端訓(xùn)練。
在論文中,百度研究院的研究員們首先對(duì)三個(gè)模型進(jìn)行了實(shí)證比較:Deep Speech 2的核心CTC、其它一些 Listend-Attend-Spell 語(yǔ)音識(shí)別系統(tǒng)中使用的基于注意力的Seq2Seq模型,以及端到端語(yǔ)音識(shí)別中應(yīng)用的RNN變換器。這個(gè)RNN變換器可以看作一個(gè)編碼器-解碼器模型,其中假設(shè)輸入和輸出標(biāo)識(shí)之間的對(duì)應(yīng)關(guān)系是局部的、單調(diào)的。這就讓RNN變換器的損失比基于注意力的Seq2Seq更適合用于語(yǔ)音識(shí)別(尤其在互聯(lián)網(wǎng)應(yīng)用中),它去除了帶有注意力的模型中用來(lái)鼓勵(lì)單調(diào)性的額外剪枝。
并且,CTC需要一個(gè)外部的語(yǔ)言模型用來(lái)輸出有意義的結(jié)果,RNN變換器就不需要這樣,它可以支持一個(gè)純粹由神經(jīng)網(wǎng)絡(luò)構(gòu)成的解碼器,模型的訓(xùn)練和測(cè)試階段之間也不會(huì)產(chǎn)生錯(cuò)位。所以自然地,RNN變換器比CTC模型具有更好的表現(xiàn),都不需要一個(gè)外部的語(yǔ)言模型。
Seq2Seq和RNN變換器無(wú)需外部語(yǔ)言模型就可以達(dá)到良好表現(xiàn)的狀況也提出了一個(gè)挑戰(zhàn)。語(yǔ)言模型對(duì)語(yǔ)音識(shí)別很關(guān)鍵,因?yàn)檎Z(yǔ)言模型可以用大得多的數(shù)據(jù)集快速訓(xùn)練;而且語(yǔ)言模型可以對(duì)語(yǔ)音識(shí)別模型做特定的優(yōu)化,讓它更好地識(shí)別特定內(nèi)容(用戶,地理,應(yīng)用等等),同時(shí)無(wú)需給每一類的內(nèi)容都提供有標(biāo)注的語(yǔ)音語(yǔ)料。百度的研究人員們?cè)诓渴餌eep Speech 2的過(guò)程中發(fā)現(xiàn),這后一條特點(diǎn)對(duì)用于生產(chǎn)環(huán)境的語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō)尤其重要。
為了支持這些應(yīng)用場(chǎng)景,百度開(kāi)發(fā)了Cold Fusion,它可以在訓(xùn)練Seq2Seq模型的時(shí)候使用一個(gè)預(yù)訓(xùn)練的語(yǔ)言模型。百度在論文中表明,帶有Cold Fusion的Seq2Seq模型可以更好地運(yùn)用語(yǔ)言信息,帶來(lái)了更好的泛化效果和更快的收斂,同時(shí)只需用不到10%的標(biāo)注訓(xùn)練數(shù)據(jù)就可以完全遷移到一個(gè)新領(lǐng)域。Cold Fusion還可以在測(cè)試過(guò)程中切換不同的語(yǔ)言模型以便為任何內(nèi)容優(yōu)化。Cold Fusion能夠用在Seq2Seq模型上的同時(shí),它在RNN變換器上應(yīng)當(dāng)也能發(fā)揮出同樣好的效果。
這樣,RNN變換器的損失和利用語(yǔ)言模型的Cold Fusion一起構(gòu)成出了語(yǔ)音識(shí)別的下一個(gè)前沿。百度的研究人員們也會(huì)繼續(xù)探索未來(lái),期待看到這些技術(shù)帶來(lái)更大的進(jìn)步。
相關(guān)論文:
Exploring Neural Transducers for End-to-End Speech Recognition(ASRU 2017收錄論文): https://arxiv.org/abs/1707.07413
Cold Fusion: Training Seq2Seq Models Together with Language Models: https://arxiv.org/abs/1708.06426
雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。