作為搜狗語(yǔ)音交互補(bǔ)充的唇語(yǔ)識(shí)別發(fā)展到哪一步了

本文作者：呂倩

2017-12-25 15:22

導(dǎo)語(yǔ)：唇語(yǔ)識(shí)別目前最大的難點(diǎn)在于泛化能力的訓(xùn)練。

無(wú)聲的世界里，你只要?jiǎng)觿?dòng)嘴唇，就可以被識(shí)別出說了什么、甚至被轉(zhuǎn)化為語(yǔ)音，是不是很智能便利、同時(shí)又頗為驚悚？

今年12月，第四屆世界互聯(lián)網(wǎng)大會(huì)，搜狗發(fā)布唇語(yǔ)識(shí)別技術(shù)，也系業(yè)內(nèi)首次公開演示。其背后的商業(yè)邏輯是什么？這項(xiàng)技術(shù)發(fā)展到什么地步了？

一、為什么要做唇語(yǔ)識(shí)別

搜狗語(yǔ)音交互技術(shù)中心負(fù)責(zé)人陳偉首先回顧了搜狗在語(yǔ)音交互方面的發(fā)展歷史——早期搜狗于移動(dòng)時(shí)代主要做兩件事——輸入法與搜索。后來進(jìn)入智能時(shí)代，設(shè)備由手機(jī)變?yōu)镮OT設(shè)備，人與智能硬件之間的連接也變?yōu)樗压分粢孢@樣的自然交互引擎，而硬件、信息，或更深度信息之間的連接，則是利用深度引擎來連接。

于搜狗語(yǔ)音交互整體而言，語(yǔ)音、翻譯、識(shí)別合成技術(shù)，以及目前剛剛公開的唇語(yǔ)識(shí)別，均系搜狗語(yǔ)音識(shí)別大框架之下的內(nèi)容，“這也體現(xiàn)了搜狗目前人工智能戰(zhàn)略即是自然交互與知識(shí)測(cè)算。”

至于搜狗知音引擎自去年8月3日發(fā)布之后，到如今的一年多時(shí)間里，已形成三個(gè)解決方案：

語(yǔ)音聽寫解決方案；
語(yǔ)音交互解決方案；
語(yǔ)音翻譯解決方案

陳偉表示，就本質(zhì)而言，聽寫技術(shù)的作用就是將語(yǔ)音轉(zhuǎn)化成文字，而如今搜狗發(fā)布的搜狗聽寫，則是希望通過機(jī)器的方式，自動(dòng)將人的語(yǔ)音轉(zhuǎn)化成文字。具體落地上，搜狗聽寫技術(shù)已經(jīng)落地上百場(chǎng)會(huì)議，包括法院評(píng)審等工作。

而聽寫模塊的語(yǔ)音交互，則結(jié)合了語(yǔ)音識(shí)別、語(yǔ)音合成與語(yǔ)音理解的能力，應(yīng)用于不同剛需場(chǎng)景，包括手機(jī)、移動(dòng)端穿戴設(shè)備、車載后視鏡與車機(jī)等，也包括后續(xù)會(huì)應(yīng)用的智能家居。

直到此次世界互聯(lián)網(wǎng)大會(huì)，搜狗CEO王小川演示了最新語(yǔ)音同傳案例與唇語(yǔ)識(shí)別技術(shù)，陳偉表示，除了同傳，現(xiàn)場(chǎng)最稱得上黑科技的，就是搜狗唇語(yǔ)識(shí)別技術(shù)了。

回顧唇語(yǔ)識(shí)別技術(shù)的研發(fā)起始，陳偉對(duì)雷鋒網(wǎng)稱，當(dāng)初主要考慮著，圍繞搜狗主路線上的工作，將圖像和語(yǔ)言進(jìn)行打通，實(shí)現(xiàn)從圖像中轉(zhuǎn)化出人講話中的信息 ——“這也是對(duì)唇語(yǔ)識(shí)別的整體思考，以及對(duì)應(yīng)整個(gè)知音引擎產(chǎn)品思考上的唇語(yǔ)識(shí)別的一個(gè)位置?！?/p>

王小川則表示，“因?yàn)樗压匪阉骱洼斎敕ㄆ鋵?shí)都在跟語(yǔ)言打交道。一方面幫助人們用語(yǔ)音表達(dá)，另一方面通過語(yǔ)言獲取互聯(lián)網(wǎng)上的信息，但在一些嘈雜、甚至無(wú)聲的環(huán)境里，語(yǔ)音所能發(fā)揮的作用是有限的，于是在這種情況下，搜狗決定發(fā)展基于視覺的語(yǔ)言識(shí)別能力作為補(bǔ)充”。

具體應(yīng)用上，就是將語(yǔ)音識(shí)別與唇語(yǔ)識(shí)別相結(jié)合，在噪音特別強(qiáng)的情況下，讓后者輔助前者，形成包括視覺、音頻、唇語(yǔ)在內(nèi)的多模態(tài)輸入。

目前，陳偉對(duì)雷鋒網(wǎng)表示，在解決噪聲問題上，仍是麥克風(fēng)陣列比唇語(yǔ)識(shí)別更靠譜。在落地速度上，麥克風(fēng)陣列已然落地，而唇語(yǔ)識(shí)別剛剛啟動(dòng)研發(fā)第一步，之后將要進(jìn)入與音頻結(jié)合解決降噪問題的階段。

但唇語(yǔ)識(shí)別有其獨(dú)特的場(chǎng)景優(yōu)勢(shì)，例如，當(dāng)周圍過大噪音造成語(yǔ)音指令無(wú)法被準(zhǔn)確捕獲、識(shí)別時(shí)，唇語(yǔ)識(shí)別可以幫助規(guī)避這一影響，確保輸入的準(zhǔn)確率，保證交互的穩(wěn)定性；在安防領(lǐng)域中，由于目前很多監(jiān)控場(chǎng)景，如電梯、馬路中只有攝像頭沒有麥克風(fēng)，通過唇語(yǔ)識(shí)別技術(shù)，則可以獲取重要的用戶講話信息，為公共安全提供有效支持；此外，搜狗唇語(yǔ)識(shí)別還能服務(wù)于聽障、失語(yǔ)人士等。

綜合來講，陳偉表示，目前搜狗唇語(yǔ)識(shí)別主要應(yīng)用于兩大場(chǎng)景：

其一，在多數(shù)語(yǔ)言場(chǎng)景下，攝像頭的覆蓋率遠(yuǎn)遠(yuǎn)高于麥克風(fēng)，但通過攝像頭獲得的圖像數(shù)據(jù)主要用于監(jiān)控簡(jiǎn)單的行為，很難在安防等場(chǎng)景中，精確了解圖中人物在說什么，但使用唇語(yǔ)識(shí)別技術(shù)就可以通過嘴的動(dòng)作獲取大量?jī)?nèi)容信息；
其二，唇語(yǔ)識(shí)別可以作為輔助技術(shù)，提升語(yǔ)音識(shí)別技術(shù)現(xiàn)階段的準(zhǔn)確率。搜狗的唇語(yǔ)識(shí)別技術(shù)目前在開放的口語(yǔ)測(cè)試級(jí)上可以達(dá)到50%-60%的準(zhǔn)確率，在限定場(chǎng)景中可以達(dá)到90%。

作為搜狗語(yǔ)音交互補(bǔ)充的唇語(yǔ)識(shí)別發(fā)展到哪一步了

二、發(fā)展?fàn)顩r與難點(diǎn)

相較于采用傳統(tǒng)模型來研究唇語(yǔ)識(shí)別技術(shù)的英國(guó)東英吉利大學(xué)，搜狗選擇了采用深度學(xué)習(xí)的方式來做，主要圍繞著：

一，到底用了多少數(shù)據(jù)
二，算法復(fù)雜度有多高，儲(chǔ)存能力有多強(qiáng)
三，應(yīng)用場(chǎng)景到底是什么

那么唇語(yǔ)識(shí)別的難點(diǎn)在哪里呢？

第一，陳偉表示，語(yǔ)音交互準(zhǔn)確率低的問題一直沒有解決，很大原因就是語(yǔ)音噪聲問題無(wú)法解決，加入安置到安靜場(chǎng)景中，就可將準(zhǔn)確率提高到97%的高度。也就相當(dāng)于近場(chǎng)語(yǔ)音聽寫的過程，但這種理想狀態(tài)是很難實(shí)現(xiàn)的。

為了解決這個(gè)問題，陳偉表示，搜狗提出兩種方式：

一是通過硬件的方式，比如團(tuán)隊(duì)正在做的麥克風(fēng)陣列，通過增強(qiáng)語(yǔ)音信號(hào)的方式，將噪聲屏蔽掉，提升語(yǔ)音識(shí)別準(zhǔn)確率。

其次，繞開噪聲，能動(dòng)性地添加多模態(tài)信息，也就是所謂的在唇語(yǔ)識(shí)別外添加視覺信息

第二，目前的人工智能多是機(jī)器模仿人，但弱人工智能很難實(shí)現(xiàn)對(duì)人類的超越?！耙簿褪亲x唇這件事光看唇動(dòng)的話，并不是一個(gè)非常明顯的特征，往往依賴于上下文語(yǔ)言的信息?！?/p>

此外，陳偉表示，普通話有4個(gè)調(diào)，而英文沒有調(diào)，因?yàn)橛⑽幕镜陌l(fā)音單元在50個(gè)左右，而中文如何聲韻母切開來看的話，如果詳細(xì)建模至少在200個(gè)左右，所以發(fā)音單元之間有很大的差別。

最大的難點(diǎn)則在于泛化能力的訓(xùn)練。陳偉以Google舉例稱，Google的泛化是基于2010年至2016年整個(gè)新聞訪談?dòng)?xùn)練集的數(shù)據(jù)，在閉集訓(xùn)練內(nèi)，準(zhǔn)確率可以保證為較高水準(zhǔn)。比如搜狗早期針對(duì)新聞聯(lián)播級(jí)主持人的泛化訓(xùn)練，其準(zhǔn)確率可達(dá)70%以上。

陳偉對(duì)雷鋒網(wǎng)表示，基于開放口語(yǔ)測(cè)試級(jí)時(shí)，基本可以保證50%-60%的準(zhǔn)確率，而在垂直場(chǎng)景下，由于語(yǔ)音相對(duì)來說不會(huì)太發(fā)散，準(zhǔn)確率可以相對(duì)提高，比如在車載與智能家居場(chǎng)景下。

至于唇語(yǔ)識(shí)別是否會(huì)涉及到用戶隱私安全這個(gè)問題，陳偉表示，目前技術(shù)發(fā)展?fàn)顟B(tài)還未到該階段，搜狗正在探索唇語(yǔ)識(shí)別與哪些具體剛需場(chǎng)景結(jié)合。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

呂倩

編輯

發(fā)私信

當(dāng)月熱門文章

作為搜狗語(yǔ)音交互補(bǔ)充的唇語(yǔ)識(shí)別 發(fā)展到哪一步了

一、為什么要做唇語(yǔ)識(shí)別

二、發(fā)展?fàn)顩r與難點(diǎn)

作為搜狗語(yǔ)音交互補(bǔ)充的唇語(yǔ)識(shí)別發(fā)展到哪一步了

一、為什么要做唇語(yǔ)識(shí)別