0
本文作者: 陳孝良 | 2016-12-26 13:19 |
雷鋒網(wǎng)按:作者陳孝良,博士,聲智科技創(chuàng)始人,曾任中科院聲學所副研究員和信息化辦公室主任,中科院上海高等研究院客座,北京市公安局首屆網(wǎng)絡(luò)應(yīng)急專家,主要從事聲學信號處理和 GPU 深度學習算法研究工作。
最近扎克伯格在Facebook上傳的視頻---其驚心打造的AI管家“賈維斯”著實吸引了不少眼球,再次喚起了人們對人工智能未來的遐想和期望。以下是其在Facebook上的視頻,還沒有看的朋友可以戳進來看一下.
扎克伯格Facebook展示AI語音管家“賈維斯”的視頻
當記者到扎克伯格家中真實體驗的時候,“賈維斯”似乎并不給力,不僅連續(xù)多次呼叫“賈維斯”才有反應(yīng),而且還經(jīng)常無法正確執(zhí)行命令,特別是“賈維斯”似乎更不愛聽扎克伯格夫人的命令,唯一讓人寬慰的就是在播放歌曲方面還差強人意。
為什么會出現(xiàn)這個情況?扎克伯格在博客中坦誠了問題:類似手機近場訓練的AI和類似Echo可以響應(yīng)從任何角度命令的AI是不同的,后者顯然更加復(fù)雜而且短期內(nèi)更適合垂直場景交互而不是通用語音交互。
事實上,體驗扎克伯格“賈維斯”的尷尬,也正是當前語音交互技術(shù)升級期的尷尬。語音交互是人機交互最主要的方式之一,包括了聲學處理、語音識別、語義理解和語音合成等核心技術(shù)。
聲學處理主要是仿真人類的耳朵,保證機器能夠聽得準真實環(huán)境下人的聲音,語音識別則是把聽到的人聲翻譯成文字,語義理解則分析這些文字的意義,語音合成就把機器要表達的文字翻譯成語音。這四項技術(shù)雖然獨立發(fā)展,但實際上無法割裂,同時在其他技術(shù)的配合下,才能形成一次語音交互的完整鏈條。
從當前的技術(shù)水平來看,這四項技術(shù)已經(jīng)達到了商業(yè)初級可用的階段,但是距離我們滿意還應(yīng)該有3-5年時間的距離。即便是被國內(nèi)幾家公司號稱最為成熟的語音識別,其實也在近場到遠場的技術(shù)升級期。
以Siri為代表的近場語音識別已經(jīng)發(fā)展了60多年,特別是在2009年以后借助深度學習有了實質(zhì)性提高,但是正如扎克伯格所說的,當真正產(chǎn)品落地的時候,我們發(fā)現(xiàn)用戶真正需要的卻是類似Echo所倡導(dǎo)的遠場語音識別。顯然,這又是一個嶄新的技術(shù)領(lǐng)域,因為拾音距離的擴大帶來的問題不僅僅是語音信號的衰減,而且還帶來了復(fù)雜的真實環(huán)境以及復(fù)雜的用戶習慣。
以Siri為代表的近場語音識別要求必須是低噪聲、無混響、距離聲源很近的場景,比如用戶總是要對著手機講話才能獲得符合近場語音識別要求的聲音信號,同時還要求用戶滿足標準發(fā)音,其識別率才有可能達到95%以上。但是,若聲源距離距離較遠,并且真實環(huán)境存在大量的噪聲、多徑反射和混響,導(dǎo)致拾取信號的質(zhì)量下降,這就會嚴重影響語音識別率。同樣的,我們?nèi)祟愒趶?fù)雜遠場環(huán)境的表現(xiàn)也不如兩兩交耳的竊竊私語。
通常近場語音識別引擎在遠場環(huán)境下,若沒有聲學處理的支持,比如麥克風陣列技術(shù)的適配,其真實場景識別率實際不足60%。而且,由于真實場景總是有多個聲源和環(huán)境噪聲疊加,比如經(jīng)常會出現(xiàn)周邊噪聲干擾和多人同時說話的場景,這就更加重了語音識別的難度。因為當前的語音識別引擎,都是單人識別模式,無法同時處理多人識別的問題。
顯然,扎克伯格的“賈維斯”過渡到以Echo、機器人或者汽車為主要場景的時候,近場語音識別的局限就凸顯出來。為了解決這些局限性,利用麥克風陣列進行聲學處理的重要性就凸顯出來。麥克風陣列由一組按一定幾何結(jié)構(gòu)(常用線形、環(huán)形)擺放的麥克風組成,對采集的不同空間方向的聲音信號進行空時處理,實現(xiàn)噪聲抑制、混響去除、人聲干擾抑制、聲源測向、聲源跟蹤、陣列增益等功能,進而提高語音信號處理質(zhì)量,以提高真實環(huán)境下的語音識別率。通常經(jīng)過聲學處理以后的真實場景語音識別率可以達到90%左右。
事實上,以麥克風陣列為核心的聲學處理并不是什么新技術(shù),聲學本來就是一個古老的學科,而且陣列處理技術(shù)早就在軍工領(lǐng)域廣泛應(yīng)用。我們常常提到的雷達和聲納,實際上都是大規(guī)模的陣列信號處理技術(shù),這是國防對抗的耳朵,機器學習還無法取代這些傳統(tǒng)技術(shù)。
語音識別倒是50年代后才興起的新技術(shù),我國的語音識別研究稍晚一些,1958年才起步,當時中國科學院聲學研究所利用電子管電路識別10個元音。由于各方面條件的限制,中國的語音識別研究工作一直處于緩慢發(fā)展的階段。直至1973年,中國科學院聲學研究所才開始了計算機語音識別。2009年以后,由于深度學習的突破以及計算能力和數(shù)據(jù)積累,才讓語音識別有了近20年來最快的發(fā)展,但是這也僅僅提高了近場語音識別的效果。最近幾年才開始興起的麥克風陣列技術(shù)就是為了應(yīng)對遠場自由語音交互的需求。
但是,麥克風陣列技術(shù)也有很多難點問題需要解決。麥克風陣列僅實現(xiàn)了真實環(huán)境中的聲音信號處理,獲得了語音識別要求的聲音,機器可以聽得見人的命令,但是這個命令所表示的文字和意義卻是云端所要解決的,因此端和云這兩個系統(tǒng)必須匹配在一起才能得到最好的效果。
近場語音識別當前都是深度學習訓練的結(jié)果,而深度學習的局限就是嚴重依賴于訓練樣本庫,若聲學處理的聲音與樣本庫不匹配則識別效果也不會提升。從這個角度應(yīng)該非常容易理解,物理世界的信號處理也并非越是純凈越好,而是越接近于訓練樣本庫的特征越好,即便這個樣本庫的訓練信號很差。顯然,這是一個非常難于實現(xiàn)的過程,至少要聲學處理和深度學習的兩個團隊配合才能做好這個事情,另外聲學信號處理這個層次輸出的信號特征對語義理解也非常重要。不僅如此,麥克風陣列處理信號的質(zhì)量還無法定義標準,聲智科技正在盡力推動這個事情,但是難度非常大。
從上面的描述小結(jié)來看,當前的麥克風陣列+近場語音識別的端云識別其實并不是理想的技術(shù)架構(gòu),因為這限制了將來技術(shù)的突破。麥克風陣列+遠場語音識別的方案應(yīng)該是比較理想的,但是當前這面臨著兩個難題。
其一就是讓諸如蘋果、微軟和谷歌等巨頭放棄近場語音識別的優(yōu)勢本身就是一件很難的事情。當年諾基亞就是因為功能機的巨大成功才導(dǎo)致不敢All in錯過了智能機時代。所以語音識別領(lǐng)域才會有亞馬遜這類似乎不搭界的企業(yè)做出了迄今還算唯一成功的產(chǎn)品Echo。
其二就是遠場標注數(shù)據(jù)的嚴重缺乏,而且這類數(shù)據(jù)暫時還無法直接付費買來。因為但凡我們雇人采集和標注數(shù)據(jù),就很難讓大量的用戶遵循自然的方式來錄制聲音,這是人性難以避免的。這里可以做個簡單的實驗,如果非專業(yè)演員,若給你個腳本,你會怎樣去朗讀或者表達呢?
“賈維斯”的喚醒也同樣面臨諸多問題,給人工智能產(chǎn)品取個名字是當前無法避免的問題,這和人類取名標示一樣,端上的聲學處理還要借助這個名字來進行測向和后續(xù)處理。因此語音喚醒也直接決定了遠場語音識別的效果,以Siri為代表的近場交互剛開始通過人工按鍵避免了這個問題,但是遠場交互則無法再借助人工參與的方式實現(xiàn)。
遠場語音喚醒的難度現(xiàn)在比遠場語音識別還要大一些,其面臨的環(huán)境更加復(fù)雜,而且當前還沒有更令人欣喜的技術(shù)出現(xiàn)。語音喚醒技術(shù)目前主要還是參數(shù)式、拼接式和訓練式,參數(shù)式的方法主要是在芯片中應(yīng)用,也幾乎被淘汰了。拼接和訓練其實類似,都是借助深度學習的模型實現(xiàn),只是數(shù)據(jù)來源不同而已,拼接從大庫中剪裁數(shù)據(jù)進行訓練,而訓練則直接對用戶自定義的喚醒詞進行大規(guī)模數(shù)據(jù)采集和標注,然后再進行深度學習訓練。顯然訓練的喚醒效果會更好,這兼顧了用戶叫喚醒詞的語速、語調(diào)和口音,但是這項技術(shù)的成本非常大,需要覆蓋的用戶群體非常大,而且和上面識別中提到的難點一樣,采集的數(shù)據(jù)總是容易受到用戶刻意發(fā)音的干擾,實際上也很難做到真實,但是不斷的迭代會快速提升語音喚醒的效果。
總的來說,“賈維斯”的尷尬其實是個普遍現(xiàn)象,遠場語音喚醒暫時還是個世界難題。這不是機器聽覺達到人類水平就能令人滿意的,假如突然有個老外叫我們的中文名字,我們的反應(yīng)或許也不會太過敏感。事實就是這樣,我們還暫且不提遠場語音喚醒所要面對的復(fù)雜環(huán)境和多人喚醒問題,當前機器還只能勉強響應(yīng)聲音最大的喚醒,還很難真的讓機器自主決策響應(yīng),這還需要時間去積累數(shù)據(jù)和迭代算法。另外也要強調(diào)下,語音喚醒和識別率并非只有一個詞錯率WER指標,還有個重要的虛警率指標,稍微有點聲音就亂識別也不行,另外還要考慮閾值的影響,這都是遠場語音交互技術(shù)中的陷阱。
語義理解在當前遠場語音交互的地位暫時還不是太高,因為前面提到的各項技術(shù)實際上還在成熟之中,假如10個字錯了3個字,實際上語義理解就很難做了,特別是當前遠場語音交互中的語境缺失更是最大的障礙。舉個例子,我們隨機錄制一句純凈語音進行了一個實驗(簡單的比如人名),事實上平均超過60%的人無法準確寫出其中對應(yīng)的正確中文。但是語義問題倒是有個工程化的解決方案,就是限制垂直場景,比如音箱、車機和安防等領(lǐng)域,這些場景單靠搜索也能解決用戶控制機器和簡單對話的問題。
語音合成也是一個很大的麻煩,我以前有篇文章做了分析,從參數(shù)合成到拼接合成,以及谷歌的Wavenet和Amazon的Polly。我們現(xiàn)在的語音合成技術(shù)實際上越來越接近人類自然的流暢,但是還無法做到語調(diào)和語速的自適應(yīng)變化。比如機器生氣了應(yīng)該是什么聲音?機器害怕了又該怎樣?等等諸如此類的,這樣一算我們就明白了PPT公司所謂的人工智能又有多么可笑了。千萬先別談理解語言這個人類最為復(fù)雜的進化成果,就把我們所提到的種種問題做到用戶滿意真的就是謝天謝地了,也不要心存僥幸,這可能需要很多人很長的時間或許才有些收獲。
遠場語音交互還面臨一個很大的難題,這就是軟硬一體化的問題,實際上很少有一項技術(shù)類似遠場語音交互這樣要求的鏈條如此之長。從硬件、算法、軟件到云端,缺一個鏈條遠場語音交互的效果就無法體現(xiàn)出來。硬件是所有算法和軟件的基礎(chǔ),當前麥克風陣列的硬件體系還不成熟,包括麥克風器件和相關(guān)芯片,特別是在控制成本的前提下,很難達到語音信號處理的要求,這也是諸如亞馬遜、谷歌甚至微軟這類企業(yè)不得不做硬件的根本原因。硬件遲早會類似PC和手機一樣趨于成熟,但是推動產(chǎn)業(yè)鏈條的升級,特別是制造業(yè)的升級不是一朝一夕的事情,這個周期也必須要等待成熟。但是如果僅僅等待,很可能就是起大早趕晚集錯過了。
因此,不難理解為何扎克伯格的“賈維斯”宣傳視頻與真實體驗之間的差別。遠場語音交互中的聲學處理、語音喚醒、語音識別和語音合成正處在從近場到遠場的技術(shù)升級期,語義理解更是剛生萌芽。雖然當前讓機器理解人類語言暫時還看不到希望,但是至少各項技術(shù)已經(jīng)相對成熟,商業(yè)化的應(yīng)用則會加速這些技術(shù)的成熟周期,甚至已經(jīng)超過了芯片領(lǐng)域的摩爾定律發(fā)展速度。
相信未來3-5年期間,我們會用上可以自然語音交互控制的人工智能產(chǎn)品,至少也能實現(xiàn)扎克伯格視頻中所演示的效果。所以這個行業(yè)的各家應(yīng)該合作起來,共建標準共享成果,共同努力開發(fā)市場,人工智能時代我們國內(nèi)更應(yīng)該誕生更多偉大的企業(yè)。
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。