0
本文作者: 陳孝良 | 2017-11-20 07:45 |
雷鋒網(wǎng)按:本文作者陳孝良,博士,聲智科技創(chuàng)始人,曾任中科院聲學所副研究員和信息化辦公室主任,北京市公安局首屆網(wǎng)絡(luò)應(yīng)急專家,主要從事聲學信號處理和 GPU 深度學習算法研究工作。
語言對于人類文明的重要性不言而喻,但是語言的起源卻是個高度爭議的話題,我們對此幾乎一無所知。我們不了解人類,也不了解動物,更是不懂宇宙,甚至我們都不能完全搞清楚一些看似簡單的問題,比如人類的耳朵為何要有這么奇怪的耳廓?
語言承載了人類文化,人類需要通過語言學習知識和傳遞信息,這是人類區(qū)別于動物界最重要的特性之一。而且,人類語言超過了五千多種,人類將大部分時間花費在學習各種語言上似乎也不是一個更有效的途徑。因此,未來的機器智能時代,機器也必然需要通過語言實現(xiàn)與人類之間的交互,似乎最近的科幻片都已經(jīng)暗示了這個問題?,F(xiàn)在的科幻就是未來的現(xiàn)實,因此,讓機器聽懂世界,這是未來機器智能時代的關(guān)鍵問題,也是人類一個更大的夢想,但是,我們距離人類的這個夢想還有多遠呢?
首先明確一個概念,讓機器聽懂世界,這里面其實蘊含了多個歷程,包括聽懂人類語言,進而聽懂動物叫聲,甚至聽懂自然聲音,亦或類似地球的耳朵LIGO那樣聆聽宇宙的“聲音”。所有這些都是極其復雜的過程,因為我們?nèi)祟悓嶋H上也沒有達到這種能力,但是我們期望機器能夠延伸人類的能力,從而實現(xiàn)人類的夢想。這是一個簡單的道理,有時候我們做不到的事情,總期望別人能夠做到,所以語音智能事實上承載的是幾千年來人類的偉大夢想。
再看第一個歷程,既讓機器聽懂人類語言,這已經(jīng)是最近技術(shù)和市場上非?;馃岬氖虑?,也是全世界科學家為止奮斗了六十多年的事業(yè)。這其中最為典型的,就是以亞馬遜Echo所引領(lǐng)的智能音箱,迄今為止,占據(jù)全球市值排名榜的全球巨頭,包括國內(nèi)的阿里、京東、騰訊、百度、小米、科大訊飛等,國外的蘋果、微軟、亞馬遜、谷歌、臉書、三星等,創(chuàng)歷史的同時發(fā)力爭奪未來智能時代的語音入口,甚至亞馬遜和阿里率先不惜代價開啟了補貼大戰(zhàn)。這些全球巨頭的激烈競爭,將對未來十年甚至二十年產(chǎn)生極其重要的影響。
那么,如何才能讓機器聽懂人類語言呢?這需要解決三個核心關(guān)鍵問題:聽見、聽準和聽懂,從技術(shù)角度來看,就是拾音、識別和理解三個關(guān)鍵技術(shù)環(huán)節(jié)。拾音是最為基礎(chǔ)的環(huán)節(jié),必須保證讓機器聽得見聲音,這部分主要是聲學問題;識別是將符合要求的聲音轉(zhuǎn)化成文字,這部分主要是語音識別的問題;理解則是根據(jù)識別出來的文字,準確理解人類的指令甚或情感。鑒于語音智能設(shè)備已經(jīng)大量出現(xiàn)在我們生活場景之中,當前技術(shù)的核心關(guān)鍵就是聲學問題和語義理解。
近場語音交互主要是指人類距離機器不超過30厘米范圍的語音識別技術(shù),這項技術(shù)利用距離巧妙回避了真實場景下復雜的聲學問題,可以理解為一種實驗室理想環(huán)境下的語音交互技術(shù)。近場語音識別從上世紀五十年代就開始研究,但是長期沒有實質(zhì)性進展,直到蘋果在2010年推出Siri的應(yīng)用,這才引起了全球的關(guān)注。到現(xiàn)在為止,近場語音交互技術(shù)已經(jīng)比較成熟,平均識別率可以達到95%以上,主流的手機和平板等設(shè)備都已經(jīng)普遍支持近場語音應(yīng)用。這里提醒一下,很多人工智能大會或者電視演播廳所展示的實時語音識別或者翻譯技術(shù),其實都是近場語音交互技術(shù),這些聲音都是從近場麥克風采集的高質(zhì)量數(shù)據(jù),與會場的嘈雜環(huán)境并沒有實際關(guān)聯(lián)。
但是近場語音交互受到了真實場景的巨大制約,并沒有展現(xiàn)出來語音交互可以解放雙手的先進性,因此在很多場景中,事實上近場語音交互都是雞肋一般的存在,并沒有發(fā)揮出真正的威力,也就說,這個技術(shù)其實被嚴重低估了。直到遠場語音交互技術(shù)的出現(xiàn),成功解決了真實場景下的復雜聲學問題以后,至少技術(shù)達到了用戶認可的門檻,語音交互才真正出現(xiàn)了替代鍵盤鼠標和觸摸屏的可能性。
遠場語音交互主要解決30厘米到5米范圍內(nèi)的語音交互問題,這個范圍事實上就是人類之間溝通交流的最佳距離,距離太近容易觸發(fā)自我保護意識,而距離太遠則會增大交流難度。注意語音交互并非只是語音問題,人類的交互其實是一個綜合的過程,包括了表情、眼神、肢體動作等等一系列影響因素,太遠距離的語音交互事實上意義不大,比如隔墻的語音交互事實上只要做好語音控制就可以了,真實場景下并不需要復雜的交互設(shè)計,因為人類也很難隔墻與人聊太多事情。
遠場語音交互的歷史是比較短暫的,這項技術(shù)以前長期沒有實質(zhì)性突破,2014年是個重要的轉(zhuǎn)折點,亞馬遜的Echo最早開始探索這個市場,但是直到2016年末,全球才真正開始重視這項技術(shù),并且短短一年時間,引領(lǐng)全球市場都進入了激烈博弈的階段。聲智科技是遠場語音交互的代表企業(yè)之一,其成長歷史就是這一年多技術(shù)和市場變遷的見證。
遠場語音交互的代表產(chǎn)品自然就是智能音箱,盤點一下全球巨頭在智能音箱的布局就可窺得一二。亞馬遜的Echo發(fā)布四年已然影響深遠,谷歌的Home劍走偏鋒以技術(shù)做博弈,微軟的Invoke則仍然堅持工程師定義產(chǎn)品的文化,蘋果的HomePod更是剛剛跳票低估了高端智能音箱的難度,而臉書和三星仍然在緊鑼密鼓的研發(fā);反觀國內(nèi)甚為熱鬧,小米的小愛同學以299元的低價撬開市場,阿里的天貓精靈則以99元的低價率先補貼,就在騰訊、華為還在猶豫的時候,百度剛剛發(fā)布了渡鴉智能音箱和DuerOS開發(fā)板SoundPi。雖然國內(nèi)的智能音箱起步很晚,但是國內(nèi)市場經(jīng)常演繹奮起直追甚至超越的故事。
這里還有兩個重要的數(shù)據(jù)最具說服力,一個就是亞馬遜Echo的銷量已經(jīng)超過千萬,另外一個就是阿里的天貓精靈雙十一超過了百萬臺。也就說,智能音箱作為語音智能的突破口已經(jīng)成立,這是遠場語音交互的一大進步,只有落地真實場景并且經(jīng)過驗證的技術(shù)才具有生命力。注意,這里還是特別強調(diào)智能音箱只是遠場語音交互的突破口,并非什么語音的唯一入口,因為未來的機器智能時代,語音入口不僅僅只有智能音箱,比如電視、冰箱、汽車和機器人都有可能成為重要入口。但是智能音箱又是非常重要的,因為不管產(chǎn)品形態(tài)怎樣變化,其本質(zhì)的核心其實還是智能音箱的技術(shù)架構(gòu)。
若讓機器聽懂世界,遠場語音交互技術(shù)也僅是個嘗試而已,事實上遠場語音技術(shù)本身也只是剛剛起步,即便5米以內(nèi),其噪聲抑制、回聲抵消、混響去除、遠場喚醒和遠場識別等核心技術(shù)還存在諸多缺陷。但是技術(shù)一直在迭代發(fā)展,特別是當技術(shù)落地場景以后,源源不斷的真實數(shù)據(jù)和客戶需求將帶動技術(shù)更加快速的發(fā)展。
從技術(shù)層面來看,讓機器聽懂世界涉及了數(shù)學、物理學、語言學、醫(yī)學、計算機學等各學科的知識,很難一一枚舉出來,但是若從應(yīng)用場景來看,則相對比較簡單,讓機器聽懂世界包括了人類語言、人類情感、動物聲音和自然聲音。
前面提到了近場和遠場語音交互的技術(shù),這可以解決5米以內(nèi)的語音交互問題,基本囊括了人機交互的主要問題,但是還有更多復雜場景的問題需要解決,比如:
遠場語音交互:主要解決5米以內(nèi)的喚醒、識別和理解問題,雖然這項技術(shù)已經(jīng)落地實際的場景和產(chǎn)品,但是對于諸如雞尾酒會效應(yīng)等難題仍然還沒有實質(zhì)性進展,而且從人類相互交流的過程來看,當前的遠場語音交互技術(shù)還遠遠沒有達到非常準確、非常順暢的程度。
超遠場交互:主要是指5米、10米、20米甚至500米以外的超遠距離拾音和交互,這種技術(shù)的難度就是解決在遠距離聲音傳播過程中能量衰減的約束下獲取高質(zhì)量聲音數(shù)據(jù)的問題,因為沒有高質(zhì)量的聲音數(shù)據(jù),再厲害的機器學習也沒有任何價值。這種技術(shù)主要應(yīng)用在智能安防場景,比如交通監(jiān)控,搭配遠距離聲發(fā)射技術(shù)可以實現(xiàn)遠程指揮的自動交通處理。
局部場交互:主要是指針對某個局部范圍內(nèi)的語音識別和理解,主要適應(yīng)于智能醫(yī)療、智慧法庭、智能教育、智能會議等特殊場景,比如實時記錄和識別法官、醫(yī)生或者教師說過的話。這種場景的需求比較單一,僅僅針對特定目標進行拾音和識別即可,但是對于識別的速度和精度要求非常高,一般也要達到98%以上。
分布場交互:主要是指狹小空間內(nèi)多人識別和響應(yīng)的問題,最常見的就是汽車場景,現(xiàn)在的汽車智能交互僅僅照顧了駕駛員的需求,但實際應(yīng)用中可能需要照顧汽車其他乘客的交互需求,這就涉及了多人識別和交互的問題。事實上,隨著智能音箱等一系列智能設(shè)備的普及,未來我們的家庭就是典型的分布場交互場景。
多語種交互:主要適應(yīng)跨語言時候的自由交互場景,當前Google、百度和科大訊飛推出的翻譯機部分解決了一些問題,但是這些翻譯機主要還是近場語音,過渡到遠場語音交互的難度很大,因為翻譯的場景確實太復雜多變了,在數(shù)據(jù)積累還沒形成規(guī)模之前,這類技術(shù)還很難有實質(zhì)性突破。
大詞匯交互:思考一個問題,能不能將語音識別應(yīng)用到話劇的場景?似乎這是一個更加頭疼的問題,因為從聲學、識別到理解都是巨大的挑戰(zhàn)。話劇演員一般不會佩戴麥克風,這就要求遠場多人識別,而且話劇演員常會自白一大段,如何進行端點識別和語音識別?這樣發(fā)散來想,當前的智能語音技術(shù)真的是才剛剛開始。
至于聽懂人類情感,則是一個更加復雜的過程,人類至今也沒搞清楚情感的來源,所以即便熱戀中的情侶,也無法搞清楚對方的真實需求。但是至少有幾個技術(shù)點是和人類情感有關(guān)系的,這里簡單闡述一下。
聲紋識別,聲紋識別的理論基礎(chǔ)是每一個聲音都具有獨特的特征,通過該特征能將不同人的聲音進行有效的區(qū)分。聲紋的特征主要由兩個因素決定,第一個是聲腔的尺寸,具體包括咽喉、鼻腔和口腔等,這些器官的形狀、尺寸和位置決定了聲帶張力的大小和聲音頻率的范圍。第二個決定聲紋特征的因素是發(fā)聲器官被操縱的方式,發(fā)聲器官包括唇、齒、舌、軟腭及腭肌肉等,他們之間相互作用就會產(chǎn)生清晰的語音。而他們之間的協(xié)作方式是人通過后天與周圍人的交流中隨機學習到的。
情感識別,主要是從采集到的語音信號中提取表達情感的聲學特征,并找出這些聲學特征與人類情感的映射關(guān)系。情感識別當前也主要采用深度學習的方法,這就需要建立對情感空間的描述以及形成足夠多的情感語料庫。情感識別是人機交互中體現(xiàn)智能的應(yīng)用,但是到目前為止,技術(shù)水平還沒有達到產(chǎn)品應(yīng)用的程度。
哼唱識別,主要是通過用戶哼唱歌曲的曲調(diào),然后通過其中的旋律同音樂庫中的數(shù)據(jù)進行詳細分析和比對,最后將符合這個旋律的歌曲信息提供給用戶。目前這項技術(shù)在音樂搜索中已經(jīng)使用,識別率可以達到80%左右。
聲光融合,聲學和光學總是相伴相生,人類的情感也是通過聽覺和視覺同時接受分析的,因此機器也必然將語音和圖像結(jié)合在一起分析,才能更好的理解人類的情感,但是語音和圖像在各自領(lǐng)域并沒有發(fā)展成熟,因此聲光融合的研究一直處于被輕視的尷尬地位。
讓機器聽懂動物的聲音,或許是一個苛刻的要求,因為人類至今也沒有聽懂動物的聲音,甚至嬰兒的哭聲,我們只能大概的去猜測。但是這不影響機器的進步,因為在很多領(lǐng)域,機器遲早是超越人類的。事實上,這類研究一直在進行,比如海豚、蝙蝠、鯨魚、猩猩、老虎、獅子、貓狗、蚊子、蜂鳥等等動物的聲音特征,當數(shù)據(jù)積累足夠多的時候,根據(jù)聲音推斷這些動物的行為不是不可能,而人類的進步很大程度也得益于這種仿生。
當然,機器也必須聽懂大自然的聲音,比如雷聲、雨聲、地震、海浪、風聲等聲音,通過這些聲音則可以辨別機器所處的環(huán)境,并且根據(jù)環(huán)境做出判斷。其實,這些技術(shù)也正在落地,比如聲智科技正在研究的小樣本學習技術(shù),就是根據(jù)噪聲來判斷場景的變化,顯然廚房的噪聲和客廳、臥室不會相同,同樣地,咖啡廳、火車站、機場、辦公室、汽車等場景的噪聲也有很大區(qū)別,通過區(qū)分這些噪音則可以快速匹配出場景,這將非常有利于后端智能的處理,比如自然語言理解增加了場景信息以后就會更加準確。
讓機器聽懂世界,不能僅僅依賴算法和數(shù)據(jù),更重要的還是底層硬科技的突破,下面列舉了聲智科技正在參與研發(fā)的一些基礎(chǔ)技術(shù),期望能有更多的學子參與到這些令人興奮的研發(fā)過程之中。
智能麥克風,可以簡單理解為將當前的MEMS麥克風與低功耗芯片融合在一起,主要是解決低功耗語音喚醒和識別的問題。
矢量麥克風,當前的麥克風都是標量麥克風,只能獲取單一的物理信息,也就是能量值,根據(jù)時間信息和陣列配置才能獲取頻域和相位信息。若將標量麥克風升級成為矢量麥克風,則增加了一個維度的特征信息,這對于機器學習的提升將會非常明顯。
薄膜麥克風,這是一種柔性的技術(shù),可以想象把整個電視屏幕當作麥克風的場景,通過特殊的納米材料技術(shù),甚至可以把任何界面都當作聲音的接收裝置,通常來說這種換能器裝置也可以把聲音轉(zhuǎn)變成電能。
柔性揚聲器,這實際上和薄膜麥克風的原理類似,只是將換能的方向換了一下,柔性揚聲器目前多種方案,目前來看其難點主要還是發(fā)聲的帶寬和失真問題。
激光拾聲,這是主動拾聲的一種方式,可以通過激光的反射等方法拾取遠處的振動信息,從而還原成為聲音,這種方法以前主要應(yīng)用在竊聽領(lǐng)域,但是目前來看這種方法應(yīng)用到語音識別還比較困難。
微波拾聲,微波是指波長介于紅外線和無線電波之間的電磁波,頻率范圍大約在 300MHz至300GHz之間,同激光拾聲的原理類似,只是微波對于玻璃、塑料和瓷器幾乎是穿越而不被吸收。
高速攝像頭拾聲,這是利用高速攝像機來拾取振動從而還原聲音,這種方式需要可視范圍和高速攝像機,只在一些特定場景里面應(yīng)用。
小結(jié)一下,讓機器聽懂世界的技術(shù)正在全球快速的演化,相信不久的將來,我們肯定能看到更加智能的機器,因此,既不要抨擊當前的人工智能技術(shù),也不要盛贊現(xiàn)在的基礎(chǔ)科技技術(shù),保持一顆平靜的心,正確給予科技界和產(chǎn)業(yè)界的支持才是對于未來最大的投資。不管外界怎樣評論,一個技術(shù)公司的價值最終還是體現(xiàn)在這個公司為社會創(chuàng)造了多大的價值。
但是,我們也應(yīng)該看到,國內(nèi)產(chǎn)業(yè)界長期不重視基礎(chǔ)技術(shù)的投入,甚至資本界也常常不看好技術(shù)類型公司,國內(nèi)更看重的還是模式創(chuàng)新,這和美國形成了很大的反差。這其中的深層次原因,應(yīng)該還是取決于當前國內(nèi)主流的追求依然是個人名望和經(jīng)濟回報,這嚴重束縛了我們對于未來的夢想和渴望,當然,這也是經(jīng)濟發(fā)展的必經(jīng)階段,只有解決了經(jīng)濟問題,我們才能真正對于知識產(chǎn)生自由的渴望,才能看的更遠,追求的夢想更大。
當夢想越近的時候難度其實越大,誰都會有夢想,關(guān)鍵在于你愿不愿意為此付出,并且能夠咬牙堅持下來。未來,讓機器聽懂世界,更加期待年輕人的參與,當然,從我個人來說,我更期待有理想的學子們能來聲智科技,因為這不是一家談情懷的公司,而是一家談理想的公司!
題圖來自 Pixabay
相關(guān)文章:
失落的興奮,人工智能創(chuàng)業(yè)的困境與焦慮
亞馬遜Echo新品技術(shù)解讀,如何選擇合適的麥克風陣列?
盤點麥克風技術(shù)及市場,遠場語音交互如何選型麥克風?
聊一聊麥克風陣列技術(shù):語音交互應(yīng)該選用怎樣的方案?|深度
技術(shù)解讀:從亞馬遜Echo到谷歌Home,雙麥克風陣列更有優(yōu)勢?
對比Amazon Echo,Google Home為何只采用了2個麥克風?
大牛講堂 | 語音專題第一講,麥克風陣列的語音信號處理技術(shù)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。