0
本文作者: 木子 | 2020-09-21 10:00 |
萬物互聯(lián),作為人類最自然、便捷的溝通方式,語音正成為所有智能設備至關重要的入口,但入口的關鍵——拾音,效果往往差強人意。就智能家居來說,它們的拾音范圍多集中于近場環(huán)境,約為2-3米,且拾取效果欠佳,需多次喚醒。
如果把攝像機比作“眼睛”,拾音器便是“耳朵”。眼睛看到的圖像和耳朵聽到的聲音組合構成一個基本的影音記錄系統(tǒng)。然而這只靈活的耳朵在應用過程中會受到諸如拾音距離、室內(nèi)混響、環(huán)境噪音等諸多因素的影響,這對拾音來說是不小的挑戰(zhàn)。
如何真正“耳聽八方”?深耕智能語音與人工智能領域多年的科大訊飛,近期推出了全新拾音品牌——諦聽,在超小音量拾取和降噪方面再下一城。其實,訊飛在早前推出的訊飛錄音筆、智能鼠標、阿爾法蛋等產(chǎn)品均涉及語音交互。基于產(chǎn)品應用的技術積累,這次在拾音領域發(fā)力深耕,令人欣喜。
據(jù)了解,科大訊飛諦聽系列配備了32路麥克風,主打全自動聲源定位、自適應波束形成和混響抑制技術以及基于深度學習的噪聲抑制和語音自動增益調(diào)節(jié)算法,可實現(xiàn)室內(nèi)說話人自動定位、噪聲與混響抑制、音量自動調(diào)節(jié)等功能,從而達到精準拾音的目的。
近日,某科技博主的一支關于拾音器的評測視頻引發(fā)關注。視頻中,科大訊飛的諦聽系列產(chǎn)品和德國森海塞爾、美國舒爾的同類產(chǎn)品“同臺競技”,訊飛表現(xiàn)出彩。
在模擬30分貝人耳都無法聽見的超小的音量環(huán)境下,森海塞爾拾音穩(wěn)定,內(nèi)容清晰,舒爾拾取的聲音小且難以分辨說話內(nèi)容,訊飛諦聽拾取的內(nèi)容清晰,且音質(zhì)聽感較好的。
這主要由于科大訊飛采用了自主研發(fā)的全自動聲源定位技術,只要有輕微的聲音,它便如聚光燈一樣迅速定位聲源,并對來自其他方位的混響和噪音進行抑制。在實際應用中,32個麥克風組成的陣列可做到7×24小時全天候、全方位、無死角拾音,精準拾取低至30分貝的超小音量。
眾所周知,聲音在傳播過程中會發(fā)生衰減,不同方位的聲源會導致所拾取語音音量和效果差異較大,全自動聲源定位和自適應波束形成技術還使得訊飛諦聽在拾取運動的聲源方面表現(xiàn)出色。波束如同槍手槍擊獵物一樣,可自動“瞄準”運動的聲源方位。這意味著,對于那些仍需要預設和限制區(qū)域才能拾音的設備來說,訊飛這是一大突破。不僅如此,通過對不同音量自動調(diào)整,訊飛諦聽使得拾取的聲音更符合人耳聽覺效果。
聲學環(huán)境比想象中更為復雜,環(huán)境噪音、干擾噪音、電流噪音等噪聲與語音信號在時間和頻譜上常常相互交疊,再加上回波和混響的影響,想要捕捉相對純凈的語音非常困難。在評測視頻中,評測者分別模擬了環(huán)境噪音為70分貝和90分貝的情況,結(jié)果顯示即使是90分貝的極端噪音環(huán)境,諦聽都抑制了噪音,對話內(nèi)容依舊清晰。
面對噪音這一挑戰(zhàn),訊飛諦聽依據(jù)時域、頻域和空域的信息,能有效增強語音并顯著抑制噪音對目標語音的影響。它首先通過聲音定位技術拾取語音,進行語音增強,實現(xiàn)初步的降噪效果。然后通過波束形成和基于深度學習的語音增強算法和對非方向性和方向性的噪聲進行抑制,最后輸出時,對音量大小自動增益并根據(jù)人耳的聽覺特點優(yōu)化,使聲音更加飽滿。
萬物智聯(lián)的時代已然來臨,A.I.賦能IOT將激發(fā)無限可能,前端拾取的音質(zhì)高低無疑會為影響后期的語音處理的水平。
諦聽系列產(chǎn)品,是科大訊飛21年來始終堅持源頭核心技術自主創(chuàng)新的體現(xiàn)。憑借“中文語音技術應由中國人做到最好”的信念,2018年至今,科大訊飛已獲得30項人工智能國際競賽的冠軍,涵蓋語音識別、語音合成、機器閱讀理解、手勢識別、圖像識別等諸多領域。隨著一項項技大關術的突破,科大訊飛也為拾音器的多樣化應用場景落地提供了強而有力的技術支撐。以往的拾音設備成本高、音質(zhì)差、指向性強,無法在大面積推廣,諦聽的推出,或許將打破這一現(xiàn)象。
據(jù)悉,諦聽系列產(chǎn)品未來可廣泛應用安防、交通、高質(zhì)量會議等關鍵場所和重點部位,其實用性應用而言,可以說大有可為。以公共場所為例,以往的視頻大多無法精準拾取聲音,音頻與視頻的有效結(jié)合,全向采集視聽解決了單純視頻的圖像死角,有利于防止群體性和違規(guī)事件的發(fā)生,滿足更多現(xiàn)實的需求。
當今世界正經(jīng)歷百年未有之大變局,而人工智能正是引領新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術,對于推動社會生產(chǎn)力的整體躍升有著重大意義。劉慶峰不止一次表示,“只有占據(jù)核心技術的高點,才能在產(chǎn)業(yè)發(fā)展中贏得主動,在國際競爭中擁有話語權?!庇嶏w諦聽或許正是其20多年專注于人工智能核心技術的最佳體現(xiàn)。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。