思必馳 CTO 周偉達(dá)：語(yǔ)音技術(shù)優(yōu)先服務(wù)于 AIoT | CCF-GAIR 2019

本文作者：肖漫

2019-07-18 18:21

專(zhuān)題：CCF-GAIR 2019

導(dǎo)語(yǔ)： AIoT 在用戶(hù)端的設(shè)備落地是思必馳優(yōu)先關(guān)注的方向。

雷鋒網(wǎng)按：7 月 12 日-7 月 14 日，2019 第四屆全球人工智能與機(jī)器人峰會(huì)（CCF-GAIR 2019）于深圳正式召開(kāi)。峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，雷鋒網(wǎng)、香港中文大學(xué)（深圳）承辦，深圳市人工智能與機(jī)器人研究院協(xié)辦，得到了深圳市政府的大力指導(dǎo)，是國(guó)內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流博覽盛會(huì)，旨在打造國(guó)內(nèi)人工智能領(lǐng)域極具實(shí)力的跨界交流合作平臺(tái)。

當(dāng)下，智能語(yǔ)音技術(shù)成為下一代人機(jī)交互新模式已經(jīng)得到了業(yè)界的認(rèn)可，智能交互、就近喚醒、全雙工成為當(dāng)下語(yǔ)音技術(shù)中前沿技術(shù)探討點(diǎn)。在 CCF-GAIR 2019 “5G + AIoT”專(zhuān)場(chǎng)上，思必馳 CTO 周偉達(dá)帶來(lái)了關(guān)于語(yǔ)音交互技術(shù)的演講，演講主題為《語(yǔ)音交互技術(shù)在 IoT 方向的應(yīng)用與挑戰(zhàn)》。

思必馳 CTO 周偉達(dá)：語(yǔ)音技術(shù)優(yōu)先服務(wù)于 AIoT | CCF-GAIR 2019

思必馳 CTO 周偉達(dá)

演講中，周偉達(dá)指出，智能語(yǔ)音當(dāng)下面臨的挑戰(zhàn)主要有三點(diǎn)，即低功耗、遠(yuǎn)場(chǎng)交互和高噪聲、全場(chǎng)景智能交互。

首先，在低功耗方面，周偉達(dá)在演講中提到低功耗算法、低功耗芯片以及軟硬一體的方案。演講結(jié)束后，周偉達(dá)接受了雷鋒網(wǎng)的采訪時(shí)也強(qiáng)調(diào)了低功耗。他認(rèn)為：“低功耗是語(yǔ)音技術(shù)發(fā)展的一個(gè)方向，它是一個(gè)涉及到語(yǔ)音交互的全鏈條，從前端的信號(hào)處理到語(yǔ)音合成，再通過(guò)揚(yáng)聲器的播放，每個(gè)環(huán)節(jié)都要實(shí)現(xiàn)低功耗?！?/strong>

另外，關(guān)于軟硬結(jié)合的行業(yè)創(chuàng)新點(diǎn)，周偉達(dá)在采訪中表示，一方面是 AI 計(jì)算的加速，涉及到在現(xiàn)有平臺(tái)上植入算法去加速運(yùn)算；另一方面是芯片的創(chuàng)新。他說(shuō)道：“ AI 芯片會(huì)打破傳統(tǒng)的馮諾依曼的組件構(gòu)架，然后把數(shù)據(jù)和指令從外部輸入進(jìn)來(lái)，還要有計(jì)算完再輸入出去的架構(gòu)。有可能數(shù)據(jù)和計(jì)算是放在一起來(lái)做的，所以我們覺(jué)得會(huì)是一些革命性的技術(shù)突破。”

對(duì)于遠(yuǎn)場(chǎng)交互和高噪聲的挑戰(zhàn)，周偉達(dá)在演講中提出了麥克風(fēng)陣列、降噪、多模態(tài)交互、全雙工系統(tǒng)等解決方案。另外，解決智能語(yǔ)音在全場(chǎng)景智能交互的挑戰(zhàn)中，周偉達(dá)提出了多設(shè)備聯(lián)動(dòng)機(jī)制，通過(guò)正面喚醒、就近喚醒、語(yǔ)義選擇、多模態(tài)直視喚醒等方案，以解決家居場(chǎng)景中的多設(shè)備智能喚醒難題。

關(guān)于全雙工的語(yǔ)音系統(tǒng)，周偉達(dá)在采訪中做了補(bǔ)充，他說(shuō)道，思必馳首先希望提升的是人機(jī)交互的自然度，主要著力于兩個(gè)方面，一方面是處理降噪，提升 VAD；另一方面是完整意圖判斷。不僅如此，全雙工技術(shù)在未來(lái)除了要提升自然度，還要提高智能；其中包括感知智能和認(rèn)知智能。

除了演講中提及的三大挑戰(zhàn)，語(yǔ)音交互在 IoT 領(lǐng)域的應(yīng)用中，隱私安全也是一個(gè)值得關(guān)注的問(wèn)題。對(duì)此，周偉達(dá)在采訪中表示，隱私保護(hù)是最基礎(chǔ)的，行業(yè)要發(fā)展，就必須保護(hù)隱私，尊重隱私。

目前，思必馳不僅聚焦語(yǔ)音技術(shù)，而且自研 AI 芯片，周偉達(dá)接受采訪時(shí)說(shuō)道，要把語(yǔ)音技術(shù)產(chǎn)業(yè)做起來(lái)，思必馳要做更多的事情。其實(shí)，思必馳最早主要投入于 AI 算法中，為了技術(shù)落地以及給客戶(hù)提供更好的服務(wù)，思必馳在不斷地提供多個(gè)層面的解決方案。

值得注意的是，本次演講的專(zhuān)場(chǎng)主題為“5G + AIoT”，關(guān)于 5G 的進(jìn)步發(fā)展對(duì) IoT 的影響，周偉達(dá)在采訪中表示：“未來(lái)接入 5G 之后，戶(hù)內(nèi)設(shè)備訪問(wèn)數(shù)據(jù)的能力會(huì)更加流暢，更加快速?！?/p>

對(duì)于戶(hù)外設(shè)備，例如車(chē)載設(shè)備、地鐵售票機(jī)等，周偉達(dá)認(rèn)為，語(yǔ)音交互速度能夠得到快速提升。將來(lái)，在帶有語(yǔ)音交互設(shè)備的購(gòu)票機(jī)上，大約會(huì)有 70% 的用戶(hù)會(huì)選擇語(yǔ)音購(gòu)票，而不是用按鍵或者是用觸屏。通過(guò) 5G 聯(lián)網(wǎng)之后，未來(lái)戶(hù)外設(shè)備會(huì)提供越來(lái)越多便捷的服務(wù)。

以下是周偉達(dá)在 CCF-GAIR 大會(huì)上的演講內(nèi)容，雷鋒網(wǎng)對(duì)其進(jìn)行了不改變?cè)獾木庉嬚恚?/strong>

思必馳創(chuàng)建于 2007 年，這十幾年間一直在 AI，特別是語(yǔ)音交互方面從事技術(shù)研發(fā)，以及技術(shù)和內(nèi)容的服務(wù)。

語(yǔ)音技術(shù)在 IoT 領(lǐng)域面臨的挑戰(zhàn)

一、低功耗。我們要在耳機(jī)設(shè)備上做語(yǔ)音交互，做 Always on listening，這對(duì)功耗的要求非常高，這部分技術(shù)后面會(huì)做詳細(xì)的介紹。

二、遠(yuǎn)場(chǎng)和高噪聲?，F(xiàn)在我拿著麥克風(fēng)是近場(chǎng)的麥克風(fēng)語(yǔ)音采集，在智能家居環(huán)境中，不可能總持著一個(gè)麥克風(fēng)，或是帶著麥克風(fēng)跟設(shè)備進(jìn)行語(yǔ)音交互。在智能音箱、智能電視和各種智能家電以及在各種戶(hù)外場(chǎng)景中，我們希望人可以脫離手持麥克風(fēng)，可以跟設(shè)備進(jìn)行自然的、智能的語(yǔ)音交互。

那么，在遠(yuǎn)場(chǎng)的語(yǔ)音交互中，面臨的問(wèn)題有哪些呢？

低的信噪比。在遠(yuǎn)場(chǎng)的語(yǔ)音交互中，因?yàn)榕c麥克風(fēng)距離很遠(yuǎn)，面臨的第一個(gè)問(wèn)題就是低的信噪比。
低的信回比。如果本機(jī)播放音樂(lè)和合成音跟你交互，本機(jī)的混響會(huì)回到本機(jī)設(shè)備，因此，面臨的第二個(gè)問(wèn)題就是低的信回比。
環(huán)境噪音干擾。除了本機(jī)發(fā)出的聲音，我們?cè)谝粝渖厦媾R著電視的干擾、或是周?chē)芏嗳巳毫奶斓母蓴_。在賣(mài)場(chǎng)場(chǎng)景中，遇到的最大問(wèn)題是：封閉的賣(mài)場(chǎng)里兩排電視上下平著過(guò)去，一個(gè)房間三面墻都著放著電視，這些電視都是開(kāi)著給大家做演示，同時(shí)有大量的購(gòu)買(mǎi)者參觀，主講人、促銷(xiāo)人如何在這樣的場(chǎng)景里演示，包括給大家展示語(yǔ)音交互的體驗(yàn)？這樣的場(chǎng)景里挑戰(zhàn)非常大，外界的干擾是對(duì)目標(biāo)人聲有很大的干擾。因此，第三個(gè)問(wèn)題就是非常低的信號(hào)和干擾的功率比。
遠(yuǎn)場(chǎng)交互。無(wú)論在今天這樣的環(huán)境還是家居環(huán)境，甚至是開(kāi)放環(huán)境，混響時(shí)間 60dB 非常長(zhǎng)。在空曠的場(chǎng)景里，要把后面的混響消除掉，得到人跟人交互清晰的語(yǔ)音，這樣的挑戰(zhàn)也是非常大的。

三、全場(chǎng)景的智能交互。IoT 應(yīng)用的設(shè)備五花八門(mén)，我們目前在 IoT 領(lǐng)域涉及的設(shè)備場(chǎng)景有 100 多個(gè)，搭載思必馳語(yǔ)音技術(shù)的產(chǎn)品眾多。那么，面臨的問(wèn)題是什么？語(yǔ)音技術(shù)現(xiàn)在還不能做到非常通用的語(yǔ)音識(shí)別，很多語(yǔ)音識(shí)別跟背后的語(yǔ)音模型帶來(lái)的領(lǐng)域知識(shí)需要定制。

通常情況下，日常的交流是沒(méi)問(wèn)題的，現(xiàn)在的機(jī)器對(duì)這種問(wèn)題很容易解決。但是當(dāng)我們面臨一些特殊的專(zhuān)業(yè)名詞，面臨一些外來(lái)語(yǔ)，中文加上英文時(shí)，對(duì)于這樣的語(yǔ)言模型，機(jī)器需要定制、需要輸入熱詞。

那么，如何方便開(kāi)發(fā)者、客戶(hù)進(jìn)行人機(jī)語(yǔ)音交互的技能定制，這是我們面臨從實(shí)驗(yàn)室單個(gè)設(shè)備、單個(gè)產(chǎn)品技術(shù)的優(yōu)化走向市場(chǎng)化、規(guī)模化的巨大挑戰(zhàn)。

如何做到低功耗？

現(xiàn)在行業(yè)內(nèi)的解決方法基本上是“算法+硬件”。一個(gè)芯片的功耗取決于芯片的供應(yīng)、芯片的面積、芯片的主屏，我們要嚴(yán)格的篩選這幾個(gè)部分。當(dāng)然，在行業(yè)內(nèi)有不少專(zhuān)業(yè)的公司專(zhuān)注做低功耗的芯片。

如何在硬件上做到多分級(jí)和復(fù)用？其實(shí)，在很多場(chǎng)景下，人和機(jī)器大多數(shù)時(shí)間是沒(méi)交互的，那么，我們能不能在安靜的場(chǎng)景下降頻處理、降級(jí)處理呢？

在語(yǔ)音出現(xiàn)的場(chǎng)景中，我們用 VAD 檢測(cè)以后語(yǔ)音開(kāi)始采樣、開(kāi)始做之后的語(yǔ)音監(jiān)聽(tīng)。當(dāng)人們?nèi)拘阉心康男?、有目?biāo)的與機(jī)器設(shè)備交互的時(shí)候，我們能夠監(jiān)測(cè)到人的意圖：他是跟機(jī)器交互，而不是跟其他人、其他場(chǎng)景聊天。在這種情況下，要做到低功耗需要分級(jí)處理、降頻處理。

低功耗的處理需要從算法上解決目前硬件解決不了的問(wèn)題。我們需要有模擬的 VAD。以前大部分的 VAD 是麥克風(fēng)采樣完以后會(huì)用 VAD 的算法檢測(cè)語(yǔ)音，這一塊我們能檢測(cè)的是：是否有聲音啟動(dòng)系統(tǒng)？

還有，設(shè)備為了響應(yīng)人的交互需求，在白天晚上都是在監(jiān)控。在極安靜的情況下，設(shè)備是 Sleep 狀態(tài)，在晚上安靜的場(chǎng)景下，設(shè)備也應(yīng)該和人一樣休息。在這一部分，我們應(yīng)用了硬件模擬 VAD，是從麥克風(fēng)信號(hào)下來(lái)以后，監(jiān)測(cè)周?chē)曇魣?chǎng)景能量的強(qiáng)弱。

其次是數(shù)字硬件的 VAD，我們要解決的問(wèn)題是，在有聲音的環(huán)境中，這個(gè)聲音有可能是噪聲、有可能是人聲或是其他設(shè)備的聲音，需要用數(shù)字信號(hào)經(jīng)過(guò)算法處理檢測(cè)是不是人聲。如果這個(gè)時(shí)候檢測(cè)出人聲，說(shuō)明麥克風(fēng)已經(jīng)觀察到人聲。如果不做緩存處理，后面做語(yǔ)音喚醒、聲紋識(shí)別的時(shí)候，數(shù)據(jù)已經(jīng)丟失掉了。所以，在采樣的時(shí)候一定要做 buffer，要做緩存，把人的語(yǔ)音完整保留下來(lái)。

之后，我們要結(jié)合一級(jí)信號(hào)處理和一級(jí)喚醒，這是做初始目標(biāo)的識(shí)別。檢測(cè)人的時(shí)候，旁邊會(huì)有很多的干擾聲音，要做到低功耗，首先要做第一級(jí)簡(jiǎn)單處理，再做二級(jí)高精度處理，然后是人的聲紋判斷和監(jiān)測(cè)，再做本地識(shí)別。在這整個(gè)過(guò)程中，本來(lái)是復(fù)雜的算法一次搞定。但是為了滿(mǎn)足低功耗的要求，我們逐級(jí)提升計(jì)算性能，逐級(jí)把極少的場(chǎng)景啟用高功耗，大部分場(chǎng)景保持低功耗。

在 IoT 領(lǐng)域，低功耗問(wèn)題的解決需要“硬件+算法”。其實(shí)，我們是從算法的需求定義芯片，這一部分深聰智能 CTO 朱總（雷鋒網(wǎng)注：深聰智能 CTO 朱澄宇，深聰智能是思必馳與中芯國(guó)際下屬投資公司中芯聚源成立的合資公司）將在 AI 芯片專(zhuān)場(chǎng)會(huì)進(jìn)行詳細(xì)介紹，關(guān)于芯片上如何做到低功耗的語(yǔ)音檢測(cè)、語(yǔ)音喚醒、語(yǔ)音信號(hào)處理。

遠(yuǎn)場(chǎng)、高噪聲難題如何解決？

隨著智能音箱以及智能電視等各種智能設(shè)備的推出，對(duì)于遠(yuǎn)場(chǎng)信號(hào)處理，行業(yè)內(nèi)普遍采用麥克風(fēng)陣列技術(shù)。思必馳的麥克風(fēng)陣列主要有環(huán)形六麥，環(huán)形四麥、線性四麥、雙麥陣列，在思必馳實(shí)驗(yàn)室里，最多的麥克風(fēng)陣列是三十二麥，即使置于大型會(huì)議室里，都能夠針對(duì)每個(gè)人做精細(xì)地監(jiān)測(cè)。

另外，在開(kāi)放的環(huán)境中，我們已經(jīng)實(shí)現(xiàn)了分布式的麥克風(fēng)陣列。針對(duì)設(shè)備的麥克風(fēng)陣列，環(huán)形四麥、環(huán)形六麥相對(duì)來(lái)說(shuō)是短間距的。但分布式麥克風(fēng)陣列不會(huì)受空間的約束，不會(huì)受麥克風(fēng)震源間距的約束，它是開(kāi)放形態(tài)，而且可以在空間里隨便布置麥克風(fēng)。

關(guān)于降噪，戶(hù)外穿戴式的場(chǎng)景中面臨的主要問(wèn)題是降風(fēng)噪。我們和許多快遞公司、物流合作，將語(yǔ)音喚醒、語(yǔ)音聲紋識(shí)別做到耳機(jī)里?？爝f小哥在外快速騎行時(shí)，無(wú)論是下單、送單都需要進(jìn)行通話，風(fēng)會(huì)直接吹著麥克風(fēng)，遇到的典型問(wèn)題是風(fēng)噪。那么，如何解決風(fēng)噪的問(wèn)題？思必馳從硬件、軟件、結(jié)構(gòu)幾方面，很好地對(duì)風(fēng)噪進(jìn)行抑制。

當(dāng)算法解決不了的時(shí)候，在耳機(jī)上，不光通過(guò)空氣傳播采集語(yǔ)音，而且通過(guò)振動(dòng)或是觸感。大家知道，除了空氣麥克風(fēng)、骨傳感麥克風(fēng)，現(xiàn)在還有肌膚接觸麥克風(fēng)，通過(guò)振動(dòng)采集人的語(yǔ)音。如何把接觸傳播和空氣傳播兩種不同性質(zhì)采集單元結(jié)合在一起做降噪處理和融合呢？目前，思必馳正在嘗試這樣的技術(shù)。

人和人的交互，我們的第一反應(yīng)是直視，可能是直達(dá)聲、就近反應(yīng)。有一個(gè)場(chǎng)景大家可以體會(huì)到，如果單獨(dú)靠語(yǔ)音監(jiān)聽(tīng)，我們打電話的過(guò)程中的交互往往比面對(duì)面的交互不自然，原因是什么？

人們?cè)趦H憑聽(tīng)覺(jué)時(shí)，經(jīng)常會(huì)在電話里搶話或是互相等話，我說(shuō)完等著你反應(yīng)，而且我不知道你什么時(shí)候能反應(yīng)。在這樣的場(chǎng)景中，真正的智能交互是多模態(tài)的交互，除了語(yǔ)音之外，要配合其他的傳感器，特別是視覺(jué)。

在智能交互中，雖然大部分機(jī)器的語(yǔ)音識(shí)別做得越來(lái)越好，支持的技能越來(lái)越多，但是人與機(jī)器的交互，和人與人的交互之間還有差距，具體有哪些方面呢？

首先是自然度?，F(xiàn)在人和機(jī)器的交互，特別是成年人和機(jī)器交互時(shí)，大家懷疑機(jī)器的技能。人和設(shè)備交互的時(shí)候是命令式的，希望話說(shuō)完機(jī)器就能快速響應(yīng)，人是非常強(qiáng)勢(shì)的。但是，現(xiàn)在已經(jīng)出現(xiàn)了一些人們把機(jī)器當(dāng)成人看的場(chǎng)景。說(shuō)幾個(gè)典型的場(chǎng)景：在兒童教育中，兒童會(huì)把平常不敢跟父母說(shuō)的話說(shuō)給機(jī)器聽(tīng)，與機(jī)器聊天、談心，這是因?yàn)閷?duì)話技術(shù)做得越來(lái)越自然。

人機(jī)對(duì)話技術(shù)遇到的問(wèn)題是交互的自然度，這個(gè)自然度包含哪些方面？首先，人和機(jī)器交互的時(shí)候，機(jī)器該停不停，它不能預(yù)測(cè)這句話人的意圖是否表達(dá)完整，依然在監(jiān)聽(tīng)，有噪聲就不會(huì)停。第二個(gè)是不該停的時(shí)候反而停了，人們?cè)谡f(shuō)話期間停頓了一下，機(jī)器卻認(rèn)為人們說(shuō)話結(jié)束了，作出相應(yīng)，表達(dá)我不理解你的意思。

針對(duì)這些場(chǎng)景，單點(diǎn)的技術(shù)是容易解決的，人聲的檢測(cè)、VAD的檢測(cè)以及語(yǔ)音識(shí)別判斷句子的完整性、意圖的完整性。最大的難度是整個(gè)的系統(tǒng)架構(gòu)，從前端采集的信號(hào)處理到意圖判斷，如果判斷延遲過(guò)高，機(jī)器響應(yīng)是跟不上人的節(jié)奏的。

在智能響應(yīng)方面，我們已經(jīng)接近于人類(lèi)交互的節(jié)奏，很好理解對(duì)方的意圖，可以接話、可以響應(yīng)?，F(xiàn)在思必馳系統(tǒng)的集成更多會(huì)把語(yǔ)音信號(hào)的處理、識(shí)別往本地移，加速這個(gè)過(guò)程，有些場(chǎng)景已經(jīng)實(shí)現(xiàn)了人跟機(jī)器的自然交互。

以上是我提到的自然交互的兩個(gè)方面，另外還有人打斷機(jī)器對(duì)話，以及機(jī)器能自然的接話。人聽(tīng)完一段機(jī)器語(yǔ)音，播出的時(shí)候已經(jīng)理解了，有些時(shí)候人會(huì)非常強(qiáng)勢(shì)地說(shuō)：“你趕緊給我閉嘴，我要說(shuō)下一個(gè)意圖?！边@個(gè)時(shí)候人經(jīng)常會(huì)打斷機(jī)器。

還有一種場(chǎng)景，在 Google 去年的 Duplex 發(fā)布會(huì)中，全世界人鼓掌聲最響的時(shí)候是機(jī)器打電話給餐館預(yù)定位置、預(yù)定時(shí)間，中間有一個(gè)細(xì)節(jié)，對(duì)方餐館服務(wù)人員說(shuō)：“你要預(yù)定幾人的位置？”，后面沒(méi)說(shuō)完“你是幾點(diǎn)到？”，這兩句話的中間有短暫的停頓，這個(gè)時(shí)候機(jī)器以“嗯哼”進(jìn)行了響應(yīng)。就是這個(gè)“嗯哼”，全世界的耳朵都亮了。這是什么原因呢？

在人的意圖沒(méi)有表達(dá)完整的時(shí)候，機(jī)器要這么短的時(shí)間內(nèi)要響應(yīng)，將“嗯哼”在 300 毫秒內(nèi)決策完響應(yīng)出去，對(duì)整個(gè)系統(tǒng)的架構(gòu)挑戰(zhàn)非常大。今后，我們也希望人機(jī)交互能夠做到更智能：智能地打斷、智能地糾正、抗干擾。

全場(chǎng)景的語(yǔ)音交互：多設(shè)備聯(lián)動(dòng)+DUI 平臺(tái)

隨著單臺(tái)智能設(shè)備在家庭里普及，很多家庭已經(jīng)出現(xiàn)的多臺(tái)智能設(shè)備。當(dāng)出現(xiàn)兩臺(tái)智能設(shè)備的時(shí)候，如果還用語(yǔ)音喚醒去交互，是反人類(lèi)的產(chǎn)品設(shè)計(jì)。那為什么要用反人類(lèi)的產(chǎn)品在這樣的產(chǎn)品里用呢？難點(diǎn)是，我們做語(yǔ)音交互設(shè)備的時(shí)候，如果設(shè)備一直在監(jiān)聽(tīng)不用喚醒，設(shè)備經(jīng)常會(huì)誤判。雖然識(shí)別沒(méi)問(wèn)題，但是會(huì)誤導(dǎo)設(shè)備與人交互，做誤判以后會(huì)導(dǎo)致人的體驗(yàn)很差。

在這兒，我們需要解決多設(shè)備交互、多設(shè)備聯(lián)動(dòng)。比如說(shuō)，在家居里有多個(gè)設(shè)備，能不能實(shí)現(xiàn)正面喚醒？能不能實(shí)現(xiàn)就近喚醒？或是就近交互？

另外，語(yǔ)義選擇就是通過(guò)設(shè)備監(jiān)聽(tīng)人說(shuō)話，判斷當(dāng)前人是不是跟設(shè)備說(shuō)話，是否跟機(jī)器覆蓋的規(guī)模、意圖相吻合。

最后，多模態(tài)視覺(jué)交互就是通過(guò)視覺(jué)設(shè)備、紅外設(shè)備，感受到人對(duì)機(jī)器有表情的交流、眨眼的交流。用多模態(tài)判斷出人是與機(jī)器交流，機(jī)器才會(huì)做出相應(yīng)。

面對(duì)多場(chǎng)景應(yīng)用，在思必馳 DUI 平臺(tái)上，用戶(hù)可以實(shí)現(xiàn)語(yǔ)義、對(duì)話、內(nèi)容、技能的定制。人機(jī)語(yǔ)音交互要經(jīng)歷多個(gè)環(huán)節(jié)，即識(shí)別、語(yǔ)義理解、對(duì)話管理、語(yǔ)音合成、內(nèi)容服務(wù)，這些工作都是在后臺(tái)進(jìn)行。真正要開(kāi)發(fā)一個(gè)好的技能，涉及到每個(gè)模塊的優(yōu)化。

思必馳剛開(kāi)始服務(wù)于 IoT，配合客戶(hù)做第一個(gè)場(chǎng)景設(shè)備花了一年半的時(shí)間。對(duì)于這樣的技術(shù)，實(shí)驗(yàn)室可以做到，個(gè)人做 Demo 也可以做到，但是真正要做到產(chǎn)業(yè)化、市場(chǎng)化的時(shí)候，思必馳面臨的最大問(wèn)題是：能不能做成客戶(hù)可快速開(kāi)發(fā)和定制？

思必馳做的 DUI 平臺(tái)，如果客戶(hù)優(yōu)選我們的標(biāo)準(zhǔn)功能加簡(jiǎn)單定制，7 分鐘可以完成；如果是客戶(hù)全定制，一天可以完成一個(gè)技能。

人機(jī)語(yǔ)音交互最主要的目的是實(shí)現(xiàn)信息資源、內(nèi)容的獲取，去實(shí)現(xiàn)定票、聽(tīng)音樂(lè)、看電視功能的操作，這是最直接的剛需需求。要實(shí)現(xiàn)這些操作，后臺(tái)需要非常豐富的內(nèi)容資源。關(guān)于這些內(nèi)容資源，思必馳無(wú)論在互聯(lián)網(wǎng)，或者是移動(dòng)互聯(lián)網(wǎng)，在行業(yè)內(nèi)有很多的內(nèi)容提供商。

這在人機(jī)語(yǔ)音交互、AIoT 里有什么特殊的呢？以前，我們無(wú)論是通過(guò)手機(jī)，還是 PC 聽(tīng)音樂(lè)，都可以瀏覽喜歡的歌手、喜歡的歌曲，還可以中間聽(tīng)一半或者快速切歌。想象一個(gè)音箱設(shè)備，沒(méi)有屏幕，只有語(yǔ)音交互，那么，要如何快速獲取你想要的內(nèi)容呢？

現(xiàn)在最全的音樂(lè)庫(kù)大約有三千兩百多萬(wàn)首歌，一個(gè)人經(jīng)常聽(tīng)的音樂(lè)最多 1000 首，那么，如何在三千兩百多萬(wàn)首歌中獲取你經(jīng)常聽(tīng)的 1000 首歌曲，讓你在閑暇時(shí)光，或者比較累的時(shí)候聽(tīng)的歌就是你想要的音樂(lè)，想看的電視就是你沒(méi)有看過(guò)又是你喜歡的、同一品類(lèi)的高質(zhì)量大片呢？這是智能設(shè)備上高質(zhì)量的內(nèi)容源服務(wù)，不僅是內(nèi)容源擺在那兒自己選，而且是給你推薦符合你喜好的，很廣泛的內(nèi)容、最關(guān)注的內(nèi)容。

在 AIoT 中，除了單個(gè)設(shè)備需要智能以外，我們還需要打通全屋智能。思必馳的 DUI 平臺(tái)上，我們已經(jīng)為開(kāi)發(fā)者打通智能家居各種互聯(lián)協(xié)議，目前已經(jīng)打通 20 多個(gè)協(xié)議，可以和其他的智能設(shè)備平臺(tái)實(shí)現(xiàn)互聯(lián)，互相調(diào)用信息，互相共享信息。

針對(duì)多場(chǎng)景的應(yīng)用，我們希望為開(kāi)發(fā)者提供最便捷的通用方案選擇。目前思必馳在 IoT 方向?yàn)殚_(kāi)發(fā)者提供標(biāo)準(zhǔn)、全面的解決方案有幾大類(lèi)：

家居語(yǔ)音解決方案。為各種智能家居設(shè)備，例如為冰箱、空調(diào)、洗衣機(jī)、控制面板、電腦、小家電、廚電、衛(wèi)生間電器提供了解決方案。
我們?yōu)楦鞣N智能手機(jī)、智能手環(huán)、智能手表、智能平板提供了低功耗的戶(hù)外場(chǎng)景語(yǔ)音解決方案。
我們?yōu)閮和?lèi)故事機(jī)、機(jī)器、手表、學(xué)習(xí)平板、編程機(jī)器人提供完整的解決方案。
我們?yōu)楦鞣N企業(yè)會(huì)議系統(tǒng)、提高辦公效率的遠(yuǎn)場(chǎng)語(yǔ)音采集、信號(hào)處理、語(yǔ)音增強(qiáng)、通話音質(zhì)改善，包括發(fā)布會(huì)現(xiàn)場(chǎng)的語(yǔ)音采集抗混響、抗嘯叫，語(yǔ)音實(shí)時(shí)轉(zhuǎn)寫(xiě)、語(yǔ)音會(huì)議摘要提取，實(shí)時(shí)翻譯等提供方案。

思必馳全部的語(yǔ)音技術(shù)優(yōu)先服務(wù)于 AIoT，我們堅(jiān)信好的語(yǔ)音技術(shù)一定能服務(wù)到每一位普通的觀眾、普通的用戶(hù)，只有讓每一位用戶(hù)真正體驗(yàn)到自然度、體驗(yàn)到交互的方便性、信息獲取的便捷度，每一位用戶(hù)才會(huì)真正接受語(yǔ)音交互技術(shù)在設(shè)備中的應(yīng)用。

我們將會(huì)在本次峰會(huì)后，在「AI投研邦」上線CCF GAIR 2019 峰會(huì)完整視頻與各大主題專(zhuān)場(chǎng)白皮書(shū)，包括機(jī)器人前沿專(zhuān)場(chǎng)、智能交通專(zhuān)場(chǎng)、智慧城市專(zhuān)場(chǎng)、AI芯片專(zhuān)場(chǎng)、AI金融專(zhuān)場(chǎng)、AI醫(yī)療專(zhuān)場(chǎng)、智慧教育專(zhuān)場(chǎng)等?！窤I投研邦」會(huì)員們可免費(fèi)觀看全年峰會(huì)視頻與研報(bào)內(nèi)容，掃碼進(jìn)入會(huì)員頁(yè)面了解更多。峰會(huì)期間專(zhuān)享立減399元福利，可進(jìn)入頁(yè)面直接領(lǐng)取，或私信助教小慕（微信：moocmm）咨詢(xún)。（最后一天50個(gè)名額，速搶。）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

思必馳 IoT 語(yǔ)音技術(shù)

思必馳俞凱：分布式大模型智能體系統(tǒng)是 AGI 時(shí)代一道 ...

利氪科技完成近2億元A輪系列融資，新一代線控制動(dòng)系 ...

大把AI芯片公司，將活不過(guò)明后年春節(jié)

人工智能專(zhuān)用芯片的五年浪潮，如今怎樣了？

專(zhuān)題

CCF-GAIR 2019

本專(zhuān)題其他文章

2019 AI 最佳成長(zhǎng)榜頒獎(jiǎng)盛宴：13熱門(mén)領(lǐng)域，52家獲獎(jiǎng)企業(yè)，見(jiàn)證AI新十年

王強(qiáng)：AI金融偽場(chǎng)景眾多，為何應(yīng)重倉(cāng)三維視覺(jué)與開(kāi)放金融平臺(tái)？ | CCF-GAIR 2019

香港大學(xué)尹國(guó)圣教授：統(tǒng)計(jì)學(xué)家眼中的醫(yī)學(xué)AI丨CCF-GAIR 2019

ICRA 2017 大會(huì)主席陳義明教授專(zhuān)訪：論道機(jī)器人、AI 與工業(yè)之淵源 | CCF-GAIR 2019

科大訊飛童劍軍：用人工智能建設(shè)美好城市 | CCF-GAIR 2019

專(zhuān)訪華為企業(yè)BG全球智慧城市業(yè)務(wù)部總裁鄭志彬：建設(shè)古羅馬式智慧城市 | CCF-GAIR 2019

more

肖漫

資深編輯

關(guān)注智能硬件、IoT、機(jī)器人 | 微信：Elena_Xiao1025

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門(mén)文章

最新文章

拓竹發(fā)起“Let's Make It”創(chuàng)造基金，單項(xiàng)目最高可獲百萬(wàn)資助

空間智能爆發(fā)前夜：淘金者眾，賣(mài)水人稀缺

智能家居混戰(zhàn)要終結(jié)？IEC批準(zhǔn)海爾牽頭通用標(biāo)準(zhǔn)

GAIR 2025 大會(huì)首日：AI重構(gòu)教育、科學(xué)與產(chǎn)業(yè)的十三重碰撞（下）

GAIR 2025 大會(huì)首日：AI重構(gòu)教育、科學(xué)與產(chǎn)業(yè)的十三重碰撞（上）

摩爾線程首屆MUSA開(kāi)發(fā)者大會(huì)即將于12月20日-21日召開(kāi)

熱門(mén)搜索

VR IBM Instagram 中興 Windows 8 創(chuàng)新數(shù)據(jù)安全 saas Verizon 電信開(kāi)源硬件

思必馳 CTO 周偉達(dá)：語(yǔ)音技術(shù)優(yōu)先服務(wù)于 AIoT | CCF-GAIR 2019

語(yǔ)音技術(shù)在 IoT 領(lǐng)域面臨的挑戰(zhàn)

如何做到低功耗？

遠(yuǎn)場(chǎng)、高噪聲難題如何解決？

全場(chǎng)景的語(yǔ)音交互：多設(shè)備聯(lián)動(dòng)+DUI 平臺(tái)

CCF-GAIR 2019

如何做到低功耗？

遠(yuǎn)場(chǎng)、高噪聲難題如何解決？