丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給肖漫
發(fā)送

0

思必馳 CTO 周偉達(dá):語音技術(shù)優(yōu)先服務(wù)于 AIoT | CCF-GAIR 2019

本文作者: 肖漫 2019-07-18 18:21 專題:CCF-GAIR 2019
導(dǎo)語: AIoT 在用戶端的設(shè)備落地是思必馳優(yōu)先關(guān)注的方向。

思必馳 CTO 周偉達(dá):語音技術(shù)優(yōu)先服務(wù)于 AIoT  | CCF-GAIR 2019

雷鋒網(wǎng)按:7 月 12 日-7 月 14 日,2019 第四屆全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR 2019)于深圳正式召開。峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,深圳市人工智能與機(jī)器人研究院協(xié)辦,得到了深圳市政府的大力指導(dǎo),是國(guó)內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流博覽盛會(huì),旨在打造國(guó)內(nèi)人工智能領(lǐng)域極具實(shí)力的跨界交流合作平臺(tái)。

當(dāng)下,智能語音技術(shù)成為下一代人機(jī)交互新模式已經(jīng)得到了業(yè)界的認(rèn)可,智能交互、就近喚醒、全雙工成為當(dāng)下語音技術(shù)中前沿技術(shù)探討點(diǎn)。在 CCF-GAIR 2019 “5G + AIoT”專場(chǎng)上,思必馳 CTO 周偉達(dá)帶來了關(guān)于語音交互技術(shù)的演講,演講主題為《語音交互技術(shù)在 IoT 方向的應(yīng)用與挑戰(zhàn)》。

思必馳 CTO 周偉達(dá):語音技術(shù)優(yōu)先服務(wù)于 AIoT  | CCF-GAIR 2019

思必馳 CTO 周偉達(dá)

演講中,周偉達(dá)指出,智能語音當(dāng)下面臨的挑戰(zhàn)主要有三點(diǎn),即低功耗、遠(yuǎn)場(chǎng)交互和高噪聲、全場(chǎng)景智能交互。

首先,在低功耗方面,周偉達(dá)在演講中提到低功耗算法、低功耗芯片以及軟硬一體的方案。演講結(jié)束后,周偉達(dá)接受了雷鋒網(wǎng)的采訪時(shí)也強(qiáng)調(diào)了低功耗。他認(rèn)為:“低功耗是語音技術(shù)發(fā)展的一個(gè)方向,它是一個(gè)涉及到語音交互的全鏈條,從前端的信號(hào)處理到語音合成,再通過揚(yáng)聲器的播放,每個(gè)環(huán)節(jié)都要實(shí)現(xiàn)低功耗?!?/strong>

另外,關(guān)于軟硬結(jié)合的行業(yè)創(chuàng)新點(diǎn),周偉達(dá)在采訪中表示,一方面是 AI 計(jì)算的加速,涉及到在現(xiàn)有平臺(tái)上植入算法去加速運(yùn)算;另一方面是芯片的創(chuàng)新。他說道:“ AI 芯片會(huì)打破傳統(tǒng)的馮諾依曼的組件構(gòu)架,然后把數(shù)據(jù)和指令從外部輸入進(jìn)來,還要有計(jì)算完再輸入出去的架構(gòu)。有可能數(shù)據(jù)和計(jì)算是放在一起來做的,所以我們覺得會(huì)是一些革命性的技術(shù)突破?!?/p>

對(duì)于遠(yuǎn)場(chǎng)交互和高噪聲的挑戰(zhàn),周偉達(dá)在演講中提出了麥克風(fēng)陣列、降噪、多模態(tài)交互、全雙工系統(tǒng)等解決方案。另外,解決智能語音在全場(chǎng)景智能交互的挑戰(zhàn)中,周偉達(dá)提出了多設(shè)備聯(lián)動(dòng)機(jī)制,通過正面喚醒、就近喚醒、語義選擇、多模態(tài)直視喚醒等方案,以解決家居場(chǎng)景中的多設(shè)備智能喚醒難題。

關(guān)于全雙工的語音系統(tǒng),周偉達(dá)在采訪中做了補(bǔ)充,他說道,思必馳首先希望提升的是人機(jī)交互的自然度,主要著力于兩個(gè)方面,一方面是處理降噪,提升 VAD;另一方面是完整意圖判斷。不僅如此,全雙工技術(shù)在未來除了要提升自然度,還要提高智能;其中包括感知智能和認(rèn)知智能。

除了演講中提及的三大挑戰(zhàn),語音交互在 IoT 領(lǐng)域的應(yīng)用中,隱私安全也是一個(gè)值得關(guān)注的問題。對(duì)此,周偉達(dá)在采訪中表示,隱私保護(hù)是最基礎(chǔ)的,行業(yè)要發(fā)展,就必須保護(hù)隱私,尊重隱私。

目前,思必馳不僅聚焦語音技術(shù),而且自研 AI 芯片,周偉達(dá)接受采訪時(shí)說道,要把語音技術(shù)產(chǎn)業(yè)做起來,思必馳要做更多的事情。其實(shí),思必馳最早主要投入于 AI 算法中,為了技術(shù)落地以及給客戶提供更好的服務(wù),思必馳在不斷地提供多個(gè)層面的解決方案。

值得注意的是,本次演講的專場(chǎng)主題為“5G + AIoT”,關(guān)于 5G 的進(jìn)步發(fā)展對(duì) IoT 的影響,周偉達(dá)在采訪中表示:“未來接入 5G 之后,戶內(nèi)設(shè)備訪問數(shù)據(jù)的能力會(huì)更加流暢,更加快速?!?/p>

對(duì)于戶外設(shè)備,例如車載設(shè)備、地鐵售票機(jī)等,周偉達(dá)認(rèn)為,語音交互速度能夠得到快速提升。將來,在帶有語音交互設(shè)備的購(gòu)票機(jī)上,大約會(huì)有 70% 的用戶會(huì)選擇語音購(gòu)票,而不是用按鍵或者是用觸屏。通過 5G 聯(lián)網(wǎng)之后,未來戶外設(shè)備會(huì)提供越來越多便捷的服務(wù)。

以下是周偉達(dá)在 CCF-GAIR 大會(huì)上的演講內(nèi)容,雷鋒網(wǎng)對(duì)其進(jìn)行了不改變?cè)獾木庉嬚恚?/strong>

思必馳創(chuàng)建于 2007 年,這十幾年間一直在 AI,特別是語音交互方面從事技術(shù)研發(fā),以及技術(shù)和內(nèi)容的服務(wù)。

思必馳 CTO 周偉達(dá):語音技術(shù)優(yōu)先服務(wù)于 AIoT  | CCF-GAIR 2019

語音技術(shù)在 IoT 領(lǐng)域面臨的挑戰(zhàn)

 一、低功耗。我們要在耳機(jī)設(shè)備上做語音交互,做 Always on listening,這對(duì)功耗的要求非常高,這部分技術(shù)后面會(huì)做詳細(xì)的介紹。

 二、遠(yuǎn)場(chǎng)和高噪聲?,F(xiàn)在我拿著麥克風(fēng)是近場(chǎng)的麥克風(fēng)語音采集,在智能家居環(huán)境中,不可能總持著一個(gè)麥克風(fēng),或是帶著麥克風(fēng)跟設(shè)備進(jìn)行語音交互。在智能音箱、智能電視和各種智能家電以及在各種戶外場(chǎng)景中,我們希望人可以脫離手持麥克風(fēng),可以跟設(shè)備進(jìn)行自然的、智能的語音交互。

那么,在遠(yuǎn)場(chǎng)的語音交互中,面臨的問題有哪些呢?

  1. 低的信噪比。在遠(yuǎn)場(chǎng)的語音交互中,因?yàn)榕c麥克風(fēng)距離很遠(yuǎn),面臨的第一個(gè)問題就是低的信噪比。

  2. 低的信回比。如果本機(jī)播放音樂和合成音跟你交互,本機(jī)的混響會(huì)回到本機(jī)設(shè)備,因此,面臨的第二個(gè)問題就是低的信回比。

  3. 環(huán)境噪音干擾。除了本機(jī)發(fā)出的聲音,我們?cè)谝粝渖厦媾R著電視的干擾、或是周圍很多人群聊天的干擾。在賣場(chǎng)場(chǎng)景中,遇到的最大問題是:封閉的賣場(chǎng)里兩排電視上下平著過去,一個(gè)房間三面墻都著放著電視,這些電視都是開著給大家做演示,同時(shí)有大量的購(gòu)買者參觀,主講人、促銷人如何在這樣的場(chǎng)景里演示,包括給大家展示語音交互的體驗(yàn)?這樣的場(chǎng)景里挑戰(zhàn)非常大,外界的干擾是對(duì)目標(biāo)人聲有很大的干擾。因此,第三個(gè)問題就是非常低的信號(hào)和干擾的功率比。

  4. 遠(yuǎn)場(chǎng)交互。無論在今天這樣的環(huán)境還是家居環(huán)境,甚至是開放環(huán)境,混響時(shí)間 60dB 非常長(zhǎng)。在空曠的場(chǎng)景里,要把后面的混響消除掉,得到人跟人交互清晰的語音,這樣的挑戰(zhàn)也是非常大的。

三、全場(chǎng)景的智能交互。IoT 應(yīng)用的設(shè)備五花八門,我們目前在 IoT 領(lǐng)域涉及的設(shè)備場(chǎng)景有 100 多個(gè),搭載思必馳語音技術(shù)的產(chǎn)品眾多。那么,面臨的問題是什么?語音技術(shù)現(xiàn)在還不能做到非常通用的語音識(shí)別,很多語音識(shí)別跟背后的語音模型帶來的領(lǐng)域知識(shí)需要定制。

通常情況下,日常的交流是沒問題的,現(xiàn)在的機(jī)器對(duì)這種問題很容易解決。但是當(dāng)我們面臨一些特殊的專業(yè)名詞,面臨一些外來語,中文加上英文時(shí),對(duì)于這樣的語言模型,機(jī)器需要定制、需要輸入熱詞。

那么,如何方便開發(fā)者、客戶進(jìn)行人機(jī)語音交互的技能定制,這是我們面臨從實(shí)驗(yàn)室單個(gè)設(shè)備、單個(gè)產(chǎn)品技術(shù)的優(yōu)化走向市場(chǎng)化、規(guī)?;木薮筇魬?zhàn)。

思必馳 CTO 周偉達(dá):語音技術(shù)優(yōu)先服務(wù)于 AIoT  | CCF-GAIR 2019

如何做到低功耗?

現(xiàn)在行業(yè)內(nèi)的解決方法基本上是“算法+硬件”。一個(gè)芯片的功耗取決于芯片的供應(yīng)、芯片的面積、芯片的主屏,我們要嚴(yán)格的篩選這幾個(gè)部分。當(dāng)然,在行業(yè)內(nèi)有不少專業(yè)的公司專注做低功耗的芯片。

如何在硬件上做到多分級(jí)和復(fù)用?其實(shí),在很多場(chǎng)景下,人和機(jī)器大多數(shù)時(shí)間是沒交互的,那么,我們能不能在安靜的場(chǎng)景下降頻處理、降級(jí)處理呢?

在語音出現(xiàn)的場(chǎng)景中,我們用 VAD 檢測(cè)以后語音開始采樣、開始做之后的語音監(jiān)聽。當(dāng)人們?nèi)拘阉心康男?、有目?biāo)的與機(jī)器設(shè)備交互的時(shí)候,我們能夠監(jiān)測(cè)到人的意圖:他是跟機(jī)器交互,而不是跟其他人、其他場(chǎng)景聊天。在這種情況下,要做到低功耗需要分級(jí)處理、降頻處理。

低功耗的處理需要從算法上解決目前硬件解決不了的問題。我們需要有模擬的 VAD。以前大部分的 VAD 是麥克風(fēng)采樣完以后會(huì)用 VAD 的算法檢測(cè)語音,這一塊我們能檢測(cè)的是:是否有聲音啟動(dòng)系統(tǒng)?

還有,設(shè)備為了響應(yīng)人的交互需求,在白天晚上都是在監(jiān)控。在極安靜的情況下,設(shè)備是 Sleep 狀態(tài),在晚上安靜的場(chǎng)景下,設(shè)備也應(yīng)該和人一樣休息。在這一部分,我們應(yīng)用了硬件模擬 VAD,是從麥克風(fēng)信號(hào)下來以后,監(jiān)測(cè)周圍聲音場(chǎng)景能量的強(qiáng)弱。

其次是數(shù)字硬件的 VAD,我們要解決的問題是,在有聲音的環(huán)境中,這個(gè)聲音有可能是噪聲、有可能是人聲或是其他設(shè)備的聲音,需要用數(shù)字信號(hào)經(jīng)過算法處理檢測(cè)是不是人聲。如果這個(gè)時(shí)候檢測(cè)出人聲,說明麥克風(fēng)已經(jīng)觀察到人聲。如果不做緩存處理,后面做語音喚醒、聲紋識(shí)別的時(shí)候,數(shù)據(jù)已經(jīng)丟失掉了。所以,在采樣的時(shí)候一定要做 buffer,要做緩存,把人的語音完整保留下來。

之后,我們要結(jié)合一級(jí)信號(hào)處理和一級(jí)喚醒,這是做初始目標(biāo)的識(shí)別。檢測(cè)人的時(shí)候,旁邊會(huì)有很多的干擾聲音,要做到低功耗,首先要做第一級(jí)簡(jiǎn)單處理,再做二級(jí)高精度處理,然后是人的聲紋判斷和監(jiān)測(cè),再做本地識(shí)別。在這整個(gè)過程中,本來是復(fù)雜的算法一次搞定。但是為了滿足低功耗的要求,我們逐級(jí)提升計(jì)算性能,逐級(jí)把極少的場(chǎng)景啟用高功耗,大部分場(chǎng)景保持低功耗。

在 IoT 領(lǐng)域,低功耗問題的解決需要“硬件+算法”。其實(shí),我們是從算法的需求定義芯片,這一部分深聰智能 CTO 朱總(雷鋒網(wǎng)注:深聰智能 CTO 朱澄宇,深聰智能是思必馳與中芯國(guó)際下屬投資公司中芯聚源成立的合資公司)將在 AI 芯片專場(chǎng)會(huì)進(jìn)行詳細(xì)介紹,關(guān)于芯片上如何做到低功耗的語音檢測(cè)、語音喚醒、語音信號(hào)處理。

思必馳 CTO 周偉達(dá):語音技術(shù)優(yōu)先服務(wù)于 AIoT  | CCF-GAIR 2019

遠(yuǎn)場(chǎng)、高噪聲難題如何解決?

隨著智能音箱以及智能電視等各種智能設(shè)備的推出,對(duì)于遠(yuǎn)場(chǎng)信號(hào)處理,行業(yè)內(nèi)普遍采用麥克風(fēng)陣列技術(shù)。思必馳的麥克風(fēng)陣列主要有環(huán)形六麥,環(huán)形四麥、線性四麥、雙麥陣列,在思必馳實(shí)驗(yàn)室里,最多的麥克風(fēng)陣列是三十二麥,即使置于大型會(huì)議室里,都能夠針對(duì)每個(gè)人做精細(xì)地監(jiān)測(cè)。

另外,在開放的環(huán)境中,我們已經(jīng)實(shí)現(xiàn)了分布式的麥克風(fēng)陣列。針對(duì)設(shè)備的麥克風(fēng)陣列,環(huán)形四麥、環(huán)形六麥相對(duì)來說是短間距的。但分布式麥克風(fēng)陣列不會(huì)受空間的約束,不會(huì)受麥克風(fēng)震源間距的約束,它是開放形態(tài),而且可以在空間里隨便布置麥克風(fēng)。

關(guān)于降噪,戶外穿戴式的場(chǎng)景中面臨的主要問題是降風(fēng)噪。我們和許多快遞公司、物流合作,將語音喚醒、語音聲紋識(shí)別做到耳機(jī)里??爝f小哥在外快速騎行時(shí),無論是下單、送單都需要進(jìn)行通話,風(fēng)會(huì)直接吹著麥克風(fēng),遇到的典型問題是風(fēng)噪。那么,如何解決風(fēng)噪的問題?思必馳從硬件、軟件、結(jié)構(gòu)幾方面,很好地對(duì)風(fēng)噪進(jìn)行抑制。

當(dāng)算法解決不了的時(shí)候,在耳機(jī)上,不光通過空氣傳播采集語音,而且通過振動(dòng)或是觸感。大家知道,除了空氣麥克風(fēng)、骨傳感麥克風(fēng),現(xiàn)在還有肌膚接觸麥克風(fēng),通過振動(dòng)采集人的語音。如何把接觸傳播和空氣傳播兩種不同性質(zhì)采集單元結(jié)合在一起做降噪處理和融合呢?目前,思必馳正在嘗試這樣的技術(shù)。

思必馳 CTO 周偉達(dá):語音技術(shù)優(yōu)先服務(wù)于 AIoT  | CCF-GAIR 2019

人和人的交互,我們的第一反應(yīng)是直視,可能是直達(dá)聲、就近反應(yīng)。有一個(gè)場(chǎng)景大家可以體會(huì)到,如果單獨(dú)靠語音監(jiān)聽,我們打電話的過程中的交互往往比面對(duì)面的交互不自然,原因是什么?

人們?cè)趦H憑聽覺時(shí),經(jīng)常會(huì)在電話里搶話或是互相等話,我說完等著你反應(yīng),而且我不知道你什么時(shí)候能反應(yīng)。在這樣的場(chǎng)景中,真正的智能交互是多模態(tài)的交互,除了語音之外,要配合其他的傳感器,特別是視覺。

在智能交互中,雖然大部分機(jī)器的語音識(shí)別做得越來越好,支持的技能越來越多,但是人與機(jī)器的交互,和人與人的交互之間還有差距,具體有哪些方面呢?

首先是自然度?,F(xiàn)在人和機(jī)器的交互,特別是成年人和機(jī)器交互時(shí),大家懷疑機(jī)器的技能。人和設(shè)備交互的時(shí)候是命令式的,希望話說完機(jī)器就能快速響應(yīng),人是非常強(qiáng)勢(shì)的。但是,現(xiàn)在已經(jīng)出現(xiàn)了一些人們把機(jī)器當(dāng)成人看的場(chǎng)景。說幾個(gè)典型的場(chǎng)景:在兒童教育中,兒童會(huì)把平常不敢跟父母說的話說給機(jī)器聽,與機(jī)器聊天、談心,這是因?yàn)閷?duì)話技術(shù)做得越來越自然。

人機(jī)對(duì)話技術(shù)遇到的問題是交互的自然度,這個(gè)自然度包含哪些方面?首先,人和機(jī)器交互的時(shí)候,機(jī)器該停不停,它不能預(yù)測(cè)這句話人的意圖是否表達(dá)完整,依然在監(jiān)聽,有噪聲就不會(huì)停。第二個(gè)是不該停的時(shí)候反而停了,人們?cè)谡f話期間停頓了一下,機(jī)器卻認(rèn)為人們說話結(jié)束了,作出相應(yīng),表達(dá)我不理解你的意思。

針對(duì)這些場(chǎng)景,單點(diǎn)的技術(shù)是容易解決的,人聲的檢測(cè)、VAD的檢測(cè)以及語音識(shí)別判斷句子的完整性、意圖的完整性。最大的難度是整個(gè)的系統(tǒng)架構(gòu),從前端采集的信號(hào)處理到意圖判斷,如果判斷延遲過高,機(jī)器響應(yīng)是跟不上人的節(jié)奏的。

在智能響應(yīng)方面,我們已經(jīng)接近于人類交互的節(jié)奏,很好理解對(duì)方的意圖,可以接話、可以響應(yīng)?,F(xiàn)在思必馳系統(tǒng)的集成更多會(huì)把語音信號(hào)的處理、識(shí)別往本地移,加速這個(gè)過程,有些場(chǎng)景已經(jīng)實(shí)現(xiàn)了人跟機(jī)器的自然交互。

以上是我提到的自然交互的兩個(gè)方面,另外還有人打斷機(jī)器對(duì)話,以及機(jī)器能自然的接話。人聽完一段機(jī)器語音,播出的時(shí)候已經(jīng)理解了,有些時(shí)候人會(huì)非常強(qiáng)勢(shì)地說:“你趕緊給我閉嘴,我要說下一個(gè)意圖?!边@個(gè)時(shí)候人經(jīng)常會(huì)打斷機(jī)器。

還有一種場(chǎng)景,在 Google 去年的 Duplex 發(fā)布會(huì)中,全世界人鼓掌聲最響的時(shí)候是機(jī)器打電話給餐館預(yù)定位置、預(yù)定時(shí)間,中間有一個(gè)細(xì)節(jié),對(duì)方餐館服務(wù)人員說:“你要預(yù)定幾人的位置?”,后面沒說完“你是幾點(diǎn)到?”,這兩句話的中間有短暫的停頓,這個(gè)時(shí)候機(jī)器以“嗯哼”進(jìn)行了響應(yīng)。就是這個(gè)“嗯哼”,全世界的耳朵都亮了。這是什么原因呢?

在人的意圖沒有表達(dá)完整的時(shí)候,機(jī)器要這么短的時(shí)間內(nèi)要響應(yīng),將“嗯哼”在 300 毫秒內(nèi)決策完響應(yīng)出去,對(duì)整個(gè)系統(tǒng)的架構(gòu)挑戰(zhàn)非常大。今后,我們也希望人機(jī)交互能夠做到更智能:智能地打斷、智能地糾正、抗干擾。

思必馳 CTO 周偉達(dá):語音技術(shù)優(yōu)先服務(wù)于 AIoT  | CCF-GAIR 2019

全場(chǎng)景的語音交互:多設(shè)備聯(lián)動(dòng)+DUI 平臺(tái)

隨著單臺(tái)智能設(shè)備在家庭里普及,很多家庭已經(jīng)出現(xiàn)的多臺(tái)智能設(shè)備。當(dāng)出現(xiàn)兩臺(tái)智能設(shè)備的時(shí)候,如果還用語音喚醒去交互,是反人類的產(chǎn)品設(shè)計(jì)。那為什么要用反人類的產(chǎn)品在這樣的產(chǎn)品里用呢?難點(diǎn)是,我們做語音交互設(shè)備的時(shí)候,如果設(shè)備一直在監(jiān)聽不用喚醒,設(shè)備經(jīng)常會(huì)誤判。雖然識(shí)別沒問題,但是會(huì)誤導(dǎo)設(shè)備與人交互,做誤判以后會(huì)導(dǎo)致人的體驗(yàn)很差。

在這兒,我們需要解決多設(shè)備交互、多設(shè)備聯(lián)動(dòng)。比如說,在家居里有多個(gè)設(shè)備,能不能實(shí)現(xiàn)正面喚醒?能不能實(shí)現(xiàn)就近喚醒?或是就近交互?

另外,語義選擇就是通過設(shè)備監(jiān)聽人說話,判斷當(dāng)前人是不是跟設(shè)備說話,是否跟機(jī)器覆蓋的規(guī)模、意圖相吻合。

最后,多模態(tài)視覺交互就是通過視覺設(shè)備、紅外設(shè)備,感受到人對(duì)機(jī)器有表情的交流、眨眼的交流。用多模態(tài)判斷出人是與機(jī)器交流,機(jī)器才會(huì)做出相應(yīng)。

思必馳 CTO 周偉達(dá):語音技術(shù)優(yōu)先服務(wù)于 AIoT  | CCF-GAIR 2019

面對(duì)多場(chǎng)景應(yīng)用,在思必馳 DUI 平臺(tái)上,用戶可以實(shí)現(xiàn)語義、對(duì)話、內(nèi)容、技能的定制。人機(jī)語音交互要經(jīng)歷多個(gè)環(huán)節(jié),即識(shí)別、語義理解、對(duì)話管理、語音合成、內(nèi)容服務(wù),這些工作都是在后臺(tái)進(jìn)行。真正要開發(fā)一個(gè)好的技能,涉及到每個(gè)模塊的優(yōu)化。

思必馳剛開始服務(wù)于 IoT,配合客戶做第一個(gè)場(chǎng)景設(shè)備花了一年半的時(shí)間。對(duì)于這樣的技術(shù),實(shí)驗(yàn)室可以做到,個(gè)人做 Demo 也可以做到,但是真正要做到產(chǎn)業(yè)化、市場(chǎng)化的時(shí)候,思必馳面臨的最大問題是:能不能做成客戶可快速開發(fā)和定制?

思必馳做的 DUI 平臺(tái),如果客戶優(yōu)選我們的標(biāo)準(zhǔn)功能加簡(jiǎn)單定制,7 分鐘可以完成;如果是客戶全定制,一天可以完成一個(gè)技能。

人機(jī)語音交互最主要的目的是實(shí)現(xiàn)信息資源、內(nèi)容的獲取,去實(shí)現(xiàn)定票、聽音樂、看電視功能的操作,這是最直接的剛需需求。要實(shí)現(xiàn)這些操作,后臺(tái)需要非常豐富的內(nèi)容資源。關(guān)于這些內(nèi)容資源,思必馳無論在互聯(lián)網(wǎng),或者是移動(dòng)互聯(lián)網(wǎng),在行業(yè)內(nèi)有很多的內(nèi)容提供商。

這在人機(jī)語音交互、AIoT 里有什么特殊的呢?以前,我們無論是通過手機(jī),還是 PC 聽音樂,都可以瀏覽喜歡的歌手、喜歡的歌曲,還可以中間聽一半或者快速切歌。想象一個(gè)音箱設(shè)備,沒有屏幕,只有語音交互,那么,要如何快速獲取你想要的內(nèi)容呢?

現(xiàn)在最全的音樂庫(kù)大約有三千兩百多萬首歌,一個(gè)人經(jīng)常聽的音樂最多 1000 首,那么,如何在三千兩百多萬首歌中獲取你經(jīng)常聽的 1000 首歌曲,讓你在閑暇時(shí)光,或者比較累的時(shí)候聽的歌就是你想要的音樂,想看的電視就是你沒有看過又是你喜歡的、同一品類的高質(zhì)量大片呢?這是智能設(shè)備上高質(zhì)量的內(nèi)容源服務(wù),不僅是內(nèi)容源擺在那兒自己選,而且是給你推薦符合你喜好的,很廣泛的內(nèi)容、最關(guān)注的內(nèi)容。

在 AIoT 中,除了單個(gè)設(shè)備需要智能以外,我們還需要打通全屋智能。思必馳的 DUI 平臺(tái)上,我們已經(jīng)為開發(fā)者打通智能家居各種互聯(lián)協(xié)議,目前已經(jīng)打通 20 多個(gè)協(xié)議,可以和其他的智能設(shè)備平臺(tái)實(shí)現(xiàn)互聯(lián),互相調(diào)用信息,互相共享信息。

針對(duì)多場(chǎng)景的應(yīng)用,我們希望為開發(fā)者提供最便捷的通用方案選擇。目前思必馳在 IoT 方向?yàn)殚_發(fā)者提供標(biāo)準(zhǔn)、全面的解決方案有幾大類:

  1. 家居語音解決方案。為各種智能家居設(shè)備,例如為冰箱、空調(diào)、洗衣機(jī)、控制面板、電腦、小家電、廚電、衛(wèi)生間電器提供了解決方案。

  2. 我們?yōu)楦鞣N智能手機(jī)、智能手環(huán)、智能手表、智能平板提供了低功耗的戶外場(chǎng)景語音解決方案。

  3. 我們?yōu)閮和惞适聶C(jī)、機(jī)器、手表、學(xué)習(xí)平板、編程機(jī)器人提供完整的解決方案。

  4. 我們?yōu)楦鞣N企業(yè)會(huì)議系統(tǒng)、提高辦公效率的遠(yuǎn)場(chǎng)語音采集、信號(hào)處理、語音增強(qiáng)、通話音質(zhì)改善,包括發(fā)布會(huì)現(xiàn)場(chǎng)的語音采集抗混響、抗嘯叫,語音實(shí)時(shí)轉(zhuǎn)寫、語音會(huì)議摘要提取,實(shí)時(shí)翻譯等提供方案。

思必馳全部的語音技術(shù)優(yōu)先服務(wù)于 AIoT,我們堅(jiān)信好的語音技術(shù)一定能服務(wù)到每一位普通的觀眾、普通的用戶,只有讓每一位用戶真正體驗(yàn)到自然度、體驗(yàn)到交互的方便性、信息獲取的便捷度,每一位用戶才會(huì)真正接受語音交互技術(shù)在設(shè)備中的應(yīng)用。

我們將會(huì)在本次峰會(huì)后,在「AI投研邦」上線CCF GAIR 2019 峰會(huì)完整視頻與各大主題專場(chǎng)白皮書,包括機(jī)器人前沿專場(chǎng)、智能交通專場(chǎng)、智慧城市專場(chǎng)、AI芯片專場(chǎng)、AI金融專場(chǎng)、AI醫(yī)療專場(chǎng)、智慧教育專場(chǎng)等?!窤I投研邦」會(huì)員們可免費(fèi)觀看全年峰會(huì)視頻與研報(bào)內(nèi)容,掃碼進(jìn)入會(huì)員頁面了解更多。峰會(huì)期間專享立減399元福利,可進(jìn)入頁面直接領(lǐng)取,或私信助教小慕(微信:moocmm)咨詢。(最后一天50個(gè)名額,速搶。)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

資深編輯

關(guān)注智能硬件、IoT、機(jī)器人 | 微信:Elena_Xiao1025
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄