丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
AIoT 正文
發(fā)私信給郭仁賢
發(fā)送

0

解密百度智能音箱小度:“聽清、聽懂、滿足”背后的技術(shù)和能力

本文作者: 郭仁賢 2019-08-16 20:50
導(dǎo)語:智能音箱的好壞主要看三點(diǎn),分別是聽清、聽懂和滿足。

提到百度旗下的智能音箱小度,你可能會想到他曾在春晚登臺,以及在真人秀《向往的生活》里聰明智慧的樣子。只要我們對著他喊“小度,小度”,他就會立馬應(yīng)和我們,并且回應(yīng)我們的任何請求。

解密百度智能音箱小度:“聽清、聽懂、滿足”背后的技術(shù)和能力

根據(jù)市場研究機(jī)構(gòu)Strategy Analytics最新發(fā)布的《2019 Q2全球智能音箱的報(bào)告》,小度以470萬臺的出貨量位列國內(nèi)第一;而在全球范圍內(nèi),他的出貨量僅次于亞馬遜和Google。

小度的背后有何技術(shù)在做支撐,我們評價一款智能音箱的好壞其標(biāo)準(zhǔn)是什么?雷鋒網(wǎng)了解到,一般情況下,我們評價智能音箱的好壞主要看三個方面,分別是聽清、聽懂和滿足。

在聽清方面,其是指把用戶的聲波轉(zhuǎn)化成正確的文字,一般稱為語音識別或者喚醒。在內(nèi)外噪音的干擾之下,機(jī)器要能夠準(zhǔn)確地識別用戶的指令。這部分小度可以通過引入百度語音首創(chuàng)的流式多級的截?cái)嘧⒁饬δP?SMLTA),大大提升ASR效果。

我們比較熟悉的ASR技術(shù)(Automatic Speech Recognition,語音識別),是將聲音轉(zhuǎn)化為文字,可類比于人類的耳朵;而TTS技術(shù)(Text-To-Speech,語音合成),是將文字轉(zhuǎn)化為聲音(朗讀出來),類比于人類的嘴巴。大家在Siri等各種語音助手中聽到的聲音,都是由TTS來生成的,并不是真人在說話。

關(guān)于SMLTA,據(jù)公開信息,其是使用CTC(一種語音識別算法)的尖峰信息對連續(xù)語音流進(jìn)行截?cái)啵缓笤诿恳粋€截?cái)嗟恼Z音小段上進(jìn)行當(dāng)前建模單元的注意力建模;這樣把原來的全局的整句Attention建模,變成了局部語音小段的Attention的建模;同時,為了克服CTC模型的不可避免的插入刪除錯誤對系統(tǒng)造成的影響,該算法引入一種特殊的多級Attention機(jī)制,實(shí)現(xiàn)特征層層遞進(jìn)的更精準(zhǔn)的特征選擇;最終,這種創(chuàng)新的建模方法的識別率不但超越了傳統(tǒng)的全局Attention建模,同時還能夠保持計(jì)算量、解碼速度等在線資源耗費(fèi)和傳統(tǒng)CTC模型持平。這也是第一次有公開報(bào)道,局部的Attention建模,有可能超過全局的Attention建模。

在聽懂方面,其是指得到這個字符串之后是不是能理解用戶的需求到底是什么,能夠準(zhǔn)確的給出響應(yīng),或者給出引導(dǎo)。比如小度在獲得模糊需求(不清晰指令)的時候,它會嘗試分析和校對自己的指令,以便更準(zhǔn)確地滿足用戶的需求。其結(jié)合百度NLP的知識增強(qiáng)語義表示模型ERNIE,核心理解算法升級為超大數(shù)據(jù)預(yù)訓(xùn)練深度模型。

在7 月 30 日,百度發(fā)布了 ERNIE的優(yōu)化版本——ERNIE 2.0 自然語言理解框架。它可以通過持續(xù)的多任務(wù)學(xué)習(xí),逐步學(xué)習(xí)和建立預(yù)訓(xùn)練任務(wù)。該框架支持增量引入詞匯 (lexical)、語法 (syntactic) 、語義 (semantic) 等 3 個層次的自定義預(yù)訓(xùn)練任務(wù),并通過多任務(wù)學(xué)習(xí)對其進(jìn)行訓(xùn)練,實(shí)現(xiàn)全面捕捉訓(xùn)練語料中的詞法、語法、語義等潛在信息。而且每當(dāng)引入新任務(wù)時,該框架在遞增地訓(xùn)練分布式表示的同時,還會記住先前任務(wù)的信息。 

解密百度智能音箱小度:“聽清、聽懂、滿足”背后的技術(shù)和能力

最后在滿足方面,用戶要的越寬泛越多,我們是不是能給得越多?這是滿足的部分。在滿足用戶需求方面,融合百度全網(wǎng)搜索能力與大規(guī)模精準(zhǔn)用戶畫像,從直接滿足進(jìn)化為個性化助手。

智能音箱的滿足能力,這里主要看兩點(diǎn),設(shè)備的知識完備程度和技能服務(wù)生態(tài)。百度智能生活事業(yè)群組(SLG)首席技術(shù)官朱凱華表示,

“對于小度來說,其依靠百度生態(tài)中的知識圖譜和搜索請求,以及網(wǎng)頁內(nèi)容支持,其知識完備程度較好;此外在技能服務(wù)生態(tài)方面,小度助手的開放平臺上,已經(jīng)擁有了33000多名的開發(fā)者,并且已經(jīng)累積了2400+的線上技能?!?/p>

解密百度智能音箱小度:“聽清、聽懂、滿足”背后的技術(shù)和能力

在軟硬一體結(jié)合方面,小度采用了全雙工免喚醒技術(shù),雷鋒網(wǎng)了解到,關(guān)于該技術(shù)的應(yīng)用有三個必要條件:

  • 軟件和硬件結(jié)合。即Hardware Designed for Software,就是硬件構(gòu)建的時候,需要為軟件的特征進(jìn)行專門制作;

  • 語音識別和語義理解結(jié)合。是指能夠做端到端的識別和理解,整個體驗(yàn)的串聯(lián),需要整個部分深度的整合和優(yōu)化;

  • 完善的技術(shù)儲備和解決方案。比如小度,其所有技術(shù)百度都 In house  具備,能夠深度整合。

朱凱華表示,在智能音箱這個行業(yè)里面,很重要的一點(diǎn)需要Designed for software,就是硬件構(gòu)建的時候,需要為軟件的特征進(jìn)行專門制作。小度在設(shè)計(jì)的一開始,就對它的聲學(xué)效果要有非常高的要求,在高噪音的環(huán)境下,也可以準(zhǔn)確喚醒。這個前提是對于硬件整個聲學(xué)結(jié)構(gòu)的要求很高,而小度則是從硬件設(shè)計(jì)伊始就是已經(jīng)做好了準(zhǔn)備。語音識別需要和語義理解完全結(jié)合起來,能夠做端到端的識別和理解。整個體驗(yàn)的串聯(lián),需要整個部分深度的整合和優(yōu)化,而這也正是百度的獨(dú)特優(yōu)勢。相比于其他產(chǎn)品往往在各個階段都是采買了不同提供方的技術(shù)相比,百度完善一體的技術(shù)儲備和解決方案,為小度的整體體驗(yàn),做到了強(qiáng)大的后盾支撐。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

AIoT編輯

關(guān)注AIoT、工業(yè)互聯(lián)網(wǎng)。。 微信:15019459997
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說