丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給李超
發(fā)送

0

NLP工程師技術(shù)解讀:智能語音助理類產(chǎn)品的未來在哪里?

本文作者: 李超 2016-12-21 19:02
導(dǎo)語:聊一聊智能語音助理中的主要技術(shù)。

雷鋒網(wǎng)按:本文作者李超,出門問問NLP工程師。文中的所有觀點(diǎn)系作者個人觀點(diǎn),不代表出門問問公司的立場。雷鋒網(wǎng)獨(dú)家文章。

最近AI熱火燒遍全國,語音智能助理是熱中之熱。各大公司不斷加大了對這方面的投入,做垂直或者通用領(lǐng)域的初創(chuàng)團(tuán)隊也如雨后春筍般涌現(xiàn),競爭非常激烈,不少業(yè)內(nèi)人士認(rèn)為智能助理將替代APP,成為新的交互方式。也有不少同行對目前的情況進(jìn)行反思,認(rèn)為智能助理產(chǎn)品非常不成熟,將會是過眼云煙。

這里也探討下個人對智能助理產(chǎn)品技術(shù)的一點(diǎn)認(rèn)識。

 NLP工程師技術(shù)解讀:智能語音助理類產(chǎn)品的未來在哪里?

《為什么現(xiàn)在的人工智能助理都像人工智障?》中對各家主力產(chǎn)品的調(diào)研。從左到右分別是蘋果的SIRI、 微軟的CORTANA、Google的ALLO

NLP工程師技術(shù)解讀:智能語音助理類產(chǎn)品的未來在哪里?

C公司,也就是筆者工作的出門問問

| 智能助理產(chǎn)品的特點(diǎn)

智能助理,顧名思義,是幫助用戶完成任務(wù)或?qū)崿F(xiàn)服務(wù)的虛擬助理。從輸入上,智能助理有語音輸入和文字輸入,技術(shù)上的區(qū)別是語音輸入要做語音識別,將語音信號轉(zhuǎn)換成文字。在相對安靜的環(huán)境下,語音識別的字準(zhǔn)確率可以到達(dá)97%以上。產(chǎn)品場景上的主要區(qū)別是語音對話輸入并不需要打字,在識別準(zhǔn)確的情況下輸入速度更快,并可以解放雙手和雙眼,所以各個智能助理都有語音識別功能。智能助理在輸出上分文字輸出、圖像輸出、語音輸出。目前智能助理產(chǎn)品最主要的方式是語音對話交互。

個人認(rèn)為智能助理的語音對話交互,相比傳統(tǒng)的APP交互有以下優(yōu)點(diǎn):

1)   便捷性:不需要雙手操作,直接說話即可完成輸入。

2)   輸入跨越性:當(dāng)用戶使用某個APP時,用戶切換到其他任務(wù)時需要打開另外一個APP;同一個APP內(nèi)用戶需要按照圖形界面逐層深入,通過按鍵和關(guān)鍵詞搜索實現(xiàn)APP的功能;而語音交互可以跨越不同APP,跨APP內(nèi)部的層次,直接提出需求。

3)   輸入的多樣性:語音交互的跨越性自然會帶來輸入的不確定性。用戶直接通過對話完成輸入,沒有圖形界面的限制,輸入會更加無序,同時需求也會更加多樣。這就需要強(qiáng)大的自然語言處理技術(shù)理解用戶需求和強(qiáng)大執(zhí)行能力滿足滿足用戶需求。

同時,語音對話交互相對傳統(tǒng)APP交互也有如下缺點(diǎn):

1)   輸出信息量更少:傳統(tǒng)的APP基于圖形界面,能展現(xiàn)的信息量較大,比如大眾點(diǎn)評,我們可以直接通過圖片看到餐廳的環(huán)境,菜品的賣相。而語音交互輸出在很多場景下無法展現(xiàn)這些信息,輸出的信息量更少。

2)   私密性差:語音對話交互需要一定音量說出需求,這樣會將需求暴露在大庭廣眾之下。

早期的智能助理都是作為一個內(nèi)置或用戶下載的APP供用戶使用。猜測初期各家的想法是將智能助理做成一個超級APP,做成流量分發(fā)平臺,取代各個垂直領(lǐng)域的APP。目前手機(jī)助手使用率、活躍率、留存率都較低,即使SIRI也不例外。

通過對比APP,我們可以看出,在手機(jī)大屏幕,經(jīng)常在公共場所使用而場景下,語音對話交互無法普及的主要原因如下:

1)私密性差,所有的需求都會被周圍人知曉。

騰訊董事長馬化騰最近也在文章中提到:“另外一個例子就是語音搜索,我們沒有作為重點(diǎn)去做,這個功能看起來方便,其實未必,比如一個人對著手機(jī)說我要去干嘛干嘛,好傻,人一多我都不好意思這么說,而且也不私密,寧可多按幾下。”。

2)在手機(jī)上觸屏操作APP并沒有比語音交互復(fù)雜太多。

3)手機(jī)上可以展現(xiàn)各種圖像信息,圖形界面的信息量大的優(yōu)勢得以保存。

最近隨著智能硬件的普及,語音助理逐漸被嵌入各種智能硬件中。iWatch、基于Android Wear的moto360、出門問問的Ticwatch等智能手表或可穿戴設(shè)備都內(nèi)置智能語音助理。由于可穿戴設(shè)備屏幕相對手機(jī)更小,輸入文字、點(diǎn)擊觸屏相對手機(jī)不方便;很多APP無法展現(xiàn)足夠的圖片信息;穿戴設(shè)備跟用戶的親密度更高。這些原因令用戶在使用穿戴設(shè)備時更多使用語音對話交互。出門問問的產(chǎn)品數(shù)據(jù)也驗證了上述觀點(diǎn),Ticwatch手表的語音搜索,不論是使用率、活躍率、還是留存率,都遠(yuǎn)高于出門問問的APP。

在用戶開車時,出于安全考慮,需要將精力放在駕駛上,除了在停車時可以進(jìn)行屏幕操作外,語音對話交互幾乎是唯一的交互方式。在車載場景下,語音對話交互用戶的需求相對更加集中在地點(diǎn)查詢及導(dǎo)航、音樂、音頻節(jié)目播放等幾個高頻的領(lǐng)域,用戶輸入的不確定性相對減少。同時車內(nèi)是更加私密的環(huán)境,大家在公眾場所使用語音覺得“傻”的問題在車內(nèi)基本沒有。行車中的高安全性,對車載產(chǎn)品提出了操作的無手化、無屏化的需求。車載場景,將是智能助理產(chǎn)品語音對話交互更好的舞臺。

亞馬遜推出智能音箱Echo受到用戶追捧,來自國外權(quán)威機(jī)構(gòu)統(tǒng)計的數(shù)字,累計銷量已經(jīng)突破500萬臺。亞馬遜研發(fā)的智能助理Alexa成為新的明星。音箱產(chǎn)品沒有屏幕,語音對話交互成了唯一的交互方式。除了常用的音樂、新聞、打車等功能,Alexa也打通亞馬遜賬戶支持網(wǎng)購下單。

目前音箱也成了國內(nèi)各公司研發(fā)的新熱點(diǎn)。

今年8月在深圳參加雷鋒網(wǎng)主辦的GAIR大會,順帶去華強(qiáng)北考察,普通音箱的價格普遍在100-200元左右,加了簡單語音控制的音箱價格飆升到700-800元,一定程度上反應(yīng)語音對話交互對音響產(chǎn)品的價值。家中的私密性、產(chǎn)品輸入形式的唯一性、在家中隨時說話的方便性,都決定智能助理將會在家居產(chǎn)品上得到更加高頻的應(yīng)用。音箱上語音對話交互,還是要克制。以購物為例,還是有很多問題需要注意。首先是說話人的識別,如果孩子通過音箱有意或無意下了很多訂單,刷爆了家長的信用卡,這將會造成用戶和服務(wù)商的糾紛。其次是購物外賣等方面,用戶可以利用音箱買標(biāo)準(zhǔn)化的產(chǎn)品,如iPhone7、麥當(dāng)勞的某款套餐。但用戶說我想買一個藍(lán)色皮包,藍(lán)色有很多種,皮包樣式更加千奇百怪,這對于語音對話交互是一場災(zāi)難。

綜上所述,簡單對比語音對話交互在各場景下的使用情況。筆者認(rèn)為,可穿戴、車載產(chǎn)品和家居產(chǎn)品將是語音對話交互方式更好的應(yīng)用場景。廣闊天地,大有可為,也將成為各類智能助理產(chǎn)品的競技場。產(chǎn)品間的競爭,也將推動大家對技術(shù)的投入,智能助理也將越來越智能。

 NLP工程師技術(shù)解讀:智能語音助理類產(chǎn)品的未來在哪里?


不同場景下語音對話交互對比

筆者因為工作原因, 所在公司出門問問也在不斷尋找語音對話交互更好的應(yīng)用場景,比如車載產(chǎn)品、家居等產(chǎn)品的無手無屏交互,更能發(fā)揮語音對話交互特長。以下簡單舉幾個例子:

1)語音快詞(Shortcut)

在Ticmirror中,智能語音交互技術(shù)有所升級。例如在導(dǎo)航狀態(tài)下想要切換地圖顯示模式,不需要先說“你好問問”熱詞來啟動語音控制,直接說“查看全程”、“3D模式”等語音快詞即可直接控制。

2)一說而就(One shot)

用戶也可以將熱詞和查詢詞一起連續(xù)說出,而不需等待,如“你好問問,今天的天氣怎么樣”。

3)隨時打斷(Barge in)

車載產(chǎn)品提供音樂、音頻播放等娛樂服務(wù),行進(jìn)途中如果用戶需要重新進(jìn)行導(dǎo)航或者查看地圖,不需要暫停歌曲,可直接打斷正在播放的歌曲來激活操作。

NLP工程師技術(shù)解讀:智能語音助理類產(chǎn)品的未來在哪里?

| 智能助理中的主要技術(shù)都有哪些?

智能助理產(chǎn)品的語音對話交互,需要強(qiáng)大的技術(shù)支持,包括語音識別、語義理解、搜索技術(shù)、智能推薦、語音合成等核心技術(shù)。

  • 語音識別

語音識別技術(shù)將用戶的語音輸入轉(zhuǎn)化成文字。一般包括四個模塊,特征抽取模塊、聲學(xué)模型、語言模型和解碼器四部分。

特征抽取模塊經(jīng)過噪音消除、去除信道失真等對聲音進(jìn)行增強(qiáng),從聲音信號中提取特征向量。在特征抽取模塊需要處理噪聲、回聲、其他人聲音干擾的影響。解決思路主要分前端和后端,前端可以利用麥克風(fēng)陣列計算說話人的角度和距離,實現(xiàn)對說話人聲音的定向獲取,從而實現(xiàn)將環(huán)境背景聲音過濾。在后端可以通過訓(xùn)練含有噪聲數(shù)據(jù)的模型提高系統(tǒng)的能力。

聲學(xué)模型把聲學(xué)特征對應(yīng)到音素,生成整個序列的聲學(xué)模型打分。早期利用的是隱馬爾科夫-高斯混合模型。后期鄧力和Hinton等開始開始進(jìn)行深度學(xué)習(xí)在語音識別的探索,DNN大幅提高了準(zhǔn)確率。目前研究者利用CTC、RNN、LSTM、TDNN進(jìn)行探索,都取得了很好的效果。

語言模型計算一句話對應(yīng)的詞序列的可能性。最簡單的是N語言模型,思想很簡單,在上下文中,假設(shè)當(dāng)前詞的概率只與之前N-1個詞有關(guān),利用條件概率的連乘,得到整句的概率?,F(xiàn)在已經(jīng)也利用神經(jīng)網(wǎng)絡(luò)語言模型。

解碼器模塊整合聲學(xué)模型、語言模型的信息,找到對輸入特征向量最可能的詞序列。解碼器的核心算法是一種動態(tài)規(guī)劃算法Viterbi。

隨著深度學(xué)習(xí)應(yīng)用在語音識別的聲學(xué)模型中,語音識別的準(zhǔn)確率得到很大發(fā)展,安靜情況下準(zhǔn)確率已經(jīng)到97%以上。

  • 語義理解

語音識別技術(shù)將語音轉(zhuǎn)換為文字后,需要語義理解技術(shù)分析用戶的需求。語義理解技術(shù)不同于語音識別,語音識別有統(tǒng)一明確的優(yōu)化目標(biāo);語義理解沒有固定的思路和流程,不同的團(tuán)隊會采用不同的解決辦法。盡管如此,仍有跡可循,主體離不開以下模塊:

查詢分類:對用戶的輸入進(jìn)行分類,識別出用戶需求的類別。如“北京明天的天氣”,將會被分到天氣類,“附近有什么飯店”將會分到餐館類。分類是基本的機(jī)器學(xué)習(xí)任務(wù),主要的工作是清晰的類別定義,高準(zhǔn)確的標(biāo)注數(shù)據(jù),選取有區(qū)分度的特征。做好數(shù)據(jù)和特征的工作,簡單的線性分類器,也可以取得很不錯的準(zhǔn)確率,但為了更加精準(zhǔn),我們也將深度學(xué)習(xí)引入到文本分類中。

實體識別:識別出用戶輸入中的實體。如“我想聽郭德綱的相聲濟(jì)公傳”,識別出“郭德綱”是相聲演員,“濟(jì)公傳”是相聲作品。實體識別是一個典型的序列化標(biāo)注問題,基本做法是對句子中的每個詞標(biāo)注不同的成分,最后利用機(jī)器學(xué)習(xí)方法進(jìn)行識別。如例句中被標(biāo)注成

“我-O”,“想聽-O”,“郭德剛-PER_B”,“的-O”,“濟(jì)公-BOOK_B”,“傳-BOOK_I”。PER、BOOK等是實體的類別信息,“B”、“I”是詞在實體的位置信息,“B”表示開頭,“I”表示非開頭。

指代消解:判斷出指代詞的指代關(guān)系。如“林丹的老婆是誰,她多大了”,我們可以知道其中的“她”指的是林丹的老婆。目前指代消解問題可以抽象成一個分類問題或排序問題,找到最可能的指代關(guān)系。

對話技術(shù):對話系統(tǒng)需要理解用戶的連續(xù)輸入,滿足用戶連續(xù)的需求。如用戶連續(xù)輸入“附近的餐館”、“人均100左右”、“要川菜”,要識別出“人均”、“川菜”等都是對餐館的需求,而不是一個獨(dú)立的需求在學(xué)習(xí)用戶的行為過程中,發(fā)現(xiàn)用戶更多的是逐漸增加搜索條件,而不會一句話中提到所有的條件。我們也研發(fā)理解上下文的技術(shù),實現(xiàn)多輪的上下文對話?!跋轮芪逡ケ本瑤臀也橐幌潞桨唷?,“有沒有國航的”這種問法已經(jīng)搞定。

NLP工程師技術(shù)解讀:智能語音助理類產(chǎn)品的未來在哪里?

對話技術(shù)示例

問答技術(shù):問答技術(shù)分為實體問答和其他類,IBM做的問答系統(tǒng)Watson最先在Jeopardy上戰(zhàn)勝人類選手。

實體類問答結(jié)束主要分三個部分:

1)問題分析,分析問題的類別、需要答案的種類、問題中的修身關(guān)系等;

2)答案抽取,選出各個候選答案;

3)答案排序,找到最佳候選答案。

最近也有學(xué)者研究將深度學(xué)習(xí)sequence to sequence的技術(shù)應(yīng)用在實體問答。如果結(jié)合傳統(tǒng)的方法,性能上會有改進(jìn),但如果獨(dú)立使用,并沒有目前傳統(tǒng)方法好,而且會需要大量的訓(xùn)練數(shù)據(jù)。這個例子也說明,在自然語言處理領(lǐng)域,并不是所有的情況、所有的領(lǐng)域,深度學(xué)習(xí)都是最合適的算法。選擇方法時要結(jié)合規(guī)則、數(shù)據(jù)、特征、模型等進(jìn)行選擇。取法其眾,得其上;取法其上,得其中。

知識圖譜技術(shù),在各個垂直領(lǐng)域,因為各個API的限制,有些用戶多樣性的需求目前并不能滿足。

如找餐廳,各個APP并不能支持“全家聚餐”、“有包廂”等需求的滿足。領(lǐng)域眾多,每個領(lǐng)域內(nèi)需也很復(fù)雜,所以有同行認(rèn)為這些并不可以實現(xiàn)。對這種觀點(diǎn)個人持保留態(tài)度,首先需求不是被造出來的,而是實在的存在于用戶的行為中;其次每個領(lǐng)域的需求雖然眾多,但在一定時間內(nèi)可以認(rèn)為幾乎是一個近似封閉的集合。通過用戶的行為分析,先將問題定性,再將問題定量。在音樂、餐館、景點(diǎn)導(dǎo)航等泛poi類這些車載、音箱等場景下的重點(diǎn)領(lǐng)域,我們將進(jìn)行深入的知識圖譜挖掘,逐步將數(shù)據(jù)結(jié)構(gòu)化,并建立自己的搜索引擎,打破API的限制。

  • 搜索技術(shù)

當(dāng)明確用戶需求后,除了對接各種APP的API外,還需要搜索技術(shù)滿足用戶的需求。

搜索技術(shù)比較成熟,主要分為爬蟲、索引、檢索、排序等。抓取技術(shù)用來從互聯(lián)網(wǎng)爬取信息,抓取技術(shù)的技術(shù)要點(diǎn)在于抓取的覆蓋率、實效性和頁面的精準(zhǔn)解析。爬取信息后將內(nèi)容進(jìn)行索引,需要倒排索引和正排索引。倒排索引建立關(guān)鍵詞和文檔id的關(guān)系,并存儲某一文檔中出現(xiàn)的位置,用來找到包含關(guān)鍵詞的文檔;正排索引跟倒排索引相對,建立文檔和文檔中詞和其他屬性的關(guān)系,主要用來對召回的文檔進(jìn)行排序。最后是檢索,當(dāng)用戶進(jìn)行查詢時,需要分析用戶的需求,找到滿足用戶需求的結(jié)果。

當(dāng)我們從數(shù)據(jù)中學(xué)習(xí)到用戶的習(xí)慣、偏好后,需要推薦技術(shù)為用戶推薦合適的信息、服務(wù)和產(chǎn)品。推薦系統(tǒng)有很多不同的底層實現(xiàn),最基本的方法是協(xié)同過濾,協(xié)同過濾的思想是如果兩個用戶對一系列物品的評價相似度很高,則一個用戶對一個物品的評價很可能類似于另一個用戶。推薦系統(tǒng)需要解決的幾個問題是系統(tǒng)冷啟動、推薦的多樣性和時效性等。

最后,需要將文字轉(zhuǎn)化語音進(jìn)行播報的語音合成技術(shù)。語音合成技術(shù)比較主流的是混合系統(tǒng),根據(jù)統(tǒng)計參數(shù)模型,計算出大概的譜參數(shù)和基頻信息,指導(dǎo)拼接系統(tǒng)從語音庫中找出最佳的語音基本單元序列,并調(diào)整成流利連續(xù)的語音。

| 總結(jié)

通用領(lǐng)域的智能助理不可能解決所有用戶的所有問題。

各個垂直領(lǐng)域的數(shù)據(jù)積累和研究逐漸深入,從高頻到低頻,問題會被逐漸解決。

在特定場景下,用戶的需求是特定的,智能助理產(chǎn)品也要結(jié)合應(yīng)用場景。

智能語音助理產(chǎn)品需要強(qiáng)大的技術(shù)支持和持續(xù)的技術(shù)投入。

即使一些領(lǐng)域的一些問題處理不好,我們?nèi)圆荒芊穸ㄖ之a(chǎn)品的價值。大家仍需不斷打磨技術(shù)產(chǎn)品,為用戶更加智能地提供服務(wù)。讓人們生活更好的,一定是在路上一步一步堅定不移向前走的人。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

NLP工程師技術(shù)解讀:智能語音助理類產(chǎn)品的未來在哪里?

分享:
相關(guān)文章

專欄作者

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說