丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給hain
發(fā)送

2

聊天機(jī)器人的發(fā)展?fàn)顩r與分類(lèi)

本文作者: hain 2017-02-09 16:17
導(dǎo)語(yǔ):目前機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí),已經(jīng)成功的解決了圖像識(shí)別的問(wèn)題。從IMAGENET大賽的近幾年成績(jī)看,識(shí)別類(lèi)問(wèn)題準(zhǔn)確度已經(jīng)接近100%

雷鋒網(wǎng)按:本文作者王海良,呤呤英語(yǔ)開(kāi)發(fā)總監(jiān),北京JavaScript/Node.js開(kāi)發(fā)者社區(qū)的運(yùn)營(yíng)者,曾就職IBM創(chuàng)新中心。本文為系列文章第一篇,由雷鋒網(wǎng)獨(dú)家首發(fā),轉(zhuǎn)載請(qǐng)聯(lián)系授權(quán)。

目前機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí),已經(jīng)成功的解決了圖像識(shí)別的問(wèn)題。從IMAGENET大賽的近幾年成績(jī)看,識(shí)別類(lèi)問(wèn)題準(zhǔn)確度已經(jīng)接近100%。

聊天機(jī)器人的發(fā)展?fàn)顩r與分類(lèi)

與此同時(shí),機(jī)器學(xué)習(xí)在解決“語(yǔ)音到文字”(Speech to Text)以及“文字到語(yǔ)音”(Text to Speech)方面也有了飛躍。

而一群更加瘋狂的人在嘗試用機(jī)器學(xué)習(xí)解決自然語(yǔ)音理解,甚至在自然語(yǔ)言理解的基礎(chǔ)上,開(kāi)發(fā)聊天機(jī)器人。

聊天機(jī)器人的發(fā)展?fàn)顩r與分類(lèi)

通過(guò)這三個(gè)服務(wù), 就可以構(gòu)建聊天機(jī)器人并且發(fā)布上線。

  • Step 1 - 在Telegram上注冊(cè)賬號(hào)

通過(guò) BotFather創(chuàng)建Bot。

聊天機(jī)器人的發(fā)展?fàn)顩r與分類(lèi)

  • Step 2 - 在Botframework上注冊(cè)賬號(hào)

創(chuàng)建一個(gè)Bot, 同時(shí)下載Botframework提供的SDK/Sample( Node.js|C#),連接到Telegram。

聊天機(jī)器人的發(fā)展?fàn)顩r與分類(lèi)

基于Botframework的對(duì)話,要寫(xiě)很多代碼實(shí)現(xiàn),這樣我們更需要一個(gè)連接到已經(jīng)提供一些對(duì)話的服務(wù)上。

  • Step 3 - 接入 API.AI

API.AI可以提供標(biāo)注對(duì)話,開(kāi)放域?qū)υ捄驼Z(yǔ)音識(shí)別,意圖識(shí)別等功能。

聊天機(jī)器人的發(fā)展?fàn)顩r與分類(lèi)

  • Step 4 - 服務(wù)發(fā)布

Telegram是一個(gè)神奇的IM,它提供了聊天機(jī)器人應(yīng)用商店。使用Telegram IM的用戶(hù)可以快速體驗(yàn)和使用這些Bot。

聊天機(jī)器人的發(fā)展?fàn)顩r與分類(lèi)

一些Bot的體驗(yàn)真的很棒,尤其是使用了人工智能技術(shù)的Bot,以至于會(huì)出現(xiàn)下面的評(píng)論。

聊天機(jī)器人的發(fā)展?fàn)顩r與分類(lèi)

還有其他聊天機(jī)器人的玩家:wit.ai, Chatfuel, Facebook Messager, Apple Siri, 騰訊機(jī)器人平臺(tái), Microsoft LUIS.AI, etc.

不管是像微軟這樣的大公司,還是像Operator在垂直領(lǐng)域提供服務(wù)的創(chuàng)業(yè)公司,都將聊天機(jī)器人看成是下一代人機(jī)交互的服務(wù)形態(tài),聊天機(jī)器人不單純的提供了一個(gè)新的服務(wù)渠道,它還改變了服務(wù)本身,即通過(guò)歷史數(shù)據(jù)訓(xùn)練Language Model,來(lái)部分取代人的作用,聊天機(jī)器人對(duì)信息的組織和處理能力,在搜索引擎基礎(chǔ)上,又往前邁了一大步。比如,京東JIMI依靠DeepQA系統(tǒng),實(shí)現(xiàn)“最強(qiáng)大腦”,JIMI就是聊天機(jī)器人的一個(gè)形態(tài)。

聊天機(jī)器人模型分類(lèi)

基于檢索的模型

回答是提前定義的,使用規(guī)則引擎、正則匹配或者深度學(xué)習(xí)訓(xùn)練好的分類(lèi)器從數(shù)據(jù)庫(kù)中挑選一個(gè)最佳的回復(fù)。

基于生成的模型

不依賴(lài)于提前定義的回答,但是在訓(xùn)練的過(guò)程中,需要大量的語(yǔ)料,語(yǔ)料包含了context和response 。當(dāng)下流行使用LSTM和 RNN訓(xùn)練生成的模型,這種方法最早用來(lái)完成機(jī)器翻譯的任務(wù) - Sequence to Sequence Learning with Neural Networks

聊天機(jī)器人的發(fā)展?fàn)顩r與分類(lèi)

目前,在生產(chǎn)環(huán)境下,提供聊天服務(wù)的,一般都是基于檢索的模型,而Seq2Seq的出現(xiàn),有可能使基于生成的模型成為主流,因?yàn)镾eq2Seq在長(zhǎng)對(duì)話的情況下,依然可以表現(xiàn)的很好。

長(zhǎng)對(duì)話和短對(duì)話

長(zhǎng)對(duì)話需要考慮的因素更多,就像目前API.AI提供的服務(wù)中,要完成一個(gè)任務(wù),比如預(yù)定酒店。

小明: 幫我訂今天晚上,上海浦東香格里拉酒店。

這時(shí),API.AI得到了時(shí)間,地點(diǎn)和人員。它可能正好檢索到了我們?cè)谟喚频旯适吕锏囊粭l被標(biāo)注的記錄。Intent, Entity確定了, Action就被確定了。

可是,如果是下面:

小明: 幫我訂今天晚上,上海的酒店。

Chatbot就要詢(xún)問(wèn):

Bot: 你需要訂哪家酒店?

長(zhǎng)對(duì)話,其實(shí)就是能在用戶(hù)場(chǎng)景下對(duì)話,要識(shí)別場(chǎng)景,就需要考慮時(shí)間、地點(diǎn)、剛剛用戶(hù)都說(shuō)了什么,以及用戶(hù)和Bot的關(guān)系。

"訂酒店"屬于個(gè)人助理類(lèi)服務(wù),目前,api.ai已經(jīng)支持了這種“追問(wèn)用戶(hù)更多信息”的功能,屬于簡(jiǎn)單的問(wèn)題。

而類(lèi)似于客服機(jī)器人,更多情況是多問(wèn)題-多交織的對(duì)話,就是長(zhǎng)對(duì)話中,很難解決的問(wèn)題。

所以,當(dāng)下,大量機(jī)器人是面向短對(duì)話的。比如,微軟小冰,小娜,圖靈機(jī)器人, etc.

開(kāi)放領(lǐng)域和封閉領(lǐng)域

這兩個(gè)主要從話題層面進(jìn)行區(qū)分。在開(kāi)放語(yǔ)境下,用戶(hù)可以和聊天機(jī)器人聊任何話題。在封閉語(yǔ)境下,只能聊機(jī)器人設(shè)定的主題。

這主要取決于數(shù)據(jù):有什么數(shù)據(jù),就能聊什么主題。

比如在車(chē)載系統(tǒng)中,對(duì)話的機(jī)器人一般都是十個(gè)左右的意圖,圍繞意圖進(jìn)行訓(xùn)練聊天主題。

老司機(jī)一般都聊什么?

  • 服務(wù)區(qū)還有多遠(yuǎn)?

  • 我買(mǎi)的股票怎么樣?

  • 播放一個(gè)音樂(lè)

  • 聽(tīng)交通臺(tái)

  • 呼叫一個(gè)電話

  • ...

挑戰(zhàn)

關(guān)聯(lián)上下文

關(guān)聯(lián)上下文,就需要在設(shè)計(jì)機(jī)器人的時(shí)候,給它一個(gè)問(wèn)題,獲得一個(gè)回復(fù)。生成回復(fù)的時(shí)候,要考慮 P, U, L.

  • P - Personality matrix

  • U - User Relationship with Bot

  • L - Lexicon

這需要在訓(xùn)練LSTM Net的時(shí)候,要將更多信息注入,而且也更像是將基于檢索的模型和基于生成的模式混合起來(lái)完成。

意圖識(shí)別

就像API.AI, 及其WIT.AI, LUIS.AI們構(gòu)想的一樣,要完成有效的對(duì)話,先要搞清楚用戶(hù)在表達(dá)什么意圖。但是目前API.AI們提供的方案需要人工標(biāo)注Entity和Intent,這種工作很繁瑣,效率低。

能通過(guò)歷史數(shù)據(jù),無(wú)監(jiān)督或者半監(jiān)督的完成意圖的分類(lèi)模型是亟須解決的一個(gè)挑戰(zhàn)。

如何判斷一個(gè)模型的好壞

在使用LSTM訓(xùn)練基于生成的模型的過(guò)程中,一個(gè)很大的挑戰(zhàn)就是沒(méi)有自動(dòng)化的量化的標(biāo)準(zhǔn):除了人工的和模型對(duì)話意外,不確定模型間的好壞。

這個(gè)問(wèn)題的解決辦法,應(yīng)該是在訓(xùn)練時(shí),就同時(shí)訓(xùn)練正確的回答和錯(cuò)誤的回答,然后使用recall@k機(jī)制驗(yàn)證。

一種設(shè)想

在經(jīng)過(guò)了很多調(diào)研和嘗試后,一種比較Smart的機(jī)器人的實(shí)現(xiàn)方案可能是下面這個(gè)樣子:

聊天機(jī)器人的發(fā)展?fàn)顩r與分類(lèi)

  • 從社交網(wǎng)絡(luò)上對(duì)接到服務(wù)需要走InboundMessage, 從OutboundMessage中異步獲取回復(fù)。

  • Bot Engine 處理session, context, personality,知識(shí)圖譜,對(duì)話規(guī)則和主題。

對(duì)話主題是基于人工經(jīng)驗(yàn)制作的。除了包括引導(dǎo)用戶(hù)做自我介紹類(lèi)的"系統(tǒng)對(duì)話",還要包括實(shí)現(xiàn)業(yè)務(wù)價(jià)值的"服務(wù)對(duì)話",比如“學(xué)習(xí)英語(yǔ)單詞”,還要有“日常對(duì)話”,比如打招呼,詢(xún)問(wèn)最近看的電影等生活場(chǎng)景。

  • Bot Engine不能做到回復(fù)所有問(wèn)題,因?yàn)榛谝?guī)則的原因,能覆蓋的聊天內(nèi)容范圍小,當(dāng)在Bot Engine中,得不到好的答案或者沒(méi)有命中一個(gè)規(guī)則時(shí),就請(qǐng)求背后的Bot Model.

Bot Model是通過(guò)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練而來(lái),可以回答任何問(wèn)題。

  • 在對(duì)話服務(wù)過(guò)程中,會(huì)產(chǎn)生新的數(shù)據(jù),使用強(qiáng)化學(xué)習(xí),給Bot Model正向的激勵(lì)。

  • 使用知識(shí)圖譜記錄Bot,User, World三層知識(shí)。

作為這個(gè)系列文章的第一篇,主要是介紹聊天機(jī)器人目前發(fā)展的狀況和分類(lèi),在后面幾篇中,將對(duì)上圖所設(shè)想的方案做更多描述。

最后

歡迎聯(lián)系我,尤其是業(yè)內(nèi)人士,給予指正,一起優(yōu)化。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

聊天機(jī)器人的發(fā)展?fàn)顩r與分類(lèi)

分享:
相關(guān)文章

專(zhuān)欄作者

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)