基于規(guī)則和檢索的聊天機(jī)器人引擎

本文作者： hain

2017-02-12 10:37

導(dǎo)語(yǔ)：很多人預(yù)計(jì)2017年，AI方向最可能取得成功的領(lǐng)域是聊天機(jī)器人。那么，在這種情況下，面向聊天機(jī)器人的架構(gòu)設(shè)計(jì)，是一個(gè)熱門問(wèn)題

雷鋒網(wǎng)按：本文作者王海良，呤呤英語(yǔ)開(kāi)發(fā)總監(jiān)，北京JavaScript／Node.js開(kāi)發(fā)者社區(qū)的運(yùn)營(yíng)者，曾就職IBM創(chuàng)新中心。本文為系列文章第二篇，由雷鋒網(wǎng)獨(dú)家首發(fā)。

第一篇傳送門：《聊天機(jī)器人的發(fā)展?fàn)顩r與分類》。在上一篇文章中，介紹了聊天機(jī)器人目前的發(fā)展。本篇主要介紹基于規(guī)則的，檢索的聊天機(jī)器人引擎 - Bot Engine.

問(wèn)題域

Speech to Text => Logic => Text to Speech

STT和TTS，目前有很多廠商提供技術(shù)產(chǎn)品：

Speech to Text 語(yǔ)音識(shí)別技術(shù)

Google Cloud Platform, IBM Watson API, 云知聲，科大訊飛

Text to Speech 語(yǔ)音合成技術(shù)

IBM Watson API Docs demo

經(jīng)過(guò)多年的研究，尤其是深度學(xué)習(xí)的采用，在這兩項(xiàng)技術(shù)上取得了突破性進(jìn)展。今天本文所要討論的是logic，而且是基于規(guī)則引擎的logic, 基于機(jī)器學(xué)習(xí)的部分將在以后的文章中討論。

Conversation Model

在兩個(gè)人之間的對(duì)話，可以用下面這個(gè)模型表示，雙方頭腦中所要向?qū)Ψ奖磉_(dá)的目標(biāo)，需要通過(guò)語(yǔ)言來(lái)交換意見(jiàn)，為了達(dá)成共識(shí)，二者需要在一個(gè)語(yǔ)境下。

基于規(guī)則和檢索的聊天機(jī)器人引擎

為了支撐這個(gè)模型，在設(shè)計(jì)Bot Engine過(guò)程中，要考慮如下的要點(diǎn)：

低成本的構(gòu)建對(duì)話
能區(qū)分不同類型的對(duì)話
規(guī)范化輸入
高效率的規(guī)則引擎
用戶畫(huà)像
回復(fù)時(shí)，考慮對(duì)話的歷史記錄

低成本的構(gòu)建對(duì)話

構(gòu)建聊天內(nèi)容最好是不需要有開(kāi)發(fā)技能，而且有的開(kāi)發(fā)者也沒(méi)有很好的聊天的技能。即便像Botframework這樣的大廠的產(chǎn)品，在構(gòu)建對(duì)話時(shí)，都不夠友好，只能面向有開(kāi)發(fā)技能的人，而且是一種硬編碼。這樣對(duì)于維護(hù)對(duì)話很不利。

使用Botframework的waterfall，設(shè)計(jì)對(duì)話的人需要了解builder.Prompts接口和session.beginDialog|endDialog。這樣做很不合理。

exports.start = [(session, arg, next) => {
builder.Prompts.text(session, "Do you want to start Class now?");
}, (session, results) => {
co(function*() {
return yield watson.sentiment(results.response);
}).then(function(o) {
let reply;
switch (o.docSentiment.type.toLowerCase()) {
case 'positive':
reply = '_begin_';
break;
case 'negative':
reply = "Got it."
break;
case 'neutral':
reply = "Ok, then.";
break;
}
if (reply == '_begin_') {
session.beginDialog('/daily_lessons/vocabulary');
} else {
builder.Prompts.text(session, reply);
session.endDialog();
}
});
}];

而另外一方面，使用script的方式，顯得更合理，比如SuperScript.

+ Do you want to start Class now?
- start_class

+ ~yes
% Do you want to start Class now
- Great, ^redirectTo(/daily_lessons/vocabulary)

+ ~no
% Do you want to start Class now
- Ok, then.

還有rivescript, chatscript, 同樣類似于superscript方式進(jìn)行構(gòu)建對(duì)話。

能區(qū)分不同類型的對(duì)話

設(shè)計(jì)對(duì)話時(shí)，至少有三種類型的對(duì)話:

system

系統(tǒng)對(duì)話，只能聊一次，或者只能由系統(tǒng)主動(dòng)發(fā)出。比如自我介紹，bot和小明進(jìn)行初次對(duì)話，bot會(huì)問(wèn)：“你叫什么名字？”。小明回答“小明”。那么bot就知道"id:xxx"是小明。而將來(lái)bot都不應(yīng)該再問(wèn)這個(gè)問(wèn)題。

daily

這些是bot可以重復(fù)和用戶聊的主題，可能并不是每天，它們可以每隔一段頻率就觸發(fā)，比如：?jiǎn)柡颍?jié)日祝福，“你在做什么”, etc.

business

和一些閑聊的機(jī)器人不同，bot應(yīng)該提供一些價(jià)值，這些價(jià)值可能是個(gè)人信息助手, 導(dǎo)購(gòu),教育, 播放音樂(lè)。

聲明對(duì)話類型:

> topic:business (vocabulary class)
+ Do you want to start Class now?
- start_class

+ ~yes
% Do you want to start Class now
- Great, ^redirectTo(/daily_lessons/vocabulary)

+ ~no
% Do you want to start Class now
- Ok, then.
<

所以，一個(gè)對(duì)話看起來(lái)像是這個(gè)樣子。

規(guī)范化輸入

表達(dá)同樣的意思，可以有多種表示方法。

whats the color of the calanders
what is the colour of the calenders
what be the colour of the calender

在將輸入語(yǔ)句傳給規(guī)則引擎前，要先做規(guī)則化處理。比如：

tokenized - 分詞
stemmed - 英文單詞取詞根
lemmatized - 英文單詞變形的歸類（例如單復(fù)數(shù)歸類)
part-of-speech (POS) tagger - reads text in some language and assigns parts of speech to each word
named entity recognizer (NER) - [ labels sequences of words in a text which are the names of things] 專有名詞 - 人名、地名、組織名、URL鏈接、系統(tǒng)路徑等

這里需要結(jié)合很多工具庫(kù)來(lái)實(shí)現(xiàn)：NLTK, Stanford CoreNLP, Jieba分詞，Wordnet, ConceptNet.

比如，借助Stanford CoreNLP，可以有下面的標(biāo)注：

基于規(guī)則和檢索的聊天機(jī)器人引擎

經(jīng)過(guò)規(guī)范化輸入，在規(guī)則引擎中，可以依賴詞性和函數(shù)實(shí)現(xiàn)更智能的回答。

高效率的規(guī)則引擎

Bot可以有大量的主題，即便是只有100主題，每個(gè)主題15個(gè)對(duì)話，那就是1500個(gè)規(guī)則。如果只是單機(jī)運(yùn)行，至少要進(jìn)行下面兩個(gè)優(yōu)化:

排序

通過(guò)聊天的記錄和關(guān)鍵字，先給對(duì)話棧排序。

基于規(guī)則和檢索的聊天機(jī)器人引擎

排序的思路大概是這樣：

1）查看當(dāng)前對(duì)話，是否還有下文，一個(gè)對(duì)話的下文可以對(duì)應(yīng)多個(gè)規(guī)則。

如果有下文，檢測(cè)是否一個(gè)規(guī)則能匹配上輸入。如果匹配上了，回復(fù)。如果沒(méi)有下文，或者沒(méi)有規(guī)則能匹配上，進(jìn)入次優(yōu)匹配。

2）次優(yōu)匹配是將聊天主題的歷史記錄，使用TF-IDF算法進(jìn)行排序。

簡(jiǎn)單說(shuō)，就是使用一個(gè)函數(shù)計(jì)算用戶聊天的對(duì)應(yīng)主題頻率。給不同的聊天主題加權(quán)重。在次優(yōu)匹配中，都是處理用戶曾經(jīng)聊過(guò)的主題。

3）在次優(yōu)匹配中，沒(méi)有命中，進(jìn)入其他匹配。

其他匹配包括了以前沒(méi)有聊過(guò)的主題。

并發(fā)

在排序后，去同時(shí)處理匹配運(yùn)算，將命中的規(guī)則的回復(fù)，按照排序的順序放到數(shù)組里，然后，從數(shù)組中取第一個(gè)元素。這樣就比按照順序一個(gè)一個(gè)檢測(cè)快很多。

比如，一些Node.js模塊：async。

用戶畫(huà)像

在和用戶聊天的過(guò)程中，獲取到的用戶相關(guān)的信息，有必要記錄在數(shù)據(jù)庫(kù)中，這其實(shí)是構(gòu)建知識(shí)圖譜的過(guò)程。

基于規(guī)則和檢索的聊天機(jī)器人引擎

知識(shí)圖譜所用的數(shù)據(jù)庫(kù)是存在三個(gè)字段的結(jié)構(gòu)化數(shù)據(jù):

{
"subject": "Mao",
"predict": "chairman",
"object": "China"
}

由此構(gòu)建了一個(gè)關(guān)系：

基于規(guī)則和檢索的聊天機(jī)器人引擎

而B(niǎo)又可以跳轉(zhuǎn)到D。

目前，較為成熟的商業(yè)產(chǎn)品和開(kāi)源方案都有。

Google Knowledge Graph API

cayley graph

在Bot Engine中，可以得到相關(guān)用戶的Knowledge Graph.

this.user.memory.get( ...)
this.bot.createUserFact( ...)

基于規(guī)則和檢索的聊天機(jī)器人引擎

使用知識(shí)圖譜，除了對(duì)實(shí)體之間完成關(guān)系構(gòu)建外，還有一個(gè)原因是，搜索速度非?？?，搜索功能強(qiáng)大。

SuperScript

介紹了這么多，那么到底怎么實(shí)現(xiàn)一個(gè)Bot Engine呢？經(jīng)過(guò)了很多比較后，我覺(jué)得基于SuperScript實(shí)現(xiàn)Bot Engine是可行的。主要是下面這幾點(diǎn)：

社區(qū)活躍：目前穩(wěn)定版本v0.12.2沒(méi)有bug, 最新版v1.0.0也在快速開(kāi)發(fā)。
輕便靈活: 將SuperScript的源碼讀了一遍，覺(jué)得即便是作者不維護(hù)了，我也可以維護(hù)。
功能強(qiáng)大：在上面討論的問(wèn)題中，SuperScript都是有涉及的。

對(duì)話腳本

topic type - 話題
conversation - 對(duì)話
function - 插件和函數(shù)

Get started

npm install superscript

var superscript = require("superscript");
new superscript({ ...}, function(err, bot){
bot.reply("userId", "hello", function(err, reply){
// do your magic
})
})

Conclusion

很多人預(yù)計(jì)2017年，AI方向最可能取得成功的領(lǐng)域是聊天機(jī)器人。那么，在這種情況下，面向聊天機(jī)器人的架構(gòu)設(shè)計(jì)，是一個(gè)熱門問(wèn)題。包括Google，F(xiàn)acebook都有可能發(fā)布類似于微軟的Botframework平臺(tái)。而B(niǎo)ot Engine, 一種處理對(duì)話的引擎，起著很關(guān)鍵的作用。在開(kāi)源社區(qū)，還沒(méi)有看到哪個(gè)呼聲非常高的實(shí)現(xiàn)，SuperScript，至少在JavaScript社區(qū)，是一個(gè)不錯(cuò)的選擇。

在下一篇文章中，我將介紹使用深度學(xué)習(xí)技術(shù)，依靠聊天語(yǔ)料，訓(xùn)練Bot Model.

Reading List

NaturalNode - General natural language facilities for node.

SuperScript - A dialog system and bot engine for conversational UI's.

Stanford CoreNLP - a suite of core NLP tools

Natural Language Toolkit - NLTK is a leading platform for building Python programs to work with human language data.

How to Cook a Graph Database in a Night - A Knowledge Graphic tool based on LevelDB.

最后

歡迎聯(lián)系我，尤其是業(yè)內(nèi)人士，給予指正，一起優(yōu)化。

文章封面圖來(lái)自：中國(guó)智能制造網(wǎng)

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。