滴滴KDD 2019 論文詳解：基于深度學(xué)習(xí)自動(dòng)生成客服對(duì)話摘要

本文作者：叢末

2019-08-10 14:15

專題：KDD 2019

導(dǎo)語：世界數(shù)據(jù)挖掘領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議KDD2019繼續(xù)在美國(guó)阿拉斯加州安克雷奇市舉行。本次KDD大會(huì)首次采用雙盲評(píng)審制，共吸引了全球范圍內(nèi)約1879篇論文投遞。其中，A

世界數(shù)據(jù)挖掘領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議KDD2019繼續(xù)在美國(guó)阿拉斯加州安克雷奇市舉行。本次KDD大會(huì)首次采用雙盲評(píng)審制，共吸引了全球范圍內(nèi)約1879篇論文投遞。其中，Applied Data Science track收到約 700 篇論文投稿，最終45篇被接收為Oral論文，100篇被接收為Poster論文；而Research track 共收到了 1179 篇投稿，最終111篇被接收為Oral論文，63篇被接收為Poster論文。

今年，滴滴共有三篇Oral論文入選KDD2019，研究?jī)?nèi)容涵蓋基于深度學(xué)習(xí)方法自動(dòng)化地生成工單摘要、基于深度強(qiáng)化學(xué)習(xí)與半馬爾科夫決策過程進(jìn)行智能派單及模仿學(xué)習(xí)和GAN在環(huán)境重構(gòu)的探索。

本文是對(duì)滴滴AI Labs團(tuán)隊(duì)Oral論文《Automatic Dialogue Summary Generation for Customer Service》的詳細(xì)解讀，在這篇論文中，滴滴基于輔助要點(diǎn)序列提出了Leader-Writer網(wǎng)絡(luò)來幫助解決客服工單摘要生成問題，能讓客服工單摘要的自動(dòng)化生成更具完整性、邏輯性與正確性。

滴滴KDD 2019 論文詳解：基于深度學(xué)習(xí)自動(dòng)生成客服對(duì)話摘要

研究背景

滴滴的客服每天需要處理大量的用戶進(jìn)線?？头藛T在解答或處理用戶問題的時(shí)候，需要按照以下流程嚴(yán)格執(zhí)行：1) 了解用戶問題與訴求；2) 提供解決方案或者安撫用戶情緒；3) 記錄工單摘要。

工單摘要對(duì)于滴滴客服系統(tǒng)非常重要，它有兩個(gè)目的：

當(dāng)工單在內(nèi)部流轉(zhuǎn)，被其他客服處理的時(shí)候，工單摘要可以輔助客服來快速了解用戶問題、解決方案、以及用戶反饋等信息，進(jìn)而調(diào)整自己的服務(wù)策略；
質(zhì)檢人員會(huì)檢查工單摘要，評(píng)估客服提供的方案是否有效，用戶是否認(rèn)可，進(jìn)而來判斷客服的服務(wù)質(zhì)量；

在自動(dòng)化工單摘要系統(tǒng)上線前，工單摘要主要由客服手工撰寫，耗費(fèi)客服大量的時(shí)間。而客服每日解決的用戶進(jìn)線量很大，這導(dǎo)致大量客服資源的占用；另外，手工撰寫的工單摘要存在標(biāo)準(zhǔn)不統(tǒng)一、錯(cuò)詞漏句等情況，錯(cuò)誤或者不規(guī)范的工單摘要會(huì)給使用工單摘要的其他客服人員的工作帶來負(fù)面影響。

本文主要研究如何利用深度學(xué)習(xí)方法，自動(dòng)化的生成工單摘要，提高客服工作效率，進(jìn)而節(jié)約客服資源。

問題挑戰(zhàn)

相對(duì)于一般的文本摘要問題，客服工單摘要有其特殊性。我們需要保證工單摘要滿足以下三個(gè)條件：

完整性：即工單摘要需要包括所有的要點(diǎn)；一般情況下，摘要至少要包括用戶問題描述、解決方案、用戶反饋這幾個(gè)要點(diǎn)。在一些場(chǎng)景下，還需要包括用戶聯(lián)系方式、反饋時(shí)效等要點(diǎn)。
邏輯性：即工單摘要中的要點(diǎn)需要按正確的邏輯順序組織起來。工單摘要應(yīng)該先記錄用戶問題，再記錄解決方案，最后記錄用戶反饋以及后續(xù)跟進(jìn)策略等。順序不正確會(huì)導(dǎo)致摘要難以讓人理解。
正確性：即工單摘要中的核心要點(diǎn)需要保證是正確的，例如用戶反饋部分中的”認(rèn)可解決方案”與“不認(rèn)可解決方案“。由于兩者從文本相似度很高，利用End-to-End方案學(xué)習(xí)效果通常比較差。

目前的抽取式和生成式的文本摘要方案均不能很好的解決這些問題；針對(duì)以上挑戰(zhàn)我們提出了自己的解決方案。

解決方案

我們提出利用輔助要點(diǎn)序列（Auxiliary key point sequence）來解決以上這些挑戰(zhàn)。要點(diǎn)（key point）是工單摘要中一個(gè)片段的主題，例如“問題描述”。我們通過人工總結(jié)工單摘要，整理得到滴滴場(chǎng)景下51個(gè)要點(diǎn)；詳見表1

表1：滴滴場(chǎng)景下的工單摘要要點(diǎn)（部分）

滴滴KDD 2019 論文詳解：基于深度學(xué)習(xí)自動(dòng)生成客服對(duì)話摘要

我們利用規(guī)則，從人工撰寫的工單摘要中抽取出摘要中的要點(diǎn)。一個(gè)摘要中的所有要點(diǎn)構(gòu)成了要點(diǎn)序列（Key point sequence）。如果一個(gè)摘要在要點(diǎn)序列上是完整的、有邏輯的、且正確的，那么對(duì)應(yīng)的工單摘要?jiǎng)t是完整的、有邏輯的、且正確的。同時(shí)，為了更好的區(qū)分“用戶認(rèn)可”和“用戶不認(rèn)可”這種文本相似度高的要點(diǎn)，我們將對(duì)立的要點(diǎn)記為兩個(gè)不同的要點(diǎn)。

我們將工單摘要生成問題建模成一個(gè)多任務(wù)學(xué)習(xí)問題。首先模型根據(jù)對(duì)話信息生成要點(diǎn)序列；然后再利用對(duì)話信息和生成的要點(diǎn)序列生成每個(gè)要點(diǎn)對(duì)應(yīng)的子摘要；最后根據(jù)要點(diǎn)序列中的邏輯拼接子摘要即可獲得完整的工單摘要。整個(gè)流程如圖1所示。

滴滴KDD 2019 論文詳解：基于深度學(xué)習(xí)自動(dòng)生成客服對(duì)話摘要

圖1：解決方案示意圖

通過引入輔助要點(diǎn)序列，可以帶來如下好處：

模型通過對(duì)輔助要點(diǎn)序列的學(xué)習(xí)，可保證生成的工單摘要的完整性、邏輯性與正確性，保證工單摘要的質(zhì)量；
輔助要點(diǎn)序列的詞典集合?。ǖ蔚螆?chǎng)景下為51），序列長(zhǎng)度一般較短（不超過10），容易生成準(zhǔn)確的要點(diǎn)序列；
生成每個(gè)要點(diǎn)的子摘要，其長(zhǎng)度也要顯著短于完整摘要，可提高摘要的質(zhì)量。

Leader-Writer網(wǎng)絡(luò)

基于輔助要點(diǎn)序列，我們提出了Leader-Writer網(wǎng)絡(luò)來解決工單摘要生成問題。具體而言，Leader-Writer網(wǎng)絡(luò)具有層次化對(duì)話編碼器 (Hierarchical Transformer Encoder)，要點(diǎn)序列生成網(wǎng)絡(luò) (Leader-net) 和子摘要生成器 (Writer-net)，并基于要點(diǎn)序列生成和子摘要序列生成的交叉熵?fù)p失和強(qiáng)化學(xué)習(xí)損失函數(shù)進(jìn)行聯(lián)合訓(xùn)練。圖2是模型網(wǎng)絡(luò)結(jié)構(gòu)圖，接下來分模塊介紹其實(shí)現(xiàn)過程。

滴滴KDD 2019 論文詳解：基于深度學(xué)習(xí)自動(dòng)生成客服對(duì)話摘要

圖2：Leader-Writer網(wǎng)絡(luò)架構(gòu)圖

1. 層次化對(duì)話編碼網(wǎng)絡(luò)(Hierarchical Transformer Encoder)

層次化對(duì)話編碼器包括詞級(jí)別（token-level）和句子級(jí)別(utterance-level)的編碼器，詞級(jí)別的編碼器通過Transformer編碼每一句對(duì)話中的單詞的embedding進(jìn)行編碼并通過注意力機(jī)制（attention）聚合得到每句話的表示；句子級(jí)別的編碼器也是一個(gè)Transformer編碼器，通過編碼聚合的句子表示，獲取上下文相關(guān)的句子表示，并作為解碼部分中對(duì)話信息的表示。這里句子級(jí)別的編碼器引入了相對(duì)位置embedding，相對(duì)于傳統(tǒng)Transformer模型采用的絕對(duì)位置embedding使整體效果提升。

滴滴KDD 2019 論文詳解：基于深度學(xué)習(xí)自動(dòng)生成客服對(duì)話摘要

2. 要點(diǎn)序列生成網(wǎng)絡(luò)（Leader-net）

要點(diǎn)序列生成器（Leader）是一個(gè)標(biāo)準(zhǔn)的Transformer解碼器，以要點(diǎn)序列做為監(jiān)督信息，根據(jù)對(duì)話信息解碼要點(diǎn)序列。在損失函數(shù)中，我們同時(shí)考慮了交叉熵?fù)p失和自我批判的（self-critical）[1] 的強(qiáng)化學(xué)習(xí)損失。

滴滴KDD 2019 論文詳解：基于深度學(xué)習(xí)自動(dòng)生成客服對(duì)話摘要

3. 子摘要生成網(wǎng)絡(luò)（Writer-net）

子摘要生成器（Writer）則是考慮指針機(jī)制（Pointer-generator）的Transformer解碼器。通過指針機(jī)制，子摘要生成器可以拷貝原始對(duì)話中的部分信息，例如數(shù)字和電話號(hào)碼等。需要注意的是，由于模型中采用了層次化編碼器對(duì)對(duì)話進(jìn)行編碼，在指針機(jī)制中，為了保證能選擇到對(duì)話中的詞，需要考慮層細(xì)化的指針機(jī)制。要點(diǎn)序列中的不同位置可能具有相同的要點(diǎn)，例如“問題描述 -> 解決方案 -> 不認(rèn)可 -> 解決方案 –> 認(rèn)可”中，兩個(gè)“解決方案”對(duì)應(yīng)的子摘要內(nèi)容不同。為了解決該問題，我們采用要點(diǎn)序列生成器的解碼狀態(tài)作為子摘要生成器的解碼起始狀態(tài)?；诙嗳蝿?wù)學(xué)習(xí)的設(shè)置，我們獨(dú)立了考慮了要點(diǎn)序列生成和子摘要生成的損失。

滴滴KDD 2019 論文詳解：基于深度學(xué)習(xí)自動(dòng)生成客服對(duì)話摘要

4. 訓(xùn)練與預(yù)測(cè)：

在訓(xùn)練階段，Leader-Writer模型利用要點(diǎn)序列與對(duì)應(yīng)的子摘要做為監(jiān)督信息，學(xué)習(xí)模型參數(shù)。在預(yù)測(cè)階段，Leader-Writer模型首先根據(jù)對(duì)話信息生成要點(diǎn)序列，然后根據(jù)要點(diǎn)序列的每個(gè)要點(diǎn)的解碼狀態(tài)生成最后的子摘要，最后拼接摘要后，獲取最后的工單摘要。

實(shí)驗(yàn)與結(jié)果

我們對(duì)比了一系列的基于深度神經(jīng)網(wǎng)絡(luò)的文本摘要方案，包括：

基于LSTM的Seq2seq的文本摘要模型[2] ；
基于LSTM+ Attention的文本摘要模型[3] ；
基于Transformer的文本摘要模型[4] ；
基于Pointer-Generator的文本摘要模型[5] ；
以及基于Hierarchical Transformer的文本摘要模型。

同時(shí)我們也實(shí)現(xiàn)了Leader-writer模型的三個(gè)變種，包括：

Hierarchical Encoder+Leader-net+Writer-net的網(wǎng)絡(luò)架構(gòu)（不考慮強(qiáng)化學(xué)習(xí)損失，Writer-net不引入Pointer Generator機(jī)制）；
Hierarchical Encoder+Leader-net+Pointer Writer-net的網(wǎng)絡(luò)架構(gòu)（不考慮強(qiáng)化學(xué)習(xí)損失）；
Hierarchical Encoder+Leader-net+Pointer Writer-net+Self-critical loss的網(wǎng)絡(luò)架構(gòu)。

通過實(shí)驗(yàn)，我們的Leader-Writer網(wǎng)絡(luò)在工單摘要生成上取得了比目前領(lǐng)先方法更好的效果，同時(shí)我們生成的摘要在完整性和邏輯性上比對(duì)比方法效果更好；而在核心要點(diǎn)上的正確性，我們的方法在準(zhǔn)確性上也優(yōu)于對(duì)比方法。針對(duì)具有復(fù)雜邏輯的對(duì)話內(nèi)容（即更長(zhǎng)的要點(diǎn)序列），我們的方法也在總體摘要效果和完整性、邏輯性和正確性上遠(yuǎn)遠(yuǎn)優(yōu)于對(duì)比方法的效果。

論文全文：https://www.kdd.org/kdd2019/accepted-papers/view/automatic-dialogue-summary-generation-for-customer-service

在最新一期的雷鋒網(wǎng) AI 研習(xí)社大講堂上，滴滴 AI Labs技術(shù)團(tuán)隊(duì)也為我們帶來了相應(yīng)的詳細(xì)解讀分享。詳情可掃碼觀看回放視頻！滴滴KDD 2019 論文詳解：基于深度學(xué)習(xí)自動(dòng)生成客服對(duì)話摘要

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

8人收藏

相關(guān)文章

專題

KDD 2019

本專題其他文章

叢末

編輯

發(fā)私信

當(dāng)月熱門文章