0
本文作者: 汪思穎 | 2017-11-13 13:03 |
雷鋒網(wǎng) AI科技評(píng)論消息,近日,Stuart Axelbrooke在Kaggle平臺(tái)上公布了Twitter客戶(hù)支持?jǐn)?shù)據(jù)集公布,這個(gè)數(shù)據(jù)集包括來(lái)自大企業(yè)的超百萬(wàn)條推文與回復(fù),大家可以利用這個(gè)數(shù)據(jù)集做很多有意思的工作。數(shù)據(jù)集的具體信息如下所示,雷鋒網(wǎng) AI科技評(píng)論編輯整理如下:
Twitter客戶(hù)支持?jǐn)?shù)據(jù)集(Customer Support)是一個(gè)龐大的推文與回復(fù)語(yǔ)料庫(kù),這個(gè)數(shù)據(jù)集比較現(xiàn)代化,有助于自然語(yǔ)言理解和會(huì)話模型的創(chuàng)新,也對(duì)客戶(hù)支持實(shí)踐與影響效果的相關(guān)研究有所幫助。
背景
自然語(yǔ)言處理(NLP)目前仍然需要密集的編碼方式,NLP中的創(chuàng)新加速了對(duì)數(shù)據(jù)的理解,但是驅(qū)動(dòng)這一創(chuàng)新的數(shù)據(jù)集與現(xiàn)在真正使用的語(yǔ)言不太匹配。
Twitter客戶(hù)支持?jǐn)?shù)據(jù)集里有Twitter上大量的用戶(hù)和公司的客戶(hù)支持中心之間的對(duì)話語(yǔ)料庫(kù),這個(gè)語(yǔ)料庫(kù)的語(yǔ)言主要是英文,比起其他會(huì)話文本數(shù)據(jù)集有三個(gè)主要優(yōu)勢(shì):
聚焦——這個(gè)數(shù)據(jù)集里的數(shù)據(jù)主要是用戶(hù)聯(lián)系客戶(hù)支持中心來(lái)解決特定的問(wèn)題的對(duì)話,他們討論的問(wèn)題類(lèi)型相對(duì)來(lái)說(shuō)較少,當(dāng)與reddit語(yǔ)料庫(kù)(reddit Corpus)等不受約束的對(duì)話數(shù)據(jù)集相比,這種情況更甚。
自然——這個(gè)數(shù)據(jù)集里的用戶(hù)覆蓋面要比Ubuntu對(duì)話語(yǔ)料庫(kù)(Ubuntu Dialogue Corpus)更廣。比起Cornell電影對(duì)話語(yǔ)料庫(kù)(Cornell Movie Dialogs Corpus),這個(gè)數(shù)據(jù)集中有更多更自然和更常用的輸入文本。
簡(jiǎn)潔——由于Twitter上對(duì)話的簡(jiǎn)潔性,客戶(hù)支持中心會(huì)回復(fù)得更自然,關(guān)于問(wèn)題和解決方案的描述都會(huì)會(huì)有過(guò)多廢話,這也便于利用循環(huán)網(wǎng)絡(luò),可以使得信息的限制相對(duì)較低。
有意思的問(wèn)題
這個(gè)數(shù)據(jù)集的大小和覆蓋范圍激發(fā)了許多有意思的問(wèn)題:
我們能預(yù)測(cè)公司客戶(hù)支持中心的回答嗎?考慮到每個(gè)公司處理的問(wèn)題都是在某個(gè)范圍內(nèi),答案看起來(lái)是肯定的!
用戶(hù)的請(qǐng)求會(huì)過(guò)時(shí)嗎?最好的公司反應(yīng)速度有多快,與最糟糕的公司相比呢?
在局部聚類(lèi)(topical clustering)時(shí),能學(xué)習(xí)到高質(zhì)量的稠密嵌入(dense embedding)或相似性表現(xiàn)嗎?
語(yǔ)氣是如何影響客戶(hù)支持中心與用戶(hù)的對(duì)話的?說(shuō)對(duì)不起有用嗎?
內(nèi)容
數(shù)據(jù)集是CSV格式,每一行為一條推文。對(duì)列的描述如下所示,每段對(duì)話至少包含一條用戶(hù)請(qǐng)求和一條公司回復(fù)??梢杂胕nbound字段來(lái)計(jì)算哪個(gè)用戶(hù)ID是公司用戶(hù)ID。
tweet_id
推文ID,匿名,每條推文只有一個(gè)此類(lèi)ID,response_tweet_id和in_response_to_tweet_id中有引用到這個(gè)ID。
author_id
用戶(hù)ID,匿名,每個(gè)用戶(hù)只有一個(gè)此類(lèi)ID,數(shù)據(jù)集中的@被與用戶(hù)相關(guān)的用戶(hù)ID替換掉了。
inbound
用戶(hù)的請(qǐng)求推文是否被那些在推特上進(jìn)行客戶(hù)支持的公司“歸檔(inbound)”。該特征在訓(xùn)練會(huì)話模型時(shí)的數(shù)據(jù)重組階段非常有用。
created_at
發(fā)推文的日期和時(shí)間
text
推文內(nèi)容。電話號(hào)碼和電子郵箱等敏感信息用__email__等類(lèi)似句段來(lái)掩蓋。
response_tweet_id
與請(qǐng)求推文相關(guān)的回復(fù)推文ID,用逗號(hào)隔開(kāi)。
in_response_to_tweet_id
該條推文所回復(fù)的推文ID(如果存在)
數(shù)據(jù)集下載地址:https://www.kaggle.com/soaxelbrooke/customer-support-on-twitter
via:Kaggle
雷鋒網(wǎng) AI科技評(píng)論編輯整理
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。