丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給汪思穎
發(fā)送

0

Twitter客戶(hù)支持?jǐn)?shù)據(jù)集公布:來(lái)自大企業(yè)的超百萬(wàn)條推文與回復(fù)

本文作者: 汪思穎 2017-11-13 13:03
導(dǎo)語(yǔ):大家可以利用這個(gè)數(shù)據(jù)集做很多有意思的工作

Twitter客戶(hù)支持?jǐn)?shù)據(jù)集公布:來(lái)自大企業(yè)的超百萬(wàn)條推文與回復(fù)

雷鋒網(wǎng) AI科技評(píng)論消息,近日,Stuart Axelbrooke在Kaggle平臺(tái)上公布了Twitter客戶(hù)支持?jǐn)?shù)據(jù)集公布,這個(gè)數(shù)據(jù)集包括來(lái)自大企業(yè)的超百萬(wàn)條推文與回復(fù),大家可以利用這個(gè)數(shù)據(jù)集做很多有意思的工作。數(shù)據(jù)集的具體信息如下所示,雷鋒網(wǎng) AI科技評(píng)論編輯整理如下:

Twitter客戶(hù)支持?jǐn)?shù)據(jù)集(Customer Support)是一個(gè)龐大的推文與回復(fù)語(yǔ)料庫(kù),這個(gè)數(shù)據(jù)集比較現(xiàn)代化,有助于自然語(yǔ)言理解和會(huì)話模型的創(chuàng)新,也對(duì)客戶(hù)支持實(shí)踐與影響效果的相關(guān)研究有所幫助。

背景

自然語(yǔ)言處理(NLP)目前仍然需要密集的編碼方式,NLP中的創(chuàng)新加速了對(duì)數(shù)據(jù)的理解,但是驅(qū)動(dòng)這一創(chuàng)新的數(shù)據(jù)集與現(xiàn)在真正使用的語(yǔ)言不太匹配。

Twitter客戶(hù)支持?jǐn)?shù)據(jù)集里有Twitter上大量的用戶(hù)和公司的客戶(hù)支持中心之間的對(duì)話語(yǔ)料庫(kù),這個(gè)語(yǔ)料庫(kù)的語(yǔ)言主要是英文,比起其他會(huì)話文本數(shù)據(jù)集有三個(gè)主要優(yōu)勢(shì):

聚焦——這個(gè)數(shù)據(jù)集里的數(shù)據(jù)主要是用戶(hù)聯(lián)系客戶(hù)支持中心來(lái)解決特定的問(wèn)題的對(duì)話,他們討論的問(wèn)題類(lèi)型相對(duì)來(lái)說(shuō)較少,當(dāng)與reddit語(yǔ)料庫(kù)(reddit Corpus)等不受約束的對(duì)話數(shù)據(jù)集相比,這種情況更甚。

自然——這個(gè)數(shù)據(jù)集里的用戶(hù)覆蓋面要比Ubuntu對(duì)話語(yǔ)料庫(kù)(Ubuntu Dialogue Corpus)更廣。比起Cornell電影對(duì)話語(yǔ)料庫(kù)(Cornell Movie Dialogs Corpus),這個(gè)數(shù)據(jù)集中有更多更自然和更常用的輸入文本。

簡(jiǎn)潔——由于Twitter上對(duì)話的簡(jiǎn)潔性,客戶(hù)支持中心會(huì)回復(fù)得更自然,關(guān)于問(wèn)題和解決方案的描述都會(huì)會(huì)有過(guò)多廢話,這也便于利用循環(huán)網(wǎng)絡(luò),可以使得信息的限制相對(duì)較低。

有意思的問(wèn)題 

這個(gè)數(shù)據(jù)集的大小和覆蓋范圍激發(fā)了許多有意思的問(wèn)題:

我們能預(yù)測(cè)公司客戶(hù)支持中心的回答嗎?考慮到每個(gè)公司處理的問(wèn)題都是在某個(gè)范圍內(nèi),答案看起來(lái)是肯定的!

用戶(hù)的請(qǐng)求會(huì)過(guò)時(shí)嗎?最好的公司反應(yīng)速度有多快,與最糟糕的公司相比呢?

在局部聚類(lèi)(topical clustering)時(shí),能學(xué)習(xí)到高質(zhì)量的稠密嵌入(dense embedding)或相似性表現(xiàn)嗎?

語(yǔ)氣是如何影響客戶(hù)支持中心與用戶(hù)的對(duì)話的?說(shuō)對(duì)不起有用嗎?

內(nèi)容

數(shù)據(jù)集是CSV格式,每一行為一條推文。對(duì)列的描述如下所示,每段對(duì)話至少包含一條用戶(hù)請(qǐng)求和一條公司回復(fù)??梢杂胕nbound字段來(lái)計(jì)算哪個(gè)用戶(hù)ID是公司用戶(hù)ID。

Twitter客戶(hù)支持?jǐn)?shù)據(jù)集公布:來(lái)自大企業(yè)的超百萬(wàn)條推文與回復(fù)

tweet_id

推文ID,匿名,每條推文只有一個(gè)此類(lèi)ID,response_tweet_id和in_response_to_tweet_id中有引用到這個(gè)ID。

author_id

用戶(hù)ID,匿名,每個(gè)用戶(hù)只有一個(gè)此類(lèi)ID,數(shù)據(jù)集中的@被與用戶(hù)相關(guān)的用戶(hù)ID替換掉了。

inbound

用戶(hù)的請(qǐng)求推文是否被那些在推特上進(jìn)行客戶(hù)支持的公司“歸檔(inbound)”。該特征在訓(xùn)練會(huì)話模型時(shí)的數(shù)據(jù)重組階段非常有用。

created_at

發(fā)推文的日期和時(shí)間

text

推文內(nèi)容。電話號(hào)碼和電子郵箱等敏感信息用__email__等類(lèi)似句段來(lái)掩蓋。

response_tweet_id

與請(qǐng)求推文相關(guān)的回復(fù)推文ID,用逗號(hào)隔開(kāi)。

in_response_to_tweet_id

該條推文所回復(fù)的推文ID(如果存在)

數(shù)據(jù)集下載地址:https://www.kaggle.com/soaxelbrooke/customer-support-on-twitter

via:Kaggle

雷鋒網(wǎng) AI科技評(píng)論編輯整理

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

Twitter客戶(hù)支持?jǐn)?shù)據(jù)集公布:來(lái)自大企業(yè)的超百萬(wàn)條推文與回復(fù)

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)