丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給楊文
發(fā)送

0

如何捕捉冗長討論里的目標信息?谷歌推出最大標注數(shù)據(jù)集

本文作者: 楊文 編輯:郭奕欣 2017-05-17 21:06
導語:信息爆炸時代,如何在浩瀚如海的網(wǎng)絡(luò)中找到自己的需求?谷歌研究團隊提出了Coarse Discour,可以將一段文字中“廢話”剔除,精準識別用戶所需要的目標信息。

雷鋒網(wǎng)AI科技評論按:信息爆炸時代,如何在浩瀚如海的網(wǎng)絡(luò)中找到自己的需求?谷歌研究團隊推出了 Coarse Discourse 數(shù)據(jù)集,可以將一段文字中“廢話”剔除,精準識別用戶所需要的目標信息。作為一名雷鋒網(wǎng)編輯,信息搜集和分類是日常工作中極為耗時的一件事。谷歌推出的新方法能否解決這一問題?

每一天,社區(qū)中的活躍者都在發(fā)送和分享他們的意見,經(jīng)驗,建議以及來社交,其中大部分是自由表達,沒有太多的約束。這些網(wǎng)上討論的往往是許多重要的主題下的關(guān)鍵信息資源,如養(yǎng)育,健身,旅游等等。不過,這些討論中往往還夾雜著亂七八糟的分歧,幽默,爭論和鋪墊,要求讀者在尋找他們要的信息之前先過濾內(nèi)容。信息檢索領(lǐng)域正在積極探索可以讓用戶能夠更有效地找到,瀏覽內(nèi)容的方式,在論壇討論缺乏共享的數(shù)據(jù)集可以幫助更好地理解這些討論。 

在這個空間中為了幫助研究人員,谷歌發(fā)布了 Coarse Discourse dataset,是最大的有注釋的數(shù)據(jù)集。 Coarse Discourse dataset包含超過10萬條人可在線討論的公開注解,這些是從reddit.com網(wǎng)站中的130個社區(qū),超過9000個主題中隨機抽取的。

為了創(chuàng)建這個數(shù)據(jù)集,我們通過一小部分的論壇線程開發(fā)了論壇注解的話語分類系統(tǒng)。通俗的說就是閱讀每一個評論,并判斷評論在討論中扮演什么角色。我們用眾包的人工編輯再重復和修正這種練習來驗證話語類型分類的重現(xiàn)性,包括:公告,問題,答案,協(xié)議,分歧,闡述和幽默。從這個數(shù)據(jù),超過10萬條的評論由眾包編輯單獨注釋其話語類型和關(guān)系。連同眾包編輯的原注釋,我們還提供標注任務(wù)指南,供編輯們使用幫助他們從其他論壇收集數(shù)據(jù)和對任務(wù)進一步細化。

如何捕捉冗長討論里的目標信息?谷歌推出最大標注數(shù)據(jù)集

圖中為用話語類型和關(guān)系來注釋的示例線程。早期的研究結(jié)果表明,問和答模式在大多數(shù)社區(qū)是一個突出的運用,有的社區(qū)會話更集中,來回的相互作用。

論文摘要

在這項工作中,我們提出了一種新的方法將在線討論中的評論分類成一些粗糙語料,是為了在一定規(guī)模上更好理解討論這個目標的實現(xiàn)。為了促進這項研究,我們設(shè)計了一個粗糙語料的分類,旨在圍繞一般在線討論,并允許工作人員簡單注釋。使用我們的語料庫,我們演示了如何分析話語行為,可以描述不同類型的討論,包括話語序列,如問答配對,分歧鏈,以及不同的社區(qū)中的表現(xiàn)。

最后,我們進行實驗,使用我們的語料庫預測話語行為,發(fā)現(xiàn)結(jié)構(gòu)化預測模型,如在條件隨機場合下可以實現(xiàn)F1得分75%。我們還演示了如何擴大話語行為,從單一的問和答到更豐富的類別??梢蕴岣逹&A抽取的召回性能。

實驗結(jié)論

使用了一種新的話語行為的分類,我們推出一個從Reddit上數(shù)千個社區(qū)采樣,最大的人工標注的數(shù)據(jù)集的討論,在每個線程上的每個評論根據(jù)話語行為和關(guān)系注釋。從我們的數(shù)據(jù)集,我們觀察到常見的話語序列模式,包括問答和參數(shù),并使用這些信號來表征社區(qū)。最后,我們用結(jié)構(gòu)化CRF模型進行了分類的話語行為實驗,實現(xiàn)了75% F1得分。此外,我們演示了如何使用我們的9個話語行為在只標簽了問題和答案的模型,整體提高Q&A抽取的召回性能。

對于機器學習和自然語言處理的研究人員試圖描述在線討論的性質(zhì),我們希望這個數(shù)據(jù)集是一個有用的資源??梢栽L問我們的GitHub庫下載數(shù)據(jù)。更多細節(jié),請查看論文 ICWSM,“Characterizing Online Discussion Using Coarse Discourse Sequences.

via Google;雷鋒網(wǎng)整理編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

如何捕捉冗長討論里的目標信息?谷歌推出最大標注數(shù)據(jù)集

分享:
相關(guān)文章

編輯&記者

AI科技評論員,微信:yeohandwin
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說