0
本文作者: 楊鯉萍 | 2020-03-06 18:57 |
近日,推薦系統(tǒng)領(lǐng)域的 RecSys 2020 挑戰(zhàn)賽賽題公布,競(jìng)賽主題為「Twitter 參與率預(yù)測(cè)及內(nèi)容推薦」。
而競(jìng)賽數(shù)據(jù)集正是由 Twitter 提供的約 2 億條公眾推文(說(shuō)不定就你和特朗普就在同一個(gè)樣本里);競(jìng)賽前三名將從高到低獲得依次為:$ 15000、$ 10000、$ 5000 的高額獎(jiǎng)金。
作為目前推薦系統(tǒng)領(lǐng)域影響力最大的賽事之一,RecSys 挑戰(zhàn)賽是推薦系統(tǒng)領(lǐng)域的頂頂級(jí)學(xué)術(shù)會(huì)議 RecSys 的一部分。就本次 RecSys 2020 競(jìng)賽的細(xì)節(jié),雷鋒網(wǎng) AI 源創(chuàng)評(píng)論將詳情整理編譯如下。
RecSys 作為推薦系統(tǒng)領(lǐng)域的頂會(huì),一直以來(lái)都非常重視利用不同算法,去解決實(shí)際的推薦問(wèn)題。
而建立于頂會(huì)之上的 RecSys 挑戰(zhàn)賽,更是不少開(kāi)發(fā)者將其喻為推薦算法的「奧運(yùn)會(huì)」。每一屆都有各大名企團(tuán)隊(duì)與推薦算法佼佼者參與其中,進(jìn)行激烈的角逐。
競(jìng)賽自舉辦以來(lái),主題涵蓋了:音樂(lè)喜好推薦、情景感知推薦、視頻網(wǎng)站推薦等各類(lèi)生活化場(chǎng)景,并且在解決這些問(wèn)題上取得了不錯(cuò)的成果。
推薦系統(tǒng)案例
目前,隨著深度學(xué)習(xí)研究的進(jìn)一步深入,推薦系統(tǒng)也得到了更快的發(fā)展,不僅成為了學(xué)界的研究熱點(diǎn),同時(shí)也獲得了業(yè)界的廣泛關(guān)注。
正如文章開(kāi)頭提到,本屆 RecSys 2020 挑戰(zhàn)賽主題選擇了「Twitter 參與率預(yù)測(cè)及內(nèi)容推薦」,因此比賽內(nèi)容也集中在動(dòng)態(tài)環(huán)境中的推文參與度預(yù)測(cè)的現(xiàn)實(shí)世界任務(wù)上。
Twitter 上發(fā)布了各種各樣世界上正在發(fā)生的事情。無(wú)論是時(shí)下熱點(diǎn)和突發(fā)新聞,還是娛樂(lè)八卦到體育、政治和日?,嵤?,在 Twitter 上,大量文字、圖片等數(shù)據(jù)實(shí)現(xiàn)了全球共享。
用戶在平臺(tái)上發(fā)布并參與被稱(chēng)為「推文」的內(nèi)容,并以「贊」、「回復(fù)」、「轉(zhuǎn)發(fā)」和「帶評(píng)論轉(zhuǎn)發(fā)」的形式展現(xiàn)出用戶的觀點(diǎn)。
Propagate 和 Filter 提出的四種數(shù)據(jù)類(lèi)型及其在傳播中的應(yīng)用
而隨著 top-K 推薦方法的發(fā)展與成熟,RecSys 2020 挑戰(zhàn)賽目標(biāo)是根據(jù)異構(gòu)輸入數(shù)據(jù),預(yù)測(cè)一組推文針對(duì)目標(biāo)用戶的不同類(lèi)型的參與(如贊,回復(fù),轉(zhuǎn)發(fā)和帶有評(píng)論的轉(zhuǎn)發(fā))的概率。
旨在以新穎的評(píng)估算法,進(jìn)行大規(guī)模地 Twitter 參與率預(yù)測(cè),并通過(guò)最大的真實(shí)世界數(shù)據(jù)集來(lái)預(yù)測(cè)用戶參與度,鼓勵(lì)新推薦方法的開(kāi)發(fā),從而推動(dòng)推薦系統(tǒng)的最新技術(shù)發(fā)展。
同時(shí),作為這項(xiàng)挑戰(zhàn)數(shù)據(jù)集提供方兼贊助商的 Twitter,也給出了令人心動(dòng)的獎(jiǎng)金,大賽前三名將獲得以下獎(jiǎng)勵(lì):
冠軍:$ 15000
季軍:$ 10000
亞軍:$ 5000
在該挑戰(zhàn)賽中,RecSys 計(jì)劃將發(fā)布 3 個(gè)數(shù)據(jù)集,包括:訓(xùn)練集、測(cè)試集、驗(yàn)證集。其中,訓(xùn)練集是通過(guò)在 1 周內(nèi)對(duì)積極互動(dòng)數(shù)據(jù)進(jìn)行二次抽樣而獲得,測(cè)試集和驗(yàn)證集則是從下周數(shù)據(jù)開(kāi)始采樣。
該數(shù)據(jù)集包括 Twitter 將發(fā)布的大約 2 億條公眾推文的大型公共數(shù)據(jù)集,這些數(shù)據(jù)均通過(guò)在約 2 周內(nèi)進(jìn)行二次抽樣獲得。
其中包含了:參與功能,用戶功能和推特功能,例如:公眾互動(dòng)(如「贊」、「回復(fù)」、「轉(zhuǎn)發(fā)」和「帶評(píng)論轉(zhuǎn)發(fā)」),以及從公眾追蹤圖中取樣的 1 億個(gè)隨機(jī)否定的偽否定詞。
值得注意的是,這一挑戰(zhàn)的一個(gè)難點(diǎn)是有關(guān)數(shù)據(jù)保護(hù)和隱私的最新法規(guī)。涉及到用戶的隱私,挑戰(zhàn)數(shù)據(jù)集將是合規(guī)的:如果用戶從Twitter刪除Tweet或他們的數(shù)據(jù),則將立即更新數(shù)據(jù)集。
數(shù)據(jù)集將每天進(jìn)行更新,以確保符合 GDPR 規(guī)定;同時(shí),相應(yīng)的指標(biāo)也會(huì)在排行榜上進(jìn)行更新。因此,對(duì)于數(shù)據(jù)集中的每個(gè)更改,提交的評(píng)估都將重新進(jìn)行,并且排行榜將使用重新計(jì)算的指標(biāo)進(jìn)行更新。
更多數(shù)據(jù)集包含可公開(kāi)獲得的數(shù)據(jù)功能信息,在 Twitter Developer 文檔(https://developer.twitter.com/ )中進(jìn)行了更詳細(xì)的描述。
參賽者提交結(jié)果后,將在平臺(tái)上最新 Tweet 類(lèi)型數(shù)據(jù)生成的保留測(cè)試集上進(jìn)行評(píng)估,評(píng)估指標(biāo)將包括曲線下的精確召回面積(PR-AUC)和交叉熵?fù)p失。
目前,RecSys 2020 挑戰(zhàn)賽官網(wǎng)最新時(shí)間安排如下:
2020 年 3 月 2 日——數(shù)據(jù)集發(fā)布和 RecSys 挑戰(zhàn)開(kāi)始(訓(xùn)練集和驗(yàn)證集已發(fā)布)
2020 年 6 月 1 日——測(cè)試數(shù)據(jù)集發(fā)布
2020 年 6 月 7 日——RecSys 挑戰(zhàn)賽結(jié)束
2020 年 6 月 15 日——最終排行榜公布和獲獎(jiǎng)?wù)?RecSys Challenge Workshop 的論文提交
2020 年 9 月 22 日至 26 日——舉辦研討會(huì)(作為巴西里約熱內(nèi)盧舉行的 ACM RecSys 的一部分)
大賽官網(wǎng):
http://www.recsyschallenge.com/2020/#participation數(shù)據(jù)集下載地址:
http://recsys-twitter.com/data/show-downloadsGitHub 地址:
雷鋒網(wǎng) AI 源創(chuàng)評(píng)論 雷鋒網(wǎng) 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。