丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給nebula
發(fā)送

0

深度解讀點擊率(CTR)數(shù)據(jù)集報告:基于支付寶平臺真實工業(yè)數(shù)據(jù)的AntM2C數(shù)據(jù)集

本文作者: nebula 2023-11-06 14:28
導(dǎo)語:螞蟻集團(tuán)提出了一個基于支付寶平臺真實工業(yè)數(shù)據(jù)集——多場景多模態(tài)點擊率預(yù)測數(shù)據(jù)集。

點擊率(Click-through Rate, CTR)預(yù)測在推薦系統(tǒng)中至關(guān)重要,直接影響用戶的體驗和平臺的收入。近年來,CTR引起了行業(yè)和學(xué)術(shù)界的關(guān)注,也推動了各種開源CTR數(shù)據(jù)集的出現(xiàn)。然而,當(dāng)前現(xiàn)有的CTR數(shù)據(jù)集還存在一些局限。為解決CTR數(shù)據(jù)集存在的部分局限問題,螞蟻集團(tuán)提出了一個基于支付寶平臺真實工業(yè)數(shù)據(jù)集——多場景多模態(tài)點擊率預(yù)測數(shù)據(jù)集(AntM2C,Multi-Scenario Multi-Modal CTR)數(shù)據(jù)集。

它包括支付寶平臺五類業(yè)務(wù)場景的10億個CTR數(shù)據(jù)。除了包含ID特征外,每個樣本還包含多模態(tài)特征,為CTR模型提供了全面的評估信息。在ATEC“數(shù)星”計劃首批發(fā)布的數(shù)據(jù)集中,AntM2C也首次公開發(fā)布了1000萬條數(shù)據(jù),并且即將進(jìn)行第二輪總體數(shù)據(jù)量級達(dá)到十億的開源。

本數(shù)據(jù)集的發(fā)布填補了行業(yè)內(nèi)多場景多模態(tài)點擊率預(yù)估問題的數(shù)據(jù)集空白,后續(xù)AntM2C還發(fā)布更多的數(shù)據(jù)和特征,并逐步對AntM2C進(jìn)行更先進(jìn)的基線方法的評估,提供全面而可靠的評估結(jié)果。

目前,螞蟻集團(tuán)多場景多模態(tài)點擊率預(yù)估數(shù)據(jù)集第一階段開源(AntM2C)可在ATEC官方平臺下載,數(shù)據(jù)集下載入口:https://www.atecup.cn/ods


AntM2C數(shù)據(jù):嘗試突破傳統(tǒng)CTR數(shù)據(jù)集局限性


點擊率預(yù)測在在線廣告、搜索引擎和推薦系統(tǒng)等各個領(lǐng)域發(fā)揮著重要作用。CTR預(yù)測任務(wù)是估計用戶點擊給定商品的概率。它對于提高用戶參與度、提升用戶體驗、以及優(yōu)化廣告收入至關(guān)重要。但CTR預(yù)測中的一個難點在于如何對不同的CTR模型進(jìn)行準(zhǔn)確評估。為應(yīng)對這類挑戰(zhàn),開源CTR數(shù)據(jù)集為評估不同CTR模型的性能提供了標(biāo)準(zhǔn)化和基準(zhǔn)環(huán)境,能夠使研究人員比較不同模型的有效性,確定適用于特定應(yīng)用的、最合適的模型。但是,現(xiàn)有的CTR數(shù)據(jù)集仍然存在一些局限。
 
首先,在實際的工業(yè)CTR預(yù)測中,用戶通常會點擊來自不同業(yè)務(wù)場景的各類商品,并對不同商品帶有個人的偏好。例如,用戶可能會在支付寶Tab3頁面上瀏覽有關(guān)咖啡的視頻,然后在營銷活動期間點擊咖啡優(yōu)惠券,最后使用支付寶搜索點擊咖啡訂購小程序下單。聯(lián)合建模這種多場景的CTR數(shù)據(jù)不僅可以更全面地了解用戶的偏好,還可以共享場景之間的知識,以提高每個場景下的CTR效果。

然而,現(xiàn)有的CTR數(shù)據(jù)集通常僅涵蓋有限種類的商品,且通常來自相同的業(yè)務(wù)場景,無法捕捉到用戶的多場景偏好。例如,Criteo和 Avazu只涉及廣告的CTR數(shù)據(jù);作為電商平臺,亞馬遜和AliExpress只提供了他們的電商商品的CTR數(shù)據(jù);Tenrec更專注于視頻和文章推薦。

其次,多模態(tài)特征可以解決不同業(yè)務(wù)場景中相似商品的ID不一致問題,并有效地建立不同場景之間的橋梁。例如,在不同的業(yè)務(wù)場景中,關(guān)于咖啡的視頻和咖啡優(yōu)惠券具有不同的ID。因此直接使用ID特征無法感知這兩個商品之間的關(guān)系。同時,隨著大型語言模型(LLMs)的興起,將LLMs與CTR相結(jié)合已成為新興的研究領(lǐng)域。但是現(xiàn)有的CTR數(shù)據(jù)集大多都是基于ID類特征,其他模態(tài)的數(shù)據(jù)較少,難以支撐目前研究的需求。
    
第三,現(xiàn)有的數(shù)據(jù)集通常在1億左右規(guī)模,無法進(jìn)一步驗證模型在更大規(guī)模的工業(yè)場景中的能力,需要更大規(guī)模的數(shù)據(jù)集全面地反映CTR模型的在真實工業(yè)生產(chǎn)環(huán)境中的實際性能。

為解決上述挑戰(zhàn),螞蟻集團(tuán)提出了AntM2C數(shù)據(jù)集,這是一個用于CTR預(yù)測的大規(guī)模多場景多模態(tài)數(shù)據(jù)集。與現(xiàn)有的CTR數(shù)據(jù)集相比,AntM2C具有以下優(yōu)勢:

【多樣的業(yè)務(wù)場景和商品類型】:AntM2C數(shù)據(jù)集包含了支付寶平臺上五類典型業(yè)務(wù)場景中不同類型的商品,包括廣告、優(yōu)惠券、小程序、內(nèi)容和視頻。每個業(yè)務(wù)場景都有獨特的數(shù)據(jù)分布,不同場景之間也存在大量交叉用戶和相似商品,這可以用于對多場景CTR建模進(jìn)行更全面的評估,以測試CTR模型在多個業(yè)務(wù)場景中的有效性。


【多模態(tài)特征系統(tǒng)】:AntM2C不僅包括ID特征,還提供了豐富的多模態(tài)特征,如文本和圖像,可以在不同場景之間建立相似商品之間的聯(lián)系,并能夠更好地評估多模態(tài)CTR模型。此外,AntM2C的特征系統(tǒng)包括200多個特征,使其更加貼近工業(yè)場景中的實際CTR預(yù)測(在第一階段開源中,AntM2C開源了1000萬個樣本,包括29個ID特征和2個文本特征,更多的數(shù)據(jù)和圖像特征將會在后續(xù)階段中逐步發(fā)布)。


【最大的數(shù)據(jù)規(guī)?!浚?/strong>AntM2C包括2億用戶和600萬個商品,總共達(dá)10億個樣本。每個用戶的平均交互次數(shù)超過50次。據(jù)開源方所知,AntM2C是目前規(guī)模最大的公開CTR數(shù)據(jù)集,可以提供全面可靠的CTR評估結(jié)果。


【全面的基準(zhǔn)測試】:基于AntM2C數(shù)據(jù)集,開源方構(gòu)建了三個典型的CTR任務(wù),包括多場景建模、冷啟動建模和多模態(tài)建模。在此基礎(chǔ)上還提供了基線模型的評估結(jié)果。這些評估結(jié)果不僅可以幫助研究人員和從業(yè)者更好地了解不同CTR任務(wù)的性能和挑戰(zhàn),還提供了參考和比較的依據(jù)。


當(dāng)前,AntM2C數(shù)據(jù)集可在https://www.atecup.cn/home獲取。
 

源于支付寶平臺真實工業(yè)數(shù)據(jù)而生的AntM2C數(shù)據(jù)集


為了滿足用戶的日益增長的需求,支付寶向用戶推薦不同業(yè)務(wù)場景的各種類型的商品。AntM2C從支付寶的五類場景中汲取CTR數(shù)據(jù),其中每類場景下的商品類型都AntM2C存在差異,如圖1所示,搜索中的服務(wù)和內(nèi)容、營銷中的優(yōu)惠券、Tab3頁面中的視頻以及會員頁面上的廣告各有不同。在搜索場景中,當(dāng)用戶輸入搜索詞時,幾個相關(guān)的服務(wù)或內(nèi)容的小程序會顯示出來以供用戶點擊;在營銷場景下,平臺會推薦一些消費者優(yōu)惠券,用戶可以點擊他們想要使用的優(yōu)惠券;在Tab3頁面上,推薦的項目主要是短視頻,用戶可以選擇觀看他們感興趣的視頻;在會員頁面上,用戶可能會點擊一些在線廣告。總之,AntM2C數(shù)據(jù)取材于不同業(yè)務(wù)場景的各類商品。

深度解讀點擊率(CTR)數(shù)據(jù)集報告:基于支付寶平臺真實工業(yè)數(shù)據(jù)的AntM2C數(shù)據(jù)集
圖1 支付寶平臺上典型的CTR預(yù)測場景展示
 

基于10億樣本的AntM2C數(shù)據(jù)集


AntM2C從上述五類場景中收集了連續(xù)9天(從20230709到20230717)的CTR樣本,然后篩選出了總點擊次數(shù)高于30次的高活躍用戶的10億個樣本。在開源的第一階段,螞蟻集團(tuán)從這10億個樣本中隨機抽取了1000萬個樣本,表1展示了數(shù)據(jù)的統(tǒng)計信息。在后續(xù)階段,開源方將陸續(xù)開放所有10億個樣本。出于保護(hù)用戶隱私,數(shù)據(jù)集中將使用字母“A-E”以替代場景的真實名稱。
 
深度解讀點擊率(CTR)數(shù)據(jù)集報告:基于支付寶平臺真實工業(yè)數(shù)據(jù)的AntM2C數(shù)據(jù)集
表1 樣本情況

此外,AntM2C數(shù)據(jù)集已經(jīng)進(jìn)行了去標(biāo)識化和加密處理,不包含任何個人可識別信息(PII)。在數(shù)據(jù)集中,每個用戶都經(jīng)過了安全編碼。在實驗過程中,開源方也采取了充分的數(shù)據(jù)保護(hù)措施,以減輕數(shù)據(jù)拷貝泄露的風(fēng)險。需要注意的是,該數(shù)據(jù)集僅用于學(xué)術(shù)研究,不做任何實際的商業(yè)使用。


依托實際數(shù)據(jù)分布,可有效反映多場景CTR預(yù)測情況


AntM2C數(shù)據(jù)集中的一部分用戶在五個場景之間存在重疊。如下文的表2顯示了不同場景之間重疊用戶的數(shù)量,表明AntM2C可以有效地反映同一用戶在不同場景中對商品的偏好,從而進(jìn)行多場景CTR評估。至于商品,由于不同場景之間的商品類型差異顯著,不同場景之間的商品沒有交集。

深度解讀點擊率(CTR)數(shù)據(jù)集報告:基于支付寶平臺真實工業(yè)數(shù)據(jù)的AntM2C數(shù)據(jù)集
表2 不同場景之間重疊用戶的數(shù)量

同時,在數(shù)據(jù)集中,基于所有樣本以及不同場景(A-E)的樣本,以用戶/商品的頻率數(shù)量為橫軸,以該頻率下的用戶/商品數(shù)量為縱軸,統(tǒng)計了用戶和商品的頻率分布情況,如圖2所示。在商品分布方面,所有場景都呈現(xiàn)出長尾分布的情況,80%的樣本出現(xiàn)頻率少于5次。這種長尾分布與實際情況一致。至于用戶分布,不同場景之間存在差異。在B場景中,用戶頻率分布有兩個峰值,一個在5次以下,另一個在50次左右。頻率超過50次后,用戶數(shù)量隨著頻率增加而減少。在其他場景中,用戶的曝光頻率也遵循類似于商品的長尾分布,即更高的曝光頻率對應(yīng)的用戶數(shù)量更少。由于場景之間存在重疊用戶,多個場景中用戶的長尾分布在全局樣本中變成了正態(tài)分布。大多數(shù)用戶的曝光頻率是在50次左右。總體而言,AntM2C數(shù)據(jù)集中商品和用戶的分布能夠反映CTR預(yù)測的實際情況。

深度解讀點擊率(CTR)數(shù)據(jù)集報告:基于支付寶平臺真實工業(yè)數(shù)據(jù)的AntM2C數(shù)據(jù)集
圖2 AntM2C數(shù)據(jù)集中用戶和商品的頻率分布情況


AntM2C數(shù)據(jù)集特征體系:不止用戶和商品特征,更有額外特征


AntM2C數(shù)據(jù)集的特征系統(tǒng),如表3所示,包括用戶和商品的ID特征以及文本特征。用戶特征由靜態(tài)特征(用戶靜態(tài)屬性和商品標(biāo)題將在后續(xù)階段公開)和用戶序列特征組成。靜態(tài)特征包括用戶的基本屬性,如性別、年齡、職業(yè)等。序列特征提供了用戶在支付寶上的最近活動信息,包括點擊的小程序、搜索的服務(wù)、購買的商品等。但如上文所述,為保護(hù)用戶隱私,這些用戶特征已經(jīng)進(jìn)行了去標(biāo)識化和加密處理,以加密ID的格式出現(xiàn)在數(shù)據(jù)集中,無法重新構(gòu)建原始的用戶特征。除了基于ID的特征外,還包括用戶搜索實體的原始文本,以提供多模態(tài)評估。

深度解讀點擊率(CTR)數(shù)據(jù)集報告:基于支付寶平臺真實工業(yè)數(shù)據(jù)的AntM2C數(shù)據(jù)集
表3  AntM2C數(shù)據(jù)集的特征系統(tǒng)

商品特征包括商品ID和商品文本特征。商品ID是每個商品的全局唯一標(biāo)識符,商品ID的編碼方式在不同場景中可能有所不同。為解決不同場景中商品ID的不一致性,AntM2C還包括商品的原始標(biāo)題文本和基于標(biāo)題文本提取的實體。除了用戶和商品特征外,AntM2C還提供了額外的特征,如日志時間和場景標(biāo)識。研究人員可以利用這些額外的特征,根據(jù)時間靈活地拆分訓(xùn)練、驗證和測試集,并在不同場景中評估性能。

AntM2C中的標(biāo)簽表示用戶是否點擊了相應(yīng)的商品。如果用戶進(jìn)行了點擊操作,標(biāo)簽設(shè)置為1,否則設(shè)置為0。AntM2C中正負(fù)樣本的比例可以從表1中的點擊率中獲得。需要注意的是,實際的在線日志存在大量的負(fù)樣本(曝光但未被點擊的樣本)。為解決這個問題,AntM2C進(jìn)行了負(fù)采樣,導(dǎo)致數(shù)據(jù)集中的點擊率高于實際在線日志中的點擊率。


數(shù)據(jù)集的應(yīng)用:多場景CTR預(yù)估、冷啟動CTR預(yù)估、多模態(tài)CTR預(yù)估


基于AntM2C,開源方選擇了常用的AUC作為所有實驗的度量指標(biāo),通過幾個CTR預(yù)測任務(wù)進(jìn)行了測試,并得到了一些評估結(jié)果,作為AntM2C的使用示例。在未來的工作中計劃將繼續(xù)更新更多的基線方法和評估結(jié)果。

多場景CTR預(yù)估

多場景CTR預(yù)測是工業(yè)推薦系統(tǒng)中的常見問題之一。它通過利用來自多個場景的CTR數(shù)據(jù)構(gòu)建一個統(tǒng)一的模型。場景之間的知識共享能夠使多場景模型相較于單場景建模達(dá)到更好的性能。開源方基于AntM2C數(shù)據(jù)集中的5類場景,使用不同的基線方法對多場景CTR預(yù)測進(jìn)行評估。其中,主要選擇多任務(wù)方法作為多場景CTR預(yù)測的基線方法。每個場景的CTR估計視為一個任務(wù),并在底層共享場景之間的知識。
深度解讀點擊率(CTR)數(shù)據(jù)集報告:基于支付寶平臺真實工業(yè)數(shù)據(jù)的AntM2C數(shù)據(jù)集
表4 不同基線方法在多場景CTR預(yù)測上的評估結(jié)果

通過表4,可以得出以下結(jié)論。首先,與所有數(shù)據(jù)混合訓(xùn)練的DNN模型相比,所有的多任務(wù)模型都取得了更好的性能。這表明在AntM2C中,不同場景之間存在差異和共性,簡單地混合訓(xùn)練數(shù)據(jù)不能得到最佳結(jié)果。其次,每個場景的CTR性能不同,表明不同場景之間存在不同的困難程度。例如,在場景B中,數(shù)據(jù)量較大,AUC普遍在0.93以上,而在場景D中,AUC僅約為0.68。AntM2C中多樣的業(yè)務(wù)場景和商品使得CTR的評估更加全面和多樣化。最后,具有專家結(jié)構(gòu)化的MMOE和PLE優(yōu)于共享底層模型,顯示出精細(xì)化的模型設(shè)計可以提升在AntM2C上的性能,反映不同模型之間的差異。

冷啟動CTR預(yù)估


冷啟動問題是推薦系統(tǒng)中的一個具有挑戰(zhàn)性的問題。使用稀疏的用戶-商品交互數(shù)據(jù)訓(xùn)練高質(zhì)量的CTR模型是一個具有挑戰(zhàn)性的任務(wù)。冷啟動主要涉及兩個方面:用戶和商品。如圖2所示,AntM2C數(shù)據(jù)集中的用戶和商品呈現(xiàn)自然的長尾分布。因此,開源方在AntM2C數(shù)據(jù)集上對冷啟動基線方法進(jìn)行了全面評估,其中模擬了兩種常見的冷啟動問題:少樣本和零樣本。

●少樣本:在訓(xùn)練集中出現(xiàn)次數(shù)大于0且小于N的(本文設(shè)定N為100)用戶和商品,表示這些用戶和商品只有很少的訓(xùn)練數(shù)據(jù)。


●零樣本:在訓(xùn)練集中從未出現(xiàn)過的用戶和商品,表示用戶是第一次訪問該場景,或者該商品在第一天被推出。


在冷啟動建模中的關(guān)鍵問題是如何在有限數(shù)據(jù)下學(xué)習(xí)用戶偏好以及用戶和商品的表征。近年來,基于元學(xué)習(xí)的冷啟動方法已成為最先進(jìn)的方法。因此,開源方選擇了幾種具有公開可用代碼的代表性方法作為基線模型。

深度解讀點擊率(CTR)數(shù)據(jù)集報告:基于支付寶平臺真實工業(yè)數(shù)據(jù)的AntM2C數(shù)據(jù)集
表5 冷啟動用戶和商品的CTR效果

由于冷啟動用戶和商品的數(shù)據(jù)有限,開源方?jīng)]有按場景計算AUC,而是評估了冷啟動用戶和商品的整體效果。通過表5,可以得到以下結(jié)果。首先,與表4中的結(jié)果相比,冷啟動用戶和商品的AUC普遍低于整體水平,這表明AntM2C的數(shù)據(jù)能夠有效地反映冷啟動商品和用戶之間的差異。其次,不同的冷啟動方法在AntM2C中顯示出可區(qū)分的結(jié)果,而且所有的方法都明顯優(yōu)于沒有冷啟動優(yōu)化的DNN模型。這表明AntM2C能夠有效地比較不同冷啟動方法的效果,并展示了方法之間的差異性。最后,零樣本的性效果低于少樣本,這表明零樣本CTR預(yù)測比少樣本更具挑戰(zhàn)性。AntM2C提供的兩種冷啟動模式可以全面評估冷啟動CTR預(yù)測。

多模態(tài)CTR預(yù)估


隨著大型語言模型(LLM)的興起,有效地將LLM的知識轉(zhuǎn)移到CTR預(yù)測中已成為一個熱門的研究課題,已經(jīng)有許多基于多模態(tài)CTR建模的工作使用了商品和用戶文本等特征。

AntM2C包含了用戶和商品的原始文本特征,與現(xiàn)有的CTR數(shù)據(jù)集相比,可以提供更全面的多模態(tài)建模評估。因此,開源方在AntM2C數(shù)據(jù)集上對不同的多模態(tài)方法進(jìn)行評估。作為基線模型,開源方使用語言模型來處理文本特征,然后將文本嵌入與其他ID特征進(jìn)行拼接,輸入到多場景模型中。為了方便評估,選擇MMoE作為主干模型,并使用預(yù)訓(xùn)練的Bert-base,得出多模態(tài)CTR的評估結(jié)果,如表6所示。

深度解讀點擊率(CTR)數(shù)據(jù)集報告:基于支付寶平臺真實工業(yè)數(shù)據(jù)的AntM2C數(shù)據(jù)集
表6 多模態(tài)CTR的評估結(jié)果

相較于僅使用ID模態(tài)的MMoE,在數(shù)據(jù)稀疏的場景C、D和E中加入文本模態(tài)后,CTR性能有所提升。由于當(dāng)前使用文本模態(tài)的基線相對簡單,性能改進(jìn)并不顯著,但這也顯示了AntM2C提供的文本模態(tài)改進(jìn)CTR性能的潛力。
 

展 望



希望未來有更多的團(tuán)隊加入CTR相關(guān)的研究領(lǐng)域,在合規(guī)安全的前提下,參與數(shù)據(jù)集的開源及共建工作。感謝螞蟻集團(tuán)AntM2C數(shù)據(jù)集開源團(tuán)隊(螞蟻集團(tuán)機器智能團(tuán)隊、螞蟻集團(tuán)商業(yè)智能團(tuán)隊、螞蟻集團(tuán)應(yīng)用智能AML團(tuán)隊)為公益性技術(shù)研究做出的貢獻(xiàn)。






雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄