點擊率(Click-through Rate, CTR)預測在推薦系統(tǒng)中至關(guān)重要,直接影響用戶的體驗和平臺的收入。近年來,CTR引起了行業(yè)和學術(shù)界的關(guān)注,也推動了各種開源CTR數(shù)據(jù)集的出現(xiàn)。然而,當前現(xiàn)有的CTR數(shù)據(jù)集還存在一些局限。為解決CTR數(shù)據(jù)集存在的部分局限問題,螞蟻集團提出了一個基于支付寶平臺真實工業(yè)數(shù)據(jù)集——多場景多模態(tài)點擊率預測數(shù)據(jù)集(AntM2C,Multi-Scenario Multi-Modal CTR)數(shù)據(jù)集。
它包括支付寶平臺五類業(yè)務場景的10億個CTR數(shù)據(jù)。除了包含ID特征外,每個樣本還包含多模態(tài)特征,為CTR模型提供了全面的評估信息。在ATEC“數(shù)星”計劃首批發(fā)布的數(shù)據(jù)集中,AntM2C也首次公開發(fā)布了1000萬條數(shù)據(jù),并且即將進行第二輪總體數(shù)據(jù)量級達到十億的開源。
本數(shù)據(jù)集的發(fā)布填補了行業(yè)內(nèi)多場景多模態(tài)點擊率預估問題的數(shù)據(jù)集空白,后續(xù)AntM2C還發(fā)布更多的數(shù)據(jù)和特征,并逐步對AntM2C進行更先進的基線方法的評估,提供全面而可靠的評估結(jié)果。
目前,螞蟻集團多場景多模態(tài)點擊率預估數(shù)據(jù)集第一階段開源(AntM2C)可在ATEC官方平臺下載,數(shù)據(jù)集下載入口:https://www.atecup.cn/ods
AntM2C數(shù)據(jù):嘗試突破傳統(tǒng)CTR數(shù)據(jù)集局限性
點擊率預測在在線廣告、搜索引擎和推薦系統(tǒng)等各個領域發(fā)揮著重要作用。CTR預測任務是估計用戶點擊給定商品的概率。它對于提高用戶參與度、提升用戶體驗、以及優(yōu)化廣告收入至關(guān)重要。但CTR預測中的一個難點在于如何對不同的CTR模型進行準確評估。為應對這類挑戰(zhàn),開源CTR數(shù)據(jù)集為評估不同CTR模型的性能提供了標準化和基準環(huán)境,能夠使研究人員比較不同模型的有效性,確定適用于特定應用的、最合適的模型。但是,現(xiàn)有的CTR數(shù)據(jù)集仍然存在一些局限。首先,在實際的工業(yè)CTR預測中,用戶通常會點擊來自不同業(yè)務場景的各類商品,并對不同商品帶有個人的偏好。例如,用戶可能會在支付寶Tab3頁面上瀏覽有關(guān)咖啡的視頻,然后在營銷活動期間點擊咖啡優(yōu)惠券,最后使用支付寶搜索點擊咖啡訂購小程序下單。聯(lián)合建模這種多場景的CTR數(shù)據(jù)不僅可以更全面地了解用戶的偏好,還可以共享場景之間的知識,以提高每個場景下的CTR效果。然而,現(xiàn)有的CTR數(shù)據(jù)集通常僅涵蓋有限種類的商品,且通常來自相同的業(yè)務場景,無法捕捉到用戶的多場景偏好。例如,Criteo和 Avazu只涉及廣告的CTR數(shù)據(jù);作為電商平臺,亞馬遜和AliExpress只提供了他們的電商商品的CTR數(shù)據(jù);Tenrec更專注于視頻和文章推薦。其次,多模態(tài)特征可以解決不同業(yè)務場景中相似商品的ID不一致問題,并有效地建立不同場景之間的橋梁。例如,在不同的業(yè)務場景中,關(guān)于咖啡的視頻和咖啡優(yōu)惠券具有不同的ID。因此直接使用ID特征無法感知這兩個商品之間的關(guān)系。同時,隨著大型語言模型(LLMs)的興起,將LLMs與CTR相結(jié)合已成為新興的研究領域。但是現(xiàn)有的CTR數(shù)據(jù)集大多都是基于ID類特征,其他模態(tài)的數(shù)據(jù)較少,難以支撐目前研究的需求。第三,現(xiàn)有的數(shù)據(jù)集通常在1億左右規(guī)模,無法進一步驗證模型在更大規(guī)模的工業(yè)場景中的能力,需要更大規(guī)模的數(shù)據(jù)集全面地反映CTR模型的在真實工業(yè)生產(chǎn)環(huán)境中的實際性能。為解決上述挑戰(zhàn),螞蟻集團提出了AntM2C數(shù)據(jù)集,這是一個用于CTR預測的大規(guī)模多場景多模態(tài)數(shù)據(jù)集。與現(xiàn)有的CTR數(shù)據(jù)集相比,AntM2C具有以下優(yōu)勢:【多樣的業(yè)務場景和商品類型】:AntM2C數(shù)據(jù)集包含了支付寶平臺上五類典型業(yè)務場景中不同類型的商品,包括廣告、優(yōu)惠券、小程序、內(nèi)容和視頻。每個業(yè)務場景都有獨特的數(shù)據(jù)分布,不同場景之間也存在大量交叉用戶和相似商品,這可以用于對多場景CTR建模進行更全面的評估,以測試CTR模型在多個業(yè)務場景中的有效性。
【多模態(tài)特征系統(tǒng)】:AntM2C不僅包括ID特征,還提供了豐富的多模態(tài)特征,如文本和圖像,可以在不同場景之間建立相似商品之間的聯(lián)系,并能夠更好地評估多模態(tài)CTR模型。此外,AntM2C的特征系統(tǒng)包括200多個特征,使其更加貼近工業(yè)場景中的實際CTR預測(在第一階段開源中,AntM2C開源了1000萬個樣本,包括29個ID特征和2個文本特征,更多的數(shù)據(jù)和圖像特征將會在后續(xù)階段中逐步發(fā)布)。
【最大的數(shù)據(jù)規(guī)?!浚?/strong>AntM2C包括2億用戶和600萬個商品,總共達10億個樣本。每個用戶的平均交互次數(shù)超過50次。據(jù)開源方所知,AntM2C是目前規(guī)模最大的公開CTR數(shù)據(jù)集,可以提供全面可靠的CTR評估結(jié)果。
【全面的基準測試】:基于AntM2C數(shù)據(jù)集,開源方構(gòu)建了三個典型的CTR任務,包括多場景建模、冷啟動建模和多模態(tài)建模。在此基礎上還提供了基線模型的評估結(jié)果。這些評估結(jié)果不僅可以幫助研究人員和從業(yè)者更好地了解不同CTR任務的性能和挑戰(zhàn),還提供了參考和比較的依據(jù)。
當前,AntM2C數(shù)據(jù)集可在https://www.atecup.cn/home獲取。源于支付寶平臺真實工業(yè)數(shù)據(jù)而生的AntM2C數(shù)據(jù)集
為了滿足用戶的日益增長的需求,支付寶向用戶推薦不同業(yè)務場景的各種類型的商品。AntM2C從支付寶的五類場景中汲取CTR數(shù)據(jù),其中每類場景下的商品類型都AntM2C存在差異,如圖1所示,搜索中的服務和內(nèi)容、營銷中的優(yōu)惠券、Tab3頁面中的視頻以及會員頁面上的廣告各有不同。在搜索場景中,當用戶輸入搜索詞時,幾個相關(guān)的服務或內(nèi)容的小程序會顯示出來以供用戶點擊;在營銷場景下,平臺會推薦一些消費者優(yōu)惠券,用戶可以點擊他們想要使用的優(yōu)惠券;在Tab3頁面上,推薦的項目主要是短視頻,用戶可以選擇觀看他們感興趣的視頻;在會員頁面上,用戶可能會點擊一些在線廣告。總之,AntM2C數(shù)據(jù)取材于不同業(yè)務場景的各類商品。基于10億樣本的AntM2C數(shù)據(jù)集
AntM2C從上述五類場景中收集了連續(xù)9天(從20230709到20230717)的CTR樣本,然后篩選出了總點擊次數(shù)高于30次的高活躍用戶的10億個樣本。在開源的第一階段,螞蟻集團從這10億個樣本中隨機抽取了1000萬個樣本,表1展示了數(shù)據(jù)的統(tǒng)計信息。在后續(xù)階段,開源方將陸續(xù)開放所有10億個樣本。出于保護用戶隱私,數(shù)據(jù)集中將使用字母“A-E”以替代場景的真實名稱。此外,AntM2C數(shù)據(jù)集已經(jīng)進行了去標識化和加密處理,不包含任何個人可識別信息(PII)。在數(shù)據(jù)集中,每個用戶都經(jīng)過了安全編碼。在實驗過程中,開源方也采取了充分的數(shù)據(jù)保護措施,以減輕數(shù)據(jù)拷貝泄露的風險。需要注意的是,該數(shù)據(jù)集僅用于學術(shù)研究,不做任何實際的商業(yè)使用。依托實際數(shù)據(jù)分布,可有效反映多場景CTR預測情況
AntM2C數(shù)據(jù)集中的一部分用戶在五個場景之間存在重疊。如下文的表2顯示了不同場景之間重疊用戶的數(shù)量,表明AntM2C可以有效地反映同一用戶在不同場景中對商品的偏好,從而進行多場景CTR評估。至于商品,由于不同場景之間的商品類型差異顯著,不同場景之間的商品沒有交集。同時,在數(shù)據(jù)集中,基于所有樣本以及不同場景(A-E)的樣本,以用戶/商品的頻率數(shù)量為橫軸,以該頻率下的用戶/商品數(shù)量為縱軸,統(tǒng)計了用戶和商品的頻率分布情況,如圖2所示。在商品分布方面,所有場景都呈現(xiàn)出長尾分布的情況,80%的樣本出現(xiàn)頻率少于5次。這種長尾分布與實際情況一致。至于用戶分布,不同場景之間存在差異。在B場景中,用戶頻率分布有兩個峰值,一個在5次以下,另一個在50次左右。頻率超過50次后,用戶數(shù)量隨著頻率增加而減少。在其他場景中,用戶的曝光頻率也遵循類似于商品的長尾分布,即更高的曝光頻率對應的用戶數(shù)量更少。由于場景之間存在重疊用戶,多個場景中用戶的長尾分布在全局樣本中變成了正態(tài)分布。大多數(shù)用戶的曝光頻率是在50次左右。總體而言,AntM2C數(shù)據(jù)集中商品和用戶的分布能夠反映CTR預測的實際情況。圖2 AntM2C數(shù)據(jù)集中用戶和商品的頻率分布情況
AntM2C數(shù)據(jù)集特征體系:不止用戶和商品特征,更有額外特征
AntM2C數(shù)據(jù)集的特征系統(tǒng),如表3所示,包括用戶和商品的ID特征以及文本特征。用戶特征由靜態(tài)特征(用戶靜態(tài)屬性和商品標題將在后續(xù)階段公開)和用戶序列特征組成。靜態(tài)特征包括用戶的基本屬性,如性別、年齡、職業(yè)等。序列特征提供了用戶在支付寶上的最近活動信息,包括點擊的小程序、搜索的服務、購買的商品等。但如上文所述,為保護用戶隱私,這些用戶特征已經(jīng)進行了去標識化和加密處理,以加密ID的格式出現(xiàn)在數(shù)據(jù)集中,無法重新構(gòu)建原始的用戶特征。除了基于ID的特征外,還包括用戶搜索實體的原始文本,以提供多模態(tài)評估。表3 AntM2C數(shù)據(jù)集的特征系統(tǒng)
商品特征包括商品ID和商品文本特征。商品ID是每個商品的全局唯一標識符,商品ID的編碼方式在不同場景中可能有所不同。為解決不同場景中商品ID的不一致性,AntM2C還包括商品的原始標題文本和基于標題文本提取的實體。除了用戶和商品特征外,AntM2C還提供了額外的特征,如日志時間和場景標識。研究人員可以利用這些額外的特征,根據(jù)時間靈活地拆分訓練、驗證和測試集,并在不同場景中評估性能。AntM2C中的標簽表示用戶是否點擊了相應的商品。如果用戶進行了點擊操作,標簽設置為1,否則設置為0。AntM2C中正負樣本的比例可以從表1中的點擊率中獲得。需要注意的是,實際的在線日志存在大量的負樣本(曝光但未被點擊的樣本)。為解決這個問題,AntM2C進行了負采樣,導致數(shù)據(jù)集中的點擊率高于實際在線日志中的點擊率。數(shù)據(jù)集的應用:多場景CTR預估、冷啟動CTR預估、多模態(tài)CTR預估
基于AntM2C,開源方選擇了常用的AUC作為所有實驗的度量指標,通過幾個CTR預測任務進行了測試,并得到了一些評估結(jié)果,作為AntM2C的使用示例。在未來的工作中計劃將繼續(xù)更新更多的基線方法和評估結(jié)果。多場景CTR預測是工業(yè)推薦系統(tǒng)中的常見問題之一。它通過利用來自多個場景的CTR數(shù)據(jù)構(gòu)建一個統(tǒng)一的模型。場景之間的知識共享能夠使多場景模型相較于單場景建模達到更好的性能。開源方基于AntM2C數(shù)據(jù)集中的5類場景,使用不同的基線方法對多場景CTR預測進行評估。其中,主要選擇多任務方法作為多場景CTR預測的基線方法。每個場景的CTR估計視為一個任務,并在底層共享場景之間的知識。
表4 不同基線方法在多場景CTR預測上的評估結(jié)果
通過表4,可以得出以下結(jié)論。首先,與所有數(shù)據(jù)混合訓練的DNN模型相比,所有的多任務模型都取得了更好的性能。這表明在AntM2C中,不同場景之間存在差異和共性,簡單地混合訓練數(shù)據(jù)不能得到最佳結(jié)果。其次,每個場景的CTR性能不同,表明不同場景之間存在不同的困難程度。例如,在場景B中,數(shù)據(jù)量較大,AUC普遍在0.93以上,而在場景D中,AUC僅約為0.68。AntM2C中多樣的業(yè)務場景和商品使得CTR的評估更加全面和多樣化。最后,具有專家結(jié)構(gòu)化的MMOE和PLE優(yōu)于共享底層模型,顯示出精細化的模型設計可以提升在AntM2C上的性能,反映不同模型之間的差異。冷啟動問題是推薦系統(tǒng)中的一個具有挑戰(zhàn)性的問題。使用稀疏的用戶-商品交互數(shù)據(jù)訓練高質(zhì)量的CTR模型是一個具有挑戰(zhàn)性的任務。冷啟動主要涉及兩個方面:用戶和商品。如圖2所示,AntM2C數(shù)據(jù)集中的用戶和商品呈現(xiàn)自然的長尾分布。因此,開源方在AntM2C數(shù)據(jù)集上對冷啟動基線方法進行了全面評估,其中模擬了兩種常見的冷啟動問題:少樣本和零樣本。●少樣本:在訓練集中出現(xiàn)次數(shù)大于0且小于N的(本文設定N為100)用戶和商品,表示這些用戶和商品只有很少的訓練數(shù)據(jù)。
●零樣本:在訓練集中從未出現(xiàn)過的用戶和商品,表示用戶是第一次訪問該場景,或者該商品在第一天被推出。
在冷啟動建模中的關(guān)鍵問題是如何在有限數(shù)據(jù)下學習用戶偏好以及用戶和商品的表征。近年來,基于元學習的冷啟動方法已成為最先進的方法。因此,開源方選擇了幾種具有公開可用代碼的代表性方法作為基線模型。由于冷啟動用戶和商品的數(shù)據(jù)有限,開源方?jīng)]有按場景計算AUC,而是評估了冷啟動用戶和商品的整體效果。通過表5,可以得到以下結(jié)果。首先,與表4中的結(jié)果相比,冷啟動用戶和商品的AUC普遍低于整體水平,這表明AntM2C的數(shù)據(jù)能夠有效地反映冷啟動商品和用戶之間的差異。其次,不同的冷啟動方法在AntM2C中顯示出可區(qū)分的結(jié)果,而且所有的方法都明顯優(yōu)于沒有冷啟動優(yōu)化的DNN模型。這表明AntM2C能夠有效地比較不同冷啟動方法的效果,并展示了方法之間的差異性。最后,零樣本的性效果低于少樣本,這表明零樣本CTR預測比少樣本更具挑戰(zhàn)性。AntM2C提供的兩種冷啟動模式可以全面評估冷啟動CTR預測。隨著大型語言模型(LLM)的興起,有效地將LLM的知識轉(zhuǎn)移到CTR預測中已成為一個熱門的研究課題,已經(jīng)有許多基于多模態(tài)CTR建模的工作使用了商品和用戶文本等特征。AntM2C包含了用戶和商品的原始文本特征,與現(xiàn)有的CTR數(shù)據(jù)集相比,可以提供更全面的多模態(tài)建模評估。因此,開源方在AntM2C數(shù)據(jù)集上對不同的多模態(tài)方法進行評估。作為基線模型,開源方使用語言模型來處理文本特征,然后將文本嵌入與其他ID特征進行拼接,輸入到多場景模型中。為了方便評估,選擇MMoE作為主干模型,并使用預訓練的Bert-base,得出多模態(tài)CTR的評估結(jié)果,如表6所示。相較于僅使用ID模態(tài)的MMoE,在數(shù)據(jù)稀疏的場景C、D和E中加入文本模態(tài)后,CTR性能有所提升。由于當前使用文本模態(tài)的基線相對簡單,性能改進并不顯著,但這也顯示了AntM2C提供的文本模態(tài)改進CTR性能的潛力。希望未來有更多的團隊加入CTR相關(guān)的研究領域,在合規(guī)安全的前提下,參與數(shù)據(jù)集的開源及共建工作。感謝螞蟻集團AntM2C數(shù)據(jù)集開源團隊(螞蟻集團機器智能團隊、螞蟻集團商業(yè)智能團隊、螞蟻集團應用智能AML團隊)為公益性技術(shù)研究做出的貢獻。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。