點(diǎn)擊率(Click-through Rate, CTR)預(yù)測(cè)在推薦系統(tǒng)中至關(guān)重要,直接影響用戶的體驗(yàn)和平臺(tái)的收入。近年來(lái),CTR引起了行業(yè)和學(xué)術(shù)界的關(guān)注,也推動(dòng)了各種開(kāi)源CTR數(shù)據(jù)集的出現(xiàn)。然而,當(dāng)前現(xiàn)有的CTR數(shù)據(jù)集還存在一些局限。為解決CTR數(shù)據(jù)集存在的部分局限問(wèn)題,螞蟻集團(tuán)提出了一個(gè)基于支付寶平臺(tái)真實(shí)工業(yè)數(shù)據(jù)集——多場(chǎng)景多模態(tài)點(diǎn)擊率預(yù)測(cè)數(shù)據(jù)集(AntM2C,Multi-Scenario Multi-Modal CTR)數(shù)據(jù)集。
它包括支付寶平臺(tái)五類業(yè)務(wù)場(chǎng)景的10億個(gè)CTR數(shù)據(jù)。除了包含ID特征外,每個(gè)樣本還包含多模態(tài)特征,為CTR模型提供了全面的評(píng)估信息。在ATEC“數(shù)星”計(jì)劃首批發(fā)布的數(shù)據(jù)集中,AntM2C也首次公開(kāi)發(fā)布了1000萬(wàn)條數(shù)據(jù),并且即將進(jìn)行第二輪總體數(shù)據(jù)量級(jí)達(dá)到十億的開(kāi)源。
本數(shù)據(jù)集的發(fā)布填補(bǔ)了行業(yè)內(nèi)多場(chǎng)景多模態(tài)點(diǎn)擊率預(yù)估問(wèn)題的數(shù)據(jù)集空白,后續(xù)AntM2C還發(fā)布更多的數(shù)據(jù)和特征,并逐步對(duì)AntM2C進(jìn)行更先進(jìn)的基線方法的評(píng)估,提供全面而可靠的評(píng)估結(jié)果。
目前,螞蟻集團(tuán)多場(chǎng)景多模態(tài)點(diǎn)擊率預(yù)估數(shù)據(jù)集第一階段開(kāi)源(AntM2C)可在ATEC官方平臺(tái)下載,數(shù)據(jù)集下載入口:https://www.atecup.cn/ods
AntM2C數(shù)據(jù):嘗試突破傳統(tǒng)CTR數(shù)據(jù)集局限性
點(diǎn)擊率預(yù)測(cè)在在線廣告、搜索引擎和推薦系統(tǒng)等各個(gè)領(lǐng)域發(fā)揮著重要作用。CTR預(yù)測(cè)任務(wù)是估計(jì)用戶點(diǎn)擊給定商品的概率。它對(duì)于提高用戶參與度、提升用戶體驗(yàn)、以及優(yōu)化廣告收入至關(guān)重要。但CTR預(yù)測(cè)中的一個(gè)難點(diǎn)在于如何對(duì)不同的CTR模型進(jìn)行準(zhǔn)確評(píng)估。為應(yīng)對(duì)這類挑戰(zhàn),開(kāi)源CTR數(shù)據(jù)集為評(píng)估不同CTR模型的性能提供了標(biāo)準(zhǔn)化和基準(zhǔn)環(huán)境,能夠使研究人員比較不同模型的有效性,確定適用于特定應(yīng)用的、最合適的模型。但是,現(xiàn)有的CTR數(shù)據(jù)集仍然存在一些局限。首先,在實(shí)際的工業(yè)CTR預(yù)測(cè)中,用戶通常會(huì)點(diǎn)擊來(lái)自不同業(yè)務(wù)場(chǎng)景的各類商品,并對(duì)不同商品帶有個(gè)人的偏好。例如,用戶可能會(huì)在支付寶Tab3頁(yè)面上瀏覽有關(guān)咖啡的視頻,然后在營(yíng)銷活動(dòng)期間點(diǎn)擊咖啡優(yōu)惠券,最后使用支付寶搜索點(diǎn)擊咖啡訂購(gòu)小程序下單。聯(lián)合建模這種多場(chǎng)景的CTR數(shù)據(jù)不僅可以更全面地了解用戶的偏好,還可以共享場(chǎng)景之間的知識(shí),以提高每個(gè)場(chǎng)景下的CTR效果。然而,現(xiàn)有的CTR數(shù)據(jù)集通常僅涵蓋有限種類的商品,且通常來(lái)自相同的業(yè)務(wù)場(chǎng)景,無(wú)法捕捉到用戶的多場(chǎng)景偏好。例如,Criteo和 Avazu只涉及廣告的CTR數(shù)據(jù);作為電商平臺(tái),亞馬遜和AliExpress只提供了他們的電商商品的CTR數(shù)據(jù);Tenrec更專注于視頻和文章推薦。其次,多模態(tài)特征可以解決不同業(yè)務(wù)場(chǎng)景中相似商品的ID不一致問(wèn)題,并有效地建立不同場(chǎng)景之間的橋梁。例如,在不同的業(yè)務(wù)場(chǎng)景中,關(guān)于咖啡的視頻和咖啡優(yōu)惠券具有不同的ID。因此直接使用ID特征無(wú)法感知這兩個(gè)商品之間的關(guān)系。同時(shí),隨著大型語(yǔ)言模型(LLMs)的興起,將LLMs與CTR相結(jié)合已成為新興的研究領(lǐng)域。但是現(xiàn)有的CTR數(shù)據(jù)集大多都是基于ID類特征,其他模態(tài)的數(shù)據(jù)較少,難以支撐目前研究的需求。第三,現(xiàn)有的數(shù)據(jù)集通常在1億左右規(guī)模,無(wú)法進(jìn)一步驗(yàn)證模型在更大規(guī)模的工業(yè)場(chǎng)景中的能力,需要更大規(guī)模的數(shù)據(jù)集全面地反映CTR模型的在真實(shí)工業(yè)生產(chǎn)環(huán)境中的實(shí)際性能。為解決上述挑戰(zhàn),螞蟻集團(tuán)提出了AntM2C數(shù)據(jù)集,這是一個(gè)用于CTR預(yù)測(cè)的大規(guī)模多場(chǎng)景多模態(tài)數(shù)據(jù)集。與現(xiàn)有的CTR數(shù)據(jù)集相比,AntM2C具有以下優(yōu)勢(shì):【多樣的業(yè)務(wù)場(chǎng)景和商品類型】:AntM2C數(shù)據(jù)集包含了支付寶平臺(tái)上五類典型業(yè)務(wù)場(chǎng)景中不同類型的商品,包括廣告、優(yōu)惠券、小程序、內(nèi)容和視頻。每個(gè)業(yè)務(wù)場(chǎng)景都有獨(dú)特的數(shù)據(jù)分布,不同場(chǎng)景之間也存在大量交叉用戶和相似商品,這可以用于對(duì)多場(chǎng)景CTR建模進(jìn)行更全面的評(píng)估,以測(cè)試CTR模型在多個(gè)業(yè)務(wù)場(chǎng)景中的有效性。
【多模態(tài)特征系統(tǒng)】:AntM2C不僅包括ID特征,還提供了豐富的多模態(tài)特征,如文本和圖像,可以在不同場(chǎng)景之間建立相似商品之間的聯(lián)系,并能夠更好地評(píng)估多模態(tài)CTR模型。此外,AntM2C的特征系統(tǒng)包括200多個(gè)特征,使其更加貼近工業(yè)場(chǎng)景中的實(shí)際CTR預(yù)測(cè)(在第一階段開(kāi)源中,AntM2C開(kāi)源了1000萬(wàn)個(gè)樣本,包括29個(gè)ID特征和2個(gè)文本特征,更多的數(shù)據(jù)和圖像特征將會(huì)在后續(xù)階段中逐步發(fā)布)。
【最大的數(shù)據(jù)規(guī)?!浚?/strong>AntM2C包括2億用戶和600萬(wàn)個(gè)商品,總共達(dá)10億個(gè)樣本。每個(gè)用戶的平均交互次數(shù)超過(guò)50次。據(jù)開(kāi)源方所知,AntM2C是目前規(guī)模最大的公開(kāi)CTR數(shù)據(jù)集,可以提供全面可靠的CTR評(píng)估結(jié)果。
【全面的基準(zhǔn)測(cè)試】:基于AntM2C數(shù)據(jù)集,開(kāi)源方構(gòu)建了三個(gè)典型的CTR任務(wù),包括多場(chǎng)景建模、冷啟動(dòng)建模和多模態(tài)建模。在此基礎(chǔ)上還提供了基線模型的評(píng)估結(jié)果。這些評(píng)估結(jié)果不僅可以幫助研究人員和從業(yè)者更好地了解不同CTR任務(wù)的性能和挑戰(zhàn),還提供了參考和比較的依據(jù)。
當(dāng)前,AntM2C數(shù)據(jù)集可在https://www.atecup.cn/home獲取。源于支付寶平臺(tái)真實(shí)工業(yè)數(shù)據(jù)而生的AntM2C數(shù)據(jù)集
為了滿足用戶的日益增長(zhǎng)的需求,支付寶向用戶推薦不同業(yè)務(wù)場(chǎng)景的各種類型的商品。AntM2C從支付寶的五類場(chǎng)景中汲取CTR數(shù)據(jù),其中每類場(chǎng)景下的商品類型都AntM2C存在差異,如圖1所示,搜索中的服務(wù)和內(nèi)容、營(yíng)銷中的優(yōu)惠券、Tab3頁(yè)面中的視頻以及會(huì)員頁(yè)面上的廣告各有不同。在搜索場(chǎng)景中,當(dāng)用戶輸入搜索詞時(shí),幾個(gè)相關(guān)的服務(wù)或內(nèi)容的小程序會(huì)顯示出來(lái)以供用戶點(diǎn)擊;在營(yíng)銷場(chǎng)景下,平臺(tái)會(huì)推薦一些消費(fèi)者優(yōu)惠券,用戶可以點(diǎn)擊他們想要使用的優(yōu)惠券;在Tab3頁(yè)面上,推薦的項(xiàng)目主要是短視頻,用戶可以選擇觀看他們感興趣的視頻;在會(huì)員頁(yè)面上,用戶可能會(huì)點(diǎn)擊一些在線廣告。總之,AntM2C數(shù)據(jù)取材于不同業(yè)務(wù)場(chǎng)景的各類商品。圖1 支付寶平臺(tái)上典型的CTR預(yù)測(cè)場(chǎng)景展示
基于10億樣本的AntM2C數(shù)據(jù)集
AntM2C從上述五類場(chǎng)景中收集了連續(xù)9天(從20230709到20230717)的CTR樣本,然后篩選出了總點(diǎn)擊次數(shù)高于30次的高活躍用戶的10億個(gè)樣本。在開(kāi)源的第一階段,螞蟻集團(tuán)從這10億個(gè)樣本中隨機(jī)抽取了1000萬(wàn)個(gè)樣本,表1展示了數(shù)據(jù)的統(tǒng)計(jì)信息。在后續(xù)階段,開(kāi)源方將陸續(xù)開(kāi)放所有10億個(gè)樣本。出于保護(hù)用戶隱私,數(shù)據(jù)集中將使用字母“A-E”以替代場(chǎng)景的真實(shí)名稱。此外,AntM2C數(shù)據(jù)集已經(jīng)進(jìn)行了去標(biāo)識(shí)化和加密處理,不包含任何個(gè)人可識(shí)別信息(PII)。在數(shù)據(jù)集中,每個(gè)用戶都經(jīng)過(guò)了安全編碼。在實(shí)驗(yàn)過(guò)程中,開(kāi)源方也采取了充分的數(shù)據(jù)保護(hù)措施,以減輕數(shù)據(jù)拷貝泄露的風(fēng)險(xiǎn)。需要注意的是,該數(shù)據(jù)集僅用于學(xué)術(shù)研究,不做任何實(shí)際的商業(yè)使用。依托實(shí)際數(shù)據(jù)分布,可有效反映多場(chǎng)景CTR預(yù)測(cè)情況
AntM2C數(shù)據(jù)集中的一部分用戶在五個(gè)場(chǎng)景之間存在重疊。如下文的表2顯示了不同場(chǎng)景之間重疊用戶的數(shù)量,表明AntM2C可以有效地反映同一用戶在不同場(chǎng)景中對(duì)商品的偏好,從而進(jìn)行多場(chǎng)景CTR評(píng)估。至于商品,由于不同場(chǎng)景之間的商品類型差異顯著,不同場(chǎng)景之間的商品沒(méi)有交集。表2 不同場(chǎng)景之間重疊用戶的數(shù)量
同時(shí),在數(shù)據(jù)集中,基于所有樣本以及不同場(chǎng)景(A-E)的樣本,以用戶/商品的頻率數(shù)量為橫軸,以該頻率下的用戶/商品數(shù)量為縱軸,統(tǒng)計(jì)了用戶和商品的頻率分布情況,如圖2所示。在商品分布方面,所有場(chǎng)景都呈現(xiàn)出長(zhǎng)尾分布的情況,80%的樣本出現(xiàn)頻率少于5次。這種長(zhǎng)尾分布與實(shí)際情況一致。至于用戶分布,不同場(chǎng)景之間存在差異。在B場(chǎng)景中,用戶頻率分布有兩個(gè)峰值,一個(gè)在5次以下,另一個(gè)在50次左右。頻率超過(guò)50次后,用戶數(shù)量隨著頻率增加而減少。在其他場(chǎng)景中,用戶的曝光頻率也遵循類似于商品的長(zhǎng)尾分布,即更高的曝光頻率對(duì)應(yīng)的用戶數(shù)量更少。由于場(chǎng)景之間存在重疊用戶,多個(gè)場(chǎng)景中用戶的長(zhǎng)尾分布在全局樣本中變成了正態(tài)分布。大多數(shù)用戶的曝光頻率是在50次左右。總體而言,AntM2C數(shù)據(jù)集中商品和用戶的分布能夠反映CTR預(yù)測(cè)的實(shí)際情況。圖2 AntM2C數(shù)據(jù)集中用戶和商品的頻率分布情況
AntM2C數(shù)據(jù)集特征體系:不止用戶和商品特征,更有額外特征
AntM2C數(shù)據(jù)集的特征系統(tǒng),如表3所示,包括用戶和商品的ID特征以及文本特征。用戶特征由靜態(tài)特征(用戶靜態(tài)屬性和商品標(biāo)題將在后續(xù)階段公開(kāi))和用戶序列特征組成。靜態(tài)特征包括用戶的基本屬性,如性別、年齡、職業(yè)等。序列特征提供了用戶在支付寶上的最近活動(dòng)信息,包括點(diǎn)擊的小程序、搜索的服務(wù)、購(gòu)買的商品等。但如上文所述,為保護(hù)用戶隱私,這些用戶特征已經(jīng)進(jìn)行了去標(biāo)識(shí)化和加密處理,以加密ID的格式出現(xiàn)在數(shù)據(jù)集中,無(wú)法重新構(gòu)建原始的用戶特征。除了基于ID的特征外,還包括用戶搜索實(shí)體的原始文本,以提供多模態(tài)評(píng)估。表3 AntM2C數(shù)據(jù)集的特征系統(tǒng)
商品特征包括商品ID和商品文本特征。商品ID是每個(gè)商品的全局唯一標(biāo)識(shí)符,商品ID的編碼方式在不同場(chǎng)景中可能有所不同。為解決不同場(chǎng)景中商品ID的不一致性,AntM2C還包括商品的原始標(biāo)題文本和基于標(biāo)題文本提取的實(shí)體。除了用戶和商品特征外,AntM2C還提供了額外的特征,如日志時(shí)間和場(chǎng)景標(biāo)識(shí)。研究人員可以利用這些額外的特征,根據(jù)時(shí)間靈活地拆分訓(xùn)練、驗(yàn)證和測(cè)試集,并在不同場(chǎng)景中評(píng)估性能。AntM2C中的標(biāo)簽表示用戶是否點(diǎn)擊了相應(yīng)的商品。如果用戶進(jìn)行了點(diǎn)擊操作,標(biāo)簽設(shè)置為1,否則設(shè)置為0。AntM2C中正負(fù)樣本的比例可以從表1中的點(diǎn)擊率中獲得。需要注意的是,實(shí)際的在線日志存在大量的負(fù)樣本(曝光但未被點(diǎn)擊的樣本)。為解決這個(gè)問(wèn)題,AntM2C進(jìn)行了負(fù)采樣,導(dǎo)致數(shù)據(jù)集中的點(diǎn)擊率高于實(shí)際在線日志中的點(diǎn)擊率。數(shù)據(jù)集的應(yīng)用:多場(chǎng)景CTR預(yù)估、冷啟動(dòng)CTR預(yù)估、多模態(tài)CTR預(yù)估
基于AntM2C,開(kāi)源方選擇了常用的AUC作為所有實(shí)驗(yàn)的度量指標(biāo),通過(guò)幾個(gè)CTR預(yù)測(cè)任務(wù)進(jìn)行了測(cè)試,并得到了一些評(píng)估結(jié)果,作為AntM2C的使用示例。在未來(lái)的工作中計(jì)劃將繼續(xù)更新更多的基線方法和評(píng)估結(jié)果。多場(chǎng)景CTR預(yù)測(cè)是工業(yè)推薦系統(tǒng)中的常見(jiàn)問(wèn)題之一。它通過(guò)利用來(lái)自多個(gè)場(chǎng)景的CTR數(shù)據(jù)構(gòu)建一個(gè)統(tǒng)一的模型。場(chǎng)景之間的知識(shí)共享能夠使多場(chǎng)景模型相較于單場(chǎng)景建模達(dá)到更好的性能。開(kāi)源方基于AntM2C數(shù)據(jù)集中的5類場(chǎng)景,使用不同的基線方法對(duì)多場(chǎng)景CTR預(yù)測(cè)進(jìn)行評(píng)估。其中,主要選擇多任務(wù)方法作為多場(chǎng)景CTR預(yù)測(cè)的基線方法。每個(gè)場(chǎng)景的CTR估計(jì)視為一個(gè)任務(wù),并在底層共享場(chǎng)景之間的知識(shí)。
表4 不同基線方法在多場(chǎng)景CTR預(yù)測(cè)上的評(píng)估結(jié)果
通過(guò)表4,可以得出以下結(jié)論。首先,與所有數(shù)據(jù)混合訓(xùn)練的DNN模型相比,所有的多任務(wù)模型都取得了更好的性能。這表明在AntM2C中,不同場(chǎng)景之間存在差異和共性,簡(jiǎn)單地混合訓(xùn)練數(shù)據(jù)不能得到最佳結(jié)果。其次,每個(gè)場(chǎng)景的CTR性能不同,表明不同場(chǎng)景之間存在不同的困難程度。例如,在場(chǎng)景B中,數(shù)據(jù)量較大,AUC普遍在0.93以上,而在場(chǎng)景D中,AUC僅約為0.68。AntM2C中多樣的業(yè)務(wù)場(chǎng)景和商品使得CTR的評(píng)估更加全面和多樣化。最后,具有專家結(jié)構(gòu)化的MMOE和PLE優(yōu)于共享底層模型,顯示出精細(xì)化的模型設(shè)計(jì)可以提升在AntM2C上的性能,反映不同模型之間的差異。冷啟動(dòng)問(wèn)題是推薦系統(tǒng)中的一個(gè)具有挑戰(zhàn)性的問(wèn)題。使用稀疏的用戶-商品交互數(shù)據(jù)訓(xùn)練高質(zhì)量的CTR模型是一個(gè)具有挑戰(zhàn)性的任務(wù)。冷啟動(dòng)主要涉及兩個(gè)方面:用戶和商品。如圖2所示,AntM2C數(shù)據(jù)集中的用戶和商品呈現(xiàn)自然的長(zhǎng)尾分布。因此,開(kāi)源方在AntM2C數(shù)據(jù)集上對(duì)冷啟動(dòng)基線方法進(jìn)行了全面評(píng)估,其中模擬了兩種常見(jiàn)的冷啟動(dòng)問(wèn)題:少樣本和零樣本。●少樣本:在訓(xùn)練集中出現(xiàn)次數(shù)大于0且小于N的(本文設(shè)定N為100)用戶和商品,表示這些用戶和商品只有很少的訓(xùn)練數(shù)據(jù)。
●零樣本:在訓(xùn)練集中從未出現(xiàn)過(guò)的用戶和商品,表示用戶是第一次訪問(wèn)該場(chǎng)景,或者該商品在第一天被推出。
在冷啟動(dòng)建模中的關(guān)鍵問(wèn)題是如何在有限數(shù)據(jù)下學(xué)習(xí)用戶偏好以及用戶和商品的表征。近年來(lái),基于元學(xué)習(xí)的冷啟動(dòng)方法已成為最先進(jìn)的方法。因此,開(kāi)源方選擇了幾種具有公開(kāi)可用代碼的代表性方法作為基線模型。由于冷啟動(dòng)用戶和商品的數(shù)據(jù)有限,開(kāi)源方?jīng)]有按場(chǎng)景計(jì)算AUC,而是評(píng)估了冷啟動(dòng)用戶和商品的整體效果。通過(guò)表5,可以得到以下結(jié)果。首先,與表4中的結(jié)果相比,冷啟動(dòng)用戶和商品的AUC普遍低于整體水平,這表明AntM2C的數(shù)據(jù)能夠有效地反映冷啟動(dòng)商品和用戶之間的差異。其次,不同的冷啟動(dòng)方法在AntM2C中顯示出可區(qū)分的結(jié)果,而且所有的方法都明顯優(yōu)于沒(méi)有冷啟動(dòng)優(yōu)化的DNN模型。這表明AntM2C能夠有效地比較不同冷啟動(dòng)方法的效果,并展示了方法之間的差異性。最后,零樣本的性效果低于少樣本,這表明零樣本CTR預(yù)測(cè)比少樣本更具挑戰(zhàn)性。AntM2C提供的兩種冷啟動(dòng)模式可以全面評(píng)估冷啟動(dòng)CTR預(yù)測(cè)。隨著大型語(yǔ)言模型(LLM)的興起,有效地將LLM的知識(shí)轉(zhuǎn)移到CTR預(yù)測(cè)中已成為一個(gè)熱門的研究課題,已經(jīng)有許多基于多模態(tài)CTR建模的工作使用了商品和用戶文本等特征。AntM2C包含了用戶和商品的原始文本特征,與現(xiàn)有的CTR數(shù)據(jù)集相比,可以提供更全面的多模態(tài)建模評(píng)估。因此,開(kāi)源方在AntM2C數(shù)據(jù)集上對(duì)不同的多模態(tài)方法進(jìn)行評(píng)估。作為基線模型,開(kāi)源方使用語(yǔ)言模型來(lái)處理文本特征,然后將文本嵌入與其他ID特征進(jìn)行拼接,輸入到多場(chǎng)景模型中。為了方便評(píng)估,選擇MMoE作為主干模型,并使用預(yù)訓(xùn)練的Bert-base,得出多模態(tài)CTR的評(píng)估結(jié)果,如表6所示。表6 多模態(tài)CTR的評(píng)估結(jié)果
相較于僅使用ID模態(tài)的MMoE,在數(shù)據(jù)稀疏的場(chǎng)景C、D和E中加入文本模態(tài)后,CTR性能有所提升。由于當(dāng)前使用文本模態(tài)的基線相對(duì)簡(jiǎn)單,性能改進(jìn)并不顯著,但這也顯示了AntM2C提供的文本模態(tài)改進(jìn)CTR性能的潛力。希望未來(lái)有更多的團(tuán)隊(duì)加入CTR相關(guān)的研究領(lǐng)域,在合規(guī)安全的前提下,參與數(shù)據(jù)集的開(kāi)源及共建工作。感謝螞蟻集團(tuán)AntM2C數(shù)據(jù)集開(kāi)源團(tuán)隊(duì)(螞蟻集團(tuán)機(jī)器智能團(tuán)隊(duì)、螞蟻集團(tuán)商業(yè)智能團(tuán)隊(duì)、螞蟻集團(tuán)應(yīng)用智能AML團(tuán)隊(duì))為公益性技術(shù)研究做出的貢獻(xiàn)。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。