0
本文作者: 汪思穎 | 2018-06-18 16:19 | 專(zhuān)題:IJCAI 2018 |
雷鋒網(wǎng) AI 研習(xí)社消息,IJCAI-18 阿里媽媽搜索廣告轉(zhuǎn)化預(yù)測(cè)比賽近日落下帷幕,本次比賽為阿里媽媽與 IJCAI2018、天池平臺(tái)聯(lián)合舉辦,總獎(jiǎng)池 37000 美元,共吸引到 5204 支隊(duì)伍參賽。
此次比賽提供了廣告點(diǎn)擊相關(guān)的用戶(hù)(user)、廣告商品(ad)、檢索詞(query)、上下文內(nèi)容(context)、商店(shop)等信息,參賽選手需要在這些條件下預(yù)測(cè)廣告產(chǎn)生購(gòu)買(mǎi)行為的概率(pCVR),形式化定義為:
pCVR=P(conversion=1 | query, user, ad, context, shop)
主辦方希望在考慮到用戶(hù)行為偏好、商品長(zhǎng)尾分布、熱點(diǎn)事件營(yíng)銷(xiāo)等一系列因素的前提下,利用海量交易數(shù)據(jù)準(zhǔn)確高效地預(yù)測(cè)用戶(hù)購(gòu)買(mǎi)意向。此次比賽設(shè)置了如下兩類(lèi)挑戰(zhàn):
日常的轉(zhuǎn)化率預(yù)估
特殊日期的轉(zhuǎn)化率預(yù)估
目前,比賽結(jié)果已經(jīng)出爐。雷鋒網(wǎng)看到,來(lái)自京東尚科,天池代號(hào)為「plants」的選手獲得冠軍,IJCAI-17 冠軍團(tuán)隊(duì)獲得者周耀、郭鵬博以及李智獲得季軍,浙江工業(yè)大學(xué)陳波成、中南大學(xué)羅賓理和天津大學(xué)吳昊組成的「躺分隊(duì)」獲得第三名,作為前三名中唯一一支學(xué)生團(tuán)隊(duì),他們的比賽方案也已經(jīng)出爐。
在方案中,他們主要討論了異常日期處理問(wèn)題,主要思路如下:
難點(diǎn)與挑戰(zhàn)
這次比賽的難點(diǎn)有二,一是如何在正常流量數(shù)據(jù)中,找到適合表達(dá)促銷(xiāo)/突變的特征;二是如何在模型選擇上,找到盡快落地于工業(yè)界的輕量級(jí)框架。
分析數(shù)據(jù)
訓(xùn)練數(shù)據(jù)為 8 月 31 日- 9 月 7 日上午,需要預(yù)測(cè) 9 月 7 日下午的用戶(hù)點(diǎn)擊率,8 月 31 日-9 月 5 日轉(zhuǎn)化率穩(wěn)定,但 6 日下降,7 日猛增,推測(cè) 7 日為大促節(jié)日。
對(duì)于異常日期處理而言,僅僅考慮前六天的轉(zhuǎn)化率和第七天的高轉(zhuǎn)化率是不太適合的,如何處理第七天的轉(zhuǎn)化率異常是這道題需要解決的一大痛點(diǎn)。
四種訓(xùn)練集劃分
針對(duì)此問(wèn)題,他們根據(jù)對(duì)數(shù)據(jù)的分析、特征的構(gòu)建、以及對(duì)實(shí)際場(chǎng)景的思考,提出了四種訓(xùn)練集劃分:
1. 全量統(tǒng)計(jì)特征提取第七天特征——all-to-7
2. 全量數(shù)據(jù)的抽樣統(tǒng)計(jì)——sample
3. 單獨(dú)第七天的特征提取——only7
4. 全量數(shù)據(jù)——all
構(gòu)造四種訓(xùn)練集劃分的目的如下:
1)構(gòu)造出訓(xùn)練集中的差異性,方便模型融合
2)在每組訓(xùn)練集中,對(duì)高維特征進(jìn)行選擇,選擇后進(jìn)行特征分組
特征工程:
首先執(zhí)行如下三步操作:
上述基礎(chǔ)特征分列
去掉取值變化小的列
去掉缺失值過(guò)多的列
分析過(guò)程如下:
特征工程總覽如下:
特征選擇
特征選擇的方法有如下2點(diǎn):
1)羅賓理同學(xué)在GitHub的開(kāi)源代碼,參照糖尿病精準(zhǔn)醫(yī)療大賽的特征選擇,地址如下:
https://github.com/luoda888/tianchi-diabetes-top12/blob/master/README.md
以及利用貪心、模擬退火算法,構(gòu)造出多組特征,適用于組內(nèi)模型融合。
2)利用 Std/Mean 訓(xùn)練集測(cè)試集分布一致的思想,進(jìn)行特征選擇,保證線(xiàn)上線(xiàn)下特征的一致性。
模型選擇及融合
分組后對(duì)不同的模型進(jìn)行訓(xùn)練,構(gòu)造組內(nèi)特征的差異性,模型的差異性 。
他們選擇的方法有 Xgboost/Lightgbm/GBDT+LR/Catboost/NN 模型
在 NN 模型里,使用對(duì)多個(gè)模型求 Average 的方法,使用的模型如下:
DeepFM/DeepFFM (原始 ID 特征放入交叉層) 與 Lightgbm 線(xiàn)下差距 0.0001 (千分點(diǎn))
AFFM/AFM (對(duì)原始 ID 特征加入 Attention) 與 Lightgbm 線(xiàn)下差距 0.00001 (萬(wàn)分點(diǎn))
FNN/FFNN/NFM (將特征工程后放入網(wǎng)絡(luò)結(jié)構(gòu)) 與 Lightgbm 線(xiàn)下差距 0.0001 (千分點(diǎn))
將上述模型按對(duì)該組訓(xùn)練集的數(shù)據(jù)敏感性訓(xùn)練后加權(quán),得到該組 NN 的結(jié)果 Ans_nn。每組特征都可以放入上述五個(gè)模型中,即組內(nèi)選擇出的特征數(shù) n 乘以組內(nèi)模型數(shù) m 即為該組模型的數(shù)量 = n*m。根據(jù)模型間的相關(guān)性,分配不同的權(quán)重進(jìn)行加權(quán)融合,得到該組的答案 Ans_k。
接下來(lái),在組間訓(xùn)練集中,對(duì)每組的 Ans_k 進(jìn)行加權(quán)融合得到 Ans_final,然后利用前六天的上下午,每小時(shí)均值的變化趨勢(shì),線(xiàn)下預(yù)測(cè)出線(xiàn)上可能的均值,為 0.036287135,最后對(duì) Ans_final 做 Logit 逆變換。
模型融合框架如下:
對(duì)比賽的總結(jié)有如下三點(diǎn):
1)對(duì)促銷(xiāo)時(shí)期應(yīng)考慮變化特征
2)合理的特征提取框架是致勝之道
3)多模型的融合提升精度較多
方案詳情:https://github.com/luoda888/2018-IJCAI-top3
雷鋒網(wǎng) AI 研習(xí)社編輯整理。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章