IJCAI 2018廣告算法大賽落下帷幕，Top 3 方案出爐

本文作者：汪思穎

2018-06-18 16:19

專題：IJCAI 2018

導(dǎo)語：如何處理第七天的轉(zhuǎn)化率異常是需要解決的一大痛點(diǎn)。針對此問題，他們根據(jù)對數(shù)據(jù)的分析、特征的構(gòu)建、以及對實(shí)際場景的思考，提出了四種訓(xùn)練集劃分。

雷鋒網(wǎng) AI 研習(xí)社消息，IJCAI-18 阿里媽媽搜索廣告轉(zhuǎn)化預(yù)測比賽近日落下帷幕，本次比賽為阿里媽媽與 IJCAI2018、天池平臺聯(lián)合舉辦，總獎池 37000 美元，共吸引到 5204 支隊(duì)伍參賽。

此次比賽提供了廣告點(diǎn)擊相關(guān)的用戶（user）、廣告商品（ad）、檢索詞（query）、上下文內(nèi)容（context）、商店（shop）等信息，參賽選手需要在這些條件下預(yù)測廣告產(chǎn)生購買行為的概率（pCVR），形式化定義為：

pCVR=P(conversion=1 | query, user, ad, context, shop)

主辦方希望在考慮到用戶行為偏好、商品長尾分布、熱點(diǎn)事件營銷等一系列因素的前提下，利用海量交易數(shù)據(jù)準(zhǔn)確高效地預(yù)測用戶購買意向。此次比賽設(shè)置了如下兩類挑戰(zhàn)：

日常的轉(zhuǎn)化率預(yù)估
特殊日期的轉(zhuǎn)化率預(yù)估

目前，比賽結(jié)果已經(jīng)出爐。雷鋒網(wǎng)看到，來自京東尚科，天池代號為「plants」的選手獲得冠軍，IJCAI-17 冠軍團(tuán)隊(duì)獲得者周耀、郭鵬博以及李智獲得季軍，浙江工業(yè)大學(xué)陳波成、中南大學(xué)羅賓理和天津大學(xué)吳昊組成的「躺分隊(duì)」獲得第三名，作為前三名中唯一一支學(xué)生團(tuán)隊(duì)，他們的比賽方案也已經(jīng)出爐。

在方案中，他們主要討論了異常日期處理問題，主要思路如下：

難點(diǎn)與挑戰(zhàn)

這次比賽的難點(diǎn)有二，一是如何在正常流量數(shù)據(jù)中，找到適合表達(dá)促銷/突變的特征；二是如何在模型選擇上，找到盡快落地于工業(yè)界的輕量級框架。

分析數(shù)據(jù)

訓(xùn)練數(shù)據(jù)為 8 月 31 日- 9 月 7 日上午，需要預(yù)測 9 月 7 日下午的用戶點(diǎn)擊率，8 月 31 日-9 月 5 日轉(zhuǎn)化率穩(wěn)定，但 6 日下降，7 日猛增，推測 7 日為大促節(jié)日。

對于異常日期處理而言，僅僅考慮前六天的轉(zhuǎn)化率和第七天的高轉(zhuǎn)化率是不太適合的，如何處理第七天的轉(zhuǎn)化率異常是這道題需要解決的一大痛點(diǎn)。

四種訓(xùn)練集劃分

針對此問題，他們根據(jù)對數(shù)據(jù)的分析、特征的構(gòu)建、以及對實(shí)際場景的思考，提出了四種訓(xùn)練集劃分：

1. 全量統(tǒng)計特征提取第七天特征——all-to-7
2. 全量數(shù)據(jù)的抽樣統(tǒng)計——sample
3. 單獨(dú)第七天的特征提取——only7
4. 全量數(shù)據(jù)——all

構(gòu)造四種訓(xùn)練集劃分的目的如下：

1）構(gòu)造出訓(xùn)練集中的差異性，方便模型融合

2）在每組訓(xùn)練集中，對高維特征進(jìn)行選擇，選擇后進(jìn)行特征分組

特征工程：

首先執(zhí)行如下三步操作：

上述基礎(chǔ)特征分列
去掉取值變化小的列
去掉缺失值過多的列

IJCAI 2018廣告算法大賽落下帷幕，Top 3 方案出爐

分析過程如下：

IJCAI 2018廣告算法大賽落下帷幕，Top 3 方案出爐

特征工程總覽如下：

IJCAI 2018廣告算法大賽落下帷幕，Top 3 方案出爐

特征選擇

特征選擇的方法有如下2點(diǎn)：

1）羅賓理同學(xué)在GitHub的開源代碼，參照糖尿病精準(zhǔn)醫(yī)療大賽的特征選擇，地址如下：

https://github.com/luoda888/tianchi-diabetes-top12/blob/master/README.md

以及利用貪心、模擬退火算法，構(gòu)造出多組特征，適用于組內(nèi)模型融合。

2）利用 Std/Mean 訓(xùn)練集測試集分布一致的思想，進(jìn)行特征選擇，保證線上線下特征的一致性。

模型選擇及融合

分組后對不同的模型進(jìn)行訓(xùn)練，構(gòu)造組內(nèi)特征的差異性，模型的差異性。

他們選擇的方法有 Xgboost/Lightgbm/GBDT+LR/Catboost/NN 模型

在 NN 模型里，使用對多個模型求 Average 的方法，使用的模型如下：

DeepFM/DeepFFM (原始 ID 特征放入交叉層) 與 Lightgbm 線下差距 0.0001 (千分點(diǎn))
AFFM/AFM (對原始 ID 特征加入 Attention) 與 Lightgbm 線下差距 0.00001 (萬分點(diǎn))
FNN/FFNN/NFM (將特征工程后放入網(wǎng)絡(luò)結(jié)構(gòu)) 與 Lightgbm 線下差距 0.0001 (千分點(diǎn))

將上述模型按對該組訓(xùn)練集的數(shù)據(jù)敏感性訓(xùn)練后加權(quán)，得到該組 NN 的結(jié)果 Ans_nn。每組特征都可以放入上述五個模型中，即組內(nèi)選擇出的特征數(shù) n 乘以組內(nèi)模型數(shù) m 即為該組模型的數(shù)量 = n*m。根據(jù)模型間的相關(guān)性，分配不同的權(quán)重進(jìn)行加權(quán)融合，得到該組的答案 Ans_k。

接下來，在組間訓(xùn)練集中，對每組的 Ans_k 進(jìn)行加權(quán)融合得到 Ans_final，然后利用前六天的上下午，每小時均值的變化趨勢，線下預(yù)測出線上可能的均值，為 0.036287135，最后對 Ans_final 做 Logit 逆變換。

模型融合框架如下：

IJCAI 2018廣告算法大賽落下帷幕，Top 3 方案出爐