0
AI 科技評(píng)論編者按:現(xiàn)在,越來(lái)越多的企業(yè)、高校以及學(xué)術(shù)組織機(jī)構(gòu)通過(guò)舉辦各種類(lèi)型的數(shù)據(jù)競(jìng)賽來(lái)「物色」數(shù)據(jù)科學(xué)領(lǐng)域的優(yōu)秀人才,并借此激勵(lì)他們?yōu)槟骋粩?shù)據(jù)領(lǐng)域或應(yīng)用場(chǎng)景找到具有突破性意義的方案,也為之后的數(shù)據(jù)研究者留下有價(jià)值的經(jīng)驗(yàn)。
Smilexuhc 在 GitHub 社區(qū)對(duì)各大數(shù)據(jù)競(jìng)賽名列前茅的解決方案進(jìn)行了整理,包括純數(shù)據(jù)競(jìng)賽、自然語(yǔ)言處理(NLP)領(lǐng)域數(shù)據(jù)賽事的 Top 解決方案。對(duì)這些賽事感興趣的小伙伴可以一起來(lái)看一下這篇干貨滿(mǎn)滿(mǎn)的匯總貼:
1.2018 科大訊飛 AI 營(yíng)銷(xiāo)算法大賽
本次大賽要求參賽者基于提供的訊飛 AI 營(yíng)銷(xiāo)云的海量廣告投放數(shù)據(jù),通過(guò)人工智能技術(shù)構(gòu)建來(lái)預(yù)測(cè)模型預(yù)估用戶(hù)的廣告點(diǎn)擊概率。比賽提供了 5 類(lèi)數(shù)據(jù),包括基礎(chǔ)廣告投放數(shù)據(jù)、廣告素材信息、媒體信息、用戶(hù)信息和上下文信息,總共為 1001650 初賽數(shù)據(jù) 和 1998350 條復(fù)賽數(shù)據(jù)(復(fù)賽訓(xùn)練數(shù)據(jù)為:初賽數(shù)據(jù)+復(fù)賽數(shù)據(jù))。
2.2018 IJCAI 阿里媽媽搜索廣告轉(zhuǎn)化預(yù)測(cè)
本次比賽要求參賽者以阿里電商廣告為研究對(duì)象,基于提供的淘寶平臺(tái)的海量真實(shí)交易數(shù)據(jù),通過(guò)人工智能技術(shù)構(gòu)建來(lái)預(yù)測(cè)模型預(yù)估用戶(hù)的購(gòu)買(mǎi)意向。本次比賽為參賽者提供了 5 類(lèi)數(shù)據(jù),包括基礎(chǔ)數(shù)據(jù)、廣告商品信息、用戶(hù)信息、上下文信息和店鋪信息。用于初賽的數(shù)據(jù)包含了若干天的樣本;最后一天的數(shù)據(jù)用于結(jié)果評(píng)測(cè),對(duì)選手不公布;其余日期的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),提供給參賽選手。
本次算法大賽的題目源自一個(gè)基于真實(shí)業(yè)務(wù)場(chǎng)景的廣告技術(shù)產(chǎn)品——騰訊社交廣告 Lookalike 相似人群拓展。本題目要求參賽者基于提供的幾百個(gè)種子人群、海量候選人群對(duì)應(yīng)的用戶(hù)特征,以及種子人群對(duì)應(yīng)的廣告特征,構(gòu)建算法準(zhǔn)確標(biāo)定測(cè)試集中的用戶(hù)是否屬于相應(yīng)的種子包。
出于業(yè)務(wù)數(shù)據(jù)安全保證的考慮,比賽所提供的所有數(shù)據(jù)均為脫敏處理后的數(shù)據(jù)。整個(gè)數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集:訓(xùn)練集中標(biāo)定了人群中屬于種子包的用戶(hù)與不屬于種子包的用戶(hù)(即正負(fù)樣本),測(cè)試集將檢測(cè)參賽選手的算法能否準(zhǔn)確標(biāo)定測(cè)試集中的用戶(hù)是否屬于相應(yīng)的種子包,訓(xùn)練集和測(cè)試集所對(duì)應(yīng)的種子包完全一致。初賽和復(fù)賽所提供的種子包除量級(jí)有所不同外,其他的設(shè)置均相同。
Rank3: https://github.com/DiligentPanda/Tencent_Ads_Algo_2018
Rank7: https://github.com/guoday/Tencent2018_Lookalike_Rank7th
Rank10: https://github.com/keyunluo/Tencent2018_Lookalike_Rank10th
rank10(初賽): https://github.com/ShawnyXiao/2018-Tencent-Lookalike
Rank11: https://github.com/liupengsay/2018-Tencent-social-advertising-algorithm-contest
4.2018 高校大數(shù)據(jù)挑戰(zhàn)賽—快手活躍用戶(hù)預(yù)測(cè)
本次大賽要求參賽者基于脫敏和采樣后的數(shù)據(jù)信息,預(yù)測(cè)未來(lái)一段時(shí)間活躍的用戶(hù)。參賽隊(duì)伍需要設(shè)計(jì)相應(yīng)的算法進(jìn)行數(shù)據(jù)分析和處理,比賽結(jié)果按照指定的評(píng)價(jià)指標(biāo)使用在線(xiàn)評(píng)測(cè)數(shù)據(jù)進(jìn)行評(píng)測(cè)和排名。大賽提供的數(shù)據(jù)為脫敏和采樣后用戶(hù)行為數(shù)據(jù),日期信息進(jìn)行統(tǒng)一編號(hào),第一天編號(hào)為 01,第二天為 02,以此類(lèi)推,所有文件中列使用 tab 分割。
Rank13(初賽 a 榜 rank2;b 榜 rank5):https://github.com/luoda888/2018-KUAISHOU-TSINGHUA-Top13-Solutions
5.2018JDATA 用戶(hù)購(gòu)買(mǎi)時(shí)間預(yù)測(cè)
本次大賽要求參賽者基于給定的近 3 個(gè)月購(gòu)買(mǎi)過(guò)目標(biāo)商品的用戶(hù)以及他們?cè)谇耙荒甑臑g覽、購(gòu)買(mǎi)、評(píng)價(jià)等數(shù)據(jù)信息,自行設(shè)計(jì)數(shù)據(jù)處理相關(guān)操作、訓(xùn)練模型,從而預(yù)測(cè)未來(lái) 1 個(gè)月內(nèi)最有可能購(gòu)買(mǎi)目標(biāo)品類(lèi)的用戶(hù),并預(yù)測(cè)他們?cè)诳疾鞎r(shí)間段內(nèi)的首次購(gòu)買(mǎi)日期。數(shù)據(jù)主要包括用戶(hù)基本信息、SKU 基本信息、用戶(hù)行為信息、用戶(hù)下單信息及評(píng)價(jià)信息。
6.2018 DF 風(fēng)機(jī)葉片開(kāi)裂預(yù)警
本次大賽要求參賽者基于風(fēng)機(jī) SCADA 實(shí)時(shí)數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、統(tǒng)計(jì)分析等方法建立葉片開(kāi)裂早期故障檢測(cè)模型,對(duì)葉片開(kāi)裂故障進(jìn)行提前告警。比賽提供的數(shù)據(jù)集包括訓(xùn)練集和測(cè)試集:訓(xùn)練集一共有 25 類(lèi)風(fēng)機(jī)共 4 萬(wàn)個(gè)樣本,測(cè)試集沒(méi)有風(fēng)機(jī)編號(hào),共 8 萬(wàn)個(gè)樣本。
Rank2:https://github.com/SY575/DF-Early-warning-of-the-wind-power-system
本次大賽要求參賽者在分析光伏發(fā)電原理的基礎(chǔ)上,論證輻照度、光伏板工作溫度等影響光伏輸出功率的因素,通過(guò)實(shí)時(shí)監(jiān)測(cè)的光伏板運(yùn)行狀態(tài)參數(shù)和氣象參數(shù)建立預(yù)測(cè)模型,預(yù)估光伏電站瞬時(shí)發(fā)電量,并根據(jù)光伏電站 DCS 系統(tǒng)提供的實(shí)際發(fā)電量數(shù)據(jù)進(jìn)行對(duì)比分析,驗(yàn)證模型的實(shí)際應(yīng)用價(jià)值。
比賽提供訓(xùn)練集 9000 個(gè)點(diǎn),測(cè)試集 8000 個(gè),包括光伏板運(yùn)行狀態(tài)參數(shù)(太陽(yáng)能電池板背板溫度、其組成的光伏陣列的電壓和電流)和氣象參數(shù)(太陽(yáng)能輻照度、環(huán)境溫濕度、風(fēng)速、風(fēng)向等)。
Rank1:https://zhuanlan.zhihu.com/p/44755488?utm_source=qq&utm_medium=social&utm_oi=623925402599559168 (這一方案也可查看微信文章:《XGBoost+LightGBM+LSTM:一次機(jī)器學(xué)習(xí)比賽中的高分模型方案》https://mp.weixin.qq.com/s/Yix0xVp2SiqaAcuS6Q049g)
8.AI 全球挑戰(zhàn)者大賽—違約用戶(hù)風(fēng)險(xiǎn)預(yù)測(cè)
本次大賽要求參賽者基于馬上金融平臺(tái)提供的近 7 萬(wàn)貸款用戶(hù)的基本身份信息、消費(fèi)行為、銀行還款等數(shù)據(jù)信息,建立準(zhǔn)確的風(fēng)險(xiǎn)控制模型,來(lái)預(yù)測(cè)用戶(hù)是否會(huì)逾期還款。
9.2016 融 360-用戶(hù)貸款風(fēng)險(xiǎn)預(yù)測(cè)
本次大賽要求參賽者基于由融 360 與平臺(tái)上的金融機(jī)構(gòu)合作的提供近 7 萬(wàn)貸款用戶(hù)的基本身份信息、消費(fèi)行為、銀行還款等數(shù)據(jù)信息,建立準(zhǔn)確的風(fēng)險(xiǎn)控制模型,來(lái)預(yù)測(cè)用戶(hù)是否會(huì)逾期還款。
10.2016 CCF-020 優(yōu)惠券使用預(yù)測(cè)
本次大賽要求參賽者基于給定的用戶(hù)在 2016 年 1 月 1 日至 2016 年 6 月 30 日之間真實(shí)線(xiàn)上線(xiàn)下消費(fèi)行為,預(yù)測(cè)用戶(hù)在 2016 年 7 月領(lǐng)取優(yōu)惠券后 15 天以?xún)?nèi)是否核銷(xiāo)。比賽評(píng)測(cè)指標(biāo)采用 AUC,先對(duì)每個(gè)優(yōu)惠券單獨(dú)計(jì)算核銷(xiāo)預(yù)測(cè)的 AUC 值,再對(duì)所有優(yōu)惠券的 AUC 值求平均作為最終的評(píng)價(jià)標(biāo)準(zhǔn)。
11.2016 CCF-農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)
本次大賽要求參賽者基于 2016 年 6 月以前的農(nóng)產(chǎn)品價(jià)格數(shù)據(jù),預(yù)測(cè) 7 月的農(nóng)產(chǎn)品價(jià)格。本題目初賽基于全國(guó)各農(nóng)場(chǎng)品交易市場(chǎng)的價(jià)格數(shù)據(jù),復(fù)賽則加上天氣等多源數(shù)據(jù)。
國(guó)家電網(wǎng)通過(guò)對(duì)用戶(hù)及所屬變壓器進(jìn)行異常監(jiān)測(cè),并通過(guò)現(xiàn)場(chǎng)檢修人員根據(jù)異常情況對(duì)用戶(hù)進(jìn)行抽檢,并反饋檢查結(jié)果,如發(fā)現(xiàn)為竊電用戶(hù),將反饋竊電用戶(hù)信息。本賽題要求參賽者通過(guò)提供的相關(guān)數(shù)據(jù)與檢查人員檢查結(jié)果,建立竊電檢測(cè)模型,識(shí)別用戶(hù)竊電行為。
13.2016 CCF-搜狗的用戶(hù)畫(huà)像比賽
本題目初賽時(shí)要求參賽者基于給出的 2 萬(wàn)用戶(hù)的百萬(wàn)級(jí)搜索詞,以及經(jīng)過(guò)調(diào)查得到的真實(shí)性別、年齡段、學(xué)歷這一訓(xùn)練集,通過(guò)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)構(gòu)建分類(lèi)算法對(duì)另外 2 萬(wàn)人群的搜索關(guān)鍵詞進(jìn)行分析,并給出其性別、年齡段、學(xué)歷等用戶(hù)屬性信息。復(fù)賽時(shí),訓(xùn)練集與測(cè)試集規(guī)模均擴(kuò)展至 10 萬(wàn)用戶(hù)。
精準(zhǔn)營(yíng)銷(xiāo)是互聯(lián)網(wǎng)營(yíng)銷(xiāo)和廣告營(yíng)銷(xiāo)的新方向,特別是在用戶(hù)身處特定的地點(diǎn)、商戶(hù),如何根據(jù)用戶(hù)畫(huà)像進(jìn)行商戶(hù)和用戶(hù)的匹配,并將相應(yīng)的優(yōu)惠和廣告信息通過(guò)不同渠道進(jìn)行推送,成為了很多互聯(lián)網(wǎng)和非互聯(lián)網(wǎng)企業(yè)的新發(fā)展方向。本賽題以其中一個(gè)營(yíng)銷(xiāo)場(chǎng)景為例,要求參賽者基于提供的用戶(hù)位置信息、商戶(hù)分類(lèi)與位置信息等數(shù)據(jù),完成用戶(hù)畫(huà)像的刻畫(huà)并進(jìn)行商戶(hù)匹配。
僅 2016 上半年,AdMaster 反作弊解決方案認(rèn)定平均每天能有高達(dá) 28% 的虛假流量,即由機(jī)器人模擬和黑 IP 等手段導(dǎo)致的非人惡意流量。本賽題要求參賽者通過(guò)用戶(hù)行為日志,自動(dòng)檢測(cè)出這些虛假流量。
16.菜鳥(niǎo)-需求預(yù)測(cè)與分倉(cāng)規(guī)劃
本賽題要求參賽者以歷史一年海量買(mǎi)家和賣(mài)家的數(shù)據(jù)為依據(jù),預(yù)測(cè)某商品在未來(lái)二周全國(guó)和區(qū)域性需求量。參賽者需要用數(shù)據(jù)挖掘技術(shù)和方法精準(zhǔn)刻畫(huà)商品需求的變動(dòng)規(guī)律,對(duì)未來(lái)的全國(guó)和區(qū)域性需求量進(jìn)行預(yù)測(cè),同時(shí)考慮到未來(lái)的不確定性對(duì)物流成本的影響,做到全局的最優(yōu)化。比賽提供商品從 2014年 10 月 10 日到 2015 年 12 月 27 日的全國(guó)和區(qū)域分倉(cāng)數(shù)據(jù)。
Rank6: https://github.com/wepe/CaiNiao-DemandForecast-StoragePlaning
1.2018 DC 達(dá)觀(guān)-文本智能處理挑戰(zhàn)
此次比賽要求參賽者基于達(dá)觀(guān)數(shù)據(jù)提供的一批長(zhǎng)文本數(shù)據(jù)和分類(lèi)信息,結(jié)合當(dāng)下最先進(jìn)的 NLP 和人工智能技術(shù),深入分析文本內(nèi)在結(jié)構(gòu)和語(yǔ)義信息,構(gòu)建文本分類(lèi)模型,實(shí)現(xiàn)精準(zhǔn)分類(lèi)。比賽提供的數(shù)據(jù)包含訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集 2 個(gè) csv 文件。
2. 智能客服問(wèn)題相似度算法設(shè)計(jì)——第三屆魔鏡杯大賽
本次大賽要求參賽者基于拍拍貸提供的智能客服聊天機(jī)器人真實(shí)數(shù)據(jù),以自然語(yǔ)言處理和文本挖掘技術(shù)為主要探索對(duì)象,利用這些資源開(kāi)發(fā)一種提高智能客服的識(shí)別能力和服務(wù)質(zhì)量的算法。
3.2018JD Dialog Challenge 任務(wù)導(dǎo)向型對(duì)話(huà)系統(tǒng)挑戰(zhàn)賽
本次大賽要求參賽者基于京東用戶(hù)與京東人工客服真實(shí)對(duì)話(huà)數(shù)據(jù)(脫敏后)以及給定的對(duì)話(huà)數(shù)據(jù)進(jìn)行分析,構(gòu)建端到端的任務(wù)驅(qū)動(dòng)型多輪對(duì)話(huà)系統(tǒng),輸出滿(mǎn)足用戶(hù)需求的答案——該答案需要能正確、完整且高效地解決問(wèn)題,為用戶(hù)帶來(lái)簡(jiǎn)單、省心、智能的購(gòu)物咨詢(xún)體驗(yàn)。
4.2018CIKM AnalytiCup – 阿里小蜜機(jī)器人跨語(yǔ)言短文本匹配算法競(jìng)賽
本次大賽關(guān)注短文本匹配在語(yǔ)言適應(yīng)的問(wèn)題,源語(yǔ)言為英語(yǔ),目標(biāo)語(yǔ)言為西班牙語(yǔ)。比賽要求參賽者建立跨語(yǔ)言短文本匹配模型,來(lái)提升智能客服機(jī)器人的能力。
另外,Smilexuhc 還為大家提供了兩篇經(jīng)驗(yàn)文章,大家感興趣的話(huà)可以一并收藏向前輩們?nèi)∪〗?jīng)。
經(jīng)驗(yàn)文章
《介紹 featexp一個(gè)幫助理解特征的工具包》:http://www.sohu.com/a/273552971_129720
《Ask Me Anything session with a Kaggle Grandmaster Vladimir I. Iglovikov》PDF:https://pan.baidu.com/s/1XkFwko_YrI5TfjjIai7ONQ
Via:https://github.com/Smilexuhc/Data-Competition-TopSolution
此前,雷鋒網(wǎng) AI 科技評(píng)論也對(duì)一些數(shù)據(jù)競(jìng)賽進(jìn)行了報(bào)道,感興趣的同學(xué)可以前往閱讀往期報(bào)道:
京東 AI Fashion-Challenge 挑戰(zhàn)賽冠軍方案詳解(風(fēng)格識(shí)別+時(shí)尚單品搜索):http://www.ozgbdpf.cn/news/201809/LBNzpCx58L98oK7M.html
ICPR 圖像識(shí)別與檢測(cè)挑戰(zhàn)賽冠軍方案出爐,基于偏旁部首來(lái)識(shí)別 Duang 字:http://www.ozgbdpf.cn/news/201808/CkFtca7oz5h2oCp8.html
KDD Cup 2018 冠軍「 first floor to eat latiao」:為什么取這個(gè)隊(duì)名?因?yàn)榇蠹叶紣?ài)辣條:http://www.ozgbdpf.cn/news/201808/srcNcc3AWQTTJl4z.html
「2018 機(jī)器閱讀理解技術(shù)競(jìng)賽」落下帷幕,看奇點(diǎn)機(jī)智如何從 800 多支隊(duì)伍中殺出重圍:http://www.ozgbdpf.cn/news/201805/zB0caxkxv73YF8F9.html
看阿里 AliOS 神燈團(tuán)隊(duì)在推薦系統(tǒng)上的獨(dú)門(mén)秘籍:http://www.ozgbdpf.cn/news/201804/du0koPNyTZwLSb7x.html
專(zhuān)訪(fǎng)訊飛病灶分割比賽優(yōu)勝團(tuán)隊(duì),年內(nèi)會(huì)將該算法投入實(shí)用:http://www.ozgbdpf.cn/news/201803/B5qXDGkp5JUrJYWQ.html
Kaggle 大神 Eureka 的高手進(jìn)階之路:http://www.ozgbdpf.cn/news/201803/QtcJFW9OoDI8CMWA.html
亞馬遜 Alexa Prize 比賽冠軍團(tuán)隊(duì)專(zhuān)訪(fǎng):聊天機(jī)器人的突破與創(chuàng)新:http://www.ozgbdpf.cn/news/201801/ySAXM1p2Qhy20vts.html
KDD Cup 2017雙料冠軍是如何煉成的?我們向Convolution團(tuán)隊(duì)討教了他們的「成功方法論」:http://www.ozgbdpf.cn/news/201708/KVadVGXYYIudv6lr.html
圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠,獲獎(jiǎng)?wù)撐娜庾x:http://www.ozgbdpf.cn/news/201806/sFpN5c4zd0Z0fw32.html 雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。