KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

本文作者：黃善清

2019-08-19 19:24

專題：KDD 2019

導語：三個賽道的冠軍悉數(shù)被華人面孔拿下。

雷鋒網(wǎng) AI 開發(fā)者按：KDD 2019 至今邁入第三天，在經(jīng)歷了首日 Tutorial Day 、次日 Workshop Day 的知識轟炸以及精彩的 Keynote 演講后，我們終于迎來了大會的高潮時刻——被譽為數(shù)據(jù)挖掘領域「奧運會」的 KDD CUP。

今年的特別之處，在于 KDD CUP 2019 擁有了專屬的完整、獨立議程，不再感覺只是大會的附屬。同時，KDD CUP 2019 也破天荒首次設立三個賽道，供世界數(shù)據(jù)挖掘界的頂尖專家、學者、工程師、學生等前來參賽。而賽事結(jié)果也讓人感到驚喜——三個賽道的冠軍悉數(shù)被華人面孔拿下。

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

KDD CUP 有了屬于自己的 DAY

AI 開發(fā)者從官網(wǎng)獲取的最新議程顯示，作為 KDD 2019 “Main Conference Day”的重頭戲之一，KDD CUP DAY與今年的應用數(shù)據(jù)科學 Invited Talks和Research Track 論文 Oral 兩大議程重疊，舉行時長幾乎橫跨全日。

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

揉碎了細看，KDD CUP DAY 如今擁有主席致辭、頒獎儀式、大會演講、Spotlight、Panel 等一系列完整的閉環(huán)議程，從中也反映了 KDD CUP 在整個 KDD 大會中的分量。按此往下發(fā)展，KDD CUP 在未來完全擁有進一步自主獨立的可能（搞事情?。?。

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

KDD CUP DAY 完整議程

今年的 KDD CUP 一共獲得來自 39 個國家 230 所學術/研究機構(gòu)一共 2800 多支隊伍的注冊。其中 1200 支的活躍隊伍（總數(shù)超過 5000 人）提交了約 17000 份解決方案。

與這些“熱鬧”的數(shù)據(jù)相對的是，大會現(xiàn)場則要“冷靜”很多。也許是宣傳力度有所欠缺，再加上部分獲勝隊伍美簽未能成功批下，所以當 AI 開發(fā)者記者今早來到大會現(xiàn)場時，人數(shù)要比想象中的少一些。

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

今年的KDD CUP 賽事共有三位聯(lián)合主席，他們是 Taposh Dutta-Roy（下圖右）、Wenjun Zhou（下圖左）以及 Iryna Skrypnyk（下圖中），分別供職于 Kaiser Permanente (KP)、田納西大學和Pfizer 。

KDD CUP 這 20 年

KDD CUP DAY 的一開始是組委會致辭環(huán)節(jié)。

首先打頭陣的是 Iryna Skrypnyk，她深情回顧了 KDD CUP 自 1997 年舉辦以來的賽題，以及這些賽題是如何與當時的社會風潮緊密結(jié)合的。她表示，自己親身參加了第一屆 KDD CUP 競賽，至今依然感謝 KDD CUP 帶給她的指導意義。

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

為了讓讀者更清晰地看到 KDD CUP 的歷年賽題變化，AI 開發(fā)者特地做了完整梳理：

forecasting of air quality indices (2018),
highway tollgates traffic flow prediction (2017),
measuring impact of research institutions via prediction of scientific research papers acceptance rates and citations (2016),
prediction of course drop-outs for college students (2015),
prediction of fulfilled requests on educational materials made by school teachers to improve funding outcomes (2014),
resolving author-name ambiguity in scientific publications (2013),
prediction of followers and click-through rate to improve user engagement with the online content in social networks (2012),
identification of user tastes in music for Yahoo! music recommendation (2011),
prediction of student’s performance for improvements in education quality (2010),
prediction of customer relationship for personalization in CRM (2009),
early breast cancer detection from medical imaging (2008),
user rating prediction to improve Netflix movie recommendation (2007),
pulmonary embolism detection from medical imaging data (2006),
categorization of search queries from an internet search engine (2005),
plus protein homology prediction in particle physics (2004),
prediction of paper citations and building citations graph for arXive (2003),
detect experimental evidence of gene expression from microbiology research papers for Flybase using their gene-expression curation criteria (2002),
prediction of molecular bioactivity and plus protein locale for drug design (2001),
clickstream analysis for online retailer web-site (2000),
prediction of attack type in network intrusion detection (1999),
identify response to the mailing in direct marketing for profit optimization (1998, 1997)

此外，她也分享了賽事在經(jīng)過這 20 多年發(fā)展后所經(jīng)歷的變化，其中包括：

面臨的問題復雜化
關注焦點從機器學習轉(zhuǎn)向特征工程筆記
數(shù)據(jù)工程開始占據(jù)主導地位
鼓勵開源代碼
涌現(xiàn)新的應用領域
防泄漏成重要議題
更復雜的評分功能
采用更多比賽平臺
代碼提交問題

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

緊接著發(fā)言的 Taposh Dutta-Roy，先用一張 PPT 提出一個很有意思的問題：最早通過競賽方式組織人群解決問題的賽事是哪個？隨后公布的答案顯示，是英國經(jīng)度委員會于 1714 年組織的“測定海上船只經(jīng)度”賽事。

他想借此說明舉辦賽事的價值與意義。

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

他補充，賽事如今已深刻影響著業(yè)內(nèi)的個體、企業(yè)與研究機構(gòu)。

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

首設 3 個賽道

Wenjun Zhou 在接下來的致辭中，代表組委會分享了今年在選擇賽題上的考量。分享中她一再強調(diào)，如何讓賽事在具有挑戰(zhàn)性之余，同時在可控范圍之內(nèi)，是本次組委會考慮得最多的事情。

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

最終組委會確立了 Regular ML、Auto-ML、Humanity RL 三個賽道，分別由百度、第四范式以及 IBM 承辦。

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

百度以「智能出行」為主題布置了兩大任務，分別為「場景感知的多模態(tài)出行推薦」與「開放應用挑戰(zhàn)賽」。

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

AutoML 的參賽者需要利用時序關系數(shù)據(jù)，設計一個能夠自主（無人為干預）實現(xiàn)監(jiān)督學習的 AutoML 計算機程序。

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

Humanity RL 賽道的參賽者需要為順序決策制定任務開發(fā)出一套高性能工具，從而形成可能影響撒哈拉以南非洲瘧疾政策的解決方案。

此外，她也以分享了組委會最終決定設立三個賽道的原因。如下圖所示，排在第一位的原因，是提案數(shù)的暴增，由此可見 KDD CUP 對于業(yè)內(nèi)企業(yè)的吸引力。其中強化學習賽道為 KDD CUP 首創(chuàng)，值得一提的是，上午大會環(huán)節(jié)專門安排了一場與強化學習相關的主題演講，可見強化學習在當下的受歡迎程度。

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

接下來公布的數(shù)據(jù)從側(cè)面反映了 KDD CUP 逐年壯大的趨勢，其中今年的獎金池整體超過了 10 萬美金。

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

獎金池與參賽隊伍數(shù)量都是歷年之最！

尷尬卻不失禮貌的頒獎環(huán)節(jié)

KDD CUP 2019 所有賽道的結(jié)果早已在官網(wǎng)公布，今早的頒獎環(huán)節(jié)，更多的是強調(diào)一種儀式感，讓參賽者們也能擁有屬于自己的舞臺。

然而令人尷尬的是，由于很多參賽者因為這個或那個原因未能到場（美簽未被批是主要原因），導致相關環(huán)節(jié)只能匆匆結(jié)束。

不過頒獎環(huán)節(jié)依然有值得一提內(nèi)容，比如三個賽道的冠軍悉數(shù)被華人隊伍拿下：

Regular ML 賽道（任務一）：

Shiwen Cui, Changhua Meng, Can Yi, Weiqiang Wang, Xing Zhao, Long Guo（螞蟻金服）

* Regular ML 賽道完整獲獎名單：https://www.kdd.org/kdd2019/docs/Winners_Regular_Baidu.pdf

Auto-ML 賽道：

Zhipeng Luo（深蘭科技），Jianqiang Huang（北京大學），Mingjian Chen，Bohang Zheng（深蘭科技）

* Auto-ML 賽道完整獲獎名單：https://www.kdd.org/kdd2019/docs/Winners_AutoML_4Paradigm.pdf

Humanity RL 賽道：

Zi-Kuan Huang, Jing-Jing Xiao, Hung-Yu Kao, 國立成功大學

* Humanity RL 賽道完整獲獎名單：https://www.kdd.org/kdd2019/docs/Winners_Humanity_RL_IBM.pdf

他們也大多都有代表到場領獎：

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

Auto-ML 賽道的冠軍隊伍

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

Regular ML 賽道的冠軍隊伍

而作為百度承辦的 Regular ML 賽道頒獎人代表，熊輝教授分享了一個有意思的數(shù)據(jù)，那就是百度今年提供的賽事獎金池為 KDD CUP 的歷年之最，其中任務一的優(yōu)勝隊伍將能獲得高達 10 000 美金的獎金！

KDD CUP 2019 實錄：野心盡露的數(shù)據(jù)挖掘「奧林匹克」

后記

從單獨設立 KDD CUP DAY、突破記錄的參賽隊伍與獎金池來看，KDD CUP 的影響力早已毋庸置疑。然而首創(chuàng)三賽道、首設強化學習賽道，也讓我們看到今年的組委會并未固步自封，而是愿意不斷挑戰(zhàn)自己，在為業(yè)界解決系列重要問題之余，也樹立起了新的數(shù)據(jù)科學賽事標桿。

這讓人忍不住期待，擁有了自己獨立議程后的 KDD CUP，往后又會給我們帶來哪些驚喜。

雷鋒網(wǎng) AI 開發(fā)者雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

專題

KDD 2019

本專題其他文章

黃善清

編輯

發(fā)私信

當月熱門文章