0
本文作者: 黃善清 | 2019-08-19 19:24 | 專題:KDD 2019 |
雷鋒網(wǎng) AI 開發(fā)者按:KDD 2019 至今邁入第三天,在經(jīng)歷了首日 Tutorial Day 、次日 Workshop Day 的知識(shí)轟炸以及精彩的 Keynote 演講后,我們終于迎來了大會(huì)的高潮時(shí)刻——被譽(yù)為數(shù)據(jù)挖掘領(lǐng)域「奧運(yùn)會(huì)」的 KDD CUP。
今年的特別之處,在于 KDD CUP 2019 擁有了專屬的完整、獨(dú)立議程,不再感覺只是大會(huì)的附屬。同時(shí),KDD CUP 2019 也破天荒首次設(shè)立三個(gè)賽道,供世界數(shù)據(jù)挖掘界的頂尖專家、學(xué)者、工程師、學(xué)生等前來參賽。而賽事結(jié)果也讓人感到驚喜——三個(gè)賽道的冠軍悉數(shù)被華人面孔拿下。
KDD CUP 有了屬于自己的 DAY
AI 開發(fā)者從官網(wǎng)獲取的最新議程顯示,作為 KDD 2019 “Main Conference Day”的重頭戲之一,KDD CUP DAY與今年的應(yīng)用數(shù)據(jù)科學(xué) Invited Talks和Research Track 論文 Oral 兩大議程重疊,舉行時(shí)長(zhǎng)幾乎橫跨全日。
揉碎了細(xì)看,KDD CUP DAY 如今擁有主席致辭、頒獎(jiǎng)儀式、大會(huì)演講、Spotlight、Panel 等一系列完整的閉環(huán)議程,從中也反映了 KDD CUP 在整個(gè) KDD 大會(huì)中的分量。按此往下發(fā)展,KDD CUP 在未來完全擁有進(jìn)一步自主獨(dú)立的可能(搞事情!)。
KDD CUP DAY 完整議程
今年的 KDD CUP 一共獲得來自 39 個(gè)國家 230 所學(xué)術(shù)/研究機(jī)構(gòu)一共 2800 多支隊(duì)伍的注冊(cè)。其中 1200 支的活躍隊(duì)伍(總數(shù)超過 5000 人)提交了約 17000 份解決方案。
與這些“熱鬧”的數(shù)據(jù)相對(duì)的是,大會(huì)現(xiàn)場(chǎng)則要“冷靜”很多。也許是宣傳力度有所欠缺,再加上部分獲勝隊(duì)伍美簽未能成功批下,所以當(dāng) AI 開發(fā)者記者今早來到大會(huì)現(xiàn)場(chǎng)時(shí),人數(shù)要比想象中的少一些。
今年的KDD CUP 賽事共有三位聯(lián)合主席,他們是 Taposh Dutta-Roy(下圖右)、Wenjun Zhou(下圖左)以及 Iryna Skrypnyk(下圖中),分別供職于 Kaiser Permanente (KP)、田納西大學(xué)和Pfizer 。
KDD CUP 這 20 年
KDD CUP DAY 的一開始是組委會(huì)致辭環(huán)節(jié)。
首先打頭陣的是 Iryna Skrypnyk,她深情回顧了 KDD CUP 自 1997 年舉辦以來的賽題,以及這些賽題是如何與當(dāng)時(shí)的社會(huì)風(fēng)潮緊密結(jié)合的。她表示,自己親身參加了第一屆 KDD CUP 競(jìng)賽,至今依然感謝 KDD CUP 帶給她的指導(dǎo)意義。
為了讓讀者更清晰地看到 KDD CUP 的歷年賽題變化,AI 開發(fā)者特地做了完整梳理:
forecasting of air quality indices (2018),
highway tollgates traffic flow prediction (2017),
measuring impact of research institutions via prediction of scientific research papers acceptance rates and citations (2016),
prediction of course drop-outs for college students (2015),
prediction of fulfilled requests on educational materials made by school teachers to improve funding outcomes (2014),
resolving author-name ambiguity in scientific publications (2013),
prediction of followers and click-through rate to improve user engagement with the online content in social networks (2012),
identification of user tastes in music for Yahoo! music recommendation (2011),
prediction of student’s performance for improvements in education quality (2010),
prediction of customer relationship for personalization in CRM (2009),
early breast cancer detection from medical imaging (2008),
user rating prediction to improve Netflix movie recommendation (2007),
pulmonary embolism detection from medical imaging data (2006),
categorization of search queries from an internet search engine (2005),
plus protein homology prediction in particle physics (2004),
prediction of paper citations and building citations graph for arXive (2003),
detect experimental evidence of gene expression from microbiology research papers for Flybase using their gene-expression curation criteria (2002),
prediction of molecular bioactivity and plus protein locale for drug design (2001),
clickstream analysis for online retailer web-site (2000),
prediction of attack type in network intrusion detection (1999),
identify response to the mailing in direct marketing for profit optimization (1998, 1997)
此外,她也分享了賽事在經(jīng)過這 20 多年發(fā)展后所經(jīng)歷的變化,其中包括:
面臨的問題復(fù)雜化
關(guān)注焦點(diǎn)從機(jī)器學(xué)習(xí)轉(zhuǎn)向特征工程筆記
數(shù)據(jù)工程開始占據(jù)主導(dǎo)地位
鼓勵(lì)開源代碼
涌現(xiàn)新的應(yīng)用領(lǐng)域
防泄漏成重要議題
更復(fù)雜的評(píng)分功能
采用更多比賽平臺(tái)
代碼提交問題
緊接著發(fā)言的 Taposh Dutta-Roy,先用一張 PPT 提出一個(gè)很有意思的問題:最早通過競(jìng)賽方式組織人群解決問題的賽事是哪個(gè)?隨后公布的答案顯示,是英國經(jīng)度委員會(huì)于 1714 年組織的“測(cè)定海上船只經(jīng)度”賽事。
他想借此說明舉辦賽事的價(jià)值與意義。
他補(bǔ)充,賽事如今已深刻影響著業(yè)內(nèi)的個(gè)體、企業(yè)與研究機(jī)構(gòu)。
首設(shè) 3 個(gè)賽道
Wenjun Zhou 在接下來的致辭中,代表組委會(huì)分享了今年在選擇賽題上的考量。分享中她一再強(qiáng)調(diào),如何讓賽事在具有挑戰(zhàn)性之余,同時(shí)在可控范圍之內(nèi),是本次組委會(huì)考慮得最多的事情。
最終組委會(huì)確立了 Regular ML、Auto-ML、Humanity RL 三個(gè)賽道,分別由百度、第四范式以及 IBM 承辦。
百度以「智能出行」為主題布置了兩大任務(wù),分別為「場(chǎng)景感知的多模態(tài)出行推薦」與「開放應(yīng)用挑戰(zhàn)賽」。
AutoML 的參賽者需要利用時(shí)序關(guān)系數(shù)據(jù),設(shè)計(jì)一個(gè)能夠自主(無人為干預(yù))實(shí)現(xiàn)監(jiān)督學(xué)習(xí)的 AutoML 計(jì)算機(jī)程序。
Humanity RL 賽道的參賽者需要為順序決策制定任務(wù)開發(fā)出一套高性能工具,從而形成可能影響撒哈拉以南非洲瘧疾政策的解決方案。
此外,她也以分享了組委會(huì)最終決定設(shè)立三個(gè)賽道的原因。如下圖所示,排在第一位的原因,是提案數(shù)的暴增,由此可見 KDD CUP 對(duì)于業(yè)內(nèi)企業(yè)的吸引力。其中強(qiáng)化學(xué)習(xí)賽道為 KDD CUP 首創(chuàng),值得一提的是,上午大會(huì)環(huán)節(jié)專門安排了一場(chǎng)與強(qiáng)化學(xué)習(xí)相關(guān)的主題演講,可見強(qiáng)化學(xué)習(xí)在當(dāng)下的受歡迎程度。
接下來公布的數(shù)據(jù)從側(cè)面反映了 KDD CUP 逐年壯大的趨勢(shì),其中今年的獎(jiǎng)金池整體超過了 10 萬美金。
獎(jiǎng)金池與參賽隊(duì)伍數(shù)量都是歷年之最!
尷尬卻不失禮貌的頒獎(jiǎng)環(huán)節(jié)
KDD CUP 2019 所有賽道的結(jié)果早已在官網(wǎng)公布,今早的頒獎(jiǎng)環(huán)節(jié),更多的是強(qiáng)調(diào)一種儀式感,讓參賽者們也能擁有屬于自己的舞臺(tái)。
然而令人尷尬的是,由于很多參賽者因?yàn)檫@個(gè)或那個(gè)原因未能到場(chǎng)(美簽未被批是主要原因),導(dǎo)致相關(guān)環(huán)節(jié)只能匆匆結(jié)束。
不過頒獎(jiǎng)環(huán)節(jié)依然有值得一提內(nèi)容,比如三個(gè)賽道的冠軍悉數(shù)被華人隊(duì)伍拿下:
Regular ML 賽道(任務(wù)一):
Shiwen Cui, Changhua Meng, Can Yi, Weiqiang Wang, Xing Zhao, Long Guo(螞蟻金服)
* Regular ML 賽道完整獲獎(jiǎng)名單:https://www.kdd.org/kdd2019/docs/Winners_Regular_Baidu.pdf
Auto-ML 賽道:
Zhipeng Luo(深蘭科技),Jianqiang Huang(北京大學(xué)),Mingjian Chen,Bohang Zheng(深蘭科技)
* Auto-ML 賽道完整獲獎(jiǎng)名單:https://www.kdd.org/kdd2019/docs/Winners_AutoML_4Paradigm.pdf
Humanity RL 賽道:
Zi-Kuan Huang, Jing-Jing Xiao, Hung-Yu Kao, 國立成功大學(xué)
* Humanity RL 賽道完整獲獎(jiǎng)名單:https://www.kdd.org/kdd2019/docs/Winners_Humanity_RL_IBM.pdf
他們也大多都有代表到場(chǎng)領(lǐng)獎(jiǎng):
Auto-ML 賽道的冠軍隊(duì)伍
Regular ML 賽道的冠軍隊(duì)伍
而作為百度承辦的 Regular ML 賽道頒獎(jiǎng)人代表,熊輝教授分享了一個(gè)有意思的數(shù)據(jù),那就是百度今年提供的賽事獎(jiǎng)金池為 KDD CUP 的歷年之最,其中任務(wù)一的優(yōu)勝隊(duì)伍將能獲得高達(dá) 10 000 美金的獎(jiǎng)金!
后記
從單獨(dú)設(shè)立 KDD CUP DAY、突破記錄的參賽隊(duì)伍與獎(jiǎng)金池來看,KDD CUP 的影響力早已毋庸置疑。然而首創(chuàng)三賽道、首設(shè)強(qiáng)化學(xué)習(xí)賽道,也讓我們看到今年的組委會(huì)并未固步自封,而是愿意不斷挑戰(zhàn)自己,在為業(yè)界解決系列重要問題之余,也樹立起了新的數(shù)據(jù)科學(xué)賽事標(biāo)桿。
這讓人忍不住期待,擁有了自己獨(dú)立議程后的 KDD CUP,往后又會(huì)給我們帶來哪些驚喜。
雷鋒網(wǎng) AI 開發(fā)者雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章