0
本文作者: 汪思穎 | 2019-04-03 19:44 |
雷鋒網(wǎng) AI 科技評論消息,KDD 2019 將于今年 8 月 4 日—8 日在美國阿拉斯加州安克雷奇市舉行,隨著投稿的結束,會議的臨近,一年一度的 KDD Cup 也開始啟動報名啦。
不同于去年的單項賽事,今年共分為三項比賽:
常規(guī)機器學習挑戰(zhàn)賽(Regular ML Track)
自動機器學習挑戰(zhàn)賽(Auto-ML Track)
以人為本的強化學習挑戰(zhàn)賽(Humanity RL Track)
目前,Auto-ML 挑戰(zhàn)賽已經進入比賽階段,冠軍將獲得 15000 美元獎金,亞軍將獲得 10000 美元獎金,季軍將獲得 5000 美元獎金。值得一提的是,今年賽事的主辦權,又一次花落中國——Auto-ML 挑戰(zhàn)賽由中國公司第四范式主辦,ChaLearn 和微軟協(xié)辦。
競賽者需要利用時序關系數(shù)據(jù),設計一個能夠自主(無人為干預)實現(xiàn)監(jiān)督學習的 AutoML 計算機程序。此次比賽將聚焦在二分類問題,且時序關系數(shù)據(jù)均來自實際業(yè)務場景。根據(jù)大多數(shù)實際應用的時間屬性,數(shù)據(jù)集按時間順序劃分為訓練集和測試集。訓練集和測試集都由一個主表、一組相關表和一個關系圖組成:
主表包含帶有樣本標記、部分特征和時序標簽的實例,用于二分類;
相關表包含了主表中實例的重要輔助信息,可用于提高預測效果。相關表中的字段可能含有時間標簽,意味著該表中的信息與時間有關;
不同表中數(shù)據(jù)之間的關系用關系圖描述。需要注意的是,任何兩個表(主表或相關表)都可以有一個關系,任何一對表最多只能有一個關系。主辦方保證訓練集和測試集的關系圖是相同的。
參賽者需要提交通過主表、相關表和關系圖自動構建機器學習模型的 AutoML 方案。一旦經過訓練,模型將以測試主表(不包括樣本標記)、相關表和關系圖作為輸入,并預測測試集的樣本標記。參賽者提交的方案將在受限制的計算資源和時間內進行測試。
為了讓參賽者能夠更好的開發(fā)并評估方案,主辦方提供了 10 個時序關系數(shù)據(jù)集,包括 5 個公共數(shù)據(jù)集,5 個私有數(shù)據(jù)集。
比賽共分為三個階段:
Feedback 階段:反饋階段。在此階段,參賽者可以在五個公共數(shù)據(jù)集上進行訓練,開發(fā) AutoML 方案。參賽者可以進行有限數(shù)量的提交,并獲得作為反饋的所有五個公共數(shù)據(jù)集的測試數(shù)據(jù)的性能。參賽者可以下載有標記的訓練數(shù)據(jù)集和未標記的測試數(shù)據(jù)集。因此,參賽者可以在線下準備他們的代碼并提交。該階段最后的代碼提交將最終作為下一階段進行盲測的代碼。
Check 階段:校驗階段。該階段將在五個私有數(shù)據(jù)集上對第一階段的最后一次提交的代碼進行盲測,確保提交的方案順利運行,不會出現(xiàn)例如超時或者內存溢出等問題,但參賽者無法看到具體的結果,所有小組具備一次更新代碼的機會,以保證在最終階段正確的運行自己的代碼。
AutoML 階段:即盲試階段。該階段將測試方案在私有數(shù)據(jù)集上的性能。參賽者的代碼將在無需人為干預情況下完成訓練和預測。AUC 作為評價指標,最終將根據(jù)五個私有數(shù)據(jù)集的平均排名進行評分。若最終比分相同,則優(yōu)先考慮可解釋性更好的方案,可解釋性將由專家團隊評審。
以上三個階段的計算及內存資源均有所限制,因此方案應兼顧效果及效率。
時間軸如下:
2019 年 4 月 1 日:比賽開始,發(fā)布公共數(shù)據(jù)集。參與者可以開始提交代碼并在排行榜上獲得即時反饋信息。
2019 年 6 月 27 日:Feedback 階段結束,F(xiàn)eedback 階段的代碼自動遷移到 Test 階段。
2019 年 7 月 7 日:Check 階段結束,主辦方開始代碼驗證。
2019 年 7 月 11 日:提交報告截止。
2019 年 7 月 16 日:AutoML 階段結束,開始評審流程。
2019 年 7 月 20 日:宣布 KDD Cup 冠軍。
2019 年 8 月 4 日:舉辦頒獎儀式
大賽官網(wǎng):https://www.4paradigm.com/competition/kddcup2019
報名地址:https://competitions.codalab.org/competitions/21948
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權文章,未經授權禁止轉載。詳情見轉載須知。