0
本文作者: 汪思穎 | 2019-04-03 19:44 |
雷鋒網(wǎng) AI 科技評(píng)論消息,KDD 2019 將于今年 8 月 4 日—8 日在美國(guó)阿拉斯加州安克雷奇市舉行,隨著投稿的結(jié)束,會(huì)議的臨近,一年一度的 KDD Cup 也開始啟動(dòng)報(bào)名啦。
不同于去年的單項(xiàng)賽事,今年共分為三項(xiàng)比賽:
常規(guī)機(jī)器學(xué)習(xí)挑戰(zhàn)賽(Regular ML Track)
自動(dòng)機(jī)器學(xué)習(xí)挑戰(zhàn)賽(Auto-ML Track)
以人為本的強(qiáng)化學(xué)習(xí)挑戰(zhàn)賽(Humanity RL Track)
目前,Auto-ML 挑戰(zhàn)賽已經(jīng)進(jìn)入比賽階段,冠軍將獲得 15000 美元獎(jiǎng)金,亞軍將獲得 10000 美元獎(jiǎng)金,季軍將獲得 5000 美元獎(jiǎng)金。值得一提的是,今年賽事的主辦權(quán),又一次花落中國(guó)——Auto-ML 挑戰(zhàn)賽由中國(guó)公司第四范式主辦,ChaLearn 和微軟協(xié)辦。
競(jìng)賽者需要利用時(shí)序關(guān)系數(shù)據(jù),設(shè)計(jì)一個(gè)能夠自主(無人為干預(yù))實(shí)現(xiàn)監(jiān)督學(xué)習(xí)的 AutoML 計(jì)算機(jī)程序。此次比賽將聚焦在二分類問題,且時(shí)序關(guān)系數(shù)據(jù)均來自實(shí)際業(yè)務(wù)場(chǎng)景。根據(jù)大多數(shù)實(shí)際應(yīng)用的時(shí)間屬性,數(shù)據(jù)集按時(shí)間順序劃分為訓(xùn)練集和測(cè)試集。訓(xùn)練集和測(cè)試集都由一個(gè)主表、一組相關(guān)表和一個(gè)關(guān)系圖組成:
主表包含帶有樣本標(biāo)記、部分特征和時(shí)序標(biāo)簽的實(shí)例,用于二分類;
相關(guān)表包含了主表中實(shí)例的重要輔助信息,可用于提高預(yù)測(cè)效果。相關(guān)表中的字段可能含有時(shí)間標(biāo)簽,意味著該表中的信息與時(shí)間有關(guān);
不同表中數(shù)據(jù)之間的關(guān)系用關(guān)系圖描述。需要注意的是,任何兩個(gè)表(主表或相關(guān)表)都可以有一個(gè)關(guān)系,任何一對(duì)表最多只能有一個(gè)關(guān)系。主辦方保證訓(xùn)練集和測(cè)試集的關(guān)系圖是相同的。
參賽者需要提交通過主表、相關(guān)表和關(guān)系圖自動(dòng)構(gòu)建機(jī)器學(xué)習(xí)模型的 AutoML 方案。一旦經(jīng)過訓(xùn)練,模型將以測(cè)試主表(不包括樣本標(biāo)記)、相關(guān)表和關(guān)系圖作為輸入,并預(yù)測(cè)測(cè)試集的樣本標(biāo)記。參賽者提交的方案將在受限制的計(jì)算資源和時(shí)間內(nèi)進(jìn)行測(cè)試。
為了讓參賽者能夠更好的開發(fā)并評(píng)估方案,主辦方提供了 10 個(gè)時(shí)序關(guān)系數(shù)據(jù)集,包括 5 個(gè)公共數(shù)據(jù)集,5 個(gè)私有數(shù)據(jù)集。
比賽共分為三個(gè)階段:
Feedback 階段:反饋階段。在此階段,參賽者可以在五個(gè)公共數(shù)據(jù)集上進(jìn)行訓(xùn)練,開發(fā) AutoML 方案。參賽者可以進(jìn)行有限數(shù)量的提交,并獲得作為反饋的所有五個(gè)公共數(shù)據(jù)集的測(cè)試數(shù)據(jù)的性能。參賽者可以下載有標(biāo)記的訓(xùn)練數(shù)據(jù)集和未標(biāo)記的測(cè)試數(shù)據(jù)集。因此,參賽者可以在線下準(zhǔn)備他們的代碼并提交。該階段最后的代碼提交將最終作為下一階段進(jìn)行盲測(cè)的代碼。
Check 階段:校驗(yàn)階段。該階段將在五個(gè)私有數(shù)據(jù)集上對(duì)第一階段的最后一次提交的代碼進(jìn)行盲測(cè),確保提交的方案順利運(yùn)行,不會(huì)出現(xiàn)例如超時(shí)或者內(nèi)存溢出等問題,但參賽者無法看到具體的結(jié)果,所有小組具備一次更新代碼的機(jī)會(huì),以保證在最終階段正確的運(yùn)行自己的代碼。
AutoML 階段:即盲試階段。該階段將測(cè)試方案在私有數(shù)據(jù)集上的性能。參賽者的代碼將在無需人為干預(yù)情況下完成訓(xùn)練和預(yù)測(cè)。AUC 作為評(píng)價(jià)指標(biāo),最終將根據(jù)五個(gè)私有數(shù)據(jù)集的平均排名進(jìn)行評(píng)分。若最終比分相同,則優(yōu)先考慮可解釋性更好的方案,可解釋性將由專家團(tuán)隊(duì)評(píng)審。
以上三個(gè)階段的計(jì)算及內(nèi)存資源均有所限制,因此方案應(yīng)兼顧效果及效率。
時(shí)間軸如下:
2019 年 4 月 1 日:比賽開始,發(fā)布公共數(shù)據(jù)集。參與者可以開始提交代碼并在排行榜上獲得即時(shí)反饋信息。
2019 年 6 月 27 日:Feedback 階段結(jié)束,F(xiàn)eedback 階段的代碼自動(dòng)遷移到 Test 階段。
2019 年 7 月 7 日:Check 階段結(jié)束,主辦方開始代碼驗(yàn)證。
2019 年 7 月 11 日:提交報(bào)告截止。
2019 年 7 月 16 日:AutoML 階段結(jié)束,開始評(píng)審流程。
2019 年 7 月 20 日:宣布 KDD Cup 冠軍。
2019 年 8 月 4 日:舉辦頒獎(jiǎng)儀式
大賽官網(wǎng):https://www.4paradigm.com/competition/kddcup2019
報(bào)名地址:https://competitions.codalab.org/competitions/21948
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。