丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給汪思穎
發(fā)送

0

KDD Cup 2018 冠軍「 first floor to eat latiao」:為什么取這個(gè)隊(duì)名?因?yàn)榇蠹叶紣劾睏l

本文作者: 汪思穎 2018-08-30 15:25
導(dǎo)語(yǔ):得到第一,將中華美食傳揚(yáng)出去~

提到 KDD Cup,相信數(shù)據(jù)挖掘領(lǐng)域的同學(xué)并不陌生。作為目前數(shù)據(jù)挖掘領(lǐng)域最有影響力、最高水平的國(guó)際頂級(jí)賽事,KDD Cup 至今已舉辦 21 屆,每年都會(huì)吸引世界數(shù)據(jù)挖掘界的頂尖專家、學(xué)者、工程師、學(xué)生等前來(lái)參賽,被外界譽(yù)為大數(shù)據(jù)領(lǐng)域的「奧運(yùn)會(huì)」。

今年的 KDD Cup 從空氣問(wèn)題入手,組委會(huì)在比賽中提供中國(guó)北京和英國(guó)倫敦的相關(guān)數(shù)據(jù),比賽選手需要預(yù)測(cè)未來(lái) 48 小時(shí)內(nèi) PM2.5, PM10 和 O3 的濃度(倫敦只需要預(yù)測(cè) PM2.5 和 PM10)。在 48 小時(shí)后,選手提交的結(jié)果將通過(guò)真實(shí)的天氣數(shù)據(jù)評(píng)分。

雖然 KDD Cup 2018 在今年 6 月就已經(jīng)結(jié)束,冠軍團(tuán)隊(duì)也早已揭曉,但對(duì)冠軍團(tuán)隊(duì)的正式頒獎(jiǎng)是在剛剛結(jié)束的 KDD 2018 上。

本次比賽共吸引了來(lái)自全球 4183 支隊(duì)伍,包括 49 個(gè)國(guó)家的 3000 多所學(xué)?;驒C(jī)構(gòu),北京郵電大學(xué)韓金棟、張前前、劉娟,中南大學(xué)羅賓理、蔣浩然組成的「first floor to eat latiao」團(tuán)隊(duì)在該項(xiàng)賽事中取得第一名。作為此次比賽的冠軍,「first floor to eat latiao」團(tuán)隊(duì)受邀參與此次大會(huì),在會(huì)上展示了他們的解決方案,也第一時(shí)間對(duì)雷鋒網(wǎng) AI 科技評(píng)論進(jìn)行分享。

KDD Cup 2018 冠軍「 first floor to eat latiao」:為什么取這個(gè)隊(duì)名?因?yàn)榇蠹叶紣劾睏l

看到隊(duì)名,相信大家便對(duì)這一團(tuán)隊(duì)充滿好奇。在組隊(duì)的時(shí)候,隊(duì)員張前前提出這個(gè)以吃為主題的名字,并得到大家全票通過(guò)?!肝覀兌己芟矚g吃辣條,辣條是中華民族的傳統(tǒng)美食,我們想要得第一,將中華美食傳揚(yáng)出去?!?/p>

團(tuán)員組成如下:

  • 隊(duì)長(zhǎng)韓金棟,北京郵電大學(xué)碩士在讀,喜歡用數(shù)學(xué)建模方法去解決實(shí)際生活中的問(wèn)題;

  • 隊(duì)員張前前,北京郵電大學(xué)碩士在讀,擅長(zhǎng)特征工程和深度學(xué)習(xí);

  • 隊(duì)員劉娟,北京郵電大學(xué)碩士在讀,對(duì)數(shù)據(jù)分析和數(shù)據(jù)可視化感興趣;

  • 隊(duì)員羅賓理,中南大學(xué)本科二年級(jí)在讀,擅長(zhǎng)特征工程和模型融合(騷操作);

  • 隊(duì)員蔣浩然,中南大學(xué)碩士在讀,擅長(zhǎng)數(shù)據(jù)分析與時(shí)間序列。

以下便是這一團(tuán)隊(duì)帶來(lái)的解決方案:

主要的挑戰(zhàn)有三點(diǎn):

  • 空氣質(zhì)量變化十分迅速,并且有很多突變點(diǎn);

  • 污染物會(huì)向周邊擴(kuò)散,具有復(fù)雜的空間依賴關(guān)系;

  • 空氣質(zhì)量受很多復(fù)雜因素的影響,因此需要很強(qiáng)的專業(yè)領(lǐng)域知識(shí)。

KDD Cup 2018 冠軍「 first floor to eat latiao」:為什么取這個(gè)隊(duì)名?因?yàn)榇蠹叶紣劾睏l

使用到的基本特征:

  •  過(guò)去 72 小時(shí)的空氣質(zhì)量

  •  預(yù)測(cè)前最后一小時(shí)的天氣

  •  未來(lái) 48 小時(shí)的天氣預(yù)報(bào)

  •  月份、周末、小時(shí)、假期、站點(diǎn) id

除了基本特征,我們還從時(shí)域、空域、頻域和專業(yè)領(lǐng)域知識(shí)四個(gè)方面分別構(gòu)建特征群,一共提取了 100 多個(gè)特征,這些特征是模型提分的關(guān)鍵。

  • 時(shí)域特征

利用預(yù)測(cè)時(shí)間附近天氣預(yù)報(bào)數(shù)據(jù)的統(tǒng)計(jì)(不同的統(tǒng)計(jì)方式,可以統(tǒng)計(jì)預(yù)測(cè)時(shí)間節(jié)點(diǎn)之前的統(tǒng)計(jì)信息,也可以以預(yù)測(cè)時(shí)間節(jié)點(diǎn)為中心進(jìn)行統(tǒng)計(jì))防止天氣突變。

針對(duì)短期預(yù)測(cè)問(wèn)題,過(guò)去的天氣變化可以影響到未來(lái)幾個(gè)小時(shí)的空氣質(zhì)量。因此我們?cè)O(shè)計(jì)了不同大小的窗口,用來(lái)提取過(guò)去天氣的統(tǒng)計(jì)特征,這些特征提高了模型的短期預(yù)測(cè)能力。

我們還發(fā)現(xiàn)未來(lái) 48 小時(shí)的天氣預(yù)報(bào)是影響空氣質(zhì)量長(zhǎng)期預(yù)測(cè)和突變預(yù)測(cè)的一個(gè)關(guān)鍵因素,因此我們針對(duì)未來(lái)的天氣預(yù)報(bào)設(shè)計(jì)了很多細(xì)粒度的特征,具體可以看下圖。如果綠色點(diǎn)是我們要預(yù)測(cè)的時(shí)間節(jié)點(diǎn),為了描述預(yù)測(cè)時(shí)間點(diǎn)之前和附近的天氣變化,我們使用滑動(dòng)窗口提取了預(yù)測(cè)時(shí)間點(diǎn)之前的天氣預(yù)報(bào)統(tǒng)計(jì)信息以及附近的天氣預(yù)報(bào)統(tǒng)計(jì)信息。通過(guò)這些特征,提高了長(zhǎng)期預(yù)測(cè)的準(zhǔn)確率。

KDD Cup 2018 冠軍「 first floor to eat latiao」:為什么取這個(gè)隊(duì)名?因?yàn)榇蠹叶紣劾睏l

此外,為了區(qū)分要預(yù)測(cè)的是第一天還是第二天,我們使用了一個(gè)標(biāo)志位特征,將預(yù)測(cè)時(shí)間標(biāo)為 0~47。

  • 頻域特征

為了得到時(shí)間序列中隱藏的周期信息和波動(dòng)信息,對(duì)空氣質(zhì)量,溫度,濕度,氣壓等時(shí)間序列進(jìn)行傅立葉變換,提取頻域特征。

  • 空域特征

未來(lái)的空氣質(zhì)量不僅與過(guò)去的空氣質(zhì)量有關(guān),而且還受到周邊空氣質(zhì)量和天氣的影響。為了對(duì)空間相關(guān)性進(jìn)行建模,我們針對(duì)過(guò)去的空氣質(zhì)量、天氣以及未來(lái)的天氣預(yù)報(bào)分別提取了表征空間相關(guān)性的特征。我們嘗試使用了所有的空氣質(zhì)量站點(diǎn)和天氣監(jiān)測(cè)站點(diǎn)的數(shù)據(jù),這樣會(huì)增大模型的復(fù)雜度,導(dǎo)致嚴(yán)重的過(guò)擬合。于是我們假設(shè)只有部分站點(diǎn)會(huì)對(duì)我們要預(yù)測(cè)的站點(diǎn)產(chǎn)生影響,并使用一些技巧去降低空間特征的輸入維度。

對(duì)于過(guò)去的空氣質(zhì)量和天氣,我們又將其分為兩類:

一類是沒有方向的特征,包括壓強(qiáng)、溫度、濕度。為了提取這類特征,我們使用兩個(gè)半徑不同的圓將待預(yù)測(cè)站點(diǎn)周邊劃分為兩個(gè)區(qū)域,分別為內(nèi)圓區(qū)域和外部的圓環(huán)區(qū)域,具體劃分方式可以見下圖。我們提取了每一個(gè)區(qū)域的壓強(qiáng)、溫度和濕度的均值。

KDD Cup 2018 冠軍「 first floor to eat latiao」:為什么取這個(gè)隊(duì)名?因?yàn)榇蠹叶紣劾睏l

另一類是有方向的特征,污染物濃度和風(fēng)的擴(kuò)散都是有方向的。為了建模這一類特征對(duì)空氣質(zhì)量的影響,我們將目標(biāo)站點(diǎn)的方位劃分為八個(gè)方向,分別考慮八個(gè)不同方向區(qū)域?qū)δ繕?biāo)站點(diǎn)的影響。對(duì)于每一個(gè)區(qū)域,提取其風(fēng)速和污染物濃度的均值。此外,我們又將風(fēng)向離散為八個(gè)方向,每一個(gè)區(qū)域的風(fēng)向由眾數(shù)決定。如果某一區(qū)域污染物濃度缺失,我們使用插值的方法進(jìn)行補(bǔ)全。

KDD Cup 2018 冠軍「 first floor to eat latiao」:為什么取這個(gè)隊(duì)名?因?yàn)榇蠹叶紣劾睏l

以上兩類特征我們均只提取了預(yù)測(cè)前最后一小時(shí)的數(shù)據(jù),這些特征對(duì)于短期預(yù)測(cè)起到了良好的效果。

對(duì)于未來(lái)的天氣預(yù)報(bào),由于天氣網(wǎng)格點(diǎn)和空氣質(zhì)量監(jiān)測(cè)站點(diǎn)的位置不是對(duì)應(yīng)的,因此我們采用了一種 k 近鄰的方法去提取空氣質(zhì)量監(jiān)測(cè)站點(diǎn)周邊的天氣網(wǎng)格點(diǎn)。具體做法是尋找距離空氣質(zhì)量檢測(cè)站點(diǎn)最近的四個(gè)天氣網(wǎng)格點(diǎn),使用這些網(wǎng)格點(diǎn)的特征表征未來(lái)天氣預(yù)報(bào)對(duì)空氣質(zhì)量的影響,這種方法可以提高長(zhǎng)期預(yù)測(cè)的準(zhǔn)確率。

KDD Cup 2018 冠軍「 first floor to eat latiao」:為什么取這個(gè)隊(duì)名?因?yàn)榇蠹叶紣劾睏l

  • 專業(yè)領(lǐng)域特征

查閱氣象學(xué)和空氣污染相關(guān)論文,通過(guò)風(fēng)向 uv 坐標(biāo)系,日照時(shí)長(zhǎng),不同時(shí)刻濕度的差值,污染物之間的相關(guān)性等方面提取特征。

模型

因?yàn)椴煌奈廴疚锞哂胁煌姆植?,因此需要分別對(duì)每一種污染物建模。我們采用微軟開源的 LightGBM,具體的建模方式可以參看下面這一張圖:

KDD Cup 2018 冠軍「 first floor to eat latiao」:為什么取這個(gè)隊(duì)名?因?yàn)榇蠹叶紣劾睏l

此外,我們還分析了北京和倫敦的每一種污染物的分布,發(fā)現(xiàn)北京的 PM2.5 和 PM10 是長(zhǎng)尾的分布,存在很多嚴(yán)重污染的情況,這會(huì)給模型帶來(lái)偏差。而北京的 O3 以及倫敦的 PM2.5、PM10 的數(shù)值相對(duì)來(lái)說(shuō)跨度沒有那么大,異常點(diǎn)較少。因此我們?cè)谟?xùn)練模型的時(shí)候?qū)Ρ本?PM2.5 和 PM10 的標(biāo)簽做了 log 變換,在預(yù)測(cè)未來(lái)的時(shí)候使用指數(shù)變換。這個(gè)技巧可以給模型帶來(lái)幾個(gè)千分位的提升。

以下是關(guān)于比賽的更多細(xì)節(jié):

團(tuán)隊(duì)共有來(lái)自北郵和中南大學(xué)的五名成員,大家在比賽中的分工如何?

在比賽初期,我們首先對(duì)賽題的技術(shù)難點(diǎn)進(jìn)行了分析,總結(jié)出空氣質(zhì)量預(yù)測(cè)問(wèn)題存在的幾點(diǎn)挑戰(zhàn)。然后針對(duì)每一個(gè)挑戰(zhàn),我們都有一個(gè)隊(duì)員去獨(dú)立探索,去嘗試一些應(yīng)對(duì)該挑戰(zhàn)的解決方案。最后充分融合各自的方案,集成為一個(gè)模型。

此外,我們還有兩名隊(duì)員做了深度學(xué)習(xí)模型的探索,嘗試使用端到端的模型去解決空氣質(zhì)量的預(yù)測(cè)問(wèn)題。在比賽后期,我們的模型遇到瓶頸,我們又進(jìn)行討論,互相補(bǔ)充了思路,在特征工程上去掉了很多冗余的特征,又提取了不少新的特征,這讓我們的模型在最后幾天又有了大幅度提升。

比賽的三個(gè)難點(diǎn)分別是空氣質(zhì)量突變迅速、污染物復(fù)雜的空間依賴關(guān)系、需要很強(qiáng)的專業(yè)領(lǐng)域知識(shí),對(duì)于這三大挑戰(zhàn),分別是如何應(yīng)對(duì)的?

本次 KDD CUP 的比賽有三個(gè)挑戰(zhàn),我們主要是從特征工程角度出發(fā),去解決這些挑戰(zhàn)。

  • 第一個(gè)挑戰(zhàn)是空氣質(zhì)量變化十分迅速,并且有很多突變點(diǎn),我們對(duì)空氣質(zhì)量時(shí)間序列做了大量的分析工作,了解其影響因素。針對(duì)這一挑戰(zhàn),我們從信號(hào)處理的角度出發(fā),使用傅立葉變換將時(shí)間序列變換到頻域,更好地提取時(shí)間序列的周期和波動(dòng)信息。此外,我們還設(shè)計(jì)了更細(xì)粒度的天氣統(tǒng)計(jì)特征去表征天氣變化。

  • 第二個(gè)挑戰(zhàn)是污染物具有復(fù)雜的空間依賴關(guān)系,舉個(gè)例子,如果有強(qiáng)風(fēng)從污染嚴(yán)重的區(qū)域吹向周邊區(qū)域,那么周邊空氣質(zhì)量也會(huì)變差。但是如果將所有監(jiān)測(cè)站的數(shù)據(jù)作為特征,那么將會(huì)導(dǎo)致嚴(yán)重過(guò)擬合。因此我們假設(shè)只有一部分相鄰的監(jiān)測(cè)站會(huì)影響到我們要預(yù)測(cè)的監(jiān)測(cè)站,并且針對(duì)與方向有關(guān)和與方向無(wú)關(guān)的天氣特征,我們使用了一種降維技巧去降低輸入的維度,防止過(guò)擬合。

  • 比賽遇到的第三個(gè)挑戰(zhàn)是預(yù)測(cè)空氣質(zhì)量需要很強(qiáng)的專業(yè)領(lǐng)域知識(shí),空氣質(zhì)量受很多復(fù)雜因素的影響,需要結(jié)合專業(yè)知識(shí)去建模。在比賽期間,團(tuán)隊(duì)成員閱讀了大量與空氣污染和氣象學(xué)相關(guān)的文獻(xiàn),從而構(gòu)造了很多與領(lǐng)域知識(shí)相關(guān)的特征,這些特征給模型帶來(lái)顯著的提升。

你們?cè)诒荣愔胁捎?GBRT 模型,此前有嘗試過(guò)其他模型嗎?

我們還嘗試了 seq-seq 模型建模時(shí)間序列,以及使用圖卷積網(wǎng)絡(luò)建模網(wǎng)絡(luò)拓?fù)鋱D的關(guān)系,因?yàn)閿?shù)據(jù)集的問(wèn)題,線上效果并不穩(wěn)定,所以后來(lái)線上提交的只是 GBRT 單模型。

你們 PPT 的總結(jié)中特別強(qiáng)調(diào)了特征,在這次比賽中,特征占據(jù)比重有多大?這次比賽有哪些在特征方面的經(jīng)驗(yàn)可以分享?

特征工程是我們這次比賽獲得冠軍的關(guān)鍵,這次比賽在訓(xùn)練集構(gòu)造和數(shù)據(jù)預(yù)處理方面,大家都大同小異。我們?cè)谔卣鞴こ谭矫孀隽艘恍﹦?chuàng)新性的工作,提取了一些我們獨(dú)有的特征,因此在比賽初期就建立了優(yōu)勢(shì)。

  • 關(guān)于特征工程方面的經(jīng)驗(yàn),首先特征要有可解釋性,提取的每一簇特征都是有理有據(jù)的。

  • 其次特征要分群,不要因?yàn)樾Ч奶嵘蛳陆惦S機(jī)刪減某個(gè)特征,將特征分群處理可能會(huì)更加有效果。

  • 最后特征要結(jié)合領(lǐng)域,一些好的特征是通過(guò)和業(yè)務(wù)領(lǐng)域結(jié)合產(chǎn)生的,通過(guò)查閱論文或者資料可以提取到和別人不一樣的特征。

你們這次去 KDD 的體驗(yàn)如何?參加這次大會(huì)有哪些收獲?

KDD 是數(shù)據(jù)挖掘方面的最頂級(jí)會(huì)議,而 KDD Cup 可以說(shuō)是數(shù)據(jù)挖掘競(jìng)賽里的皇冠,能摘下桂冠,對(duì)我們的意義是非同凡響的。我們團(tuán)隊(duì)中也有歷史上年齡最小拿到這一冠軍的參賽者;而在會(huì)議上,認(rèn)識(shí)的小伙伴基本上都是能在 KDD 上發(fā)論文的大牛,他們的科研實(shí)力都非常強(qiáng);當(dāng)然更有頭條、阿里、京東、騰訊等大廠在現(xiàn)場(chǎng),能夠與部門主管/VP 直接交流,也是一件非常不錯(cuò)的事情,開闊了我們的眼界與思路。

目前,解決方案 PPT 也已經(jīng)在 GitHub 上公開。

地址: https://github.com/luoda888/2018-KDD-Cup-Top1-Solutions

(完)

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

KDD Cup 2018 冠軍「 first floor to eat latiao」:為什么取這個(gè)隊(duì)名?因?yàn)榇蠹叶紣劾睏l

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)