KDD Cup 2018 冠軍「 first floor to eat latiao」：為什么取這個隊名？因為大家都愛辣條

本文作者：汪思穎

2018-08-30 15:25

導(dǎo)語：得到第一，將中華美食傳揚(yáng)出去~

提到 KDD Cup，相信數(shù)據(jù)挖掘領(lǐng)域的同學(xué)并不陌生。作為目前數(shù)據(jù)挖掘領(lǐng)域最有影響力、最高水平的國際頂級賽事，KDD Cup 至今已舉辦 21 屆，每年都會吸引世界數(shù)據(jù)挖掘界的頂尖專家、學(xué)者、工程師、學(xué)生等前來參賽，被外界譽(yù)為大數(shù)據(jù)領(lǐng)域的「奧運(yùn)會」。

今年的 KDD Cup 從空氣問題入手，組委會在比賽中提供中國北京和英國倫敦的相關(guān)數(shù)據(jù)，比賽選手需要預(yù)測未來 48 小時內(nèi) PM2.5, PM10 和 O3 的濃度（倫敦只需要預(yù)測 PM2.5 和 PM10）。在 48 小時后，選手提交的結(jié)果將通過真實(shí)的天氣數(shù)據(jù)評分。

雖然 KDD Cup 2018 在今年 6 月就已經(jīng)結(jié)束，冠軍團(tuán)隊也早已揭曉，但對冠軍團(tuán)隊的正式頒獎是在剛剛結(jié)束的 KDD 2018 上。

本次比賽共吸引了來自全球 4183 支隊伍，包括 49 個國家的 3000 多所學(xué)?；驒C(jī)構(gòu)，北京郵電大學(xué)韓金棟、張前前、劉娟，中南大學(xué)羅賓理、蔣浩然組成的「first floor to eat latiao」團(tuán)隊在該項賽事中取得第一名。作為此次比賽的冠軍，「first floor to eat latiao」團(tuán)隊受邀參與此次大會，在會上展示了他們的解決方案，也第一時間對雷鋒網(wǎng) AI 科技評論進(jìn)行分享。

KDD Cup 2018 冠軍「 first floor to eat latiao」：為什么取這個隊名？因為大家都愛辣條

看到隊名，相信大家便對這一團(tuán)隊充滿好奇。在組隊的時候，隊員張前前提出這個以吃為主題的名字，并得到大家全票通過?！肝覀兌己芟矚g吃辣條，辣條是中華民族的傳統(tǒng)美食，我們想要得第一，將中華美食傳揚(yáng)出去?！?/p>

團(tuán)員組成如下：

隊長韓金棟，北京郵電大學(xué)碩士在讀，喜歡用數(shù)學(xué)建模方法去解決實(shí)際生活中的問題；
隊員張前前，北京郵電大學(xué)碩士在讀，擅長特征工程和深度學(xué)習(xí)；
隊員劉娟，北京郵電大學(xué)碩士在讀，對數(shù)據(jù)分析和數(shù)據(jù)可視化感興趣；
隊員羅賓理，中南大學(xué)本科二年級在讀，擅長特征工程和模型融合（騷操作）；
隊員蔣浩然，中南大學(xué)碩士在讀，擅長數(shù)據(jù)分析與時間序列。

以下便是這一團(tuán)隊帶來的解決方案：

主要的挑戰(zhàn)有三點(diǎn)：

空氣質(zhì)量變化十分迅速，并且有很多突變點(diǎn)；
污染物會向周邊擴(kuò)散，具有復(fù)雜的空間依賴關(guān)系；
空氣質(zhì)量受很多復(fù)雜因素的影響，因此需要很強(qiáng)的專業(yè)領(lǐng)域知識。

KDD Cup 2018 冠軍「 first floor to eat latiao」：為什么取這個隊名？因為大家都愛辣條

使用到的基本特征：

過去 72 小時的空氣質(zhì)量
預(yù)測前最后一小時的天氣
未來 48 小時的天氣預(yù)報
月份、周末、小時、假期、站點(diǎn) id

除了基本特征，我們還從時域、空域、頻域和專業(yè)領(lǐng)域知識四個方面分別構(gòu)建特征群，一共提取了 100 多個特征，這些特征是模型提分的關(guān)鍵。

時域特征

利用預(yù)測時間附近天氣預(yù)報數(shù)據(jù)的統(tǒng)計（不同的統(tǒng)計方式，可以統(tǒng)計預(yù)測時間節(jié)點(diǎn)之前的統(tǒng)計信息，也可以以預(yù)測時間節(jié)點(diǎn)為中心進(jìn)行統(tǒng)計）防止天氣突變。

針對短期預(yù)測問題，過去的天氣變化可以影響到未來幾個小時的空氣質(zhì)量。因此我們設(shè)計了不同大小的窗口，用來提取過去天氣的統(tǒng)計特征，這些特征提高了模型的短期預(yù)測能力。

我們還發(fā)現(xiàn)未來 48 小時的天氣預(yù)報是影響空氣質(zhì)量長期預(yù)測和突變預(yù)測的一個關(guān)鍵因素，因此我們針對未來的天氣預(yù)報設(shè)計了很多細(xì)粒度的特征，具體可以看下圖。如果綠色點(diǎn)是我們要預(yù)測的時間節(jié)點(diǎn)，為了描述預(yù)測時間點(diǎn)之前和附近的天氣變化，我們使用滑動窗口提取了預(yù)測時間點(diǎn)之前的天氣預(yù)報統(tǒng)計信息以及附近的天氣預(yù)報統(tǒng)計信息。通過這些特征，提高了長期預(yù)測的準(zhǔn)確率。

KDD Cup 2018 冠軍「 first floor to eat latiao」：為什么取這個隊名？因為大家都愛辣條

此外，為了區(qū)分要預(yù)測的是第一天還是第二天，我們使用了一個標(biāo)志位特征，將預(yù)測時間標(biāo)為 0~47。

頻域特征

為了得到時間序列中隱藏的周期信息和波動信息，對空氣質(zhì)量，溫度，濕度，氣壓等時間序列進(jìn)行傅立葉變換，提取頻域特征。

空域特征

未來的空氣質(zhì)量不僅與過去的空氣質(zhì)量有關(guān)，而且還受到周邊空氣質(zhì)量和天氣的影響。為了對空間相關(guān)性進(jìn)行建模，我們針對過去的空氣質(zhì)量、天氣以及未來的天氣預(yù)報分別提取了表征空間相關(guān)性的特征。我們嘗試使用了所有的空氣質(zhì)量站點(diǎn)和天氣監(jiān)測站點(diǎn)的數(shù)據(jù)，這樣會增大模型的復(fù)雜度，導(dǎo)致嚴(yán)重的過擬合。于是我們假設(shè)只有部分站點(diǎn)會對我們要預(yù)測的站點(diǎn)產(chǎn)生影響，并使用一些技巧去降低空間特征的輸入維度。

對于過去的空氣質(zhì)量和天氣，我們又將其分為兩類：

一類是沒有方向的特征，包括壓強(qiáng)、溫度、濕度。為了提取這類特征，我們使用兩個半徑不同的圓將待預(yù)測站點(diǎn)周邊劃分為兩個區(qū)域，分別為內(nèi)圓區(qū)域和外部的圓環(huán)區(qū)域，具體劃分方式可以見下圖。我們提取了每一個區(qū)域的壓強(qiáng)、溫度和濕度的均值。

KDD Cup 2018 冠軍「 first floor to eat latiao」：為什么取這個隊名？因為大家都愛辣條

另一類是有方向的特征，污染物濃度和風(fēng)的擴(kuò)散都是有方向的。為了建模這一類特征對空氣質(zhì)量的影響，我們將目標(biāo)站點(diǎn)的方位劃分為八個方向，分別考慮八個不同方向區(qū)域?qū)δ繕?biāo)站點(diǎn)的影響。對于每一個區(qū)域，提取其風(fēng)速和污染物濃度的均值。此外，我們又將風(fēng)向離散為八個方向，每一個區(qū)域的風(fēng)向由眾數(shù)決定。如果某一區(qū)域污染物濃度缺失，我們使用插值的方法進(jìn)行補(bǔ)全。

KDD Cup 2018 冠軍「 first floor to eat latiao」：為什么取這個隊名？因為大家都愛辣條

以上兩類特征我們均只提取了預(yù)測前最后一小時的數(shù)據(jù)，這些特征對于短期預(yù)測起到了良好的效果。

對于未來的天氣預(yù)報，由于天氣網(wǎng)格點(diǎn)和空氣質(zhì)量監(jiān)測站點(diǎn)的位置不是對應(yīng)的，因此我們采用了一種 k 近鄰的方法去提取空氣質(zhì)量監(jiān)測站點(diǎn)周邊的天氣網(wǎng)格點(diǎn)。具體做法是尋找距離空氣質(zhì)量檢測站點(diǎn)最近的四個天氣網(wǎng)格點(diǎn)，使用這些網(wǎng)格點(diǎn)的特征表征未來天氣預(yù)報對空氣質(zhì)量的影響，這種方法可以提高長期預(yù)測的準(zhǔn)確率。

KDD Cup 2018 冠軍「 first floor to eat latiao」：為什么取這個隊名？因為大家都愛辣條

專業(yè)領(lǐng)域特征

查閱氣象學(xué)和空氣污染相關(guān)論文，通過風(fēng)向 uv 坐標(biāo)系，日照時長，不同時刻濕度的差值，污染物之間的相關(guān)性等方面提取特征。

模型

因為不同的污染物具有不同的分布，因此需要分別對每一種污染物建模。我們采用微軟開源的 LightGBM，具體的建模方式可以參看下面這一張圖：

KDD Cup 2018 冠軍「 first floor to eat latiao」：為什么取這個隊名？因為大家都愛辣條

此外，我們還分析了北京和倫敦的每一種污染物的分布，發(fā)現(xiàn)北京的 PM2.5 和 PM10 是長尾的分布，存在很多嚴(yán)重污染的情況，這會給模型帶來偏差。而北京的 O3 以及倫敦的 PM2.5、PM10 的數(shù)值相對來說跨度沒有那么大，異常點(diǎn)較少。因此我們在訓(xùn)練模型的時候?qū)Ρ本?PM2.5 和 PM10 的標(biāo)簽做了 log 變換，在預(yù)測未來的時候使用指數(shù)變換。這個技巧可以給模型帶來幾個千分位的提升。

以下是關(guān)于比賽的更多細(xì)節(jié)：

團(tuán)隊共有來自北郵和中南大學(xué)的五名成員，大家在比賽中的分工如何？

在比賽初期，我們首先對賽題的技術(shù)難點(diǎn)進(jìn)行了分析，總結(jié)出空氣質(zhì)量預(yù)測問題存在的幾點(diǎn)挑戰(zhàn)。然后針對每一個挑戰(zhàn)，我們都有一個隊員去獨(dú)立探索，去嘗試一些應(yīng)對該挑戰(zhàn)的解決方案。最后充分融合各自的方案，集成為一個模型。

此外，我們還有兩名隊員做了深度學(xué)習(xí)模型的探索，嘗試使用端到端的模型去解決空氣質(zhì)量的預(yù)測問題。在比賽后期，我們的模型遇到瓶頸，我們又進(jìn)行討論，互相補(bǔ)充了思路，在特征工程上去掉了很多冗余的特征，又提取了不少新的特征，這讓我們的模型在最后幾天又有了大幅度提升。

比賽的三個難點(diǎn)分別是空氣質(zhì)量突變迅速、污染物復(fù)雜的空間依賴關(guān)系、需要很強(qiáng)的專業(yè)領(lǐng)域知識，對于這三大挑戰(zhàn)，分別是如何應(yīng)對的？

本次 KDD CUP 的比賽有三個挑戰(zhàn)，我們主要是從特征工程角度出發(fā)，去解決這些挑戰(zhàn)。

第一個挑戰(zhàn)是空氣質(zhì)量變化十分迅速，并且有很多突變點(diǎn)，我們對空氣質(zhì)量時間序列做了大量的分析工作，了解其影響因素。針對這一挑戰(zhàn)，我們從信號處理的角度出發(fā)，使用傅立葉變換將時間序列變換到頻域，更好地提取時間序列的周期和波動信息。此外，我們還設(shè)計了更細(xì)粒度的天氣統(tǒng)計特征去表征天氣變化。
第二個挑戰(zhàn)是污染物具有復(fù)雜的空間依賴關(guān)系，舉個例子，如果有強(qiáng)風(fēng)從污染嚴(yán)重的區(qū)域吹向周邊區(qū)域，那么周邊空氣質(zhì)量也會變差。但是如果將所有監(jiān)測站的數(shù)據(jù)作為特征，那么將會導(dǎo)致嚴(yán)重過擬合。因此我們假設(shè)只有一部分相鄰的監(jiān)測站會影響到我們要預(yù)測的監(jiān)測站，并且針對與方向有關(guān)和與方向無關(guān)的天氣特征，我們使用了一種降維技巧去降低輸入的維度，防止過擬合。
比賽遇到的第三個挑戰(zhàn)是預(yù)測空氣質(zhì)量需要很強(qiáng)的專業(yè)領(lǐng)域知識，空氣質(zhì)量受很多復(fù)雜因素的影響，需要結(jié)合專業(yè)知識去建模。在比賽期間，團(tuán)隊成員閱讀了大量與空氣污染和氣象學(xué)相關(guān)的文獻(xiàn)，從而構(gòu)造了很多與領(lǐng)域知識相關(guān)的特征，這些特征給模型帶來顯著的提升。

你們在比賽中采用 GBRT 模型，此前有嘗試過其他模型嗎？

我們還嘗試了 seq-seq 模型建模時間序列，以及使用圖卷積網(wǎng)絡(luò)建模網(wǎng)絡(luò)拓?fù)鋱D的關(guān)系，因為數(shù)據(jù)集的問題，線上效果并不穩(wěn)定，所以后來線上提交的只是 GBRT 單模型。

你們 PPT 的總結(jié)中特別強(qiáng)調(diào)了特征，在這次比賽中，特征占據(jù)比重有多大？這次比賽有哪些在特征方面的經(jīng)驗可以分享？

特征工程是我們這次比賽獲得冠軍的關(guān)鍵，這次比賽在訓(xùn)練集構(gòu)造和數(shù)據(jù)預(yù)處理方面，大家都大同小異。我們在特征工程方面做了一些創(chuàng)新性的工作，提取了一些我們獨(dú)有的特征，因此在比賽初期就建立了優(yōu)勢。

關(guān)于特征工程方面的經(jīng)驗，首先特征要有可解釋性，提取的每一簇特征都是有理有據(jù)的。
其次特征要分群，不要因為效果的提升或下降隨機(jī)刪減某個特征，將特征分群處理可能會更加有效果。
最后特征要結(jié)合領(lǐng)域，一些好的特征是通過和業(yè)務(wù)領(lǐng)域結(jié)合產(chǎn)生的，通過查閱論文或者資料可以提取到和別人不一樣的特征。

你們這次去 KDD 的體驗如何？參加這次大會有哪些收獲？

KDD 是數(shù)據(jù)挖掘方面的最頂級會議，而 KDD Cup 可以說是數(shù)據(jù)挖掘競賽里的皇冠，能摘下桂冠，對我們的意義是非同凡響的。我們團(tuán)隊中也有歷史上年齡最小拿到這一冠軍的參賽者；而在會議上，認(rèn)識的小伙伴基本上都是能在 KDD 上發(fā)論文的大牛，他們的科研實(shí)力都非常強(qiáng)；當(dāng)然更有頭條、阿里、京東、騰訊等大廠在現(xiàn)場，能夠與部門主管/VP 直接交流，也是一件非常不錯的事情，開闊了我們的眼界與思路。

目前，解決方案 PPT 也已經(jīng)在 GitHub 上公開。

地址： https://github.com/luoda888/2018-KDD-Cup-Top1-Solutions

（完）

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。