KDD Cup 2017雙料冠軍是如何煉成的？我們向Convolution團隊討教了他們的“成功方法論”

本文作者：汪思穎

編輯：郭奕欣

2017-08-24 09:24

導語：熱愛技術，經(jīng)驗豐富，邏輯嚴謹，這是雷鋒網(wǎng) AI 科技評論眼中的Convolution團隊。

雷鋒網(wǎng) AI 科技評論按：KDD 2017日前于加拿大落下帷幕。作為數(shù)據(jù)挖掘領域全球最高級別的國際會議，KDD 自帶光環(huán)，不僅吸引無數(shù)業(yè)內(nèi)大牛，也引來媒體的爭相報導。會議期間，KDD Cup2017的頒獎禮也同期進行。今年，這場頂級賽事的排行榜幾乎全被中國團隊占領，由微軟、美團和北航聯(lián)合組成的Convolution團隊更是一舉奪得兩個任務的雙料冠軍。

雷鋒網(wǎng) AI 科技評論第一時間聯(lián)系了冠軍團隊隊長胡可，并詳細了解到其團隊的背景、解決問題的方法，并對比賽進行了相關討論。熱愛技術，經(jīng)驗豐富，邏輯嚴謹，這是雷鋒網(wǎng) AI 科技評論眼中的Convolution團隊。

以下為雷鋒網(wǎng) AI 科技評論與胡可的訪談實錄。

團隊背景

首先恭喜你們獲得KDD Cup 2017兩個任務的雙料冠軍，有何感想可以分享一下呢？

KDD Cup是工業(yè)界和學術界都很關注的一個比賽，每一屆KDD Cup的競爭都很激烈。這次比賽中我們也遇到了很多困難，很幸運兩道題目都能拿到第一名。

你們的團隊是如何組建起來的呢？為什么給團隊取Convolution這個名字？能介紹一下團隊各位成員的研究背景嗎？

我們很早就在技術社區(qū)里認識，大家都對技術感興趣，經(jīng)常一起討論技術細節(jié)。給團隊取Convolution這個名字也是機緣巧合，因為我們當時正在做一些神經(jīng)網(wǎng)絡方面的嘗試。

我們團隊有四名隊員：

胡可，香港中文大學機器學習方向碩士畢業(yè)?，F(xiàn)在微軟必應廣告團隊從事機器學習模型與算法研發(fā)。

陳歡，北京航空航天大學計算機碩士在讀，擅長NLP與特征工程。

黃攀，浙江大學計算機碩士畢業(yè)，擅長模型分析與實現(xiàn)。現(xiàn)在微軟必應團隊從事廣告算法研發(fā)。

燕鵬，美團點評高級技術專家，喜歡用機器學習解決各類問題。

隊員都從事機器學習相關的工作與學習，并且有豐富的大賽經(jīng)歷，比如隊員基本都獲得過Kaggle冠軍，也有隊員目前Kaggle全球排名第五。同時我們這方面的背景可以相互促進，合作產(chǎn)生更好的方案。

解決問題的方法論

今年的賽題分為兩個任務，預測車輛從路口到收費站的平均用時和預測高速收費站車流量，在比賽中，大家是如何分工的呢？

比賽初期，我們以兩位同學為一組主要負責一道題目。在后期再將題目進行互換，對對方的思路進行補充。每位同學都有很強的技術探索能力，能對負責的部分獨擋一面。比如黃攀在交通時間預測題的特征工程與模型實現(xiàn)上做出了很多突破。

你們解決這兩個任務的具體步驟是什么樣的呢？

我們前期根據(jù)各自的技術積累討論，匯總出問題涉及到的技術點以及可能有潛力的方案。比賽中期更多地自由探索，盡可能地發(fā)散解決方案的技術點。最后充分融合各自方案，并收斂到幾個關鍵技術點共同提升解決。比如一開始就想以序列建模與用特征表達預測序列兩種方式分別嘗試解決時間序列問題，相當于從模型與特征兩種角度，最后采用是這兩種方法的融合?？紤]到這個問題本身的特征體系特點以及模型的表達能力，我們選擇GBDT和神經(jīng)網(wǎng)絡模型，并對模型的損失函數(shù)進行改進，更適合這個比賽的評價指標。

這兩個任務比較起來，哪個任務更復雜呢？

第二題比較早地發(fā)現(xiàn)了規(guī)律，很早確立了領先優(yōu)勢。但后來我們發(fā)現(xiàn)第二題的經(jīng)驗在第一題上并不能取得同樣的收益，我們在第一題上做了很多改進之后才追上來。我覺得針對具體問題case by case地去研究，提出適合具體問題的解決方案非常重要。

您認為今年的高速路預測的賽題與之前一些機場、公路流量預測的賽題相比，差異點和難點在哪里？側重需要考慮哪些問題？

很多機器學習的問題都需要一些領域的知識來輔助解決，對于每一個具體的問題，數(shù)據(jù)的分布不會完全一致，最終比賽獲得高分的關鍵還是一些機器學習的技巧和經(jīng)驗。比如，這次比賽數(shù)據(jù)方差比較大，不能完全通過增加特征解決這個問題，相對暴力地迭代實驗有可能導致過擬合。因此需要更多數(shù)據(jù)分析來引導實驗，并巧妙構造驗證集來增加解決方案的穩(wěn)定性與泛化能力。

在比賽過程中你們還碰到了哪些問題？是如何解決的？

我們在中后期遇到了瓶頸，主要表現(xiàn)為模型提升困難并且在多種驗證集中表現(xiàn)不穩(wěn)定，我們放棄了有過擬合風險的提高模型復雜度的提升方式，轉而構建更多模型復雜度不那么高的子模型解決問題。從誤差分解的角度，我們沒有特別追求bias減少，而是想辦法降低variance。

圍繞比賽的相關討論

為比賽所設計的系統(tǒng)和實際應用的系統(tǒng)存在哪些異同？比賽中的系統(tǒng)與實際應用系統(tǒng)有哪些關聯(lián)性？

異同點：一方面，實際系統(tǒng)中可用的信息更多，會更復雜。另一方面，比賽追求算法極致，現(xiàn)實中會在精度和效率上做一個權衡。比如，比賽有可能會采用較多模型進行融合，而實際系統(tǒng)經(jīng)常采用少量模型進行融合。但實際中構造少量模型的思想與比賽是一致的。

兩者間的關聯(lián)：在比賽中，產(chǎn)生了一些優(yōu)秀的模型或方案運用于實際系統(tǒng)，如KDD Cup 2012產(chǎn)出了XGBOOST與FFM的原型，阿里天池14年推薦比賽top隊伍的方案在“雙十一”活動中挑戰(zhàn)線上系統(tǒng)取得成功。

以往KDD Cup有很多任務集中于推薦系統(tǒng)的設計，近年來逐漸向其它更具體的實際問題轉變，比如MOOC逃課率檢測，還有今年圍繞交通內(nèi)容而設計的題目。那么您認為以今年為例，KDD Cup對能力的考察更側重于哪些方面？

隨著機器學習的認知程度越來越高，越來越多的領域開始嘗試使用機器學習技術解決現(xiàn)實問題。早年KDD Cup著重于解決互聯(lián)網(wǎng)行業(yè)中的典型問題，近年來開始嘗試機器學習技術在教育，交通等傳統(tǒng)行業(yè)的應用。這對選手的要求也隨之提高，需要選手具備快速對新問題進行建模的能力。

今年的20強幾乎全被中國隊伍包攬，在比賽過程中你們有遇到過哪些實力強勁的對手呢？覺得團隊獲勝的原因有哪些？

這次KDD Cup是歷年參加人數(shù)最多的一次，高手云集，其中也包括KDD Cup多年的冠軍隊伍臺灣大學，他們這次也曾一度取得領先，帶給了我們很大壓力。

我認為這次獲勝主要取決于這些因素：一是我們隊伍的成員都從事機器學習工作，對技術有很高的熱情，并且各自有比較豐富的比賽經(jīng)驗。二是我們在做這些機器學習項目和比賽的過程中，向同事和其他隊伍學到了很多有趣的建模和分析的思路。第三是因為非常幸運。

如果要為下一年的KDD Cup做準備，您有什么建議和比賽心得可以分享？

我建議有時間可以加強機器學習理論的學習，并盡可能地將理論與實踐相結合。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

2人收藏

汪思穎

編輯

關注AI學術，例如論文

發(fā)私信

當月熱門文章