丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

KDD Cup 2017雙料冠軍是如何煉成的?我們向Convolution團(tuán)隊(duì)討教了他們的“成功方法論”

本文作者: 汪思穎 編輯:郭奕欣 2017-08-24 09:24
導(dǎo)語(yǔ):熱愛(ài)技術(shù),經(jīng)驗(yàn)豐富,邏輯嚴(yán)謹(jǐn),這是雷鋒網(wǎng) AI 科技評(píng)論眼中的Convolution團(tuán)隊(duì)。

雷鋒網(wǎng) AI 科技評(píng)論按:KDD 2017日前于加拿大落下帷幕。作為數(shù)據(jù)挖掘領(lǐng)域全球最高級(jí)別的國(guó)際會(huì)議,KDD 自帶光環(huán),不僅吸引無(wú)數(shù)業(yè)內(nèi)大牛,也引來(lái)媒體的爭(zhēng)相報(bào)導(dǎo)。會(huì)議期間,KDD Cup2017的頒獎(jiǎng)禮也同期進(jìn)行。今年,這場(chǎng)頂級(jí)賽事的排行榜幾乎全被中國(guó)團(tuán)隊(duì)占領(lǐng),由微軟、美團(tuán)和北航聯(lián)合組成的Convolution團(tuán)隊(duì)更是一舉奪得兩個(gè)任務(wù)的雙料冠軍。

雷鋒網(wǎng) AI 科技評(píng)論第一時(shí)間聯(lián)系了冠軍團(tuán)隊(duì)隊(duì)長(zhǎng)胡可,并詳細(xì)了解到其團(tuán)隊(duì)的背景、解決問(wèn)題的方法,并對(duì)比賽進(jìn)行了相關(guān)討論。熱愛(ài)技術(shù),經(jīng)驗(yàn)豐富,邏輯嚴(yán)謹(jǐn),這是雷鋒網(wǎng) AI 科技評(píng)論眼中的Convolution團(tuán)隊(duì)。

以下為雷鋒網(wǎng) AI 科技評(píng)論與胡可的訪談實(shí)錄。

團(tuán)隊(duì)背景

首先恭喜你們獲得KDD Cup 2017兩個(gè)任務(wù)的雙料冠軍,有何感想可以分享一下呢?

KDD Cup是工業(yè)界和學(xué)術(shù)界都很關(guān)注的一個(gè)比賽,每一屆KDD Cup的競(jìng)爭(zhēng)都很激烈。這次比賽中我們也遇到了很多困難,很幸運(yùn)兩道題目都能拿到第一名。

你們的團(tuán)隊(duì)是如何組建起來(lái)的呢?為什么給團(tuán)隊(duì)取Convolution這個(gè)名字?能介紹一下團(tuán)隊(duì)各位成員的研究背景嗎?

我們很早就在技術(shù)社區(qū)里認(rèn)識(shí),大家都對(duì)技術(shù)感興趣,經(jīng)常一起討論技術(shù)細(xì)節(jié)。給團(tuán)隊(duì)取Convolution這個(gè)名字也是機(jī)緣巧合,因?yàn)槲覀儺?dāng)時(shí)正在做一些神經(jīng)網(wǎng)絡(luò)方面的嘗試。

我們團(tuán)隊(duì)有四名隊(duì)員:

胡可,香港中文大學(xué)機(jī)器學(xué)習(xí)方向碩士畢業(yè)。現(xiàn)在微軟必應(yīng)廣告團(tuán)隊(duì)從事機(jī)器學(xué)習(xí)模型與算法研發(fā)。

陳歡,北京航空航天大學(xué)計(jì)算機(jī)碩士在讀,擅長(zhǎng)NLP與特征工程。

黃攀,浙江大學(xué)計(jì)算機(jī)碩士畢業(yè),擅長(zhǎng)模型分析與實(shí)現(xiàn)。現(xiàn)在微軟必應(yīng)團(tuán)隊(duì)從事廣告算法研發(fā)。

燕鵬,美團(tuán)點(diǎn)評(píng)高級(jí)技術(shù)專家,喜歡用機(jī)器學(xué)習(xí)解決各類問(wèn)題。

隊(duì)員都從事機(jī)器學(xué)習(xí)相關(guān)的工作與學(xué)習(xí),并且有豐富的大賽經(jīng)歷,比如隊(duì)員基本都獲得過(guò)Kaggle冠軍,也有隊(duì)員目前Kaggle全球排名第五。同時(shí)我們這方面的背景可以相互促進(jìn),合作產(chǎn)生更好的方案。

解決問(wèn)題的方法論

今年的賽題分為兩個(gè)任務(wù),預(yù)測(cè)車輛從路口到收費(fèi)站的平均用時(shí)和預(yù)測(cè)高速收費(fèi)站車流量,在比賽中,大家是如何分工的呢?

比賽初期,我們以兩位同學(xué)為一組主要負(fù)責(zé)一道題目。在后期再將題目進(jìn)行互換,對(duì)對(duì)方的思路進(jìn)行補(bǔ)充。每位同學(xué)都有很強(qiáng)的技術(shù)探索能力,能對(duì)負(fù)責(zé)的部分獨(dú)擋一面。比如黃攀在交通時(shí)間預(yù)測(cè)題的特征工程與模型實(shí)現(xiàn)上做出了很多突破。

你們解決這兩個(gè)任務(wù)的具體步驟是什么樣的呢?

我們前期根據(jù)各自的技術(shù)積累討論,匯總出問(wèn)題涉及到的技術(shù)點(diǎn)以及可能有潛力的方案。比賽中期更多地自由探索,盡可能地發(fā)散解決方案的技術(shù)點(diǎn)。最后充分融合各自方案,并收斂到幾個(gè)關(guān)鍵技術(shù)點(diǎn)共同提升解決。比如一開(kāi)始就想以序列建模與用特征表達(dá)預(yù)測(cè)序列兩種方式分別嘗試解決時(shí)間序列問(wèn)題,相當(dāng)于從模型與特征兩種角度,最后采用是這兩種方法的融合??紤]到這個(gè)問(wèn)題本身的特征體系特點(diǎn)以及模型的表達(dá)能力,我們選擇GBDT和神經(jīng)網(wǎng)絡(luò)模型,并對(duì)模型的損失函數(shù)進(jìn)行改進(jìn),更適合這個(gè)比賽的評(píng)價(jià)指標(biāo)。

這兩個(gè)任務(wù)比較起來(lái),哪個(gè)任務(wù)更復(fù)雜呢?

第二題比較早地發(fā)現(xiàn)了規(guī)律,很早確立了領(lǐng)先優(yōu)勢(shì)。但后來(lái)我們發(fā)現(xiàn)第二題的經(jīng)驗(yàn)在第一題上并不能取得同樣的收益,我們?cè)诘谝活}上做了很多改進(jìn)之后才追上來(lái)。我覺(jué)得針對(duì)具體問(wèn)題case by case地去研究,提出適合具體問(wèn)題的解決方案非常重要。

您認(rèn)為今年的高速路預(yù)測(cè)的賽題與之前一些機(jī)場(chǎng)、公路流量預(yù)測(cè)的賽題相比,差異點(diǎn)和難點(diǎn)在哪里?側(cè)重需要考慮哪些問(wèn)題?

很多機(jī)器學(xué)習(xí)的問(wèn)題都需要一些領(lǐng)域的知識(shí)來(lái)輔助解決,對(duì)于每一個(gè)具體的問(wèn)題,數(shù)據(jù)的分布不會(huì)完全一致,最終比賽獲得高分的關(guān)鍵還是一些機(jī)器學(xué)習(xí)的技巧和經(jīng)驗(yàn)。比如,這次比賽數(shù)據(jù)方差比較大,不能完全通過(guò)增加特征解決這個(gè)問(wèn)題,相對(duì)暴力地迭代實(shí)驗(yàn)有可能導(dǎo)致過(guò)擬合。因此需要更多數(shù)據(jù)分析來(lái)引導(dǎo)實(shí)驗(yàn),并巧妙構(gòu)造驗(yàn)證集來(lái)增加解決方案的穩(wěn)定性與泛化能力。

在比賽過(guò)程中你們還碰到了哪些問(wèn)題?是如何解決的?

我們?cè)谥泻笃谟龅搅似款i,主要表現(xiàn)為模型提升困難并且在多種驗(yàn)證集中表現(xiàn)不穩(wěn)定,我們放棄了有過(guò)擬合風(fēng)險(xiǎn)的提高模型復(fù)雜度的提升方式,轉(zhuǎn)而構(gòu)建更多模型復(fù)雜度不那么高的子模型解決問(wèn)題。從誤差分解的角度,我們沒(méi)有特別追求bias減少,而是想辦法降低variance。

圍繞比賽的相關(guān)討論

為比賽所設(shè)計(jì)的系統(tǒng)和實(shí)際應(yīng)用的系統(tǒng)存在哪些異同?比賽中的系統(tǒng)與實(shí)際應(yīng)用系統(tǒng)有哪些關(guān)聯(lián)性?

異同點(diǎn):一方面,實(shí)際系統(tǒng)中可用的信息更多,會(huì)更復(fù)雜。另一方面,比賽追求算法極致,現(xiàn)實(shí)中會(huì)在精度和效率上做一個(gè)權(quán)衡。比如,比賽有可能會(huì)采用較多模型進(jìn)行融合,而實(shí)際系統(tǒng)經(jīng)常采用少量模型進(jìn)行融合。但實(shí)際中構(gòu)造少量模型的思想與比賽是一致的。

兩者間的關(guān)聯(lián):在比賽中,產(chǎn)生了一些優(yōu)秀的模型或方案運(yùn)用于實(shí)際系統(tǒng),如KDD Cup 2012產(chǎn)出了XGBOOST與FFM的原型,阿里天池14年推薦比賽top隊(duì)伍的方案在“雙十一”活動(dòng)中挑戰(zhàn)線上系統(tǒng)取得成功。 

以往KDD Cup有很多任務(wù)集中于推薦系統(tǒng)的設(shè)計(jì),近年來(lái)逐漸向其它更具體的實(shí)際問(wèn)題轉(zhuǎn)變,比如MOOC逃課率檢測(cè),還有今年圍繞交通內(nèi)容而設(shè)計(jì)的題目。那么您認(rèn)為以今年為例,KDD Cup對(duì)能力的考察更側(cè)重于哪些方面?

隨著機(jī)器學(xué)習(xí)的認(rèn)知程度越來(lái)越高,越來(lái)越多的領(lǐng)域開(kāi)始嘗試使用機(jī)器學(xué)習(xí)技術(shù)解決現(xiàn)實(shí)問(wèn)題。早年KDD Cup著重于解決互聯(lián)網(wǎng)行業(yè)中的典型問(wèn)題,近年來(lái)開(kāi)始嘗試機(jī)器學(xué)習(xí)技術(shù)在教育,交通等傳統(tǒng)行業(yè)的應(yīng)用。這對(duì)選手的要求也隨之提高,需要選手具備快速對(duì)新問(wèn)題進(jìn)行建模的能力。

今年的20強(qiáng)幾乎全被中國(guó)隊(duì)伍包攬,在比賽過(guò)程中你們有遇到過(guò)哪些實(shí)力強(qiáng)勁的對(duì)手呢?覺(jué)得團(tuán)隊(duì)獲勝的原因有哪些?

這次KDD Cup是歷年參加人數(shù)最多的一次,高手云集,其中也包括KDD Cup多年的冠軍隊(duì)伍臺(tái)灣大學(xué),他們這次也曾一度取得領(lǐng)先,帶給了我們很大壓力。

我認(rèn)為這次獲勝主要取決于這些因素:一是我們隊(duì)伍的成員都從事機(jī)器學(xué)習(xí)工作,對(duì)技術(shù)有很高的熱情,并且各自有比較豐富的比賽經(jīng)驗(yàn)。二是我們?cè)谧鲞@些機(jī)器學(xué)習(xí)項(xiàng)目和比賽的過(guò)程中,向同事和其他隊(duì)伍學(xué)到了很多有趣的建模和分析的思路。第三是因?yàn)榉浅P疫\(yùn)。

如果要為下一年的KDD Cup做準(zhǔn)備,您有什么建議和比賽心得可以分享?

我建議有時(shí)間可以加強(qiáng)機(jī)器學(xué)習(xí)理論的學(xué)習(xí),并盡可能地將理論與實(shí)踐相結(jié)合。 

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

KDD Cup 2017雙料冠軍是如何煉成的?我們向Convolution團(tuán)隊(duì)討教了他們的“成功方法論”

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)