丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給隔壁王大喵
發(fā)送

0

如何在 15 個月內(nèi)占領(lǐng) Kaggle 榜首?bestfitting 經(jīng)驗大放送

本文作者: 隔壁王大喵 編輯:汪思穎 2018-05-18 09:38
導(dǎo)語:在這里有這么多優(yōu)秀的對手,想要贏得比賽非常困難,他們把我推到極限。

雷鋒網(wǎng) AI 研習(xí)社按:相信玩過 Kaggle 比賽的人都知道 bestfitting,他在加入 Kaggle 社群短短兩年之內(nèi),就以黑馬之姿成功占領(lǐng)比賽排行榜榜首。近日,Kaggle 對他進(jìn)行了一次專訪,在專訪中,我們可以看到關(guān)于比賽的滿滿干貨。

bestfitting 真名為 Shubin Dai,生活在長沙,他的朋友們喜歡稱他為 Bingo。他目前是一名數(shù)據(jù)科學(xué)家和工程經(jīng)理,創(chuàng)立了一家專為銀行提供軟件解決方案的公司。在工作空閑時,除了參加 Kaggle 競賽,他還是一名狂熱的山地車手,并表示自己喜歡在大自然中度過時光。

雷鋒網(wǎng) AI 研習(xí)社將訪談內(nèi)容整理如下,各位 Kaggler 速來看看大神是如何煉成的吧。

如何在 15 個月內(nèi)占領(lǐng) Kaggle 榜首?bestfitting 經(jīng)驗大放送

1. 你的背景和研究經(jīng)歷是什么?

我的主修專業(yè)是計算機(jī)科學(xué),在軟件開發(fā)方面擁有超過 10 年的經(jīng)驗。至于工作,我目前創(chuàng)立了一個專為銀行提供數(shù)據(jù)處理和分析解決方案的團(tuán)隊。

從上大學(xué)開始,我就一直對使用數(shù)學(xué)來創(chuàng)建能夠解決問題的程序很感興趣。這期間我不斷閱讀各種計算機(jī)科學(xué)書籍和論文,然后也很幸運,能夠在過去十年中一直關(guān)注著機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的發(fā)展。

如何在 15 個月內(nèi)占領(lǐng) Kaggle 榜首?bestfitting 經(jīng)驗大放送

2. 你是如何開啟 Kaggle 征程的?

正如我之前所說,我一直在大量閱讀著與機(jī)器學(xué)習(xí)和深度學(xué)習(xí)有關(guān)的書籍和論文,但是在這個過程中我也發(fā)現(xiàn),要將我所學(xué)到的算法應(yīng)用于那些可以隨時獲取的小型數(shù)據(jù)集中是很困難的。然后我就發(fā)現(xiàn) Kaggle 是一個很棒的平臺,這里有各種各樣有趣的數(shù)據(jù)集、kernel 和精彩的討論,所以我迫不及待的想要試一試。我參加的第一項競賽是「預(yù)測紅帽商業(yè)價值(Predicting Red Hat Business Value)」。

3. 你參加 Kaggle 比賽的套路是什么樣的?

1)首先是仔細(xì)閱讀比賽概述和數(shù)據(jù)描述;

2)查找類似的 Kaggle 競賽。作為一名相對較新的 Kaggler,我收集了 Kaggle 上所有往期競賽,然后做了基本分析;

3)閱讀類似競賽的解決方案;

4)閱讀相關(guān)論文,以確保自己不會錯過該領(lǐng)域的任何新進(jìn)展;

5)分析數(shù)據(jù)并建立一個穩(wěn)定的交叉驗證集;

6)數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練;

7)結(jié)果分析,例如預(yù)測分布、錯誤分析、特定樣本分析;

8)根據(jù)分析結(jié)果改進(jìn)模型或者重新設(shè)計全新模型;

9)基于數(shù)據(jù)分析和結(jié)果分析,設(shè)計模型來增加多樣性或者用于針對某些特定樣本;

10)集成學(xué)習(xí);

11)在必要時返回步驟 1。

4. 哪個機(jī)器學(xué)習(xí)算法你最喜歡?

我會逐個選擇算法,但我更喜歡在模型集成時使用那些簡單的算法,比如嶺回歸(Ridge regression)。此外,在深度學(xué)習(xí)競賽中,我通常喜歡從 resnet-50 開始改進(jìn)模型或者直接設(shè)計一個類似結(jié)構(gòu)的模型。

5. 你最喜歡的機(jī)器學(xué)習(xí)工具是什么?

我非常喜歡在計算機(jī)視覺競賽中使用 PyTorch 框架,而在自然語言處理(NLP)或者時間序列競賽中采用 TensorFlow 或 Keras。當(dāng)我在做數(shù)據(jù)分析時,我會使用 seaborn 庫以及 scipy 家族中的那些工具。此外,scikit-learn 和 XGB 也是非常有效的工具。

6. 你對超參數(shù)的調(diào)優(yōu)方式是什么?

我會嘗試根據(jù)對數(shù)據(jù)和算法的理論理解來調(diào)整參數(shù),如果我無法解釋為什么結(jié)果會更好或者更差,那么我會感到不安。在深度學(xué)習(xí)競賽中,我會經(jīng)常檢索相關(guān)論文,并試圖找出這些作者們在相似的情形下是怎么做的。而且,我會比較參數(shù)更改前后的結(jié)果,例如預(yù)測分布、受影響的樣本等等。

7. 你采用什么方法來使得交叉驗證與最終提交能盡可能穩(wěn)定?

一個好的交叉驗證集是成功的一半。如果我找不到評估模型的好方法,我是不會繼續(xù)下一步的。

為了建立一個穩(wěn)定的交叉驗證集,你必須很好地理解數(shù)據(jù)集和將面臨的挑戰(zhàn)。我還會檢驗并確保驗證集具有與訓(xùn)練集類似的分布,我會盡力確保我的模型在我的本地交叉驗證集和公共排行榜上都能獲得提升。

在某些時間序列比賽中,我會將 aside data 作為驗證集保留一段時間。

我經(jīng)常以保守的方式選擇最終提交結(jié)果,我總是選擇對我的安全模型(Safe model)的進(jìn)行加權(quán)平均集成,并傾向于相對冒險的那一個(在我看來,更多的參數(shù)等于更多風(fēng)險)。但是,我從來不選擇我無法解釋的結(jié)果進(jìn)行提交,即便這個結(jié)果有可能在公共排行榜上得到更高的分?jǐn)?shù)。

8. 簡單總結(jié)一下,哪些特質(zhì)幫助你贏得了競賽?

好的交叉驗證集,從其它競賽中獲取經(jīng)驗,閱讀相關(guān)論文,講究紀(jì)律和堅韌不舍。

9. 哪類 Kaggle 競賽你最喜歡,為什么?

自然保護(hù)和醫(yī)療相關(guān)的比賽是我最喜歡的,我覺得我應(yīng)該做點什么來讓我們生活的地球變得更加美好。

10. 機(jī)器學(xué)習(xí)中最令你興奮的領(lǐng)域是什么?

我對深度學(xué)習(xí)的各種進(jìn)展都很感興趣。我想用深度學(xué)習(xí)解決除了計算機(jī)視覺以及自然語言處理之外的問題,所以我會嘗試在我參加的比賽和我的工作中使用它們。

11. 在解決數(shù)據(jù)科學(xué)問題時,你的領(lǐng)域?qū)I(yè)知識發(fā)揮了多大的作用?

實話實說,我不認(rèn)為我的專業(yè)領(lǐng)域知識發(fā)揮了極大作用,原因如下:

1)Kaggle 官方會非常細(xì)致地準(zhǔn)備數(shù)據(jù)集,這對于所有人都是公平的;

2)想要簡單地通過使用成熟的方法贏得比賽非常困難,特別是在深度學(xué)習(xí)比賽中,因此我們需要更多創(chuàng)造性的解決方案;

3)數(shù)據(jù)更加重要,我們可能需要閱讀一些相關(guān)的材料。

但是有一些例外。在 Planet Amazon competition 中,我確實從自己之前的熱帶雨林經(jīng)驗中獲得了一些想法,但這些經(jīng)驗在技術(shù)上而言,不能稱為領(lǐng)域?qū)I(yè)知識。

12. 你認(rèn)為自己最有創(chuàng)意的技巧、發(fā)現(xiàn)或者方法是什么?

在最開始的時候一定要準(zhǔn)備好解決方案文檔。我會強迫自己寫一份清單,里面包括目前所面臨的挑戰(zhàn),我應(yīng)該閱讀的解決方案和論文,以及可能遇到的風(fēng)險,所有可能有效的交叉驗證策略,可能有用的數(shù)據(jù)增強策略。而且,我會不斷更新文檔。大部分的文件最終都成為了我的獲勝策略。

13. 你在現(xiàn)在的工作中是如何使用數(shù)據(jù)科學(xué)的,在 Kaggle 上的競賽經(jīng)驗是否對此有幫助?

我們嘗試使用機(jī)器學(xué)習(xí)來解決各種銀行業(yè)務(wù)問題:預(yù)測銀行網(wǎng)點的訪客數(shù)量,預(yù)測 ATM 應(yīng)該準(zhǔn)備的現(xiàn)金,產(chǎn)品推薦,操作風(fēng)險控制等等。

在 Kaggle 中的競賽也改變了我的工作方式,當(dāng)我想找到解決問題的方案時,我會嘗試去尋找類似的 Kaggle 競賽,因為它們是寶貴的資源,并且我還建議我的同事們研究類似的獲獎解決方案,說不定可以從中獲得靈感。

14. 你對權(quán)衡模型復(fù)雜度和訓(xùn)練測試時間有何看法?

我的看法是:

1)當(dāng)正確率最重要時,不應(yīng)該過度關(guān)注模型的復(fù)雜性。我們必須充分利用經(jīng)過數(shù)月的努力才獲得的訓(xùn)練數(shù)據(jù)。

2)現(xiàn)在如果只使用多個弱模型的集成是很難去贏得比賽的。如果你想成為第一名,通常需要有非常好的單一模型。當(dāng)我想在比賽中獲得第一名的時候,我經(jīng)常強迫自己設(shè)計不同的模型,這些模型可以在公共排行榜上取得前 10 名甚至是前 3 的成績。

3)以我自己的經(jīng)驗,我可以在競賽中設(shè)計多個模型來探索這個問題的上限,然后選擇一個簡單的模型使其在實際情況下可行。我總是盡最大努力為競賽組織者提供一個簡單的例子,然后在獲勝者采訪電話中與他們進(jìn)行討論。我發(fā)現(xiàn)一些組織者甚至使用我們的解決方案和思想來解決他們面臨的一些其他問題。

4)可以發(fā)現(xiàn),當(dāng)訓(xùn)練、測試運行時間很重要時,Kaggle 有很多機(jī)制來確保性能:kernel 競爭、團(tuán)隊規(guī)模限制、添加更多在打分時沒有計算的數(shù)據(jù)等。我相信 Kaggle 也會根據(jù)挑戰(zhàn)的目標(biāo)而改進(jìn)規(guī)則。

15. 你是如何在 Kaggle 競賽中越來越領(lǐng)先的?

有趣的競賽和 Kaggle 中強大的競爭對手是我變得越來越強的原因。

在這里有這么多優(yōu)秀的對手,想要贏得比賽非常困難,他們把我推到了極限。我去年曾試圖獨自完成盡可能多的比賽,然后我必須猜測出其他競爭對手會怎么做。要做到這一點,我必須閱讀大量材料并且構(gòu)建多功能模型。在比賽之后,我還會閱讀來自其他競爭對手的所有解決方案。

16. 最近你最關(guān)注哪些機(jī)器學(xué)習(xí)研究?

我期待今年可以參與一項深度強化學(xué)習(xí)競賽。

17. 你僅僅花了 15 個月就占領(lǐng)排行榜榜首,這是如何做到的?

首先,第一名是衡量我在 Kaggle 上學(xué)到了多少東西以及運氣好壞的標(biāo)準(zhǔn)。

我在前幾次競賽中,試圖將近年來學(xué)到的理論轉(zhuǎn)化為技巧,并且從其他人那里學(xué)到很多東西。

在我對 Kaggle 競賽有了一定了解之后,我開始思考如何以系統(tǒng)化的方式進(jìn)行比賽,因為我在軟件工程方面有許多年的經(jīng)驗。

就這樣大約半年后,我首次拿到第一名,變得更加自信。我想我可能在半年內(nèi)成為一名特級大師。在 Planet Amazon competition 比賽中,我以第一名作為目標(biāo)。

然后我覺得我應(yīng)該繼續(xù)使用之前提到的策略和方法,并且取得了更多的成功。在贏得 Cdiscount 競賽后,我到達(dá)用戶排名榜前列。

受益于 Kaggle 平臺,我從其他人那里學(xué)到了很多東西,Kaggle 的排名系統(tǒng)也在我的進(jìn)步中發(fā)揮了重要作用。同時我也感到非常幸運,因為我從未想過我可以連續(xù)獲得 6 個獎項,在許多比賽中我的目標(biāo)都是前 10 名或者前 1%。我不認(rèn)為我可以再次復(fù)現(xiàn)這樣的高光時刻。

但是,我來參加競賽的目的并不是為了一個好排名,我把每場比賽都視為學(xué)習(xí)的機(jī)會,我會嘗試從我不太熟悉的領(lǐng)域挑選比賽,這樣做的結(jié)果就是我在去年強迫自己閱讀了數(shù)百篇論文。

18. 你之前提到了自己喜歡閱讀往期比賽中高分團(tuán)隊的解決方案。你還有沒有什么想特別強調(diào)的?

我尊重所有的贏家和精彩解決方案的貢獻(xiàn)者,我知道他們付出了多少努力。我總是以敬佩的態(tài)度閱讀這些解決方案。

這里有一些來自 Data Science Bowl 2017 的令人難忘的洞見:PyTorch、醫(yī)學(xué)圖像的 3D 分割、來自 Web 流量時間序列預(yù)測的解決方案,它使用來自自然語言處理的序列模型來解決時間序列問題,另外還有 Tom (https://www.kaggle.com/tvdwiele)和 Heng (https://www.kaggle.com/hengck23)的優(yōu)秀解決方案。

via:blog.kaggle.com,雷鋒網(wǎng) AI 研習(xí)社編譯整理。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

如何在 15 個月內(nèi)占領(lǐng) Kaggle 榜首?bestfitting 經(jīng)驗大放送

分享:
相關(guān)文章

知情人士

我也是個旅途的浪人
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說