丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

Kaggle 光度測(cè)定 LSST 天文時(shí)間序列分類挑戰(zhàn)賽冠軍出爐,看他提高分?jǐn)?shù)的秘訣

本文作者: skura 編輯:汪思穎 2019-01-26 10:29
導(dǎo)語(yǔ):讓我們看看冠軍是如何進(jìn)行特征提取和降級(jí)的吧

雷鋒網(wǎng) AI 科技評(píng)論按,幾百年來(lái),人眼一直是夜空中天文源(astronomical sources)分類的仲裁者。但是,一個(gè)新的設(shè)備——大型天氣觀測(cè)望遠(yuǎn)鏡(LSST)——即將徹底改變這個(gè)領(lǐng)域,它發(fā)現(xiàn)了 10 - 100 倍于我們所知的在夜空中變化的天文源,其中一些天文源是以前完全沒(méi)有被發(fā)現(xiàn)的。

為了幫助一些世界領(lǐng)先的天文學(xué)家掌握宇宙最本質(zhì)的特征,光度 LSST 天文時(shí)間序列分類挑戰(zhàn)賽(PLAsTiCC)要求 Kaggers 對(duì)這項(xiàng)新調(diào)查的數(shù)據(jù)進(jìn)行分類。參賽者將被要求把隨時(shí)間變化的天文數(shù)據(jù)源分為不同的類,類的大小不一,從小的訓(xùn)練集到 LSST 能夠發(fā)現(xiàn)的非常大的測(cè)試集都有涉及。該比賽于 2018  年 12 月 10 日截止報(bào)名,2019  年 2 月 15 日,會(huì)公布LSST研討會(huì)公告。

比賽的評(píng)估方法:

使用加權(quán)多分類的對(duì)數(shù)損失評(píng)估提交??傮w效果是,每個(gè)分類對(duì)最終分?jǐn)?shù)的重要性大致相同。

每個(gè)對(duì)象都有一個(gè)類型的標(biāo)簽。對(duì)于每個(gè)對(duì)象,必須提交一組預(yù)測(cè)概率(每個(gè)類別一個(gè))。公式是這樣的:

Kaggle 光度測(cè)定 LSST 天文時(shí)間序列分類挑戰(zhàn)賽冠軍出爐,看他提高分?jǐn)?shù)的秘訣

其中,N 是某個(gè)類別里面的對(duì)象數(shù),M 是類別數(shù)。ln 是自然對(duì)數(shù),對(duì)于 yij ,如果觀測(cè) i 屬于 j 類,那么yij 為 1,否則為 0。pij 為觀測(cè) i 屬于 j 類的預(yù)測(cè)概率。

給定對(duì)象的提交概率不需要求和為 1,因?yàn)樗鼈冊(cè)谟?jì)分之前被重新校準(zhǔn)(每行除以行和)。為了避免對(duì)數(shù)函數(shù)的極值,將預(yù)測(cè)概率替換為Kaggle 光度測(cè)定 LSST 天文時(shí)間序列分類挑戰(zhàn)賽冠軍出爐,看他提高分?jǐn)?shù)的秘訣。

比賽獎(jiǎng)勵(lì):

比賽主辦方還會(huì)參賽選手提供了價(jià)值不菲的獎(jiǎng)勵(lì),第一名獎(jiǎng)金為 12000 美元,第二名為 8000 美元,第三名為 5000 美元,而且,優(yōu)勝選手還可以額外受邀參加即將舉行的 LSST 研討會(huì)之一,如 2019 年 2 月在美國(guó)舊金山舉行的 LSST 合作會(huì)議,2019 年 5 月在澳大利亞悉尼舉行的 LSST 合作會(huì)議,以及 2019 年 7 月在法國(guó)巴黎舉行的 LSST 合作會(huì)議。

目前,本次比賽的冠軍 Kyle Boone 已經(jīng)在 kaggle 上分享了他的方案,雷鋒網(wǎng) AI 科技評(píng)論編譯整理如下:

大家好,相關(guān)代碼現(xiàn)在可以在我的 Github 頁(yè)面上找到。

首先,感謝所有參加這次比賽的人!我學(xué)到了很多,我很喜歡和你們討論問(wèn)題。以下是我在本次比賽中獲得第一名的模型的概述。我將很快發(fā)布完整的代碼。

我是一名研究超新星宇宙學(xué)的天文學(xué)家,我的工作主要是區(qū)分不同類型的超新星。最終模型的結(jié)果很不錯(cuò),因?yàn)槠渌臇|西都很容易區(qū)分。以下是我的解決方案的概述:

  • 通過(guò)減弱訓(xùn)練集中易于觀察的光度曲線來(lái)增強(qiáng)訓(xùn)練集,以匹配測(cè)試集的屬性。

  • 使用高斯過(guò)程預(yù)測(cè)光度曲線。

  • 測(cè)量了原始數(shù)據(jù)和高斯過(guò)程預(yù)測(cè)的 200 個(gè)特征。

  • 訓(xùn)練一個(gè) 5 倍交叉驗(yàn)證的 LGBM 模型。

我首先使用高斯過(guò)程(GP)回歸來(lái)提取特征。我用一個(gè)在波長(zhǎng)方向上具有固定長(zhǎng)度刻度和在時(shí)間方向上具有可變長(zhǎng)度刻度的 Matern Kernel 對(duì)每個(gè)物體進(jìn)行了 GP 訓(xùn)練。我的機(jī)器每秒可以進(jìn)行 10 次擬合,因此需要大約 3 天的時(shí)間來(lái)完成所有擬合。高斯過(guò)程為采樣良好的光度曲線生成了非常好的模型,即使測(cè)量是在不同的波段也是如此。對(duì)于采樣率很低的光度曲線,GP 很好地?cái)M合了可用的數(shù)據(jù),但并不總是能很好地進(jìn)行預(yù)測(cè)。下面是一個(gè)例子:

我用 GP 預(yù)測(cè)計(jì)算了許多不同的特征。超新星的顯著特征是它們的峰值亮度和光度曲線的寬度,所以我在模型中對(duì)它們進(jìn)行了一些測(cè)量。對(duì)于采樣率很低的光度曲線,GP 并不總是能給出很好的結(jié)果,所以我添加了一些特性。這基本上歸結(jié)為計(jì)算在最大光周圍不同窗口中的觀測(cè)次數(shù)。我還增加了與每個(gè)波段的信噪比相關(guān)的特性以及一些簡(jiǎn)單的峰值檢測(cè)和計(jì)數(shù),來(lái)幫助對(duì)非超新星進(jìn)行分類。
現(xiàn)在的訓(xùn)練集和測(cè)試集有很大的不同。為了解決這個(gè)問(wèn)題,我把訓(xùn)練集中的每一條光度曲線都減弱了 40 次,得到了一個(gè)看起來(lái)像測(cè)試集中采樣不好的光度曲線的東西。減弱包括:

  • 修改銀河系中物體的亮度。

  • 修改銀河系外物體的紅移(包括延長(zhǎng)時(shí)間和改變亮度)。

  • 增加一些空缺值,例如由于時(shí)間不同在真實(shí)數(shù)據(jù)中出現(xiàn)的空缺。

  • 基于模型的數(shù)據(jù)中的 spec-zs 轉(zhuǎn)為 photo-zs,在觀察中選擇一個(gè)新的 photo-z 和 photo-z 錯(cuò)誤

  • 進(jìn)行模擬檢測(cè),以選擇將哪些對(duì)象包含在給定的數(shù)據(jù)集中。

這種減弱都是針對(duì)訓(xùn)練數(shù)據(jù)或測(cè)試數(shù)據(jù)集進(jìn)行的,沒(méi)有使用外部數(shù)據(jù)。經(jīng)過(guò)這個(gè)過(guò)程,我最終得到了一個(gè)含有大約 270000 個(gè)對(duì)象的訓(xùn)練集,它比原來(lái)的訓(xùn)練集更能代表測(cè)試集。我使用 5 折交叉驗(yàn)證在這個(gè)訓(xùn)練集上訓(xùn)練了一個(gè) LightGBM 模型,并確保在同一個(gè)數(shù)據(jù)集中保持每個(gè)對(duì)象多達(dá) 40 次減弱。在調(diào)整了這個(gè)模型之后,我在原來(lái)的訓(xùn)練集上得到的 CV 系數(shù)約為 0.4。下面是誤差矩陣:

這個(gè)模型的誤差矩陣與 CPMP 的誤差矩陣相比,有一些有趣的區(qū)別,比如我在類別 6 對(duì)象上的精度比 CPMP 低很多。這似乎是因?yàn)樵谖业臏p弱過(guò)程中,類別 65 相對(duì)于類別 6 來(lái)說(shuō)信噪比更高。

我在如何識(shí)別類別 99 對(duì)象方面做了很多工作。我發(fā)現(xiàn)我使用的基于樹(shù)的模型不太適合異常值檢測(cè)。我最好的結(jié)果出現(xiàn)在選擇一個(gè)平分給類別 99 的對(duì)象,然后在 soft-max 中使用它來(lái)獲得最終概率。通過(guò)這個(gè),我在公共排行榜上獲得了我認(rèn)為最好的真實(shí)分?jǐn)?shù) 0.726。

在努力提高這一分?jǐn)?shù)很長(zhǎng)一段時(shí)間后,我一無(wú)所獲。接下來(lái)的一個(gè)星期,我意識(shí)到我可以通過(guò)觀察排行榜找出類別 99 的對(duì)象。這種做法違背了預(yù)測(cè)類別 99 對(duì)象的目的,并且不幸的是,我得到的結(jié)果比任何對(duì)類別 99 對(duì)象的實(shí)際估計(jì)都要好得多。我就此事聯(lián)系了組織者,并被告知這是符合 kaggle 規(guī)則的。最后,我發(fā)現(xiàn)我對(duì)類別 99 對(duì)象的最佳預(yù)測(cè)是類別 42、52、62 和類別 95 預(yù)測(cè)的加權(quán)平均數(shù)。這個(gè)把戲讓我在公眾排行榜上的最后得分提高到 0.670??纯雌渌?jìng)爭(zhēng)對(duì)手做了什么是一件很有趣的事情。

總的來(lái)說(shuō),我非常喜歡這場(chǎng)比賽,從比賽中我學(xué)到了很多東西!目前,我正在努力整理我的代碼,以方便其他人閱讀。我認(rèn)為我的模型調(diào)優(yōu)還有很大的進(jìn)步空間,我沒(méi)有嘗試做任何集成或使用除 LGBM 之外的分類器。

對(duì)于任何參與的天文學(xué)家來(lái)說(shuō),我將在幾周后進(jìn)入 AAS,我很想和大家見(jiàn)面討論比賽!

來(lái)源:https://www.kaggle.com/c/PLAsTiCC-2018/discussion/75033

雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

Kaggle 光度測(cè)定 LSST 天文時(shí)間序列分類挑戰(zhàn)賽冠軍出爐,看他提高分?jǐn)?shù)的秘訣

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)