Kaggle 光度測(cè)定 LSST 天文時(shí)間序列分類挑戰(zhàn)賽冠軍出爐，看他提高分?jǐn)?shù)的秘訣

本文作者： skura

編輯：汪思穎

2019-01-26 10:29

導(dǎo)語(yǔ)：讓我們看看冠軍是如何進(jìn)行特征提取和降級(jí)的吧

雷鋒網(wǎng) AI 科技評(píng)論按，幾百年來(lái)，人眼一直是夜空中天文源（astronomical sources）分類的仲裁者。但是，一個(gè)新的設(shè)備——大型天氣觀測(cè)望遠(yuǎn)鏡（LSST）——即將徹底改變這個(gè)領(lǐng)域，它發(fā)現(xiàn)了 10 - 100 倍于我們所知的在夜空中變化的天文源，其中一些天文源是以前完全沒(méi)有被發(fā)現(xiàn)的。

為了幫助一些世界領(lǐng)先的天文學(xué)家掌握宇宙最本質(zhì)的特征，光度 LSST 天文時(shí)間序列分類挑戰(zhàn)賽（PLAsTiCC）要求 Kaggers 對(duì)這項(xiàng)新調(diào)查的數(shù)據(jù)進(jìn)行分類。參賽者將被要求把隨時(shí)間變化的天文數(shù)據(jù)源分為不同的類，類的大小不一，從小的訓(xùn)練集到 LSST 能夠發(fā)現(xiàn)的非常大的測(cè)試集都有涉及。該比賽于 2018 年 12 月 10 日截止報(bào)名，2019 年 2 月 15 日，會(huì)公布LSST研討會(huì)公告。

比賽的評(píng)估方法：

使用加權(quán)多分類的對(duì)數(shù)損失評(píng)估提交?？傮w效果是，每個(gè)分類對(duì)最終分?jǐn)?shù)的重要性大致相同。
每個(gè)對(duì)象都有一個(gè)類型的標(biāo)簽。對(duì)于每個(gè)對(duì)象，必須提交一組預(yù)測(cè)概率（每個(gè)類別一個(gè)）。公式是這樣的：
其中，N 是某個(gè)類別里面的對(duì)象數(shù)，M 是類別數(shù)。l_n 是自然對(duì)數(shù)，對(duì)于 y_{ij ，}如果觀測(cè) i 屬于 j 類，那么y_ij 為 1，否則為 0。p_ij 為觀測(cè) i 屬于 j 類的預(yù)測(cè)概率。
給定對(duì)象的提交概率不需要求和為 1，因?yàn)樗鼈冊(cè)谟?jì)分之前被重新校準(zhǔn)（每行除以行和）。為了避免對(duì)數(shù)函數(shù)的極值，將預(yù)測(cè)概率替換為。

比賽獎(jiǎng)勵(lì)：

比賽主辦方還會(huì)參賽選手提供了價(jià)值不菲的獎(jiǎng)勵(lì)，第一名獎(jiǎng)金為 12000 美元，第二名為 8000 美元，第三名為 5000 美元，而且，優(yōu)勝選手還可以額外受邀參加即將舉行的 LSST 研討會(huì)之一，如 2019 年 2 月在美國(guó)舊金山舉行的 LSST 合作會(huì)議，2019 年 5 月在澳大利亞悉尼舉行的 LSST 合作會(huì)議，以及 2019 年 7 月在法國(guó)巴黎舉行的 LSST 合作會(huì)議。

目前，本次比賽的冠軍 Kyle Boone 已經(jīng)在 kaggle 上分享了他的方案，雷鋒網(wǎng) AI 科技評(píng)論編譯整理如下：

大家好，相關(guān)代碼現(xiàn)在可以在我的 Github 頁(yè)面上找到。

首先，感謝所有參加這次比賽的人！我學(xué)到了很多，我很喜歡和你們討論問(wèn)題。以下是我在本次比賽中獲得第一名的模型的概述。我將很快發(fā)布完整的代碼。

我是一名研究超新星宇宙學(xué)的天文學(xué)家，我的工作主要是區(qū)分不同類型的超新星。最終模型的結(jié)果很不錯(cuò)，因?yàn)槠渌臇|西都很容易區(qū)分。以下是我的解決方案的概述：

通過(guò)減弱訓(xùn)練集中易于觀察的光度曲線來(lái)增強(qiáng)訓(xùn)練集，以匹配測(cè)試集的屬性。
使用高斯過(guò)程預(yù)測(cè)光度曲線。
測(cè)量了原始數(shù)據(jù)和高斯過(guò)程預(yù)測(cè)的 200 個(gè)特征。
訓(xùn)練一個(gè) 5 倍交叉驗(yàn)證的 LGBM 模型。

我首先使用高斯過(guò)程（GP）回歸來(lái)提取特征。我用一個(gè)在波長(zhǎng)方向上具有固定長(zhǎng)度刻度和在時(shí)間方向上具有可變長(zhǎng)度刻度的 Matern Kernel 對(duì)每個(gè)物體進(jìn)行了 GP 訓(xùn)練。我的機(jī)器每秒可以進(jìn)行 10 次擬合，因此需要大約 3 天的時(shí)間來(lái)完成所有擬合。高斯過(guò)程為采樣良好的光度曲線生成了非常好的模型，即使測(cè)量是在不同的波段也是如此。對(duì)于采樣率很低的光度曲線，GP 很好地?cái)M合了可用的數(shù)據(jù)，但并不總是能很好地進(jìn)行預(yù)測(cè)。下面是一個(gè)例子：

我用 GP 預(yù)測(cè)計(jì)算了許多不同的特征。超新星的顯著特征是它們的峰值亮度和光度曲線的寬度，所以我在模型中對(duì)它們進(jìn)行了一些測(cè)量。對(duì)于采樣率很低的光度曲線，GP 并不總是能給出很好的結(jié)果，所以我添加了一些特性。這基本上歸結(jié)為計(jì)算在最大光周圍不同窗口中的觀測(cè)次數(shù)。我還增加了與每個(gè)波段的信噪比相關(guān)的特性以及一些簡(jiǎn)單的峰值檢測(cè)和計(jì)數(shù)，來(lái)幫助對(duì)非超新星進(jìn)行分類。
現(xiàn)在的訓(xùn)練集和測(cè)試集有很大的不同。為了解決這個(gè)問(wèn)題，我把訓(xùn)練集中的每一條光度曲線都減弱了 40 次，得到了一個(gè)看起來(lái)像測(cè)試集中采樣不好的光度曲線的東西。減弱包括：

修改銀河系中物體的亮度。
修改銀河系外物體的紅移（包括延長(zhǎng)時(shí)間和改變亮度）。
增加一些空缺值，例如由于時(shí)間不同在真實(shí)數(shù)據(jù)中出現(xiàn)的空缺。
基于模型的數(shù)據(jù)中的 spec-zs 轉(zhuǎn)為 photo-zs，在觀察中選擇一個(gè)新的 photo-z 和 photo-z 錯(cuò)誤
進(jìn)行模擬檢測(cè)，以選擇將哪些對(duì)象包含在給定的數(shù)據(jù)集中。

這種減弱都是針對(duì)訓(xùn)練數(shù)據(jù)或測(cè)試數(shù)據(jù)集進(jìn)行的，沒(méi)有使用外部數(shù)據(jù)。經(jīng)過(guò)這個(gè)過(guò)程，我最終得到了一個(gè)含有大約 270000 個(gè)對(duì)象的訓(xùn)練集，它比原來(lái)的訓(xùn)練集更能代表測(cè)試集。我使用 5 折交叉驗(yàn)證在這個(gè)訓(xùn)練集上訓(xùn)練了一個(gè) LightGBM 模型，并確保在同一個(gè)數(shù)據(jù)集中保持每個(gè)對(duì)象多達(dá) 40 次減弱。在調(diào)整了這個(gè)模型之后，我在原來(lái)的訓(xùn)練集上得到的 CV 系數(shù)約為 0.4。下面是誤差矩陣：

這個(gè)模型的誤差矩陣與 CPMP 的誤差矩陣相比，有一些有趣的區(qū)別，比如我在類別 6 對(duì)象上的精度比 CPMP 低很多。這似乎是因?yàn)樵谖业臏p弱過(guò)程中，類別 65 相對(duì)于類別 6 來(lái)說(shuō)信噪比更高。

我在如何識(shí)別類別 99 對(duì)象方面做了很多工作。我發(fā)現(xiàn)我使用的基于樹(shù)的模型不太適合異常值檢測(cè)。我最好的結(jié)果出現(xiàn)在選擇一個(gè)平分給類別 99 的對(duì)象，然后在 soft-max 中使用它來(lái)獲得最終概率。通過(guò)這個(gè)，我在公共排行榜上獲得了我認(rèn)為最好的真實(shí)分?jǐn)?shù) 0.726。

在努力提高這一分?jǐn)?shù)很長(zhǎng)一段時(shí)間后，我一無(wú)所獲。接下來(lái)的一個(gè)星期，我意識(shí)到我可以通過(guò)觀察排行榜找出類別 99 的對(duì)象。這種做法違背了預(yù)測(cè)類別 99 對(duì)象的目的，并且不幸的是，我得到的結(jié)果比任何對(duì)類別 99 對(duì)象的實(shí)際估計(jì)都要好得多。我就此事聯(lián)系了組織者，并被告知這是符合 kaggle 規(guī)則的。最后，我發(fā)現(xiàn)我對(duì)類別 99 對(duì)象的最佳預(yù)測(cè)是類別 42、52、62 和類別 95 預(yù)測(cè)的加權(quán)平均數(shù)。這個(gè)把戲讓我在公眾排行榜上的最后得分提高到 0.670。看看其他競(jìng)爭(zhēng)對(duì)手做了什么是一件很有趣的事情。

總的來(lái)說(shuō)，我非常喜歡這場(chǎng)比賽，從比賽中我學(xué)到了很多東西！目前，我正在努力整理我的代碼，以方便其他人閱讀。我認(rèn)為我的模型調(diào)優(yōu)還有很大的進(jìn)步空間，我沒(méi)有嘗試做任何集成或使用除 LGBM 之外的分類器。

對(duì)于任何參與的天文學(xué)家來(lái)說(shuō)，我將在幾周后進(jìn)入 AAS，我很想和大家見(jiàn)面討論比賽！

來(lái)源：https://www.kaggle.com/c/PLAsTiCC-2018/discussion/75033

雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。