0
雷鋒網(wǎng) AI 科技評論按,幾百年來,人眼一直是夜空中天文源(astronomical sources)分類的仲裁者。但是,一個新的設(shè)備——大型天氣觀測望遠鏡(LSST)——即將徹底改變這個領(lǐng)域,它發(fā)現(xiàn)了 10 - 100 倍于我們所知的在夜空中變化的天文源,其中一些天文源是以前完全沒有被發(fā)現(xiàn)的。
為了幫助一些世界領(lǐng)先的天文學(xué)家掌握宇宙最本質(zhì)的特征,光度 LSST 天文時間序列分類挑戰(zhàn)賽(PLAsTiCC)要求 Kaggers 對這項新調(diào)查的數(shù)據(jù)進行分類。參賽者將被要求把隨時間變化的天文數(shù)據(jù)源分為不同的類,類的大小不一,從小的訓(xùn)練集到 LSST 能夠發(fā)現(xiàn)的非常大的測試集都有涉及。該比賽于 2018 年 12 月 10 日截止報名,2019 年 2 月 15 日,會公布LSST研討會公告。
比賽的評估方法:
使用加權(quán)多分類的對數(shù)損失評估提交??傮w效果是,每個分類對最終分數(shù)的重要性大致相同。
每個對象都有一個類型的標簽。對于每個對象,必須提交一組預(yù)測概率(每個類別一個)。公式是這樣的:
其中,N 是某個類別里面的對象數(shù),M 是類別數(shù)。ln 是自然對數(shù),對于 yij ,如果觀測 i 屬于 j 類,那么yij 為 1,否則為 0。pij 為觀測 i 屬于 j 類的預(yù)測概率。
給定對象的提交概率不需要求和為 1,因為它們在計分之前被重新校準(每行除以行和)。為了避免對數(shù)函數(shù)的極值,將預(yù)測概率替換為
。
比賽獎勵:
比賽主辦方還會參賽選手提供了價值不菲的獎勵,第一名獎金為 12000 美元,第二名為 8000 美元,第三名為 5000 美元,而且,優(yōu)勝選手還可以額外受邀參加即將舉行的 LSST 研討會之一,如 2019 年 2 月在美國舊金山舉行的 LSST 合作會議,2019 年 5 月在澳大利亞悉尼舉行的 LSST 合作會議,以及 2019 年 7 月在法國巴黎舉行的 LSST 合作會議。
目前,本次比賽的冠軍 Kyle Boone 已經(jīng)在 kaggle 上分享了他的方案,雷鋒網(wǎng) AI 科技評論編譯整理如下:
大家好,相關(guān)代碼現(xiàn)在可以在我的 Github 頁面上找到。
首先,感謝所有參加這次比賽的人!我學(xué)到了很多,我很喜歡和你們討論問題。以下是我在本次比賽中獲得第一名的模型的概述。我將很快發(fā)布完整的代碼。
我是一名研究超新星宇宙學(xué)的天文學(xué)家,我的工作主要是區(qū)分不同類型的超新星。最終模型的結(jié)果很不錯,因為其他的東西都很容易區(qū)分。以下是我的解決方案的概述:
通過減弱訓(xùn)練集中易于觀察的光度曲線來增強訓(xùn)練集,以匹配測試集的屬性。
使用高斯過程預(yù)測光度曲線。
測量了原始數(shù)據(jù)和高斯過程預(yù)測的 200 個特征。
訓(xùn)練一個 5 倍交叉驗證的 LGBM 模型。
我首先使用高斯過程(GP)回歸來提取特征。我用一個在波長方向上具有固定長度刻度和在時間方向上具有可變長度刻度的 Matern Kernel 對每個物體進行了 GP 訓(xùn)練。我的機器每秒可以進行 10 次擬合,因此需要大約 3 天的時間來完成所有擬合。高斯過程為采樣良好的光度曲線生成了非常好的模型,即使測量是在不同的波段也是如此。對于采樣率很低的光度曲線,GP 很好地擬合了可用的數(shù)據(jù),但并不總是能很好地進行預(yù)測。下面是一個例子:
我用 GP 預(yù)測計算了許多不同的特征。超新星的顯著特征是它們的峰值亮度和光度曲線的寬度,所以我在模型中對它們進行了一些測量。對于采樣率很低的光度曲線,GP 并不總是能給出很好的結(jié)果,所以我添加了一些特性。這基本上歸結(jié)為計算在最大光周圍不同窗口中的觀測次數(shù)。我還增加了與每個波段的信噪比相關(guān)的特性以及一些簡單的峰值檢測和計數(shù),來幫助對非超新星進行分類。
現(xiàn)在的訓(xùn)練集和測試集有很大的不同。為了解決這個問題,我把訓(xùn)練集中的每一條光度曲線都減弱了 40 次,得到了一個看起來像測試集中采樣不好的光度曲線的東西。減弱包括:
修改銀河系中物體的亮度。
修改銀河系外物體的紅移(包括延長時間和改變亮度)。
增加一些空缺值,例如由于時間不同在真實數(shù)據(jù)中出現(xiàn)的空缺。
基于模型的數(shù)據(jù)中的 spec-zs 轉(zhuǎn)為 photo-zs,在觀察中選擇一個新的 photo-z 和 photo-z 錯誤
進行模擬檢測,以選擇將哪些對象包含在給定的數(shù)據(jù)集中。
這種減弱都是針對訓(xùn)練數(shù)據(jù)或測試數(shù)據(jù)集進行的,沒有使用外部數(shù)據(jù)。經(jīng)過這個過程,我最終得到了一個含有大約 270000 個對象的訓(xùn)練集,它比原來的訓(xùn)練集更能代表測試集。我使用 5 折交叉驗證在這個訓(xùn)練集上訓(xùn)練了一個 LightGBM 模型,并確保在同一個數(shù)據(jù)集中保持每個對象多達 40 次減弱。在調(diào)整了這個模型之后,我在原來的訓(xùn)練集上得到的 CV 系數(shù)約為 0.4。下面是誤差矩陣:
這個模型的誤差矩陣與 CPMP 的誤差矩陣相比,有一些有趣的區(qū)別,比如我在類別 6 對象上的精度比 CPMP 低很多。這似乎是因為在我的減弱過程中,類別 65 相對于類別 6 來說信噪比更高。
我在如何識別類別 99 對象方面做了很多工作。我發(fā)現(xiàn)我使用的基于樹的模型不太適合異常值檢測。我最好的結(jié)果出現(xiàn)在選擇一個平分給類別 99 的對象,然后在 soft-max 中使用它來獲得最終概率。通過這個,我在公共排行榜上獲得了我認為最好的真實分數(shù) 0.726。
在努力提高這一分數(shù)很長一段時間后,我一無所獲。接下來的一個星期,我意識到我可以通過觀察排行榜找出類別 99 的對象。這種做法違背了預(yù)測類別 99 對象的目的,并且不幸的是,我得到的結(jié)果比任何對類別 99 對象的實際估計都要好得多。我就此事聯(lián)系了組織者,并被告知這是符合 kaggle 規(guī)則的。最后,我發(fā)現(xiàn)我對類別 99 對象的最佳預(yù)測是類別 42、52、62 和類別 95 預(yù)測的加權(quán)平均數(shù)。這個把戲讓我在公眾排行榜上的最后得分提高到 0.670??纯雌渌偁帉κ肿隽耸裁词且患苡腥さ氖虑?。
總的來說,我非常喜歡這場比賽,從比賽中我學(xué)到了很多東西!目前,我正在努力整理我的代碼,以方便其他人閱讀。我認為我的模型調(diào)優(yōu)還有很大的進步空間,我沒有嘗試做任何集成或使用除 LGBM 之外的分類器。
對于任何參與的天文學(xué)家來說,我將在幾周后進入 AAS,我很想和大家見面討論比賽!
來源:https://www.kaggle.com/c/PLAsTiCC-2018/discussion/75033
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。