0
本文作者: camel | 2018-03-10 10:18 |
天文愛(ài)好者們或許該學(xué)學(xué)機(jī)器學(xué)習(xí)了,在人工智能時(shí)代,用望遠(yuǎn)鏡來(lái)獵星已經(jīng)略 low。
雷鋒網(wǎng) AI科技評(píng)論按:去年12月份,谷歌訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),通過(guò)分析美國(guó)宇航局(NASA)Kepler空間望遠(yuǎn)鏡獲得的一些數(shù)據(jù),發(fā)現(xiàn)了兩顆系外行星。這項(xiàng)工作作為將機(jī)器學(xué)習(xí)的方法應(yīng)用到天體物理中的典型案例,或?qū)⒋蟠蠹铀偃祟悓?duì)系外行星的探索步伐。
而在今天,谷歌開(kāi)源了他們的代碼。任何有興趣的同學(xué)都可以下載代碼和數(shù)據(jù),在自己的機(jī)器上運(yùn)行。
雷鋒網(wǎng)注:系外行星,指在太陽(yáng)系之外的行星。天文學(xué)家估計(jì)銀河系中可能包含多達(dá)4,000億顆系外行星。截至2016年2月22日,已經(jīng)被認(rèn)定的系外行星總數(shù)為2085顆,這些行星分屬1331個(gè)行星系,其中有509個(gè)多行星系。- via Wikipedia
我們知道,行星是不發(fā)光的,我們之所以能夠看到水、金、火、木、土星,是因?yàn)樗鼈兎瓷淞颂?yáng)光線,但這些光線相比于恒星來(lái)說(shuō)是微不足道的。當(dāng)距離遙遠(yuǎn)時(shí),即使那些巨大的恒星都可能難以察覺(jué),更何況那些系外行星。
天文學(xué)家于是想到了另外一種辦法——當(dāng)行星經(jīng)過(guò)恒星的前方時(shí)會(huì)遮擋一部分光線,這就會(huì)導(dǎo)致我們測(cè)量的恒星亮度稍微下降,當(dāng)離開(kāi)后又會(huì)恢復(fù),于是在恒星亮度曲線上就會(huì)出現(xiàn)“U形”凹陷;通過(guò)這種方法,天文學(xué)家可以間接地證明系外行星的存在。
不過(guò),還有一些其他原因可能會(huì)導(dǎo)致測(cè)得的恒星亮度降低,例如雙星系統(tǒng)、恒星黑子(類似太陽(yáng)黑子)或者宇宙線打擊到空間望遠(yuǎn)鏡上所造成的儀器噪聲。
為了在Kepler空間望遠(yuǎn)鏡的數(shù)據(jù)中搜索行星,天文學(xué)家們使用了自動(dòng)化軟件來(lái)檢測(cè)可能由行星遮光引起的信號(hào),然后手動(dòng)跟蹤去確定這些信號(hào)到底是行星還是誤報(bào)。為了避免檢測(cè)到太多的信號(hào),以至于他們沒(méi)有那么多人手來(lái)處理,天文學(xué)家們對(duì)自動(dòng)檢測(cè)設(shè)置了一個(gè)截止點(diǎn):只有信噪比超過(guò)固定閾值才會(huì)被提取出來(lái);否則就丟掉。不過(guò)即使這樣,仍然有大量的信號(hào)需要檢測(cè)。例如到目前為止,已經(jīng)有超過(guò)30000個(gè)信號(hào)被手動(dòng)檢測(cè)過(guò),其中約2500個(gè)被驗(yàn)證為系外行星。
可能你也會(huì)想到,設(shè)置閾值是否會(huì)導(dǎo)致一些可能真實(shí)的行星信號(hào)被丟掉呢?答案是肯定的。但是,限于勞動(dòng)強(qiáng)度太大,而降低閾值假陽(yáng)性檢測(cè)率會(huì)伴隨著迅速增加,也即能夠檢測(cè)到實(shí)際行星的比例將越來(lái)越低。
然而,這些丟掉的信號(hào)里面可能存在一些我們很關(guān)切的天體——潛在的宜居行星(類似地球的行星)。這些宜居行星一般相對(duì)較小,而且圍繞在相對(duì)較暗的恒星周?chē)\(yùn)動(dòng),其遮光信號(hào)將非常弱。因此在閾值以下丟掉的這些信號(hào)可能隱藏著仍未發(fā)現(xiàn)的寶藏。
考慮到數(shù)據(jù)的龐大和人力的密集,自然而言想到的一個(gè)方法就是:機(jī)器學(xué)習(xí)。
基于以上的考慮,Google Brain團(tuán)隊(duì)找到了UT Austin大學(xué)的Andrew Vanderburg,Vanderburg是一位著名的天體物理學(xué)家,專注于研究系外行星探測(cè)。他們合作開(kāi)發(fā)了一個(gè)神經(jīng)網(wǎng)絡(luò)(CNN模型),用來(lái)在低信噪比檢測(cè)的信號(hào)中搜索系外行星。
就像所有基于神經(jīng)網(wǎng)絡(luò)的模型一樣,這個(gè)模型也需要訓(xùn)練集。幸運(yùn)的是,如前面所述,我們已經(jīng)擁有30000個(gè)Kepler信號(hào),這些信號(hào)已經(jīng)由天文學(xué)家們?nèi)斯な謩?dòng)檢測(cè)和分類過(guò)了。
Google團(tuán)隊(duì)使用了其中一半的數(shù)據(jù)用作訓(xùn)練,其中有3500個(gè)信號(hào)經(jīng)過(guò)驗(yàn)證為行星或行星候選者。該網(wǎng)絡(luò)的輸入是同一個(gè)光曲線的兩個(gè)獨(dú)立視圖:一個(gè)寬視圖,允許模型檢查光曲線上其他地方的信號(hào)(例如,雙星會(huì)引起次級(jí)信號(hào));一個(gè)是放大視圖,使模型能夠仔細(xì)檢查信號(hào)的形狀(例如將“U形”信號(hào)和“V形”信號(hào)區(qū)分開(kāi)來(lái))。
當(dāng)完成模型訓(xùn)練后,Google團(tuán)隊(duì)的研究人員用它研究了光曲線的的特征,以檢驗(yàn)?zāi)P偷妮敵鍪欠衽c我們的期望相符。方法很簡(jiǎn)單,就是系統(tǒng)地掩蓋輸入光曲線的某一個(gè)小區(qū)域,來(lái)檢測(cè)模型輸出的變化。結(jié)果顯示,如果掩蓋那些對(duì)判斷信號(hào)特別重要的區(qū)域,模型輸出也會(huì)相應(yīng)的改變;但如果掩蓋的是不重要的區(qū)域,則不會(huì)產(chǎn)生顯著的影響。
舉例來(lái)說(shuō),下面這張為雙星(而不是系外行星)的光曲線圖,模型做出了正確的預(yù)測(cè);其中綠色突顯的點(diǎn)是最能影響模型輸出的區(qū)域,因?yàn)樗鼈兪菍?duì)應(yīng)于雙星系統(tǒng)的次級(jí)信號(hào)。當(dāng)這些點(diǎn)被掩蓋后,模型的輸出中判斷為系外行星的概率就從0%突然躍升到40%。
經(jīng)過(guò)以上的驗(yàn)證后,研究人員對(duì)模型的預(yù)測(cè)能力就充滿了信心。他們選擇了670顆恒星,期望能在它們的光曲線中搜索到新的系外行星。之所以挑選這670顆恒星,是因?yàn)槲覀円阎@些恒星有多個(gè)軌道行星,研究人員們相信這些恒星中應(yīng)該還擁有一些尚未被發(fā)現(xiàn)的行星。
研究人員選取了遠(yuǎn)低于天文學(xué)家之前設(shè)置的信噪比閾值。正如預(yù)期的那樣,神經(jīng)網(wǎng)絡(luò)模型判斷的結(jié)果顯示大部分信號(hào)為虛假信號(hào),但令人興奮的是,有少數(shù)極有可能是系外行星的候選者。隨后經(jīng)過(guò)檢測(cè)判定了其中兩顆為系外行星: Kepler-90i 和Kepler-80g。
Amazing??!
從670顆恒星中找到了兩顆新的系外行星。這項(xiàng)工作可能只是一個(gè)開(kāi)始,而且遠(yuǎn)沒(méi)有完成,因?yàn)殚_(kāi)普勒觀測(cè)到的數(shù)據(jù)為20萬(wàn)顆恒星。誰(shuí)知道當(dāng)把這項(xiàng)技術(shù)應(yīng)用到整個(gè)數(shù)據(jù)集時(shí)我們會(huì)發(fā)現(xiàn)什么。
獨(dú)樂(lè)了不如眾樂(lè)樂(lè),Google Brain團(tuán)隊(duì)今天開(kāi)源了他們的代碼。有興趣的同學(xué)不妨加入這場(chǎng)大眾的獵星行動(dòng),一起來(lái)尋找那顆可能屬于自己的星球。
人工智能時(shí)代的天文愛(ài)好者,可能不再是拿著昂貴的器材到野外去看星空了,而是使用更強(qiáng)大的工具——機(jī)器學(xué)習(xí),來(lái)搜索宇宙。
代碼地址:https://github.com/tensorflow/models/tree/master/research/astronet
via Google Blog,雷鋒網(wǎng) AI科技評(píng)論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。