0
本文作者: 貝爽 | 2021-04-22 16:39 |
“一只蝴蝶在巴西微微振翅,是否會掀起美國德克薩斯州的龍卷風(fēng)?”
1963年,氣象學(xué)家愛德華勞倫茲發(fā)現(xiàn)混沌理論后,發(fā)出如此驚世一問。這也就是我們常說的蝴蝶效應(yīng)。勞倫茲用它來形容“厄爾尼諾”等復(fù)雜氣候現(xiàn)象的難以預(yù)測性。簡單理解就是:復(fù)雜系統(tǒng)中,任何微小的不確定性都會被放大,并導(dǎo)致最終的預(yù)測結(jié)果與瞎猜無異。
厄爾尼諾的出現(xiàn)將引發(fā)洪澇、干旱、高溫、暴雪等自然災(zāi)害,我們熟知的98洪災(zāi)、08雪災(zāi)、澳大利亞叢林大火、美國龍卷風(fēng)…..都與此相關(guān)。數(shù)十年來,專家們一直在嘗試各種方法解決厄爾尼諾的預(yù)測問題,但效果都不甚理想。
不過,令人驚喜的是,在剛剛結(jié)束的這場比賽中,一支黑馬團(tuán)隊(duì)刷新了行業(yè)內(nèi)預(yù)測精度的最高紀(jì)錄!
4月22日,阿里達(dá)摩院聯(lián)合南京信息工程大學(xué)、國家氣候中心、國家海洋環(huán)境預(yù)報(bào)中心、阿里云天池平臺等機(jī)構(gòu)共同舉辦的AI氣候預(yù)測大賽迎來了終極決賽。賽場上,來自西安交通大學(xué)的的swg-lhl團(tuán)隊(duì)奪得了本次大賽的冠軍,他們研發(fā)的AI算法模型在關(guān)鍵指標(biāo)上達(dá)到了44.43分。該成績超過了2019年發(fā)表于《Nature》的最佳成果。
此外,參賽團(tuán)隊(duì)的AI算法還預(yù)測,未來2年大概率不會出現(xiàn)厄爾尼諾和拉尼娜現(xiàn)象(NINO 3.4指數(shù)波動(dòng)?。?,換言之,今年全國可能迎來暖冬,夏季長江流域出現(xiàn)洪澇災(zāi)害的幾率較低。
根據(jù)比賽規(guī)則,Top 5 團(tuán)隊(duì)將瓜分阿里20萬元獎(jiǎng)金。
本屆大賽自啟動(dòng)以來,共有2849支團(tuán)隊(duì)報(bào)名參賽,400多支隊(duì)伍提交結(jié)果,200多支隊(duì)伍有成績。經(jīng)過晉級賽選拔,最終6支團(tuán)隊(duì)進(jìn)入決賽階段。今日終極決賽在南京信息工程大學(xué)順利結(jié)束,各支隊(duì)伍成績?nèi)缦拢?/p>
第一名:swg-lgl團(tuán)隊(duì)(桑維光、曾海如、羅海倫)
第二名:吳先生的隊(duì)伍(潘翔、吳嘉鋮、高磊)
第三名:ailab團(tuán)隊(duì)(王天雷、胡中巖、耿良超)
據(jù)了解,以上團(tuán)隊(duì)的AI算法模型超越了《Nature》論文模型的39.2分,這意味著這些算法能夠取得比原模型周期更長、精準(zhǔn)度更高的厄爾尼諾預(yù)測結(jié)果。
2019年9月,羅京佳教授與韓國全南國立大學(xué)研究團(tuán)隊(duì)共同發(fā)表一項(xiàng)研究成果,這篇論文名為“Deep learning for multi-year ENSO forecasts”,發(fā)表后同時(shí)登上了《Nature》的《Science》雜志。當(dāng)時(shí),這項(xiàng)研究論文被視為深度學(xué)習(xí)在氣象預(yù)測領(lǐng)域的開山之作。
論文地址:https://www.nature.com/articles/s41586-019-1559-7
論文中,他們利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)首次將厄爾尼諾現(xiàn)象的預(yù)測準(zhǔn)精度提高到了80%,且預(yù)測時(shí)效為18月。在此之前,相同預(yù)測時(shí)效下,國家氣象局及相關(guān)研究機(jī)構(gòu)的準(zhǔn)確度均不超過75%。
據(jù)阿里達(dá)摩院官方透露,本次比賽共有來自全球13支隊(duì)伍的AI算法結(jié)果超過了《Nature》文章的水平,而且部分團(tuán)隊(duì)的成果將在國家氣候中心等機(jī)構(gòu)應(yīng)用。
這些團(tuán)隊(duì)為何能夠取得如此成績?是得益于數(shù)據(jù)優(yōu)勢,還是算法創(chuàng)新?AI科技評論了解到,參賽隊(duì)伍通過預(yù)測Nino3.4區(qū)海域的海水溫度,來進(jìn)一步預(yù)測異常氣象,所用數(shù)據(jù)集為全球海洋環(huán)境監(jiān)測數(shù)據(jù)和厄爾尼諾現(xiàn)象觀測數(shù)據(jù),這些與羅京佳教授在論文中的研究條件并無較大差異。
對此,羅京佳教授對AI科技評論表示,他發(fā)表在《Nature》上的論文所使用的卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)相對成熟的算法,而非最先進(jìn)的算法。近幾年,越來越多高性能的深度學(xué)習(xí)算法被提出,這些將有助于提高預(yù)測精度。
同時(shí),他還表示,未來隨著人工智能在數(shù)據(jù)、算法方面不斷精進(jìn),AI在氣象預(yù)測領(lǐng)域的應(yīng)用還有更大的想象空間。
本次賽題是一個(gè)時(shí)間序列預(yù)測問題。基于歷史氣候觀測和模式模擬數(shù)據(jù),利用T時(shí)刻過去12個(gè)月(包含T時(shí)刻)的時(shí)空序列(氣象因子),構(gòu)建預(yù)測ENSO的深度學(xué)習(xí)模型,預(yù)測未來1-24個(gè)月的Nino3.4指數(shù),如下圖所示:
根據(jù)賽題信息,各參賽隊(duì)伍在現(xiàn)有先進(jìn)模型的基礎(chǔ)上進(jìn)行了不同程度的創(chuàng)新,如冠軍團(tuán)隊(duì)swg-lhl,他們采用了一種全新的TCNN模型提取時(shí)空特征信息,降低參數(shù)量并有效防止過擬合,實(shí)驗(yàn)證明,該模型在不同數(shù)據(jù)集表現(xiàn)穩(wěn)定,魯棒性更強(qiáng)。
下面AI科技評論將Top3團(tuán)隊(duì)所使用的模型結(jié)構(gòu)和特點(diǎn)一一呈現(xiàn)。
第一名:swg-lgl團(tuán)隊(duì)
他們使用1維卷積提取時(shí)間維度特征,使用2維卷積提取空間特征。時(shí)間維度特征和空間維度特征是分離串行提取,可以降低參數(shù)量,防止過擬合。為了感受不同時(shí)間維度尺度信息,他們使用3種尺度圖去提取時(shí)間特征,然后融合。模型圖如下:
圖注:整體框架
圖注:CNN特征提取
第二名:吳先生的隊(duì)伍
他們在SA-ConvLSTM 和ConvLSTM的基礎(chǔ)上增加了Self-attention memory module,即一個(gè)對空間維度采取注意力機(jī)制的模塊,和一個(gè)可記憶非局部時(shí)空特征的memory unit M。通過傳統(tǒng)的ConvLSTM計(jì)算得到的H會再通過Self-attention memory module得到最終SA-ConvLSTM的輸出和下一個(gè)時(shí)刻的M。
圖注:自我注意力記憶模塊
圖注:自我注意力 ConvLSTM (SA-ConvLSTM) 模塊.
該模型充分發(fā)現(xiàn)了自注意力機(jī)制在較長時(shí)間尺度的氣候演變時(shí)空預(yù)報(bào)中的作用。
創(chuàng)新之處在于,考慮了空間非局部的、時(shí)間更連續(xù)的時(shí)空結(jié)構(gòu)演變特征,整個(gè)西太平洋海溫時(shí)空結(jié)構(gòu)演變的信息,用時(shí)空預(yù)報(bào)作為時(shí)間序列預(yù)報(bào)的進(jìn)一步擴(kuò)充,并利用自注意力機(jī)制充分提取時(shí)空結(jié)構(gòu)信息來做預(yù)報(bào)。
第三名:ailab團(tuán)隊(duì)
LSTM模型使用了一種門控結(jié)構(gòu)用以控信息的流動(dòng),避免RNN長時(shí)間傳遞梯度消失問題。LSTM一共有3個(gè)門,分別是輸入門、遺忘門、輸出門。遺忘門控制丟棄多少上一時(shí)刻的細(xì)胞狀態(tài)。輸入門控制多少新的信息會進(jìn)入到當(dāng)前細(xì)胞狀態(tài)。最后,輸出門決定細(xì)胞狀態(tài)的哪些部分需要輸出。他們使用ConvLSTM作為基礎(chǔ)模型。ConvLSTM將LSTM中的全連接操作替換為卷積操作,使得數(shù)據(jù)的空間特征成功融入了網(wǎng)絡(luò),同時(shí)大大減少了網(wǎng)絡(luò)的參數(shù)數(shù)目。
在該模型中,基本單元Causal LSTM使用的是級聯(lián)結(jié)構(gòu),將狀態(tài)C的結(jié)果用于狀態(tài)M的計(jì)算。在第一層和第二層之間插入了類似GRU結(jié)構(gòu)的高速梯度單元GHU,用于緩解狀態(tài)M在長時(shí)間預(yù)測過程中的特征丟失問題。
創(chuàng)新之處在于:
1. 將有監(jiān)督回歸任務(wù)轉(zhuǎn)化為無監(jiān)督時(shí)空預(yù)測問題,從而提升了對數(shù)據(jù)的利用率以及深度學(xué)習(xí)算法的可解釋性。
2. 使用更先進(jìn)模型,通過復(fù)現(xiàn)近5年在發(fā)表各頂會中的論文模型,團(tuán)隊(duì)挑選了相對穩(wěn)定、高性價(jià)比的模型,并對此進(jìn)行了改進(jìn)使之更適合此次比賽。
如果能夠提前預(yù)測厄爾尼諾現(xiàn)象,其價(jià)值不言而喻。
厄爾尼諾,主要指熱帶太平洋東部和中部海水溫度異常增暖的現(xiàn)象,通過海洋與大氣之間的相互作用,使整個(gè)世界的氣候模式發(fā)生變化。如引發(fā)洪澇、干旱、高溫、雪災(zāi)等極端事件。
圖注:印度出現(xiàn)大面積干旱(圖源:trulybelong.com)
厄爾尼諾-南方濤動(dòng)(ENSO)現(xiàn)象是地球上最強(qiáng)、最顯著的年際氣候信號,前者體現(xiàn)在海洋方面的變化,后者發(fā)生在大氣層面,它是一種發(fā)生在東南太平洋與印度洋及印尼地區(qū)之間的反相氣壓振動(dòng)現(xiàn)象。
有專家稱,隨著全球變暖趨勢加強(qiáng),ENSO已由“罕見”變成了“普遍”現(xiàn)象。提前預(yù)測ENSO,做好防災(zāi)減災(zāi)工作意義重大。
2017年,羅京佳教授將深度學(xué)習(xí)算法引起氣候預(yù)測領(lǐng)域,使得相關(guān)研究才有了突破性進(jìn)展。
我們知道,繼首戰(zhàn)韓國職業(yè)棋手李世石后,由DeepMind公司研發(fā)的智能體AlphGO,在2017年的圍棋賽中再次以3:0戰(zhàn)績擊敗了世界冠軍選手柯潔。這一年,以AlphGo為代表的深度學(xué)習(xí)網(wǎng)絡(luò)名聲大噪,以深度學(xué)習(xí)為主題的第三次人工智能浪潮也開始襲來。
當(dāng)時(shí),羅京佳教授時(shí)任南京信息工程大學(xué)氣候與應(yīng)用前沿研究院(ICAR)擔(dān)任院長,在該領(lǐng)域已深耕20余年,主要研發(fā)氣候動(dòng)力學(xué)以及氣候模式開發(fā)、預(yù)測及其應(yīng)用、海洋動(dòng)力學(xué)。面對這股浪潮,他敏銳地察覺到深度學(xué)習(xí)或許將為氣候預(yù)測帶來新的可能性。
他說,“AlphGo戰(zhàn)勝人類展現(xiàn)了其強(qiáng)大的學(xué)習(xí)和信息處理能力。類似于圍棋游戲,在氣候預(yù)測中,大氣、海洋、溫度等眾多影響因子之間的相互作用也非常復(fù)雜,基于深度學(xué)習(xí)方法的AI或許能夠自學(xué)出一種更好的統(tǒng)計(jì)模型?!?/p>
兩年后,羅京佳教授及團(tuán)隊(duì)將相關(guān)研究成果發(fā)表在了《Nature》雜志,如上文所述,他們預(yù)測1.5年厄爾尼諾現(xiàn)象的準(zhǔn)確度達(dá)到了80%。雖然這一成績還遠(yuǎn)未達(dá)到精準(zhǔn)預(yù)測的程度,但它刷新了當(dāng)時(shí)行業(yè)預(yù)測的最高水平,并證明了深度學(xué)習(xí)方法在氣候預(yù)測中應(yīng)用的可能性。
此外,論文中顯示,卷積神經(jīng)網(wǎng)絡(luò)還能預(yù)測海表溫度異常的不同空間分布,彌補(bǔ)了目前動(dòng)力預(yù)測系統(tǒng)的不足。
“AI預(yù)測ENSO,也不可避免地會遇到小樣本數(shù)據(jù)和可解釋性的問題”,在談到AI在氣候預(yù)測方面的研究現(xiàn)狀時(shí),羅京佳教授說道。
相比于天氣預(yù)測,氣候預(yù)測的周期性更長(厄爾尼諾每2-7年發(fā)生一次),它所能夠利用的數(shù)據(jù)也就更少。目前相關(guān)研究所使用的數(shù)據(jù)集大多為1871年-1973年全球海洋天氣和環(huán)境的測量數(shù)據(jù),以及1961-2017年厄爾尼諾現(xiàn)象的觀測數(shù)據(jù)。
細(xì)算下來,相關(guān)數(shù)據(jù)量不足150年,如果把每年的相同月份進(jìn)行對比,每個(gè)月的樣本數(shù)量少于150個(gè)。對于深度學(xué)習(xí)的樣本數(shù)量而言,這顯然是不足的。值得一提的是,在這方面,羅京佳提出了利用遷移學(xué)習(xí)模擬數(shù)據(jù)的方法,在一定程度上解決了有限數(shù)據(jù)樣本的問題。
當(dāng)然,大數(shù)據(jù)本身并不意味著大價(jià)值,有效的數(shù)據(jù)分析還需要依靠機(jī)器學(xué)習(xí)算法,尤其是深度學(xué)習(xí)算法。因此,更先進(jìn)的算法能夠進(jìn)一步提升AI預(yù)測結(jié)果的準(zhǔn)確性,如本次大賽的結(jié)果就是最好的體現(xiàn)。
長期以來,AI被認(rèn)為是個(gè)黑匣子,雖然能輸出結(jié)果,但人們并不清楚它是如何得出這一結(jié)果的,這也就是AI的可解釋性問題。羅京佳教授認(rèn)為,AI的可解釋性差有兩點(diǎn)原因,一是它不像傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)方法,能夠遵循固定的程序和規(guī)則,了解每因子所做的貢獻(xiàn)。二是人工智能模型越來越復(fù)雜,一個(gè)模型可能有上億個(gè)參數(shù)。
他強(qiáng)調(diào),在地理研究中,我們更關(guān)注實(shí)現(xiàn)過程的機(jī)制和原理問題,由于AI的可解釋性差,在一定程度上限制了其在氣候預(yù)測領(lǐng)域的應(yīng)用和發(fā)展。
不過,可解釋性問題已經(jīng)成為行業(yè)內(nèi)的一個(gè)熱點(diǎn)課題,專家們提出了很多方法嘗試解決它,比如在數(shù)據(jù)訓(xùn)練和網(wǎng)絡(luò)框架中,引入機(jī)理約束和物理約束,這些都是目前在嘗試的一些解決思路,羅京佳教授說道。
本次賽事由阿里巴巴達(dá)摩院,聯(lián)合南京信息工程大學(xué)、國家氣候中心、國家海洋環(huán)境預(yù)報(bào)中心以及安徽省氣象局共同舉辦。
今日賽場上,該領(lǐng)域內(nèi)的多為重磅級專家,包括國家最高科學(xué)技術(shù)獎(jiǎng)獲得者、中科院院士曾慶存、國家氣候中心副主任賈小龍,中國科學(xué)院院士王會軍、戴永久、南京信息工程大學(xué)教授羅京佳等均有出席或擔(dān)任評委。
曾慶存院士表示,人工智能與大氣科學(xué)的結(jié)合大有可為,希望未來研究人員能把大氣科學(xué)已有的知識和方法更好地與人工智能結(jié)合,要敢于為世人、為世界之先,創(chuàng)造出最好的人工智能。
海洋環(huán)境預(yù)報(bào)中心副主任凌鐵軍表示:“在海洋預(yù)報(bào)與預(yù)測領(lǐng)域,仍然有很多科學(xué)與理論問題尚未完全解決,數(shù)學(xué)表達(dá)還很不完善,在技術(shù)實(shí)現(xiàn)和效果上仍存在較大不確定性,AI正是解決這些問題的重要手段?!?/p>
對于本次賽事的初衷和目標(biāo),阿里達(dá)摩院曾表示,國際氣象行業(yè)主要應(yīng)用機(jī)器學(xué)習(xí)動(dòng)力模式進(jìn)行氣候預(yù)測,但多年來,其預(yù)測范圍只能局限于100公里以上的區(qū)域,無法實(shí)現(xiàn)精細(xì)化的預(yù)測。達(dá)摩院的目的就是探索用AI來更高效更精細(xì)地預(yù)測影響氣候的厄爾尼諾現(xiàn)象,并將預(yù)測周期延長至2年。
本次大賽于今年2月3日正式啟動(dòng),共有2849個(gè)隊(duì)伍報(bào)名,3000余選手參賽,參賽選手覆蓋300所中國高校,91所海外高校,96家企業(yè),其覆蓋范圍之大,影響之廣在業(yè)內(nèi)少有,更重要的是,比賽最終取得了突破性的成果。
據(jù)介紹,本次大賽涌現(xiàn)的AI新算法,將用于國家氣候中心、國家海洋環(huán)境預(yù)報(bào)中心等業(yè)務(wù)機(jī)構(gòu),為未來極端天氣提供預(yù)警信息。此外,知名氣候研究學(xué)術(shù)組織CLIVAR還將設(shè)立??圱op 6參賽團(tuán)隊(duì)、科研機(jī)構(gòu)、知名專家在AI在氣候預(yù)測領(lǐng)域進(jìn)行投稿。CLIVAR在該領(lǐng)域有“氣候科學(xué)奧林匹克盛會”之稱。
對于本次大賽所取得的突出成果,世界氣象組織(WMO)秘書長佩蒂瑞·塔拉斯還發(fā)來祝賀,他表示,人工智能在氣象領(lǐng)域發(fā)揮越來越重要的作用,是地球預(yù)警系統(tǒng)和多災(zāi)害預(yù)警服務(wù)的基本方法;人工智能創(chuàng)新及應(yīng)用是世界氣象組織及成員實(shí)現(xiàn)可持續(xù)發(fā)展目標(biāo)、解決未來科學(xué)問題的最重要領(lǐng)域之一。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。