0
本文作者: 我在思考中 | 2022-05-12 11:24 |
作者 | Charlie Wood
編譯 | 王玥、劉冰一
2017 年,西北大學(xué)化學(xué)與生物工程系的助理教授Roger Guimerà和羅維拉-威爾吉利大學(xué)的物理學(xué)教授Marta Sales-Pardo發(fā)現(xiàn)了細(xì)胞分裂的原因。
該研究推動(dòng)了生物學(xué)的進(jìn)展,但他們并沒(méi)有從自己的數(shù)據(jù)中發(fā)現(xiàn)關(guān)鍵信息,反而是他們的一個(gè)未曾公開(kāi)的發(fā)明——他們稱之為“機(jī)器科學(xué)家”的虛擬助理將這些信息指了出來(lái)。
Guimerà 回憶道:“我們只是給機(jī)器科學(xué)家輸入了一個(gè)算法,然后就得到了答案。雖然這就是事實(shí),但沒(méi)有審稿人會(huì)信?!?/span>
圖注:URV 化學(xué)工程系的研究人員 Marta Sales-Pardo(左) 和 Roger Guimerà(右)
兩人與他們的前同學(xué)、加泰羅尼亞生物工程研究所的Xavier Trepat進(jìn)行合作,想要確認(rèn)哪些因素可能引發(fā)細(xì)胞分裂。許多生物學(xué)家認(rèn)為細(xì)胞超過(guò)一定大小就會(huì)分裂,而Trepat 覺(jué)得這其中仍有探索空間。他的團(tuán)隊(duì)破譯了成群細(xì)胞爭(zhēng)奪位置時(shí)在柔軟表面留下的納米級(jí)印記并積累了詳盡的數(shù)據(jù)集,其中記錄了形狀、力量和其他十幾種細(xì)胞特征,單單是測(cè)試這些細(xì)胞特征對(duì)細(xì)胞分裂的影響大概就得花一輩子。
可是,如果將數(shù)據(jù)提供給機(jī)器科學(xué)家,在幾分鐘內(nèi)機(jī)器科學(xué)家就能反饋給他們一個(gè)簡(jiǎn)潔方程。就預(yù)測(cè)一個(gè)細(xì)胞何時(shí)分裂而言,該方程比僅使用細(xì)胞大小或任何其他單一特征的方程精確 10 倍。據(jù)機(jī)器科學(xué)家所說(shuō),細(xì)胞分裂與否,取決于一個(gè)細(xì)胞的大小乘以它旁邊的細(xì)胞擠壓它的力度。
“機(jī)器科學(xué)家能夠發(fā)現(xiàn)一些我們沒(méi)有發(fā)現(xiàn)的東西。”Trepat說(shuō)。
由于研究人員沒(méi)有公開(kāi)過(guò)「機(jī)器科學(xué)家」的信息,因此他們只好進(jìn)行二次分析。經(jīng)過(guò)數(shù)百對(duì)變量的測(cè)試,他們得出了和「機(jī)器科學(xué)家」一致的答案,并在2018年將該研究發(fā)表在了Nature Cell Biology上。
圖注:西班牙 Rovira i Virgili 大學(xué)的 Roger Guimerà 和 Marta Sales-Pardo 主導(dǎo)構(gòu)建了一個(gè)強(qiáng)大的符號(hào)回歸算法,并稱之為“貝葉斯機(jī)器科學(xué)家”。
四年后,這種方法迅速成為一種公認(rèn)的科學(xué)發(fā)現(xiàn)方法。Sales-Pardo 和 Guimerà 是少數(shù)幾位開(kāi)發(fā)最新一代工具的研究人員之一,該工具能夠?qū)崿F(xiàn)符號(hào)回歸。
符號(hào)回歸算法不同于深度神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)算法可能會(huì)吸收數(shù)千個(gè)像素,讓像素滲透數(shù)百萬(wàn)個(gè)節(jié)點(diǎn)組成的迷宮,并通過(guò)不透明的機(jī)制輸出“dog”這個(gè)詞。而符號(hào)回歸算法識(shí)別復(fù)雜數(shù)據(jù)集,然后輸出一種人類能很好理解的簡(jiǎn)短方程式。這些算法類似于超級(jí)版本的 Excel 曲線擬合函數(shù),但這些算法不只尋找直線或拋物線擬合一組數(shù)據(jù)點(diǎn),還尋找數(shù)十億個(gè)不同的公式。通過(guò)這種方式,「機(jī)器科學(xué)家」可以讓人類了解細(xì)胞分裂的原因,而神經(jīng)網(wǎng)絡(luò)只能預(yù)測(cè)細(xì)胞何時(shí)分裂。
幾十年來(lái),研究人員一直在與這樣的機(jī)器科學(xué)家打交道,小心翼翼地誘導(dǎo)機(jī)器科學(xué)家從簡(jiǎn)單的數(shù)據(jù)集中重新發(fā)現(xiàn)教科書(shū)式的自然法則,并將其排列起來(lái),從中尋找某種模式。但是近年來(lái),這些算法已經(jīng)變得足夠成熟,可以在真實(shí)數(shù)據(jù)中探索出從湍流如何影響大氣層到暗物質(zhì)如何聚類等此前未被發(fā)現(xiàn)的關(guān)聯(lián)。
“毫無(wú)疑問(wèn),整個(gè)領(lǐng)域都在向前發(fā)展。”哥倫比亞大學(xué)的機(jī)器人專家Hod Lipson說(shuō)。他在13年前開(kāi)始了符號(hào)回歸的研究。
圖注:機(jī)器人專家 Hod Lipson
物理學(xué)家偶爾會(huì)單憑推理尋找真理,比如愛(ài)因斯坦通過(guò)從一束光束的角度想象另一束光束,從而感受空間和時(shí)間的柔韌性。
但是更多時(shí)候,理論是從馬拉松式的數(shù)據(jù)處理中誕生的。
16 世紀(jì)的天文學(xué)家布拉赫去世后,開(kāi)普勒接觸到了布拉赫筆記本中的天體觀測(cè),花了四年時(shí)間才確定火星在天空中描繪的是一個(gè)橢圓,而不是他之前認(rèn)為的蛋形。通過(guò)粗暴計(jì)算,他又另外發(fā)現(xiàn)了兩個(gè)關(guān)系,遵循了“第一定律”,這些規(guī)律便是牛頓指出萬(wàn)有引力定律的基礎(chǔ)。
符號(hào)回歸的目標(biāo)是加速這種開(kāi)普勒式的試錯(cuò),遍歷將變量與基本數(shù)學(xué)運(yùn)算聯(lián)系起來(lái)的無(wú)數(shù)方法,從而找到最能準(zhǔn)確預(yù)測(cè)系統(tǒng)行為的方程。
圖注:天體物理學(xué)家以兩種方式對(duì)太陽(yáng)系的行為進(jìn)行建模。他們首先使用了NASA多年數(shù)據(jù)來(lái)訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)。然后使用符號(hào)回歸算法將該模型提煉成一個(gè)方程式。在視頻中——顯示真實(shí)位置為實(shí)體物體,而模型預(yù)測(cè)為金屬網(wǎng)輪廓——神經(jīng)網(wǎng)絡(luò)(左)的表現(xiàn)遠(yuǎn)不如比起符號(hào)回歸算法(右)。
首個(gè)取得重大進(jìn)展的程序叫做BACON。它由當(dāng)時(shí)在卡內(nèi)基梅隆大學(xué)的認(rèn)知科學(xué)家和人工智能研究員 Patrick Langley 在1970年代末開(kāi)發(fā)。BACON 包含一列軌道周期和一列不同行星的軌道距離,然后以不同的方式系統(tǒng)地組合這些數(shù)據(jù):周期除以距離、周期平方乘以距離等。如果 BACON 在各種數(shù)據(jù)的不同組合中找到一個(gè)常數(shù),例如,如果周期的平方除以距離的立方總是給出相同的數(shù)字,就說(shuō)明它找到了開(kāi)普勒第三定律。一個(gè)常數(shù)意味著它已經(jīng)確定了兩個(gè)成比例的量,換句話說(shuō),當(dāng) BACON 找到一個(gè)方程時(shí),它就達(dá)到了目的,停止計(jì)算。
盡管重新發(fā)現(xiàn)了開(kāi)普勒第三定律和其他教科書(shū)上的經(jīng)典內(nèi)容,但在計(jì)算能力有限的時(shí)代,BACON仍然是一種奇特的存在。研究人員仍然需要手動(dòng)分析大多數(shù)據(jù)集,最終使用類似Excel的軟件,在給定特定類別的方程時(shí)找到簡(jiǎn)單數(shù)據(jù)集的最佳擬合。直到2009年,康奈爾大學(xué)的機(jī)器人專家 Lipson 和 Michael Schmidt 開(kāi)發(fā)了一種名為 Eureqa 的算法。這個(gè)算法可以找到描述任何數(shù)據(jù)集的正確模型。在 Eureqa 成功開(kāi)發(fā)以前,這個(gè)概念一直處于沉睡狀態(tài)。
他們的主要目標(biāo)是建立一臺(tái)機(jī)器,能夠?qū)⒁涣杏忠涣械淖兞康耐卣箶?shù)據(jù)集歸納為一個(gè)涉及少數(shù)實(shí)際重要變量的方程。Lipson說(shuō):“這個(gè)方程最終可能有四個(gè)變量,但我們事先不知道是哪些。我們得把所有可能的變量都扔進(jìn)去。天氣也許很重要,每平方英里牙醫(yī)的數(shù)量或許也很重要?!?/span>
處理眾多變量已經(jīng)是一個(gè)難點(diǎn)。研究人員表示,他們還需要具備一定的靈活性,嘗試各種可能走向死胡同的方法、并從中走出來(lái)。而當(dāng)算法可以從直線跳到拋物線,或增加一個(gè)正弦波紋時(shí),它掌握盡可能多數(shù)據(jù)點(diǎn)的能力也可能變得更糟。為了克服這些挑戰(zhàn),1992年,計(jì)算機(jī)科學(xué)家John Koza提出了 “遺傳算法”,這種算法將隨機(jī)“突變”引入方程,經(jīng)過(guò)多次試驗(yàn),最初無(wú)用的功能要么演變得強(qiáng)大,要么消亡。
Lipson和Schmidt將這一技術(shù)提升到了新的水平。一方面,他們生成了方程式。另一方面,他們隨機(jī)選擇了一些數(shù)據(jù)點(diǎn)來(lái)測(cè)試方程,“最適合”的點(diǎn)是那些對(duì)方程最有挑戰(zhàn)的點(diǎn)?!斑@就像軍備競(jìng)賽一樣,我們需要建立兩個(gè)不斷發(fā)展的事物,而非一個(gè)?!盠ipson說(shuō)。
Eureqa算法可以壓縮涉及十多個(gè)變量的數(shù)據(jù)集。它可以成功地反饋出高級(jí)方程,比如描述一個(gè)鐘擺懸掛在另一個(gè)鐘擺上的運(yùn)動(dòng)。
圖注:機(jī)器科學(xué)家是如何工作的
與此同時(shí),其他研究人員正在尋找訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的技巧。到2011年,深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)區(qū)分貓和狗以及執(zhí)行無(wú)數(shù)其他復(fù)雜任務(wù)方面取得了巨大成功。但是一個(gè)訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò)由數(shù)百萬(wàn)個(gè)具有數(shù)值價(jià)值的“神經(jīng)元”組成,這些神經(jīng)元不會(huì)明示它們已經(jīng)學(xué)會(huì)識(shí)別哪些特征??蒃ureqaque卻可以用人類的語(yǔ)言傳達(dá)自己的發(fā)現(xiàn)。
當(dāng) Sales-Pardo 第一次使用 Eureqa 時(shí),她感到很驚訝:“我認(rèn)為這是不可能的,這些人怎么做到的?” 她和 Guimerà 很快就開(kāi)始使用 Eureqa 為他們自己的網(wǎng)絡(luò)研究建立模型,雖然結(jié)果不一致,但他們對(duì) Eureqa 的強(qiáng)大功能印象深刻。該算法會(huì)演化出預(yù)測(cè)方程,但它也可能會(huì)弄巧成拙、然后得出一個(gè)過(guò)于復(fù)雜的方程。只要研究人員稍微調(diào)整他們的數(shù)據(jù),Eureqa 就會(huì)返回一個(gè)完全不同的公式。于是Sales-Pardo 和 Guimerà 便從頭開(kāi)始設(shè)計(jì)新的機(jī)器科學(xué)家。
在他們看來(lái),遺傳算法的問(wèn)題在于過(guò)于依賴創(chuàng)造者的口味。開(kāi)發(fā)人員需要指導(dǎo)算法,以平衡簡(jiǎn)單性和準(zhǔn)確性。一個(gè)方程總是可以通過(guò)附加項(xiàng)來(lái)觸碰到數(shù)據(jù)集中的更多點(diǎn)。但最好忽略有些離題的點(diǎn)。研究者可以把簡(jiǎn)單性定義為方程的長(zhǎng)度,把準(zhǔn)確性定義為曲線與數(shù)據(jù)集中每個(gè)點(diǎn)的接近程度,但這只是眾多選項(xiàng)中的兩個(gè)定義。
Sales-Pardo 、 Guimerà 與合作者一起,利用物理學(xué)和統(tǒng)計(jì)學(xué)方面的專業(yè)知識(shí),根據(jù)貝葉斯理論的概率框架來(lái)重新定義進(jìn)化過(guò)程。他們首先下載了維基百科中的所有方程式。然后對(duì)這些方程進(jìn)行統(tǒng)計(jì)分析,看看哪些類型最常見(jiàn)。這種辦法能讓算法少走彎路,例如讓算法嘗試使用比較常見(jiàn)的加法,而不是比較少見(jiàn)的雙曲余弦。然后該算法使用隨機(jī)抽樣方法生成方程變體,該方法已在數(shù)學(xué)上被證明可以探索數(shù)學(xué)領(lǐng)域的每一個(gè)角落。
在每個(gè)步驟中,該算法以方程式對(duì)數(shù)據(jù)集的壓縮程度對(duì)各類方程式進(jìn)行評(píng)估。例如,隨機(jī)散布的點(diǎn)根本不能被壓縮,我們需要知道每個(gè)點(diǎn)的位置。如果1000個(gè)點(diǎn)沿著一條直線落下,它們可以被壓縮成兩個(gè)數(shù)字(直線的斜率和高度)。這對(duì)學(xué)者發(fā)現(xiàn),壓縮程度為比較各個(gè)方程提供了一種獨(dú)特且穩(wěn)定的方法。Guimerà說(shuō):“我們可以證明,正確的模型就是壓縮數(shù)據(jù)最多的那個(gè),這不存在任意性。”
經(jīng)過(guò)多年研究,他們使用自己的算法找出了觸發(fā)細(xì)胞分裂的因素,2020年,他們和同事們?cè)凇禕ayesian machine scientist》中介紹了他們的 “貝葉斯機(jī)器科學(xué)家”。
從那時(shí)起,研究人員用貝葉斯機(jī)器科學(xué)家來(lái)改進(jìn)預(yù)測(cè)國(guó)家能源消耗的SoTA方程,而另一組則使用該方程來(lái)模擬通過(guò)網(wǎng)絡(luò)的滲透。開(kāi)發(fā)人員認(rèn)為這類算法將在像 Trepat 那樣的生物學(xué)研究中發(fā)揮巨大作用,因?yàn)樵谶@種研究當(dāng)中科學(xué)家們面對(duì)的是海量數(shù)據(jù)。
機(jī)器科學(xué)家也幫助物理學(xué)家理解跨越多尺度的系統(tǒng)。物理學(xué)家通常對(duì)原子使用一組方程,對(duì)臺(tái)球使用一組完全不同的方程,但這種零散的方法不適用于氣候科學(xué)等學(xué)科研究。
其中一位研究人員是紐約大學(xué)的Laure Zanna 。她在模擬海洋湍流的工作中經(jīng)常發(fā)現(xiàn)自己夾在兩個(gè)極端之間:超級(jí)計(jì)算機(jī)可以模擬城市大小的渦流,也可以模擬洲際洋流,但不能同時(shí)模擬兩種尺度。她的工作是幫助計(jì)算機(jī)生成包含較小漩渦影響的全局圖片,而無(wú)需直接模擬這些圖。最初,她轉(zhuǎn)向深度神經(jīng)網(wǎng)絡(luò)來(lái)提取高分辨率模擬的整體效果,并相應(yīng)地更新更粗略的模擬。“深度神經(jīng)網(wǎng)絡(luò)太棒了,”她說(shuō),“但我是一名氣候物理學(xué)家?!彼囊馑际撬胪ㄟ^(guò)壓力和溫度等原理來(lái)了解氣候是如何運(yùn)作的——“但是很難采集到成千上萬(wàn)的參數(shù),更別說(shuō)是滿意的參數(shù)了?!?/span>
然后她發(fā)現(xiàn)了由華盛頓大學(xué)應(yīng)用數(shù)學(xué)家Steven Brunton、Joshua Proctor和 Nathan Kutz設(shè)計(jì)的算法。他們的算法采用了一種被稱為稀疏回歸(Sparse Regression)的方法,這種方法與符號(hào)回歸的精神類似。這種方法沒(méi)有在變異方程中挑起大混戰(zhàn),而是從一個(gè)可能有上千個(gè)函數(shù)比如 x^2、 x/(x ? 1) 和 sin(x)的庫(kù)開(kāi)始。該算法在庫(kù)中搜索給出最準(zhǔn)確預(yù)測(cè)的術(shù)語(yǔ)組合,刪除最沒(méi)用的術(shù)語(yǔ),并繼續(xù)直到庫(kù)里只剩下少數(shù)幾個(gè)術(shù)語(yǔ)。與符號(hào)回歸算法相比,稀疏回歸閃電般的過(guò)程可以處理更多的數(shù)據(jù),其代價(jià)是探索的空間更小,因?yàn)樽罱K方程必須由庫(kù)項(xiàng)構(gòu)建。
為了了解其工作原理,Zanna 從頭開(kāi)始重寫(xiě)了稀疏回歸算法,然后將修改后的版本應(yīng)用于海洋模型。當(dāng)她輸入高分辨率影片并要求算法尋找精確的縮小草圖時(shí),算法返回了一個(gè)與渦度以及流體如何拉伸和剪切有關(guān)的簡(jiǎn)潔方程。當(dāng)她將這個(gè)方程輸入到她的大規(guī)模流體流動(dòng)模型中時(shí),她看到了以能量的函數(shù)形式變化的流體,且看得比以前更真切。
“該算法使用了額外的術(shù)語(yǔ),”Zanna 說(shuō),然后生成了一個(gè)“美麗”的方程,“這個(gè)方程能夠真正體現(xiàn)洋流的一些十分重要的特性,比如拉伸、剪切和旋轉(zhuǎn)?!?/span>
通過(guò)將自身優(yōu)勢(shì)與深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)相結(jié)合,其他團(tuán)隊(duì)也為機(jī)器科學(xué)家提供了助推力。
普林斯頓大學(xué)天體物理學(xué)研究生Miles Cranmer開(kāi)發(fā)了一種類似于 Eureqa 的開(kāi)源符號(hào)回歸算法,稱為 PySR。這個(gè)算法在數(shù)字“島嶼”上建立了不同的方程組,并讓最適合數(shù)據(jù)的方程周期性地“搬家”,然后與其他島嶼上的方程競(jìng)爭(zhēng)。Cranmer 與 來(lái)自 DeepMind 以及紐約大學(xué)的計(jì)算機(jī)科學(xué)家,還有 Flatiron 研究所的天體物理學(xué)家合作,提出了一種混合方案。他們首先訓(xùn)練神經(jīng)網(wǎng)絡(luò)完成任務(wù),再讓PySR給出一個(gè)描述神經(jīng)網(wǎng)絡(luò)的特定部分完成了何種任務(wù)的方程。
該小組將該程序應(yīng)用于暗物質(zhì)模擬,并根據(jù)相鄰云的特性生成了一個(gè)公式,該公式給出了暗物質(zhì)云中心的密度。該方程比現(xiàn)有的人工設(shè)計(jì)方程更適合數(shù)據(jù)。
2 月,該小組向系統(tǒng)輸入了30年來(lái)太陽(yáng)系行星和衛(wèi)星在天空中的真實(shí)位置。該算法完全跳過(guò)了開(kāi)普勒定律,直接推斷出牛頓的萬(wàn)有引力定律以及行星和衛(wèi)星的質(zhì)量。其他小組最近則使用 PySR 發(fā)現(xiàn)了描述粒子碰撞特征的方程、結(jié)體積的近似值以及暗物質(zhì)云在其中心塑造星系的方式。
對(duì)于機(jī)器科學(xué)家越來(lái)越多的情況(另一個(gè)值得關(guān)注的例子是麻省理工學(xué)院的物理學(xué)家 Max Tegmark 和 Silviu-Marian Udrescu 創(chuàng)建的“ AI Feynman ”),人類研究人員說(shuō),越多越好?!拔覀冋娴男枰@些技術(shù),”庫(kù)茨說(shuō),“全都需要,越多越好,因?yàn)闆](méi)有一個(gè)技術(shù)是萬(wàn)能的?!?/span>
論文地址:https://www.science.org/doi/10.1126/sciadv.aay2631
Kutz 相信機(jī)器科學(xué)家正在將該領(lǐng)域帶到他所謂的“GoPro 物理學(xué)”的風(fēng)口浪尖,研究人員只需將相機(jī)對(duì)準(zhǔn)目標(biāo),就能得到一個(gè)抓住正在發(fā)生的事情本質(zhì)的方程式。(目前的算法仍然需要人類提供一長(zhǎng)串潛在相關(guān)變量,比如位置和角度。)
這就是 Lipson 最近一直在做的事情。在12 月的預(yù)印本中,他與合作學(xué)者描述道,他們首先訓(xùn)練了一個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)接收視頻的幾幀,并預(yù)測(cè)接下來(lái)的幾幀。然后,該團(tuán)隊(duì)減少了神經(jīng)網(wǎng)絡(luò)允許使用的變量數(shù)量,到其預(yù)測(cè)開(kāi)始失敗為止。
論文鏈接:https://arxiv.org/abs/2112.10755
該算法能夠計(jì)算出需要多少變量來(lái)模擬像鐘擺那樣的簡(jiǎn)單系統(tǒng),或者像火舌那樣沒(méi)有明顯的變量可供跟蹤的復(fù)雜系統(tǒng)。
機(jī)器科學(xué)家不會(huì)取代深度神經(jīng)網(wǎng)絡(luò),因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)能夠在混亂或極其復(fù)雜的系統(tǒng)中大放異彩。
然而,當(dāng)涉及到圍繞行星運(yùn)行、流體晃動(dòng)和細(xì)胞分裂時(shí),機(jī)器科學(xué)家僅利用少量運(yùn)算得出的簡(jiǎn)明方程式卻十分準(zhǔn)確,令人費(fèi)解。諾貝爾獎(jiǎng)獲得者 Eugene Wigner 在他 1960 年的論文《自然科學(xué)中數(shù)學(xué)的不合理有效性(The Unreasonable Effectiveness of Mathematics in the Natural Sciences)》中將其稱為“我們既不理解也不配得的美妙禮物” 。正如 Cranmer 所說(shuō),“你去看看任何物理考試方程式的小抄,上面都是極其簡(jiǎn)單的代數(shù)表達(dá)式,但這些小抄幫助太大了?!?/span>
Cranmer 及其同事推測(cè),基礎(chǔ)運(yùn)算之所以如此出色,是因?yàn)樗鼈兇砹丝臻g中的基本幾何動(dòng)作,這使得它們成為描述現(xiàn)實(shí)的自然語(yǔ)言。加法將對(duì)象向下移動(dòng)到數(shù)軸。乘法將平坦區(qū)域變成 3D 體積。出于這個(gè)原因,他們懷疑,當(dāng)我們?cè)诓聹y(cè)方程式時(shí),往簡(jiǎn)單了猜是永遠(yuǎn)有道理的。
不過(guò),宇宙雖然有潛在的簡(jiǎn)單性,卻并不能保證每次這么猜測(cè)都對(duì)。
Guimerà 和 Sales-Pardo 最初構(gòu)建了他們?cè)跀?shù)學(xué)上嚴(yán)格的算法,因?yàn)?Eureqa 有時(shí)會(huì)為相似的輸入找到截然不同的方程。然而,令他們沮喪的是,他們發(fā)現(xiàn),即使是貝葉斯機(jī)器科學(xué)家有時(shí)也會(huì)為給定的數(shù)據(jù)集返回多個(gè)同樣好的模型。
兩人最近表明,原因在于數(shù)據(jù)本身。他們利用機(jī)器科學(xué)家探索了各種數(shù)據(jù)集,發(fā)現(xiàn)數(shù)據(jù)集分為兩類:干凈的和有噪聲的。在干凈的數(shù)據(jù)中,機(jī)器科學(xué)家總能找到生成數(shù)據(jù)的方程式。但超過(guò)一定的噪聲閾值,就不可能找到了。換句話說(shuō),噪聲數(shù)據(jù)可以很好地(或很差地)匹配任意數(shù)量的方程。因?yàn)檠芯咳藛T已經(jīng)證明了他們的算法總是能找到最好的方程,他們知道,如果算法失敗了,那就沒(méi)有任何人類或者機(jī)器能夠成功。
“我們發(fā)現(xiàn)這是一個(gè)基本的限制,”吉梅拉說(shuō)?!八晕覀冃枰獧C(jī)器科學(xué)家?!?/span>
參考鏈接:
https://www.quantamagazine.org/machine-scientists-distill-the-laws-of-physics-from-raw-data-20220510/
https://www.icrea.cat/Web/ScientificStaff/roger-guimera-manrique-512
Marta Sales-Pardo (0000-0002-8140-6525)
Hod Lipson
https://www.science.org/doi/10.1126/science.1165893
https://laurezanna.github.io/
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。