揭示世界本質(zhì)的「機器科學(xué)家」，比深度神經(jīng)網(wǎng)絡(luò)還強？

本文作者：我在思考中

2022-05-12 11:24

導(dǎo)語：無論攝像機聚焦于什么事件，算法都可以識別其中潛在的物理方程。

我們正處于“GoPro 物理學(xué)”的風(fēng)口浪尖。無論攝像機聚焦于什么事件，算法都可以識別其中潛在的物理方程。

作者 | Charlie Wood

編譯 | 王玥、劉冰一

編輯 | 陳彩嫻

2017 年，西北大學(xué)化學(xué)與生物工程系的助理教授Roger Guimerà和羅維拉-威爾吉利大學(xué)的物理學(xué)教授Marta Sales-Pardo發(fā)現(xiàn)了細胞分裂的原因。

該研究推動了生物學(xué)的進展，但他們并沒有從自己的數(shù)據(jù)中發(fā)現(xiàn)關(guān)鍵信息，反而是他們的一個未曾公開的發(fā)明——他們稱之為“機器科學(xué)家”的虛擬助理將這些信息指了出來。

Guimerà 回憶道：“我們只是給機器科學(xué)家輸入了一個算法，然后就得到了答案。雖然這就是事實，但沒有審稿人會信?！?/span>

揭示世界本質(zhì)的「機器科學(xué)家」，比深度神經(jīng)網(wǎng)絡(luò)還強？

圖注：URV 化學(xué)工程系的研究人員 Marta Sales-Pardo（左）和 Roger Guimerà（右）

兩人與他們的前同學(xué)、加泰羅尼亞生物工程研究所的Xavier Trepat進行合作，想要確認哪些因素可能引發(fā)細胞分裂。許多生物學(xué)家認為細胞超過一定大小就會分裂，而Trepat 覺得這其中仍有探索空間。他的團隊破譯了成群細胞爭奪位置時在柔軟表面留下的納米級印記并積累了詳盡的數(shù)據(jù)集，其中記錄了形狀、力量和其他十幾種細胞特征，單單是測試這些細胞特征對細胞分裂的影響大概就得花一輩子。

可是，如果將數(shù)據(jù)提供給機器科學(xué)家，在幾分鐘內(nèi)機器科學(xué)家就能反饋給他們一個簡潔方程。就預(yù)測一個細胞何時分裂而言，該方程比僅使用細胞大小或任何其他單一特征的方程精確 10 倍。據(jù)機器科學(xué)家所說，細胞分裂與否，取決于一個細胞的大小乘以它旁邊的細胞擠壓它的力度。

“機器科學(xué)家能夠發(fā)現(xiàn)一些我們沒有發(fā)現(xiàn)的東西?！盩repat說。

由于研究人員沒有公開過「機器科學(xué)家」的信息，因此他們只好進行二次分析。經(jīng)過數(shù)百對變量的測試，他們得出了和「機器科學(xué)家」一致的答案，并在2018年將該研究發(fā)表在了Nature Cell Biology上。

圖注：西班牙 Rovira i Virgili 大學(xué)的 Roger Guimerà 和 Marta Sales-Pardo 主導(dǎo)構(gòu)建了一個強大的符號回歸算法，并稱之為“貝葉斯機器科學(xué)家”。

四年后，這種方法迅速成為一種公認的科學(xué)發(fā)現(xiàn)方法。Sales-Pardo 和 Guimerà 是少數(shù)幾位開發(fā)最新一代工具的研究人員之一，該工具能夠?qū)崿F(xiàn)符號回歸。

符號回歸算法不同于深度神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)算法可能會吸收數(shù)千個像素，讓像素滲透數(shù)百萬個節(jié)點組成的迷宮，并通過不透明的機制輸出“dog”這個詞。而符號回歸算法識別復(fù)雜數(shù)據(jù)集，然后輸出一種人類能很好理解的簡短方程式。這些算法類似于超級版本的 Excel 曲線擬合函數(shù)，但這些算法不只尋找直線或拋物線擬合一組數(shù)據(jù)點，還尋找數(shù)十億個不同的公式。通過這種方式，「機器科學(xué)家」可以讓人類了解細胞分裂的原因，而神經(jīng)網(wǎng)絡(luò)只能預(yù)測細胞何時分裂。

幾十年來，研究人員一直在與這樣的機器科學(xué)家打交道，小心翼翼地誘導(dǎo)機器科學(xué)家從簡單的數(shù)據(jù)集中重新發(fā)現(xiàn)教科書式的自然法則，并將其排列起來，從中尋找某種模式。但是近年來，這些算法已經(jīng)變得足夠成熟，可以在真實數(shù)據(jù)中探索出從湍流如何影響大氣層到暗物質(zhì)如何聚類等此前未被發(fā)現(xiàn)的關(guān)聯(lián)。

“毫無疑問，整個領(lǐng)域都在向前發(fā)展?！备鐐惐葋喆髮W(xué)的機器人專家Hod Lipson說。他在13年前開始了符號回歸的研究。

圖注：機器人專家 Hod Lipson

機器科學(xué)家的崛起

物理學(xué)家偶爾會單憑推理尋找真理，比如愛因斯坦通過從一束光束的角度想象另一束光束，從而感受空間和時間的柔韌性。

但是更多時候，理論是從馬拉松式的數(shù)據(jù)處理中誕生的。

16 世紀的天文學(xué)家布拉赫去世后，開普勒接觸到了布拉赫筆記本中的天體觀測，花了四年時間才確定火星在天空中描繪的是一個橢圓，而不是他之前認為的蛋形。通過粗暴計算，他又另外發(fā)現(xiàn)了兩個關(guān)系，遵循了“第一定律”，這些規(guī)律便是牛頓指出萬有引力定律的基礎(chǔ)。

符號回歸的目標(biāo)是加速這種開普勒式的試錯，遍歷將變量與基本數(shù)學(xué)運算聯(lián)系起來的無數(shù)方法，從而找到最能準確預(yù)測系統(tǒng)行為的方程。

圖注：天體物理學(xué)家以兩種方式對太陽系的行為進行建模。他們首先使用了NASA多年數(shù)據(jù)來訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)。然后使用符號回歸算法將該模型提煉成一個方程式。在視頻中——顯示真實位置為實體物體，而模型預(yù)測為金屬網(wǎng)輪廓——神經(jīng)網(wǎng)絡(luò)（左）的表現(xiàn)遠不如比起符號回歸算法（右）。

首個取得重大進展的程序叫做BACON。它由當(dāng)時在卡內(nèi)基梅隆大學(xué)的認知科學(xué)家和人工智能研究員 Patrick Langley 在1970年代末開發(fā)。BACON 包含一列軌道周期和一列不同行星的軌道距離，然后以不同的方式系統(tǒng)地組合這些數(shù)據(jù)：周期除以距離、周期平方乘以距離等。如果 BACON 在各種數(shù)據(jù)的不同組合中找到一個常數(shù)，例如，如果周期的平方除以距離的立方總是給出相同的數(shù)字，就說明它找到了開普勒第三定律。一個常數(shù)意味著它已經(jīng)確定了兩個成比例的量，換句話說，當(dāng) BACON 找到一個方程時，它就達到了目的，停止計算。

盡管重新發(fā)現(xiàn)了開普勒第三定律和其他教科書上的經(jīng)典內(nèi)容，但在計算能力有限的時代，BACON仍然是一種奇特的存在。研究人員仍然需要手動分析大多數(shù)據(jù)集，最終使用類似Excel的軟件，在給定特定類別的方程時找到簡單數(shù)據(jù)集的最佳擬合。直到2009年，康奈爾大學(xué)的機器人專家 Lipson 和 Michael Schmidt 開發(fā)了一種名為 Eureqa 的算法。這個算法可以找到描述任何數(shù)據(jù)集的正確模型。在 Eureqa 成功開發(fā)以前，這個概念一直處于沉睡狀態(tài)。

他們的主要目標(biāo)是建立一臺機器，能夠?qū)⒁涣杏忠涣械淖兞康耐卣箶?shù)據(jù)集歸納為一個涉及少數(shù)實際重要變量的方程。Lipson說：“這個方程最終可能有四個變量，但我們事先不知道是哪些。我們得把所有可能的變量都扔進去。天氣也許很重要，每平方英里牙醫(yī)的數(shù)量或許也很重要?！?/span>

處理眾多變量已經(jīng)是一個難點。研究人員表示，他們還需要具備一定的靈活性，嘗試各種可能走向死胡同的方法、并從中走出來。而當(dāng)算法可以從直線跳到拋物線，或增加一個正弦波紋時，它掌握盡可能多數(shù)據(jù)點的能力也可能變得更糟。為了克服這些挑戰(zhàn)，1992年，計算機科學(xué)家John Koza提出了 “遺傳算法”，這種算法將隨機“突變”引入方程，經(jīng)過多次試驗，最初無用的功能要么演變得強大，要么消亡。

Lipson和Schmidt將這一技術(shù)提升到了新的水平。一方面，他們生成了方程式。另一方面，他們隨機選擇了一些數(shù)據(jù)點來測試方程，“最適合”的點是那些對方程最有挑戰(zhàn)的點。“這就像軍備競賽一樣，我們需要建立兩個不斷發(fā)展的事物，而非一個?！盠ipson說。

Eureqa算法可以壓縮涉及十多個變量的數(shù)據(jù)集。它可以成功地反饋出高級方程，比如描述一個鐘擺懸掛在另一個鐘擺上的運動。

圖注：機器科學(xué)家是如何工作的

與此同時，其他研究人員正在尋找訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的技巧。到2011年，深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)區(qū)分貓和狗以及執(zhí)行無數(shù)其他復(fù)雜任務(wù)方面取得了巨大成功。但是一個訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò)由數(shù)百萬個具有數(shù)值價值的“神經(jīng)元”組成，這些神經(jīng)元不會明示它們已經(jīng)學(xué)會識別哪些特征?？蒃ureqaque卻可以用人類的語言傳達自己的發(fā)現(xiàn)。

當(dāng) Sales-Pardo 第一次使用 Eureqa 時，她感到很驚訝：“我認為這是不可能的，這些人怎么做到的？” 她和 Guimerà 很快就開始使用 Eureqa 為他們自己的網(wǎng)絡(luò)研究建立模型，雖然結(jié)果不一致，但他們對 Eureqa 的強大功能印象深刻。該算法會演化出預(yù)測方程，但它也可能會弄巧成拙、然后得出一個過于復(fù)雜的方程。只要研究人員稍微調(diào)整他們的數(shù)據(jù)，Eureqa 就會返回一個完全不同的公式。于是Sales-Pardo 和 Guimerà 便從頭開始設(shè)計新的機器科學(xué)家。

壓縮程度

在他們看來，遺傳算法的問題在于過于依賴創(chuàng)造者的口味。開發(fā)人員需要指導(dǎo)算法，以平衡簡單性和準確性。一個方程總是可以通過附加項來觸碰到數(shù)據(jù)集中的更多點。但最好忽略有些離題的點。研究者可以把簡單性定義為方程的長度，把準確性定義為曲線與數(shù)據(jù)集中每個點的接近程度，但這只是眾多選項中的兩個定義。

Sales-Pardo 、 Guimerà 與合作者一起，利用物理學(xué)和統(tǒng)計學(xué)方面的專業(yè)知識，根據(jù)貝葉斯理論的概率框架來重新定義進化過程。他們首先下載了維基百科中的所有方程式。然后對這些方程進行統(tǒng)計分析，看看哪些類型最常見。這種辦法能讓算法少走彎路，例如讓算法嘗試使用比較常見的加法，而不是比較少見的雙曲余弦。然后該算法使用隨機抽樣方法生成方程變體，該方法已在數(shù)學(xué)上被證明可以探索數(shù)學(xué)領(lǐng)域的每一個角落。

在每個步驟中，該算法以方程式對數(shù)據(jù)集的壓縮程度對各類方程式進行評估。例如，隨機散布的點根本不能被壓縮，我們需要知道每個點的位置。如果1000個點沿著一條直線落下，它們可以被壓縮成兩個數(shù)字（直線的斜率和高度）。這對學(xué)者發(fā)現(xiàn)，壓縮程度為比較各個方程提供了一種獨特且穩(wěn)定的方法。Guimerà說：“我們可以證明，正確的模型就是壓縮數(shù)據(jù)最多的那個，這不存在任意性。”

經(jīng)過多年研究，他們使用自己的算法找出了觸發(fā)細胞分裂的因素，2020年，他們和同事們在《Bayesian machine scientist》中介紹了他們的 “貝葉斯機器科學(xué)家”。

數(shù)據(jù)的海洋

從那時起，研究人員用貝葉斯機器科學(xué)家來改進預(yù)測國家能源消耗的SoTA方程，而另一組則使用該方程來模擬通過網(wǎng)絡(luò)的滲透。開發(fā)人員認為這類算法將在像 Trepat 那樣的生物學(xué)研究中發(fā)揮巨大作用，因為在這種研究當(dāng)中科學(xué)家們面對的是海量數(shù)據(jù)。

機器科學(xué)家也幫助物理學(xué)家理解跨越多尺度的系統(tǒng)。物理學(xué)家通常對原子使用一組方程，對臺球使用一組完全不同的方程，但這種零散的方法不適用于氣候科學(xué)等學(xué)科研究。

其中一位研究人員是紐約大學(xué)的Laure Zanna 。她在模擬海洋湍流的工作中經(jīng)常發(fā)現(xiàn)自己夾在兩個極端之間：超級計算機可以模擬城市大小的渦流，也可以模擬洲際洋流，但不能同時模擬兩種尺度。她的工作是幫助計算機生成包含較小漩渦影響的全局圖片，而無需直接模擬這些圖。最初，她轉(zhuǎn)向深度神經(jīng)網(wǎng)絡(luò)來提取高分辨率模擬的整體效果，并相應(yīng)地更新更粗略的模擬?！吧疃壬窠?jīng)網(wǎng)絡(luò)太棒了，”她說，“但我是一名氣候物理學(xué)家。”她的意思是她想通過壓力和溫度等原理來了解氣候是如何運作的——“但是很難采集到成千上萬的參數(shù)，更別說是滿意的參數(shù)了。”

然后她發(fā)現(xiàn)了由華盛頓大學(xué)應(yīng)用數(shù)學(xué)家Steven Brunton、Joshua Proctor和 Nathan Kutz設(shè)計的算法。他們的算法采用了一種被稱為稀疏回歸（Sparse Regression）的方法，這種方法與符號回歸的精神類似。這種方法沒有在變異方程中挑起大混戰(zhàn)，而是從一個可能有上千個函數(shù)比如 x^2、 x/(x ? 1) 和 sin(x)的庫開始。該算法在庫中搜索給出最準確預(yù)測的術(shù)語組合，刪除最沒用的術(shù)語，并繼續(xù)直到庫里只剩下少數(shù)幾個術(shù)語。與符號回歸算法相比，稀疏回歸閃電般的過程可以處理更多的數(shù)據(jù)，其代價是探索的空間更小，因為最終方程必須由庫項構(gòu)建。

為了了解其工作原理，Zanna 從頭開始重寫了稀疏回歸算法，然后將修改后的版本應(yīng)用于海洋模型。當(dāng)她輸入高分辨率影片并要求算法尋找精確的縮小草圖時，算法返回了一個與渦度以及流體如何拉伸和剪切有關(guān)的簡潔方程。當(dāng)她將這個方程輸入到她的大規(guī)模流體流動模型中時，她看到了以能量的函數(shù)形式變化的流體，且看得比以前更真切。

“該算法使用了額外的術(shù)語，”Zanna 說，然后生成了一個“美麗”的方程，“這個方程能夠真正體現(xiàn)洋流的一些十分重要的特性，比如拉伸、剪切和旋轉(zhuǎn)?！?/span>

合作更強大

通過將自身優(yōu)勢與深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢相結(jié)合，其他團隊也為機器科學(xué)家提供了助推力。

普林斯頓大學(xué)天體物理學(xué)研究生Miles Cranmer開發(fā)了一種類似于 Eureqa 的開源符號回歸算法，稱為 PySR。這個算法在數(shù)字“島嶼”上建立了不同的方程組，并讓最適合數(shù)據(jù)的方程周期性地“搬家”，然后與其他島嶼上的方程競爭。Cranmer 與來自 DeepMind 以及紐約大學(xué)的計算機科學(xué)家，還有 Flatiron 研究所的天體物理學(xué)家合作，提出了一種混合方案。他們首先訓(xùn)練神經(jīng)網(wǎng)絡(luò)完成任務(wù)，再讓PySR給出一個描述神經(jīng)網(wǎng)絡(luò)的特定部分完成了何種任務(wù)的方程。

該小組將該程序應(yīng)用于暗物質(zhì)模擬，并根據(jù)相鄰云的特性生成了一個公式，該公式給出了暗物質(zhì)云中心的密度。該方程比現(xiàn)有的人工設(shè)計方程更適合數(shù)據(jù)。

2 月，該小組向系統(tǒng)輸入了30年來太陽系行星和衛(wèi)星在天空中的真實位置。該算法完全跳過了開普勒定律，直接推斷出牛頓的萬有引力定律以及行星和衛(wèi)星的質(zhì)量。其他小組最近則使用 PySR 發(fā)現(xiàn)了描述粒子碰撞特征的方程、結(jié)體積的近似值以及暗物質(zhì)云在其中心塑造星系的方式。

對于機器科學(xué)家越來越多的情況（另一個值得關(guān)注的例子是麻省理工學(xué)院的物理學(xué)家 Max Tegmark 和 Silviu-Marian Udrescu 創(chuàng)建的“ AI Feynman ”），人類研究人員說，越多越好?！拔覀冋娴男枰@些技術(shù)，”庫茨說，“全都需要，越多越好，因為沒有一個技術(shù)是萬能的?！?/span>

論文地址：https://www.science.org/doi/10.1126/sciadv.aay2631

Kutz 相信機器科學(xué)家正在將該領(lǐng)域帶到他所謂的“GoPro 物理學(xué)”的風(fēng)口浪尖，研究人員只需將相機對準目標(biāo)，就能得到一個抓住正在發(fā)生的事情本質(zhì)的方程式。（目前的算法仍然需要人類提供一長串潛在相關(guān)變量，比如位置和角度。）

這就是 Lipson 最近一直在做的事情。在12 月的預(yù)印本中，他與合作學(xué)者描述道，他們首先訓(xùn)練了一個深度神經(jīng)網(wǎng)絡(luò)來接收視頻的幾幀，并預(yù)測接下來的幾幀。然后，該團隊減少了神經(jīng)網(wǎng)絡(luò)允許使用的變量數(shù)量，到其預(yù)測開始失敗為止。

論文鏈接：https://arxiv.org/abs/2112.10755

該算法能夠計算出需要多少變量來模擬像鐘擺那樣的簡單系統(tǒng)，或者像火舌那樣沒有明顯的變量可供跟蹤的復(fù)雜系統(tǒng)。

（機器）科學(xué)的邊緣

機器科學(xué)家不會取代深度神經(jīng)網(wǎng)絡(luò)，因為深度神經(jīng)網(wǎng)絡(luò)能夠在混亂或極其復(fù)雜的系統(tǒng)中大放異彩。

然而，當(dāng)涉及到圍繞行星運行、流體晃動和細胞分裂時，機器科學(xué)家僅利用少量運算得出的簡明方程式卻十分準確，令人費解。諾貝爾獎獲得者 Eugene Wigner 在他 1960 年的論文《自然科學(xué)中數(shù)學(xué)的不合理有效性（The Unreasonable Effectiveness of Mathematics in the Natural Sciences）》中將其稱為“我們既不理解也不配得的美妙禮物” 。正如 Cranmer 所說，“你去看看任何物理考試方程式的小抄，上面都是極其簡單的代數(shù)表達式，但這些小抄幫助太大了?！?/span>

Cranmer 及其同事推測，基礎(chǔ)運算之所以如此出色，是因為它們代表了空間中的基本幾何動作，這使得它們成為描述現(xiàn)實的自然語言。加法將對象向下移動到數(shù)軸。乘法將平坦區(qū)域變成 3D 體積。出于這個原因，他們懷疑，當(dāng)我們在猜測方程式時，往簡單了猜是永遠有道理的。

不過，宇宙雖然有潛在的簡單性，卻并不能保證每次這么猜測都對。

Guimerà 和 Sales-Pardo 最初構(gòu)建了他們在數(shù)學(xué)上嚴格的算法，因為 Eureqa 有時會為相似的輸入找到截然不同的方程。然而，令他們沮喪的是，他們發(fā)現(xiàn)，即使是貝葉斯機器科學(xué)家有時也會為給定的數(shù)據(jù)集返回多個同樣好的模型。

兩人最近表明，原因在于數(shù)據(jù)本身。他們利用機器科學(xué)家探索了各種數(shù)據(jù)集，發(fā)現(xiàn)數(shù)據(jù)集分為兩類：干凈的和有噪聲的。在干凈的數(shù)據(jù)中，機器科學(xué)家總能找到生成數(shù)據(jù)的方程式。但超過一定的噪聲閾值，就不可能找到了。換句話說，噪聲數(shù)據(jù)可以很好地（或很差地）匹配任意數(shù)量的方程。因為研究人員已經(jīng)證明了他們的算法總是能找到最好的方程，他們知道，如果算法失敗了，那就沒有任何人類或者機器能夠成功。

“我們發(fā)現(xiàn)這是一個基本的限制，”吉梅拉說?！八晕覀冃枰獧C器科學(xué)家?！?/span>

參考鏈接：

https://www.quantamagazine.org/machine-scientists-distill-the-laws-of-physics-from-raw-data-20220510/

https://www.icrea.cat/Web/ScientificStaff/roger-guimera-manrique-512

Marta Sales-Pardo (0000-0002-8140-6525)

Hod Lipson

https://www.science.org/doi/10.1126/science.1165893

https://laurezanna.github.io/