0
本文作者: 劉海濤 | 2021-05-24 10:43 |
近日,由百圖生科與播禾創(chuàng)新主辦,《醫(yī)健AI掘金志》協(xié)辦的 “首屆中國(guó)生物計(jì)算大會(huì)” 在蘇州閉幕。
作為主論壇報(bào)告的開(kāi)場(chǎng)嘉賓,北京大數(shù)據(jù)研究院院長(zhǎng)鄂維南,以《機(jī)器學(xué)習(xí)與科學(xué)計(jì)算》為題,在大會(huì)做了開(kāi)場(chǎng)報(bào)告。
鄂維南表示,從50年代開(kāi)始,科學(xué)計(jì)算領(lǐng)域發(fā)展了差分方法、有限元方法、譜方法等基本方法來(lái)處理基礎(chǔ)的物理模型,并且在工程和技術(shù)上得到了廣泛應(yīng)用。但依然還有很多問(wèn)題沒(méi)有解決。
例如:材料的性質(zhì)與設(shè)計(jì);分子、藥物的性質(zhì)及設(shè)計(jì);基于基本原理的控制論方法;燃燒問(wèn)題(內(nèi)燃機(jī)的模擬、設(shè)計(jì)與控制)。
這些因素也導(dǎo)致理論研究場(chǎng)景與實(shí)際問(wèn)題距離甚遠(yuǎn)。
鄂維南認(rèn)為,解決這些問(wèn)題的新的出路就是機(jī)器學(xué)習(xí)和物理模型的結(jié)合。以經(jīng)典的物理模型提供數(shù)據(jù),在此基礎(chǔ)上通過(guò)機(jī)器學(xué)習(xí)產(chǎn)生更有效且同樣可靠的模型。
以今天的生物計(jì)算為例,藥物設(shè)計(jì)最重要的環(huán)節(jié)之一就是自由能計(jì)算。如果沒(méi)有自由能計(jì)算,基于基本原理的設(shè)計(jì)藥物可能就是一句空話。
為此,鄂維南的團(tuán)隊(duì)用上述方法研發(fā)了高維空間的高效采樣方法RiD和自由能計(jì)算的有效方案。
最后,鄂維南發(fā)表了自己對(duì)AI和科學(xué)計(jì)算的展望:“談到人工智能,大家馬上想到的可能是自動(dòng)駕駛、人臉識(shí)別等場(chǎng)景。但接下來(lái),傳統(tǒng)的科學(xué)領(lǐng)域?qū)⒊蔀槿斯ぶ悄艿闹鲬?zhàn)場(chǎng)。AI for Science 將帶動(dòng)生物、化學(xué)、材料、工程等領(lǐng)域進(jìn)入新的發(fā)展模式?!?/p>
以下為鄂維南院士的演講內(nèi)容,雷鋒網(wǎng)做了不改變?cè)獾木庉嫼驼恚?/strong>
鄂維南:在討論生物計(jì)算之前,首先談一談科學(xué)計(jì)算。
我是在2015年,開(kāi)始利用深度學(xué)習(xí)做生物數(shù)據(jù)分析的,當(dāng)時(shí)開(kāi)發(fā)出一種被作稱為DeFine的軟件。自那時(shí)起,我們就發(fā)現(xiàn)了生物計(jì)算的潛力,AI從數(shù)據(jù)分析,到科學(xué)模型,都開(kāi)始創(chuàng)造新的機(jī)會(huì)。
今天,科學(xué)計(jì)算主要涉及兩大主題:物理模型和數(shù)據(jù)處理。
首先,過(guò)去大家一直強(qiáng)調(diào)數(shù)學(xué)、計(jì)算機(jī)、統(tǒng)計(jì)學(xué),但卻忽略了物理學(xué)。
事實(shí)上,科學(xué)計(jì)算的主要模型都是基于物理學(xué),例如牛頓方程、空氣動(dòng)力學(xué)、彈性力學(xué)、電磁場(chǎng)理論、量子力學(xué)等等。
雖然還有觀點(diǎn)認(rèn)為,納米、生物會(huì)衍生出新的科學(xué)模型,但就目前情況而言,新的科學(xué)模型,都基本源于這些物理模型。但在過(guò)去的很多年里,科學(xué)計(jì)算模型,一直無(wú)法滿足解決實(shí)際問(wèn)題的算力需求,為此,絕大多數(shù)科學(xué)家的工作都是簡(jiǎn)化模型。即使一小部分物理學(xué)家找到基本原理,也無(wú)法將其應(yīng)用于實(shí)際。
這種現(xiàn)象一直延續(xù)到上世紀(jì)50年代,電子計(jì)算機(jī)出現(xiàn)后才得以根本改變。
隨后,科學(xué)計(jì)算領(lǐng)域陸續(xù)發(fā)展出差分方法、有限元方法、譜方法等一些系列科學(xué)計(jì)算方法,讓人類首次實(shí)現(xiàn)利用基本原理來(lái)解決實(shí)際問(wèn)題的夢(mèng)想。像橋梁設(shè)計(jì)、大樓設(shè)計(jì)、飛機(jī)設(shè)計(jì)都已經(jīng)利用科學(xué)計(jì)算,實(shí)現(xiàn)了基本的目標(biāo)。從數(shù)學(xué)角度而言,這里需要的所有函數(shù)都是用多項(xiàng)式逼近的方式處理的。
這一下解決了結(jié)構(gòu)力學(xué)、航空航天、天氣預(yù)報(bào)、石油勘探與開(kāi)采等多個(gè)工科問(wèn)題,組成了現(xiàn)代工業(yè)和技術(shù)賴以生存的基礎(chǔ)。但電子計(jì)算機(jī)并沒(méi)有一下解決所有問(wèn)題,像生物計(jì)算就沒(méi)有實(shí)現(xiàn)利用基本原理進(jìn)行藥物設(shè)計(jì)的需求。
其中的本質(zhì)原因在于,藥物設(shè)計(jì)目前還沒(méi)有完全找到基本原理,但生物設(shè)計(jì)又是非常經(jīng)驗(yàn)化的學(xué)科,其中涵蓋材料、反應(yīng)等多個(gè)問(wèn)題,這些因素導(dǎo)致理論研究場(chǎng)景與實(shí)際問(wèn)題相距甚遠(yuǎn)。
那為什么會(huì)出現(xiàn)這種情況?我認(rèn)為根本原因,就在于維數(shù)災(zāi)難,即內(nèi)在變量太多導(dǎo)致維數(shù)增加,復(fù)雜度也呈指數(shù)級(jí)增加。例如,大家熟知的薛定諤方程,其中的波函數(shù)自由度是電子個(gè)數(shù)的三倍。而模擬實(shí)際問(wèn)題所需要處理的電子數(shù)往往是百萬(wàn)千萬(wàn)。
其次,生物計(jì)算的數(shù)據(jù)處理,生物計(jì)算在處理的數(shù)據(jù)種類上,就包含了DNA和基因組學(xué)、蛋白組學(xué)、圖像等多種數(shù)據(jù)。
從任務(wù)角度來(lái)看,數(shù)據(jù)處理主要包括三個(gè)步驟:
第一imaging——反演,通過(guò)實(shí)驗(yàn)儀器和數(shù)據(jù)反演出內(nèi)在結(jié)構(gòu);
第二image processing,如何去掉圖像中的多種噪音,并完成圖像分割、修補(bǔ)等步驟;
第三image recognition——圖像識(shí)別。
這和前兩大任務(wù)有較大區(qū)別。例如,在一系列圖像中,分別存在狗和貓圖像,那如何分辨出究竟是狗還是貓,就涉及到圖像識(shí)別問(wèn)題。
圖像識(shí)別的本質(zhì)就是在圖像空間找到一個(gè)函數(shù),并告知圖像內(nèi)容,其中圖像間維度信息大概有3000多維。而且以前處理的都是單張照片,現(xiàn)在處理則是帶有變量的函數(shù),二者有本質(zhì)區(qū)別。
其實(shí),數(shù)學(xué)一直都是非常保守的領(lǐng)域,我自己就從未想過(guò),數(shù)據(jù)會(huì)完成圖像識(shí)別這樣的任務(wù)。
這其中最大的變量,應(yīng)該就是深度學(xué)習(xí),從事計(jì)算機(jī)的人在經(jīng)過(guò)多年努力后,終于找到深度學(xué)習(xí)這一工具,使圖像識(shí)別得到有效解決。
例如AlphaGo,從圖像識(shí)別到圖像生成再到AlphaGo,這三個(gè)過(guò)程從數(shù)學(xué)角度而言就是高維問(wèn)題。第一個(gè)問(wèn)題是解決高維函數(shù)逼近,第二是高維概率密度,第三是解決高維超大空間Bellman方程。
深度學(xué)習(xí)解決問(wèn)題的本質(zhì),就是提供了一個(gè)高維函數(shù)的逼近方法。而科學(xué)計(jì)算最大的影響就是將數(shù)學(xué)計(jì)算方法和物理數(shù)據(jù)這兩類方法結(jié)合起來(lái)。
過(guò)去大家一直都將模型和數(shù)據(jù)割裂開(kāi)來(lái),兩者結(jié)合之后,就可以從模型得到數(shù)據(jù),而后從數(shù)據(jù)得到更有效的模型。
另外,從分子動(dòng)力學(xué)角度而言,藥物設(shè)計(jì)作為分子動(dòng)力學(xué)最主要的應(yīng)用場(chǎng)景,涵蓋了基因組學(xué)、蛋白組學(xué)等多個(gè)維度信息。而且,分子動(dòng)力學(xué)也是基本藥物設(shè)計(jì)最不可或缺的工具,其中主要的困難點(diǎn)就是算原子之間的相互作用,這些都要通過(guò)解電子問(wèn)題實(shí)現(xiàn),需要遵循量子力學(xué)原理。
1985年,出現(xiàn)了一個(gè)劃時(shí)代的工作,即通過(guò)量子力學(xué)計(jì)算原子之間相互作用力,使分子動(dòng)力學(xué)成為可靠工具,但因?yàn)檫@種方法效率有限,一般只能處理幾百個(gè)原子。所以,人們只能通過(guò)猜測(cè)方法來(lái)解決實(shí)際問(wèn)題,但通過(guò)猜測(cè)設(shè)計(jì)藥品并不可行。
于是通過(guò)機(jī)器學(xué)習(xí),以經(jīng)典的物理模型提供數(shù)據(jù),在此基礎(chǔ)上通過(guò)機(jī)器學(xué)習(xí)產(chǎn)生更有效且同樣可靠的模型的方法,開(kāi)始被大規(guī)模使用。各種小分子、大分子藥物和復(fù)雜材料都可以達(dá)到與量子力學(xué)同樣的精度,且比量子力學(xué)更有效得多的體系。
通過(guò)機(jī)器學(xué)習(xí)方法+高性能計(jì)算得出了結(jié)果,首次將機(jī)器學(xué)習(xí)和科學(xué)計(jì)算、高性能計(jì)算結(jié)合在一起,并帶來(lái)幾個(gè)數(shù)量級(jí)的展現(xiàn)。
除了分子動(dòng)力學(xué)以外,我們團(tuán)隊(duì)也發(fā)展出一系列新方法,為藥物研發(fā)提供幫助。
例如,具有量子化學(xué)精度的密度泛函模型DeePKS。過(guò)去密度泛函主要是針對(duì)于量子力學(xué),在大分子方面還有諸多的限制,DeePKS主要是希望像量子力學(xué)一樣,能夠做到滿足小分子,以及一部分相對(duì)小一點(diǎn)的大分子的需求。
除此之外,我們還研發(fā)了高維空間的高效采樣方法RiD和自由能計(jì)算的有效方案。在藥物設(shè)計(jì)當(dāng)中,最重要的工具就是自由能計(jì)算,如果無(wú)法實(shí)現(xiàn)自由能計(jì)算,那藥物設(shè)計(jì)就是一句空話。RiD的主要作用就是通過(guò)強(qiáng)化學(xué)習(xí)方法,做一些粗?;肿觿?dòng)力學(xué)運(yùn)算。
前幾天,我們還發(fā)布了開(kāi)源社區(qū)DeepModeling的社區(qū)宣言,希望將大家的力量整合到一起、推動(dòng)事情向前發(fā)展。DeepModeling這個(gè)概念最早源自開(kāi)源社區(qū),即將深度學(xué)習(xí)與物理模型相結(jié)合。
最后,講一下對(duì)AI和科學(xué)計(jì)算的展望。
談到人工智能,大家馬上想到的可能是自動(dòng)駕駛、人臉識(shí)別等場(chǎng)景。但接下來(lái),傳統(tǒng)的科學(xué)領(lǐng)域?qū)⒊蔀槿斯ぶ悄艿闹鲬?zhàn)場(chǎng)。AI for Science 將帶動(dòng)生物、化學(xué)、材料、工程等領(lǐng)域進(jìn)入新的發(fā)展模式。另外還有新一代科學(xué)軟件的落地問(wèn)題,過(guò)去我們的科學(xué)軟件、工業(yè)軟件都有卡脖子問(wèn)題。但隨著這些新模式出現(xiàn),會(huì)推動(dòng)新一代科學(xué)軟件加速落地,為我們的科學(xué)軟件建設(shè)提供絕佳的機(jī)會(huì)。
此外,科學(xué)研究也將從“小農(nóng)作坊”轉(zhuǎn)變到“安卓”模式。過(guò)去各大科學(xué)實(shí)驗(yàn)室普遍都是自給自足的小農(nóng)作坊,在大平臺(tái)出現(xiàn)之后,大家可以對(duì)應(yīng)開(kāi)發(fā)出自己感興趣的應(yīng)用、平臺(tái)和科研,并衍生出巨大的科研社區(qū)。 雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。