丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
醫(yī)療AI 正文
發(fā)私信給任平
發(fā)送

0

GAIR Live|AI藥物發(fā)現(xiàn)平臺,如何與傳統(tǒng)醫(yī)藥企業(yè)打出「組合拳」?(上篇)

本文作者: 任平 2023-06-21 10:09
導(dǎo)語:AI制藥平臺化勢必成為醫(yī)藥行業(yè)的一股革命性力量。

作為藥物發(fā)現(xiàn)階段的研究核心,先導(dǎo)結(jié)構(gòu)的發(fā)現(xiàn)和優(yōu)化往往需要花費數(shù)年時間,投入數(shù)億美元,長期被視為藥物研發(fā)的關(guān)鍵技術(shù)瓶頸。

從20世紀(jì)70年代以來,計算機(jī)輔助藥物設(shè)計(CADD)作為一個日趨完善的藥物發(fā)現(xiàn)手段,主要包括虛擬篩選和藥物從頭設(shè)計兩種策略,曾極大提升新藥設(shè)計和開發(fā)的效率。

“我們即將迎來生物醫(yī)學(xué)大爆發(fā)的時刻,但這一成果的取得,不僅取決于生物學(xué)家與醫(yī)學(xué)家的努力,甚至更大程度上取決于數(shù)學(xué)、物理學(xué)、化學(xué)、計算機(jī)技術(shù)等的發(fā)展以及與生物醫(yī)學(xué)的結(jié)合。”

“隨著AI技術(shù)的成熟,蛋白質(zhì)、基因組學(xué)數(shù)據(jù)的積累,AI制藥平臺化勢必成為醫(yī)藥行業(yè)的一股革命性力量,從根本上改變傳統(tǒng)藥物設(shè)計試錯流程,未來AI大模型技術(shù)又將引發(fā)新的期待?!?/p>

近日,由雷峰網(wǎng)GAIR Live&《醫(yī)健AI掘金志》舉辦的《「人機(jī)協(xié)同」模式下的新藥研發(fā)》線上圓桌論壇落幕,五位具有投資、企業(yè)、藥物實驗、AI制藥背景的專家表達(dá)出這樣的愿景。

本次論壇,由浙江大學(xué)藥學(xué)院教授謝昌諭主持,北京大學(xué)藥學(xué)院研究員劉振明、騰訊醫(yī)療健康A(chǔ)IDD技術(shù)負(fù)責(zé)人劉偉、浙江工業(yè)大學(xué)智能制藥研究院院長段宏亮、清華大學(xué)智能產(chǎn)業(yè)研究院戰(zhàn)略發(fā)展與合作部主任張煜參與討論。

在上篇中,他們共同辨析了人機(jī)協(xié)同模式下的藥物研發(fā)歷程、近幾年AI制藥領(lǐng)域的算法和模型突破、以及與傳統(tǒng)藥物研發(fā)手段相比AIDD的優(yōu)劣性。

在下篇中,則探討了我國創(chuàng)新藥研發(fā)的痛點、AI制藥的數(shù)據(jù)之困,以及新一輪AI浪潮下藥物研發(fā)的可能性。近期AI大模型爆火,歡迎添加作者微信(微信號:icedaguniang),互通有無。

“全球人工智能與機(jī)器人大會”(GAIR)始于2016年雷峰網(wǎng)與中國計算機(jī)學(xué)會(CCF)合作創(chuàng)立的CCF-GAIR大會,旨在打造人工智能浪潮下,連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺,而雷峰網(wǎng)“連接三界”的全新定位也在此大會上得以確立。

經(jīng)過幾年發(fā)展,GAIR大會已成為行業(yè)標(biāo)桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會。

GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對話內(nèi)容,打造輻射產(chǎn)、學(xué)、研、投的特色線上平臺。

以下是主題論壇的現(xiàn)場內(nèi)容,雷峰網(wǎng)(公眾號:雷峰網(wǎng))《醫(yī)健AI掘金志》做了不改變原意的編輯和整理。

AI大模型技術(shù)出現(xiàn)之前,人機(jī)協(xié)同模式下的新藥研發(fā)經(jīng)過了幾個發(fā)展階段?

謝昌諭:人機(jī)協(xié)同模式下的新藥研發(fā)大概經(jīng)歷了2-3個階段。

第一階段屬于計算機(jī)輔助藥物設(shè)計,也叫做Computer aided drug design(CADD),可以追溯到20世紀(jì)70年代。它是通過模擬和計算受體與配體的相互作用,進(jìn)行先導(dǎo)化合物的優(yōu)化與設(shè)計,應(yīng)用場景有分子對接、虛擬篩選、自由能對接等。

所以這個階段基本上還是使用基于一些規(guī)則或統(tǒng)計方法,篩選已知的化合物庫,其中并沒有太多人機(jī)交互,更多是人來決定整個計算流程并執(zhí)行,一步一步篩選藥物直到找到潛先導(dǎo)化合物。

值得一提的是,90年代前,中國藥物分子設(shè)計領(lǐng)域主要借鑒歐美的方法與軟件,后來經(jīng)過863計劃、973計劃等推動,進(jìn)入本世紀(jì)后涌現(xiàn)出不少自研的CADD軟件,諸如AlloDriver、Corrsite、SCORE、PharmMapper、DL-AOT等。

第二階段是用機(jī)器學(xué)習(xí)(ML)來做QSAR(Quantitative structure-activity relationship,定量構(gòu)效關(guān)系 ),指使用數(shù)學(xué)模型來描述分子結(jié)構(gòu)和分子的某種生物活性之間的關(guān)系,1980年代以來,3D-QSAR逐漸取代了2D-QSAR的地位,但機(jī)器學(xué)習(xí)用于新藥研發(fā)是90年代后期以來。

機(jī)器學(xué)習(xí)的擴(kuò)展是深度學(xué)習(xí)(DL),后者巔峰時期可以追溯至2014年,最近十年來隨著可用化合物的活性和生物醫(yī)學(xué)數(shù)據(jù)量顯著增加,應(yīng)用于藥物發(fā)現(xiàn)的DL研究層出不窮。

無論是ML還是DL,它們更多基于數(shù)據(jù)驅(qū)動,如果將篩選出來的分子配合濕實驗的驗證反饋,模型迭代速度更快,準(zhǔn)確度也會更高。

實際上,這時候就產(chǎn)生了一定的人機(jī)互動。

第三階段或許可以視為如今AI大模型/GPT下的新藥研發(fā)。

現(xiàn)在我們看到AI大模型帶來的核心能力是In Context Learning,它的翻譯有好幾種--上下文學(xué)習(xí)、情景學(xué)習(xí)、提示學(xué)習(xí),本質(zhì)就是在實時訓(xùn)練中學(xué)習(xí)。

這一階段的人機(jī)互動也更加明顯,也這可能是大家期待的一種藥物研發(fā)模式。盡管現(xiàn)在還處于萌芽階段,但我們在很多arXiv預(yù)印版論文上看到,已經(jīng)有人積極探索如何把GPT等大型語言模型技術(shù)用到藥物研發(fā)以及相關(guān)的化學(xué)研究的環(huán)節(jié)當(dāng)中,比如 Andrew White 教授提出的 ChemCrow 工具 (arXiv:2304.05376)和arXiv:2305.18090 )等等。

劉振明:因為我本身在藥學(xué)院,我覺得“新藥研發(fā)”這個概念有點大,希望更多是圍繞自己比較熟悉的“藥物發(fā)現(xiàn)”做闡述。

大模型出現(xiàn)之前,前前后后經(jīng)歷了三個階段,剛才謝老師已經(jīng)講得很全面了,我做下補(bǔ)充。

第一階段,CADD。

當(dāng)時計算機(jī)技術(shù)剛剛開始在化學(xué)和生物學(xué)領(lǐng)域中得到應(yīng)用。隨著計算機(jī)性能和軟件算法不斷提高,CADD在藥物研究和開發(fā)中的應(yīng)用越來越廣泛,比如動力學(xué)模擬模擬、計算和預(yù)測藥物與受體生物大分子之間的結(jié)合,設(shè)計和優(yōu)化先導(dǎo)化合物的方法等等。

后來CADD可以根據(jù)藥物分子的結(jié)構(gòu),利用計算機(jī)輔助技術(shù)進(jìn)行結(jié)構(gòu)優(yōu)化和模擬,預(yù)測藥物的生物活性、代謝途徑、毒副作用等。

第二階段,AIDD。

到了2015-2017年,隨著神經(jīng)網(wǎng)絡(luò)深度模型的發(fā)展,有了另一個名字“AIDD”(AI輔助藥物設(shè)計)。很多人針對有限的數(shù)據(jù)、有限的目標(biāo)去做訓(xùn)練,發(fā)了不少文章。但圈內(nèi)人認(rèn)為廣義的CADD是包含AIDD的,AI也需要基于計算機(jī)去執(zhí)行。當(dāng)然狹義上講,CADD本質(zhì)上是計算化學(xué),AI的本質(zhì)是通過數(shù)據(jù)去提取和學(xué)習(xí),所以只要能產(chǎn)生標(biāo)準(zhǔn)化數(shù)據(jù)的地方就可以用AIDD。

第三,大模型時代。

這一階段正在發(fā)展中,人機(jī)交互的特性更明顯??赡艹怂帉W(xué)家,除了專門做計算化學(xué)的人,很多人都感覺做藥物的門檻變低了。即便不懂那么多的藥學(xué)知識,但可以通過不斷的交互也能“做藥”。這種交互模式帶來的巨大的應(yīng)用場景最讓大家興奮,而且這種“社交性”的人機(jī)協(xié)作,讓它比CADD和AIDD看起來更親切。

劉偉:我從工作實踐中也提一些我的看法。人機(jī)協(xié)同這個提法我覺得非常好,強(qiáng)調(diào)了“協(xié)同”二字。

因為我們在過去幾年中有個發(fā)現(xiàn),或者是業(yè)內(nèi)一致看法:新藥研發(fā)不能只靠人來做實驗,同時也不能完全依賴于計算機(jī)來算,或者AI算法去找規(guī)律,需要人和AI相互協(xié)作。

至于發(fā)展階段,大的發(fā)展階段剛才兩位老師都提到了,就是從傳統(tǒng)的計算機(jī)輔助藥物設(shè)計(CADD),到基于統(tǒng)計學(xué)的QSAR模型,再到后來的深度學(xué)習(xí)。

深度學(xué)習(xí)階段也分好幾個小階段。最初是圖深度學(xué)習(xí)(Graph Deep Learning) ,顧名思義就是把各種藥物分子看作一個個graph,從圖結(jié)構(gòu)的角度來對數(shù)據(jù)建模,研究其屬性和功能關(guān)系。

但這一方法也存在一些嚴(yán)重缺陷:高度的數(shù)據(jù)依賴性、over smoothing等問題。

隨后Transformer模型流行開來,很多藥物AI算法研究也從圖遷移到Transformer。當(dāng)下的GPT系列模型,正是基于Transformer架構(gòu)的大規(guī)模預(yù)訓(xùn)練語言模型,通過在海量的文本數(shù)據(jù)上進(jìn)行無監(jiān)督學(xué)習(xí),學(xué)習(xí)到文本的通用表示和生成能力,然后在不同的下游任務(wù)上進(jìn)行微調(diào)?,F(xiàn)在有研究證明不太需要微調(diào),也可以用提示學(xué)習(xí)的方法提高垂類能力。

基于統(tǒng)計學(xué)的傳統(tǒng)QSAR方法的優(yōu)勢也很明顯,有相對好的可解釋性,結(jié)構(gòu)也比較簡單,相對于深度學(xué)習(xí)類的方法魯棒性更好,不容易過擬合。但通常它的上限比深度學(xué)習(xí)模型低,比如很多領(lǐng)域的SOTA還是深度學(xué)習(xí)做出來的。

所以在騰訊藥物研發(fā)工作中,既保留了傳統(tǒng)的QSAR類方法,又重點投入了Transformer模型,希望保證比較好的效果的前提下,也能夠獲得非常好的可解釋性。因為兩者是相輔相成的,不是簡單的對立關(guān)系,兩者配合才能發(fā)揮最大功效。

舉個例子,我們基于騰訊在算法、算力上的能力,將AI與物理、化學(xué)做了結(jié)合,這是團(tuán)隊近年來新生長出來的能力。

我們認(rèn)為,AI只靠數(shù)據(jù)驅(qū)動是不夠的、缺乏可解釋性,做出來的模型有時也會因為數(shù)據(jù)稀疏、分布漂移產(chǎn)生一些問題。如果能夠?qū)⑽锢?、化學(xué)知識有效地輸入到AI算法模型中,模型能夠非常好地反映在化學(xué)、物理等底層的特征和規(guī)律,比如可以學(xué)習(xí)量子化學(xué)中的波函數(shù)、原子受力分析等。而且這種AI模型不僅過擬合風(fēng)險更低,實際應(yīng)用中也有非常好的可解釋性,這也是我們最近幾年重點發(fā)展的能力。

這套技術(shù)棧一直在藥物分子、有機(jī)化學(xué)小分子體系上做訓(xùn)練,直到2022年底,我們用這套技術(shù)棧參加了Open Catalyst Challenge競賽(由Meta AI研究院和CMU聯(lián)合發(fā)起),獲得第一名,證明這個思路是可行的。

AI對新藥研發(fā)的哪些流程帶來幫助?相對傳統(tǒng)藥物研發(fā)模式的優(yōu)勢是什么?

段宏亮:我是藥物化學(xué)出身,十幾年來都是從事新藥開發(fā)工作,和實驗打交道更多。后來到了AI時代,我開始做一些AI和制藥的融合工作。剛才幾位老師已經(jīng)把新藥研發(fā)的發(fā)展階段說的很清晰了,都提到CADD到QSAR的轉(zhuǎn)變,我就從實驗視角做一些補(bǔ)充。

實際上,QSAR已經(jīng)有點像現(xiàn)在的AI制藥了,都是數(shù)據(jù)驅(qū)動模型做活性預(yù)測,但QSAR的數(shù)據(jù)量相對較小,只需要幾十個、幾百個分子,但如今的AI大模型動輒千億參數(shù),兩者對數(shù)據(jù)的需求明顯不在同一層級。

從我自身的經(jīng)歷來看,AI是否真的幫到新藥研發(fā),不是說僅僅跑一些標(biāo)準(zhǔn)數(shù)據(jù)集、提升幾個點的準(zhǔn)確率、是否使用最新模型做一些深度學(xué)習(xí)的任務(wù)。我們更關(guān)心的是,這些方法是否真的有助于藥物化學(xué)家和藥學(xué)家的藥物研發(fā)項目進(jìn)展。

所以圈內(nèi)提出干濕實驗結(jié)合的觀點,希望實驗室里產(chǎn)出更多的實時數(shù)據(jù),進(jìn)一步迭代訓(xùn)練模型;以及采用一些強(qiáng)化學(xué)習(xí)、小樣本學(xué)習(xí),盡量彌補(bǔ)數(shù)據(jù)量不足的缺點。

如今非常多的科研人員倡導(dǎo)借力AI研發(fā)藥物,把數(shù)據(jù)看得極為重要,很大一部分原因是2020年底,AI程序AlphaFold2(DeepMind研發(fā)的深度神經(jīng)網(wǎng)絡(luò)方法)在蛋白質(zhì)結(jié)構(gòu)預(yù)測大賽CASP14中,取得了幾乎媲美人工實驗的解析結(jié)果。這一現(xiàn)象級成就,迅速讓AI制藥進(jìn)入到一個全新的發(fā)展階段。

應(yīng)該說,在DeepMind把蛋白質(zhì)結(jié)構(gòu)預(yù)測任務(wù)做出來之前,整個新藥研發(fā)領(lǐng)域還停留在比較常規(guī)乏味的道路上。

但蛋白質(zhì)結(jié)構(gòu)預(yù)測這個問題被大部分解決了之后,很多人突然發(fā)現(xiàn)了新大陸,原來蛋白質(zhì)結(jié)構(gòu)這種非常玄妙的東西,幾乎可以通過計算的方式解決掉,與冷凍電鏡解析結(jié)果相媲美。

所以這短短兩年時間,幾乎是產(chǎn)生了一個全新的研究領(lǐng)域--AIDD(AI Drug Discovery & Design),大量的藥物學(xué)家,計算機(jī)AI人才進(jìn)入這一領(lǐng)域。

大家自然認(rèn)為,AI和大數(shù)據(jù)驅(qū)動下,跑出first in class新藥似乎是毋庸置疑的。這兩年時間里,我們看到了大量的非??上驳某删?,尤其在大分子藥物、多肽藥物、合成生物學(xué)等等跟蛋白結(jié)構(gòu)相關(guān)的一些領(lǐng)域,無一例外呈現(xiàn)出全新發(fā)展態(tài)勢。

最關(guān)鍵的是,AlphaFold2的出現(xiàn)一定程度上解決了以前AI制藥中比較困惑的問題:數(shù)據(jù)問題。

正是由于結(jié)構(gòu)生物學(xué)家們幾十年來采用冷凍電鏡等濕實驗方式獲得了十幾萬的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù),使得訓(xùn)練我們的深度學(xué)習(xí)AI模型成為了可能,并由AI從業(yè)人員在計算機(jī)上面驗證了這種可以同實驗學(xué)科相媲美的可能性。

AI技術(shù)對新藥研發(fā)的的幫助,理論上是全流程的幫助。從靶點發(fā)現(xiàn)到新藥上市,每個階段都能看得到AI制藥學(xué)者,或者是一些企業(yè)的介入,其中不乏在一些環(huán)節(jié)做得非常好。

比如晶型預(yù)測是藥物研發(fā)長流程中非常小的一個環(huán)節(jié),有的公司就采用計算的方式將這個問題解決得非常好,它的計算結(jié)果跟實驗結(jié)果是相匹配的,得到了國外大型制藥公司的認(rèn)可。

可見AI技術(shù)在某些藥物研發(fā)環(huán)節(jié)上的用處非常大。但這并不代表目前AI技術(shù)就能帶來藥物研發(fā)全流程、全系統(tǒng)的賦能,它可能在某些環(huán)節(jié)方面會率先突破,進(jìn)而以點帶面擴(kuò)展開來。

跟傳統(tǒng)的藥物研發(fā)相比,AI制藥的優(yōu)勢更多是效率、成本的提升,以及觸及一些人類藥物研發(fā)工作者難以企及的新領(lǐng)域。

比如我們通過一些計算機(jī)模擬技術(shù)看到藥物分子內(nèi)部的微觀世界。如果沒有人機(jī)協(xié)同,我們永遠(yuǎn)不可能知道微觀世界中一個藥物分子是一種怎樣的構(gòu)象,它跟蛋白靶點如何作用。通過計算機(jī),我們可以相對準(zhǔn)確地捕捉到原子和原子之間的相互作用力,從而更好地改造藥物開發(fā)的技術(shù)。

另外,對于數(shù)據(jù)量非常龐大的一些藥物開發(fā)場景,比如蛋白質(zhì)組學(xué)、基因組學(xué)等,數(shù)據(jù)量動不動是幾十個T,這種級別的數(shù)據(jù)量對于人類來說基本上是無能為力的,無法用肉眼來分析和總結(jié)規(guī)律。計算機(jī)就可以把所有的數(shù)據(jù)中最核心的規(guī)律總結(jié)出來展現(xiàn)給藥學(xué)家,大大提高效率。

張煜:我們主要關(guān)注大分子藥物研發(fā)。尤其是這兩年我們也能夠感受到,AlphaFold2確實讓整個蛋白質(zhì)結(jié)構(gòu)解析領(lǐng)域發(fā)生了顛覆性的變化。由于蛋白質(zhì)是幾乎所有藥物的主要靶點,了解蛋白質(zhì)結(jié)構(gòu),是解決如何通過特定方式干預(yù)疾病表征的關(guān)鍵。

隨著AlphaFold2開源,一些生物技術(shù)公司現(xiàn)在正在使用它來協(xié)助開發(fā)藥物,尤其是一些原本致力于大分子藥物的研究更是加速進(jìn)行。

這也說明了AI技術(shù)的一大好處--降低了從業(yè)門檻。比如說冷凍電鏡設(shè)備,不是每個大學(xué)或機(jī)構(gòu)都有這樣的財力或物力,但AlphaFold2提供了強(qiáng)大的蛋白質(zhì)預(yù)測和分析工具,讓很多從業(yè)者幾乎無條件地投入到這波創(chuàng)新浪潮中。

相對來講,大分子方面規(guī)律性更強(qiáng),蛋白質(zhì)有“序列決定結(jié)構(gòu),結(jié)構(gòu)決定功能”的鏈路,反過來以后發(fā)現(xiàn)我們需要這樣一個功能,能不能把這個結(jié)構(gòu)拿到,同時我們知道它是什么樣的序列生成出來的,也就是蛋白質(zhì)設(shè)計。

所以,AI展現(xiàn)出極強(qiáng)的理解和生成能力, 使得它在在大分子方面的效果非常明顯。尤其是如今ChatGPT驗證了參數(shù)增長、訓(xùn)練數(shù)據(jù)量增大,對AI模型的重要意義,AI大模型的確能讓大分子制藥領(lǐng)域取得突破性效果。

但小分子有自己的化學(xué)性質(zhì),以及數(shù)據(jù)是制約小分子藥物設(shè)計最大的瓶頸,不僅可靠數(shù)據(jù)非常少,還存在指標(biāo)不統(tǒng)一、敏感數(shù)據(jù)難獲取等問題?;蛟S這一點,讓AI大模型在小分子制藥領(lǐng)域的效果沒那么顯著。

劉偉:AI對新藥的諸多流程都有幫助。

這幾年,我們把小分子和大分子都做了一遍。在騰訊的藥物AI平臺上,小分子這塊,從常見的ADMET評估,到苗頭化合物發(fā)現(xiàn)(hit),再到lead優(yōu)化都有相應(yīng)的AI算法工具支持。

在大分子這塊,最近兩年我們陸續(xù)開發(fā)了抗體結(jié)構(gòu)預(yù)測、活性預(yù)測、人源化等技術(shù)模塊。幾乎覆蓋了大分子和小分子的整個臨床前研究環(huán)節(jié)。

相對傳統(tǒng)的藥物研發(fā)模式優(yōu)勢有哪些?

剛才兩位老師也提到了,優(yōu)勢是更快的速度,用更少的錢做更少的實驗。在這一塊我們體會也特別深,迭代速度快非常關(guān)鍵。

比如我們與某個藥企合作分析某系列化合物的心臟毒性(herg指標(biāo)優(yōu)化項目)。剛開始我們的數(shù)據(jù)比較少,經(jīng)歷了幾次濕實驗后產(chǎn)生的數(shù)據(jù),雖然不是很多,但是放進(jìn)模型進(jìn)行訓(xùn)練后大幅度地提升了這一模型。在項目中后期階段,計算結(jié)果基本上與實驗結(jié)果相關(guān)性達(dá)95%以上,后來就不太需要去做實驗了,而是直接使用模型預(yù)測結(jié)果去做分析了。

實際上,藥企合作的初衷是希望通過AI的方法更快地做出藥物,更快上市,更快產(chǎn)生對患者的臨床價值。但按照以往的臨床前研究可能需要好幾年時間,現(xiàn)在最快幾個月就可以完成,效率上的優(yōu)化非常明顯。

過去幾年AI制藥的算法能力有何升級?模型泛化能力有哪些突破?

段宏亮:過去這些年,AI制藥領(lǐng)域很多算法基本跟隨AI技術(shù)而進(jìn)步。

一、最開始的QSAR時代,我們更多是用機(jī)器學(xué)習(xí),因為那時候數(shù)據(jù)量不是太大,機(jī)器學(xué)習(xí)足夠用,所以支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)(NN)、隨機(jī)森林(RF)等已建立的方法,很長一段時間都被用于開發(fā)QSAR模型。

二、隨后,十年前以圖像識別領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)(CNN)為代表,開始了深度學(xué)習(xí)時代。相對而言,CNN在藥物研發(fā)上用得不多,因為CNN是二維的,藥物分子以三維為主,但無論如何,至少將深度學(xué)習(xí)概念引入藥物研發(fā)領(lǐng)域。

但深度學(xué)習(xí)真正和藥物研發(fā)密切結(jié)合,是將自然語言處理領(lǐng)域的深度學(xué)習(xí)技術(shù)引入藥物研發(fā)之后。因為藥物分子可以表示成一串SMILES代碼,跟自然語言非常相像,所以后來在藥物研發(fā)領(lǐng)域得到廣泛應(yīng)用的的RNN和transformer等深度學(xué)習(xí)模型,都是承接了自然語言處理的技術(shù)流派。

現(xiàn)如今,藥物研發(fā)領(lǐng)域中遍布transformer-base的模型,比如BERT和GPT都是在transformer技術(shù)上發(fā)展起來的大模型。

此外,因為藥物原子等價于圖中節(jié)點,化合物的鍵等價于圖的邊,所以Graph-base的GCN(圖卷積)流行開來。這種方法的基本思想是學(xué)習(xí)節(jié)點(如藥物與藥物的相互作用)、邊(如藥物-藥物或藥物-疾病之間的關(guān)系或相互作用)、圖(如分子圖)的有效特征表示。

三、直到最近兩年,比較火的模型是對比學(xué)習(xí)、擴(kuò)散模型等各種新的深度學(xué)習(xí)技術(shù),在藥物研發(fā)里的應(yīng)用非常多。

最近幾個月,大家一致認(rèn)為在ChatGPT的推動下步入了大模型時代。但在學(xué)術(shù)界,比GPT更火的可能是BERT--谷歌推出的NLP大模型。

相對而言,因為蛋白藥物、多肽藥物具備更加龐大的數(shù)據(jù)量,比如PDB數(shù)據(jù)庫可以提供20萬左右的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)量,可以訓(xùn)練出不錯的大模型。目前蛋白結(jié)構(gòu)預(yù)測模型還是以transformer-base模型為主。

比較可喜的地方在于,CADD等底層物理能量算法,正在將一些深度學(xué)習(xí)模型融合在一起。

比如David Baker課題組,他們一直在做RoseTTA系列,在做底層的物理能量計算,受AF2啟發(fā)正在將深度學(xué)習(xí)與物理能量算法融合在一起,開發(fā)出RosettaFold,也有RoseTTAFold Diffusion用于蛋白質(zhì)生成設(shè)計。

這也證明,底層物理能量計算和完全基于數(shù)據(jù)驅(qū)動的兩個技術(shù)流可以相互結(jié)合。藥物研發(fā)領(lǐng)域的算法在不停融合,不停升級中。

當(dāng)然模型的泛化能力一直是一個比較嚴(yán)重的問題。在一些論文中,針對某些靶點預(yù)測的小分子藥物數(shù)據(jù)集可以達(dá)到95%甚至99%的準(zhǔn)確率。然而,一旦我們脫離這個特定的測試數(shù)據(jù)集,應(yīng)用到新的藥物分子上面時,泛化能力會明顯削弱。

長此以往,導(dǎo)致我們在一個標(biāo)準(zhǔn)數(shù)據(jù)集上可以用很多很炫的算法,準(zhǔn)確率刷到非常高,但過擬合問題卻難以解決。

這可能有待于我們藥學(xué)家、計算化學(xué)家以及AI專家進(jìn)行深度融合,怎么把某個藥物研發(fā)問題徹底定義好,而不是說藥學(xué)的人在化學(xué)生物實驗室里做實驗,計算機(jī)的從業(yè)人員在在計算機(jī)實驗室里面訓(xùn)練模型,各行其是。

劉偉:AI制藥領(lǐng)域的算法能力同樣來源于AI本身的一些算法,最近十年AI有三個重要的里程碑節(jié)點,分別為以AlphaGo為代表的強(qiáng)化學(xué)習(xí)技術(shù)的廣泛應(yīng)用、以AlphaFold為代表的蛋白質(zhì)結(jié)構(gòu)預(yù)測技術(shù)、以及最近的預(yù)訓(xùn)練AI大模型技術(shù)。

在強(qiáng)化學(xué)習(xí)方面,2020年左右,我們利用強(qiáng)化學(xué)習(xí)和VAE做了分子生成,無論是用什么方法,重點是要生成滿足特定屬性和條件的分子。后來這個技術(shù)我們在跟一家藥企的技術(shù)合作中,選擇將生成和SBDD統(tǒng)一起來判斷活性,通過屬性反饋來強(qiáng)化控制分子生成的化學(xué)結(jié)構(gòu)。

后來藥企也反饋這一方法的結(jié)果很不錯,在不少藥化合作項目上都能夠明顯看到DMTA循環(huán)周期縮短。我們將這一成果發(fā)表于ACS Omega,也是業(yè)內(nèi)最早發(fā)表的經(jīng)過濕實驗驗證的分子生成技術(shù)方案。我們還將生成式預(yù)訓(xùn)練AI模型結(jié)合藥物構(gòu)象生成,這方面的工作還在進(jìn)展中。

此外,我們在模型泛化能力問題也有一些工作進(jìn)展。

模型泛化能力這個問題確實非常困難,也是非常核心的問題,當(dāng)前很多預(yù)測效果不盡人意,落地難的問題都是跟模型泛化能力有關(guān)。泛化也是機(jī)器學(xué)習(xí)研究的核心問題,在已知的數(shù)據(jù)集上做風(fēng)險最小化的訓(xùn)練,從而希望能將模型推廣到未知數(shù)據(jù)上,使其具有一定的預(yù)測能力。

一方面是前面提到的,如果能夠?qū)⑽锢?、化學(xué)知識有效地輸入到AI算法模型中,就能夠非常好地反映在化學(xué)、物理等底層的特征和規(guī)律,模型過擬合風(fēng)險就會較低,有比較好的可解釋性。還有就是利用幾何深度學(xué)習(xí)方法約束化合物空間結(jié)構(gòu)的學(xué)習(xí)過程,就可以使用比較少的參數(shù),從而減小過擬合的風(fēng)險,也增強(qiáng)了泛化能力。

另一方面,利用AI大模型技術(shù),使用非監(jiān)督的方法來減少數(shù)據(jù)過少帶來的過擬合問題。

因為大模型可能已經(jīng)比較好地反映出各種化合物的空間結(jié)構(gòu)信息、屬性信息,這樣就對有標(biāo)簽的數(shù)據(jù)需求相對少,那么訓(xùn)練過程中泛化能力就能有比較好的提升,并且只需要較少的訓(xùn)練迭代,做微小的調(diào)整。

針對泛化問題的第二個例子,就是我們最新的一個工作。

我們在做AI輔助藥物發(fā)現(xiàn)時,發(fā)現(xiàn)了這樣一個問題,在A靶點(A場景)中訓(xùn)練的AI模型,會非常難以應(yīng)用到B靶點(B場景)上。這也是一個明顯的泛化問題,現(xiàn)在也沒能100%完全解決,甚至有時候這種明顯的降效得到了“模型不可用”的結(jié)論。

為了驗證我們模型的有效性,我們做了一個名叫DrugOOD的框架,在github上有開源,并且根據(jù)不同的domain把它做了一個劃分,比如按照骨架、實驗assay、或者靶點區(qū)分,這樣訓(xùn)練出來的模型就會非常不一樣。

在這個過程中,我們實際上希望模型在不同場景具備一定的遷移能力,不然模型只能適合單一訓(xùn)練數(shù)據(jù)場景,這其實不是我們所希望的,因為這樣的模型適應(yīng)能力非常弱,沒辦法應(yīng)用到新的問題上。

第三個例子是量子實驗室的工作,和浙大也有合作,是針對某一類型的靶點去訓(xùn)練。

我們認(rèn)為,如果不同場景下的數(shù)據(jù)混合在一起訓(xùn)練,不容易達(dá)到比較好的泛化效果,這樣把它單獨拎出來做一個AI模型,一定程度上也可以解決模型難以泛化的問題。

例如把含有金屬離子的蛋白質(zhì)靶點的數(shù)據(jù)拿出來單獨訓(xùn)練一個模型。你可以認(rèn)為是一種場景的細(xì)分,還有給GPCR做一個專門的AI模型也是這種情況。

謝昌諭:我個人在模型泛化能力問題上面也有比較深刻的感觸,畢竟這是如今AI制藥面臨的最大的現(xiàn)實挑戰(zhàn)之一。

我試過很多基于純數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)方案來提升模型在不同場景下的泛化能力,比如預(yù)訓(xùn)練一個大模型然后在下游任務(wù)上進(jìn)行微調(diào)、小樣本算法、元學(xué)習(xí)、 多任務(wù)學(xué)習(xí)和 domain adaptation等等,一些特定的問題如活性/親和力預(yù)測或者分子的 pKa 預(yù)測,我們還甚至可以融入基于物理與化學(xué)的專業(yè)知識來提升模型的泛化能力。這些方法雖然針對某一些數(shù)據(jù)集/場景可以看到不錯的提升,但整體而言,我們還是得根據(jù)不同的場景/任務(wù)去做定制化的策略。

最后,除了研究如何在訓(xùn)練數(shù)據(jù)被固定的前提下來提升模型的泛化能力,另一個值得關(guān)注的方向,是通過開發(fā)更新的主動學(xué)習(xí)方法去添加少量的合適數(shù)據(jù)來提升模型的準(zhǔn)確度。

與傳統(tǒng)藥企內(nèi)部AI團(tuán)隊相比,AI制藥公司或科技企業(yè)的AIDD平臺提供哪些差異價值?

劉振明:CADD和AIDD確實是一種協(xié)同。

藥企對于新生事物非常歡迎,他們知道做新的藥物品種很難。

打個比方,如果他們自己培養(yǎng)一支AI團(tuán)隊,一年要花20個億,還不如合作上花20億和AI制藥公司合作,既能收到“果實”,還有可能埋了幾個“種子”。而且只要能成一個,依靠他們這種大公司的強(qiáng)大商業(yè)能力,一定能獲得回報。

所以,現(xiàn)在只要AIDD企業(yè)能夠交付藥物品種,藥企就愿意合作。

有個數(shù)字,過去五年,國外一些藥企已經(jīng)開始關(guān)注前端研發(fā),超過40家藥企建立了跟AI研發(fā)相關(guān)的部門。

為什么他們不抵觸?因為藥物研發(fā)行業(yè)跟別的行業(yè)很不一樣,別的行業(yè)可能會競爭,但是藥企缺少藥物品種,有人能給我更多的選擇,我為什么不去鼓勵呢?

另外,藥企更關(guān)注的是自身的商業(yè)版圖。這種情況下,它和AIDD公司是一種互惠互利的關(guān)系,沒有理由去反對,甚至是歡迎、扶持。但是你會發(fā)現(xiàn),藥企跟AIDD公司的合作,更多的是藥物品種交付。藥企不管你的軟件有多好,能做品種就合作,簽一個里程碑付費的合同。

但是這種合作更像是藥企“系統(tǒng)外的合作”,藥企并沒有分享數(shù)據(jù),甚至藥企會用自己的數(shù)據(jù),自己花精力做一遍驗證,也絕不會把數(shù)據(jù)直接開放給AIDD公司。

其次,即便藥企采用了現(xiàn)在常說的聯(lián)邦學(xué)習(xí),做了數(shù)據(jù)接口,也不能解決數(shù)據(jù)稀缺的問題。因為聯(lián)邦學(xué)習(xí)使用的數(shù)據(jù),大部分都是拷貝數(shù)據(jù),甚至有些數(shù)據(jù)清洗完丟失了很多信息;而且由于聯(lián)邦學(xué)習(xí)的數(shù)據(jù)光有接口,沒有打通數(shù)據(jù)內(nèi)部,所以“模型拿走數(shù)據(jù)留下”的理念具體實施起來非常難。

但在新藥研發(fā)中,數(shù)據(jù)就是知識產(chǎn)權(quán),命根子,所以傳統(tǒng)CADD公司和AIDD公司的協(xié)同更多在哪?技術(shù)協(xié)同。

因此AIDD演化成三種商業(yè)模式:SaaS、CRO、biotech,即售賣AI藥研平臺與軟件的使用服務(wù)、提供藥物發(fā)現(xiàn)服務(wù)、利用AI自建新藥研發(fā)管線成為藥企,“藥味”逐漸變濃。

在這種商業(yè)導(dǎo)向下,AIDD公司才會動不動說“顛覆”藥物發(fā)現(xiàn),實際上他們還是在“打輔助”:一定程度上避免了化合物設(shè)計過程中的試錯路徑,同時帶來更多的全新結(jié)構(gòu),為藥物發(fā)現(xiàn)打破常規(guī)的結(jié)構(gòu)壁壘。

張煜:我從藥物研發(fā)的角度說一下。

全球Top10藥企都在做各種各樣的藥物研發(fā),多數(shù)研發(fā)投入占當(dāng)年總收入的20%以上。在疫情管控放開后,他們的研發(fā)力度在疫情之下非減反升,而且將更多精力投入在“抗疫”“抗癌”等核心領(lǐng)域,研發(fā)重點也從飽和的新冠疫苗轉(zhuǎn)向新冠藥物的研發(fā)上。

當(dāng)然,也有一部分小藥廠憑借一兩個藥物就上市,但因為藥研部門缺少藥物積累,實踐和理論積累不強(qiáng),長期盤踞在一類藥或一款藥上做深度研發(fā),最終研發(fā)無以為繼,上市虧損嚴(yán)重。

這是藥物管線不足帶來的困境,更進(jìn)一步說是缺失平臺化發(fā)展模式所面臨的必然困境。

長期來看,AI制藥平臺化是企業(yè)打“組合牌”的關(guān)鍵,隨著中國仿制藥行業(yè)面臨外部環(huán)境的快速變化,創(chuàng)新藥領(lǐng)域政策出臺密集、監(jiān)管力度趨嚴(yán),在同樣的外部挑戰(zhàn)下,企業(yè)對資源進(jìn)行整合重配變得更加明顯。

尤其是基于AI的藥物研發(fā)勢必成為醫(yī)藥行業(yè)的革命性力量,有望從根本上改變傳統(tǒng)的試錯藥物設(shè)計流程。最近MIT傳出消息,稱他們已經(jīng)研發(fā)出大語言模型,一天內(nèi)可篩選超一億種化合物,比任何現(xiàn)有模型都要多得多。

所以,從制藥的流程看,AI技術(shù)已經(jīng)滲透到多個環(huán)節(jié),AI制藥平臺雖然現(xiàn)在還沒有顯示出優(yōu)勢,但一定會帶來藥物研發(fā)的革命。

此外,如今的AIDD公司在平臺化策略中,既有AI計算平臺(干實驗),還有濕實驗平臺。從理論上講,AI在任何情況下都起作用,特別是深度學(xué)習(xí)框架出來后,能在有限的范圍內(nèi)比較好地解決一個問題,在觸及到人類認(rèn)知邊界的問題上效果最為明顯。

總體來說,AI制藥平臺化至少會帶來幾個好處:

一、藥研工作更穩(wěn)定,減少了藥物的人為干擾。

眾所周知,藥物研發(fā)的時間很長,業(yè)界的“雙十定律”可以簡明扼要地回答這個問題,即需要超過10年時間、10億美元的成本,才有可能成功研發(fā)出一款新藥。即便如此,也大約只有10%的新藥最終能成功挺進(jìn)臨床試驗。

這個過程中,有些企業(yè)研發(fā)一款藥物可能會換好幾撥人。換一撥人就要重新做實驗,重新走流程,AI的加入會促使藥物研發(fā)重新成為一項系統(tǒng)工程。

第二、更多的數(shù)據(jù)積累。

剛才講到做實驗,實際上數(shù)據(jù)積累本身是有價值的,但傳統(tǒng)藥企來沒有在挖掘數(shù)據(jù)上投入很大的精力,導(dǎo)致數(shù)據(jù)之間的關(guān)聯(lián)性并不強(qiáng),遺漏研發(fā)規(guī)律。所以現(xiàn)在大模型在參數(shù)足夠多的情況下,有可能外溢到不同的種類,可以進(jìn)行相互參考。最近一些論文已經(jīng)有這方面的探討,我認(rèn)為這也是未來的發(fā)展方向。

第三、藥物研發(fā)預(yù)測性。

過去我們的所有的藥物研發(fā)幾乎很難講預(yù)測性,更多是出現(xiàn)一個病就想辦法做藥,不管是實驗方法也好,還是做發(fā)現(xiàn)、篩查,優(yōu)化也好,都是有病才治病。

但一個AIDD平臺可以把相關(guān)規(guī)律做總結(jié),比如預(yù)測五年以后的新冠病毒是什么樣子;通過深度學(xué)習(xí)和分子動力學(xué)預(yù)測個體身體狀況,那么我們也可以更針對性地尋找相關(guān)的抗體或者藥物。

劉偉:AIDD平臺可以整合藥物創(chuàng)新藥物研發(fā)中的諸多復(fù)雜流程,AIDD公司會把很多工具都整合在一個平臺上、快速迭代AI模型、干濕實驗結(jié)合,目的是方便用戶使用,提升迭代效率。所以AIDD平臺絕不是靜態(tài)的,而是一直動態(tài)變化,它需要吸納新數(shù)據(jù),自身進(jìn)行迭代提升,即便是很少的數(shù)據(jù)也可以有非常大的提升。

除了行業(yè)內(nèi)通常提到的數(shù)據(jù)反饋、流程迭代循環(huán),我們也碰到非常不一樣的例子—不是通過數(shù)據(jù)反饋去訓(xùn)練模型,而是通過濕實驗結(jié)果數(shù)據(jù)來約束AI模型的搜索空間。

例如小分子或者抗體結(jié)合位點,只要了解了晶體結(jié)構(gòu)實驗結(jié)果后,就可以比較精確的框定分子和靶點結(jié)合位點,活性預(yù)測模型的提升能力可提升50%以上。

段宏亮:醫(yī)藥研發(fā)企業(yè)更多是醫(yī)藥項目驅(qū)動型,它們更在意的是管線。

醫(yī)藥企業(yè)自身的CADD部門,或者叫AI部門,往往只有三五個人,多是配合公司內(nèi)部的醫(yī)藥研發(fā)項目,或者做一些比較常規(guī)的醫(yī)藥開發(fā)軟件,更多是一種輔助作用,并沒有太多的精力做原創(chuàng)性的算法技術(shù)開發(fā)工作。

但是對于AI制藥公司來說,就不太一樣了。

大多數(shù)AI制藥公司的導(dǎo)向并不在于開發(fā)新藥管線,而是算法開發(fā)。多數(shù)AI制藥公司創(chuàng)始人是IT出身,他們更多是招聘大量的AI算法人才,研發(fā)CADD+AIDD的交叉類產(chǎn)品,以及一些底層算法開發(fā)。比如AF2出現(xiàn)后,他們可能會做一些蛋白質(zhì)結(jié)構(gòu)設(shè)計的新算法開發(fā),進(jìn)而用來做一些抗體藥物的設(shè)計改造。

有個數(shù)據(jù),截止到2022年11月,國內(nèi)有80多家AIDD公司,主要分布在科研資源豐富或者產(chǎn)業(yè)集群的地帶,以北京、上海和深圳三地最為突出,均有10家及以上AI制藥企業(yè)選擇落戶。

根據(jù)創(chuàng)始人/團(tuán)隊的不同背景,中國AI藥企主要分為6類:高校/研究所成果轉(zhuǎn)化、互聯(lián)網(wǎng)大廠入局、基金孵化;或海歸博士、資深藥企專家、互聯(lián)網(wǎng)人創(chuàng)業(yè)。

可以說,這80多家公司給整個制藥行業(yè)帶來了無限的可能性。雖然我們不確定哪一家或者哪幾家能夠在整個AI制藥行業(yè)競爭中勝出,但單純靠醫(yī)藥企業(yè)內(nèi)部的CADD平臺,很難給我們這個新的AI制藥行業(yè)帶來太多的想象空間。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說