0
本文作者: 任平 | 2023-06-21 10:09 |
作為藥物發(fā)現(xiàn)階段的研究核心,先導(dǎo)結(jié)構(gòu)的發(fā)現(xiàn)和優(yōu)化往往需要花費(fèi)數(shù)年時(shí)間,投入數(shù)億美元,長(zhǎng)期被視為藥物研發(fā)的關(guān)鍵技術(shù)瓶頸。
從20世紀(jì)70年代以來(lái),計(jì)算機(jī)輔助藥物設(shè)計(jì)(CADD)作為一個(gè)日趨完善的藥物發(fā)現(xiàn)手段,主要包括虛擬篩選和藥物從頭設(shè)計(jì)兩種策略,曾極大提升新藥設(shè)計(jì)和開發(fā)的效率。
“我們即將迎來(lái)生物醫(yī)學(xué)大爆發(fā)的時(shí)刻,但這一成果的取得,不僅取決于生物學(xué)家與醫(yī)學(xué)家的努力,甚至更大程度上取決于數(shù)學(xué)、物理學(xué)、化學(xué)、計(jì)算機(jī)技術(shù)等的發(fā)展以及與生物醫(yī)學(xué)的結(jié)合?!?/p>
“隨著AI技術(shù)的成熟,蛋白質(zhì)、基因組學(xué)數(shù)據(jù)的積累,AI制藥平臺(tái)化勢(shì)必成為醫(yī)藥行業(yè)的一股革命性力量,從根本上改變傳統(tǒng)藥物設(shè)計(jì)試錯(cuò)流程,未來(lái)AI大模型技術(shù)又將引發(fā)新的期待?!?/p>
近日,由雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))GAIR Live&《醫(yī)健AI掘金志》舉辦的《「人機(jī)協(xié)同」模式下的新藥研發(fā)》線上圓桌論壇落幕,五位具有投資、企業(yè)、藥物實(shí)驗(yàn)、AI制藥背景的專家表達(dá)出這樣的愿景。
本次論壇,由浙江大學(xué)藥學(xué)院教授謝昌諭主持,北京大學(xué)藥學(xué)院研究員劉振明、騰訊醫(yī)療健康A(chǔ)IDD技術(shù)負(fù)責(zé)人劉偉、浙江工業(yè)大學(xué)智能制藥研究院院長(zhǎng)段宏亮、清華大學(xué)智能產(chǎn)業(yè)研究院戰(zhàn)略發(fā)展與合作部主任張煜參與討論。
在上篇中,他們共同辨析了人機(jī)協(xié)同模式下的藥物研發(fā)歷程、近幾年AI制藥領(lǐng)域的算法和模型突破、以及與傳統(tǒng)藥物研發(fā)手段相比AIDD的優(yōu)劣性。
在下篇中,則探討了我國(guó)創(chuàng)新藥研發(fā)的痛點(diǎn)、AI制藥的數(shù)據(jù)之困,以及新一輪AI浪潮下藥物研發(fā)的可能性。近期AI大模型爆火,歡迎添加作者微信(微信號(hào):icedaguniang),互通有無(wú)。
“全球人工智能與機(jī)器人大會(huì)”(GAIR)始于2016年雷峰網(wǎng)與中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)合作創(chuàng)立的CCF-GAIR大會(huì),旨在打造人工智能浪潮下,連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺(tái),而雷峰網(wǎng)“連接三界”的全新定位也在此大會(huì)上得以確立。
經(jīng)過(guò)幾年發(fā)展,GAIR大會(huì)已成為行業(yè)標(biāo)桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會(huì)。
GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對(duì)話內(nèi)容,打造輻射產(chǎn)、學(xué)、研、投的特色線上平臺(tái)。
以下是主題論壇的現(xiàn)場(chǎng)內(nèi)容,雷峰網(wǎng)《醫(yī)健AI掘金志》做了不改變?cè)獾木庉嫼驼怼?/strong>
謝昌諭:人機(jī)協(xié)同模式下的新藥研發(fā)大概經(jīng)歷了2-3個(gè)階段。
第一階段屬于計(jì)算機(jī)輔助藥物設(shè)計(jì),也叫做Computer aided drug design(CADD),可以追溯到20世紀(jì)70年代。它是通過(guò)模擬和計(jì)算受體與配體的相互作用,進(jìn)行先導(dǎo)化合物的優(yōu)化與設(shè)計(jì),應(yīng)用場(chǎng)景有分子對(duì)接、虛擬篩選、自由能對(duì)接等。
所以這個(gè)階段基本上還是使用基于一些規(guī)則或統(tǒng)計(jì)方法,篩選已知的化合物庫(kù),其中并沒(méi)有太多人機(jī)交互,更多是人來(lái)決定整個(gè)計(jì)算流程并執(zhí)行,一步一步篩選藥物直到找到潛先導(dǎo)化合物。
值得一提的是,90年代前,中國(guó)藥物分子設(shè)計(jì)領(lǐng)域主要借鑒歐美的方法與軟件,后來(lái)經(jīng)過(guò)863計(jì)劃、973計(jì)劃等推動(dòng),進(jìn)入本世紀(jì)后涌現(xiàn)出不少自研的CADD軟件,諸如AlloDriver、Corrsite、SCORE、PharmMapper、DL-AOT等。
第二階段是用機(jī)器學(xué)習(xí)(ML)來(lái)做QSAR(Quantitative structure-activity relationship,定量構(gòu)效關(guān)系 ),指使用數(shù)學(xué)模型來(lái)描述分子結(jié)構(gòu)和分子的某種生物活性之間的關(guān)系,1980年代以來(lái),3D-QSAR逐漸取代了2D-QSAR的地位,但機(jī)器學(xué)習(xí)用于新藥研發(fā)是90年代后期以來(lái)。
機(jī)器學(xué)習(xí)的擴(kuò)展是深度學(xué)習(xí)(DL),后者巔峰時(shí)期可以追溯至2014年,最近十年來(lái)隨著可用化合物的活性和生物醫(yī)學(xué)數(shù)據(jù)量顯著增加,應(yīng)用于藥物發(fā)現(xiàn)的DL研究層出不窮。
無(wú)論是ML還是DL,它們更多基于數(shù)據(jù)驅(qū)動(dòng),如果將篩選出來(lái)的分子配合濕實(shí)驗(yàn)的驗(yàn)證反饋,模型迭代速度更快,準(zhǔn)確度也會(huì)更高。
實(shí)際上,這時(shí)候就產(chǎn)生了一定的人機(jī)互動(dòng)。
第三階段或許可以視為如今AI大模型/GPT下的新藥研發(fā)。
現(xiàn)在我們看到AI大模型帶來(lái)的核心能力是In Context Learning,它的翻譯有好幾種--上下文學(xué)習(xí)、情景學(xué)習(xí)、提示學(xué)習(xí),本質(zhì)就是在實(shí)時(shí)訓(xùn)練中學(xué)習(xí)。
這一階段的人機(jī)互動(dòng)也更加明顯,也這可能是大家期待的一種藥物研發(fā)模式。盡管現(xiàn)在還處于萌芽階段,但我們?cè)诤芏郺rXiv預(yù)印版論文上看到,已經(jīng)有人積極探索如何把GPT等大型語(yǔ)言模型技術(shù)用到藥物研發(fā)以及相關(guān)的化學(xué)研究的環(huán)節(jié)當(dāng)中,比如 Andrew White 教授提出的 ChemCrow 工具 (arXiv:2304.05376)和arXiv:2305.18090 )等等。
劉振明:因?yàn)槲冶旧碓谒帉W(xué)院,我覺(jué)得“新藥研發(fā)”這個(gè)概念有點(diǎn)大,希望更多是圍繞自己比較熟悉的“藥物發(fā)現(xiàn)”做闡述。
大模型出現(xiàn)之前,前前后后經(jīng)歷了三個(gè)階段,剛才謝老師已經(jīng)講得很全面了,我做下補(bǔ)充。
第一階段,CADD。
當(dāng)時(shí)計(jì)算機(jī)技術(shù)剛剛開始在化學(xué)和生物學(xué)領(lǐng)域中得到應(yīng)用。隨著計(jì)算機(jī)性能和軟件算法不斷提高,CADD在藥物研究和開發(fā)中的應(yīng)用越來(lái)越廣泛,比如動(dòng)力學(xué)模擬模擬、計(jì)算和預(yù)測(cè)藥物與受體生物大分子之間的結(jié)合,設(shè)計(jì)和優(yōu)化先導(dǎo)化合物的方法等等。
后來(lái)CADD可以根據(jù)藥物分子的結(jié)構(gòu),利用計(jì)算機(jī)輔助技術(shù)進(jìn)行結(jié)構(gòu)優(yōu)化和模擬,預(yù)測(cè)藥物的生物活性、代謝途徑、毒副作用等。
第二階段,AIDD。
到了2015-2017年,隨著神經(jīng)網(wǎng)絡(luò)深度模型的發(fā)展,有了另一個(gè)名字“AIDD”(AI輔助藥物設(shè)計(jì))。很多人針對(duì)有限的數(shù)據(jù)、有限的目標(biāo)去做訓(xùn)練,發(fā)了不少文章。但圈內(nèi)人認(rèn)為廣義的CADD是包含AIDD的,AI也需要基于計(jì)算機(jī)去執(zhí)行。當(dāng)然狹義上講,CADD本質(zhì)上是計(jì)算化學(xué),AI的本質(zhì)是通過(guò)數(shù)據(jù)去提取和學(xué)習(xí),所以只要能產(chǎn)生標(biāo)準(zhǔn)化數(shù)據(jù)的地方就可以用AIDD。
第三,大模型時(shí)代。
這一階段正在發(fā)展中,人機(jī)交互的特性更明顯??赡艹怂帉W(xué)家,除了專門做計(jì)算化學(xué)的人,很多人都感覺(jué)做藥物的門檻變低了。即便不懂那么多的藥學(xué)知識(shí),但可以通過(guò)不斷的交互也能“做藥”。這種交互模式帶來(lái)的巨大的應(yīng)用場(chǎng)景最讓大家興奮,而且這種“社交性”的人機(jī)協(xié)作,讓它比CADD和AIDD看起來(lái)更親切。
劉偉:我從工作實(shí)踐中也提一些我的看法。人機(jī)協(xié)同這個(gè)提法我覺(jué)得非常好,強(qiáng)調(diào)了“協(xié)同”二字。
因?yàn)槲覀冊(cè)谶^(guò)去幾年中有個(gè)發(fā)現(xiàn),或者是業(yè)內(nèi)一致看法:新藥研發(fā)不能只靠人來(lái)做實(shí)驗(yàn),同時(shí)也不能完全依賴于計(jì)算機(jī)來(lái)算,或者AI算法去找規(guī)律,需要人和AI相互協(xié)作。
至于發(fā)展階段,大的發(fā)展階段剛才兩位老師都提到了,就是從傳統(tǒng)的計(jì)算機(jī)輔助藥物設(shè)計(jì)(CADD),到基于統(tǒng)計(jì)學(xué)的QSAR模型,再到后來(lái)的深度學(xué)習(xí)。
深度學(xué)習(xí)階段也分好幾個(gè)小階段。最初是圖深度學(xué)習(xí)(Graph Deep Learning) ,顧名思義就是把各種藥物分子看作一個(gè)個(gè)graph,從圖結(jié)構(gòu)的角度來(lái)對(duì)數(shù)據(jù)建模,研究其屬性和功能關(guān)系。
但這一方法也存在一些嚴(yán)重缺陷:高度的數(shù)據(jù)依賴性、over smoothing等問(wèn)題。
隨后Transformer模型流行開來(lái),很多藥物AI算法研究也從圖遷移到Transformer。當(dāng)下的GPT系列模型,正是基于Transformer架構(gòu)的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,通過(guò)在海量的文本數(shù)據(jù)上進(jìn)行無(wú)監(jiān)督學(xué)習(xí),學(xué)習(xí)到文本的通用表示和生成能力,然后在不同的下游任務(wù)上進(jìn)行微調(diào)。現(xiàn)在有研究證明不太需要微調(diào),也可以用提示學(xué)習(xí)的方法提高垂類能力。
基于統(tǒng)計(jì)學(xué)的傳統(tǒng)QSAR方法的優(yōu)勢(shì)也很明顯,有相對(duì)好的可解釋性,結(jié)構(gòu)也比較簡(jiǎn)單,相對(duì)于深度學(xué)習(xí)類的方法魯棒性更好,不容易過(guò)擬合。但通常它的上限比深度學(xué)習(xí)模型低,比如很多領(lǐng)域的SOTA還是深度學(xué)習(xí)做出來(lái)的。
所以在騰訊藥物研發(fā)工作中,既保留了傳統(tǒng)的QSAR類方法,又重點(diǎn)投入了Transformer模型,希望保證比較好的效果的前提下,也能夠獲得非常好的可解釋性。因?yàn)閮烧呤窍噍o相成的,不是簡(jiǎn)單的對(duì)立關(guān)系,兩者配合才能發(fā)揮最大功效。
舉個(gè)例子,我們基于騰訊在算法、算力上的能力,將AI與物理、化學(xué)做了結(jié)合,這是團(tuán)隊(duì)近年來(lái)新生長(zhǎng)出來(lái)的能力。
我們認(rèn)為,AI只靠數(shù)據(jù)驅(qū)動(dòng)是不夠的、缺乏可解釋性,做出來(lái)的模型有時(shí)也會(huì)因?yàn)閿?shù)據(jù)稀疏、分布漂移產(chǎn)生一些問(wèn)題。如果能夠?qū)⑽锢?、化學(xué)知識(shí)有效地輸入到AI算法模型中,模型能夠非常好地反映在化學(xué)、物理等底層的特征和規(guī)律,比如可以學(xué)習(xí)量子化學(xué)中的波函數(shù)、原子受力分析等。而且這種AI模型不僅過(guò)擬合風(fēng)險(xiǎn)更低,實(shí)際應(yīng)用中也有非常好的可解釋性,這也是我們最近幾年重點(diǎn)發(fā)展的能力。
這套技術(shù)棧一直在藥物分子、有機(jī)化學(xué)小分子體系上做訓(xùn)練,直到2022年底,我們用這套技術(shù)棧參加了Open Catalyst Challenge競(jìng)賽(由Meta AI研究院和CMU聯(lián)合發(fā)起),獲得第一名,證明這個(gè)思路是可行的。
段宏亮:我是藥物化學(xué)出身,十幾年來(lái)都是從事新藥開發(fā)工作,和實(shí)驗(yàn)打交道更多。后來(lái)到了AI時(shí)代,我開始做一些AI和制藥的融合工作。剛才幾位老師已經(jīng)把新藥研發(fā)的發(fā)展階段說(shuō)的很清晰了,都提到CADD到QSAR的轉(zhuǎn)變,我就從實(shí)驗(yàn)視角做一些補(bǔ)充。
實(shí)際上,QSAR已經(jīng)有點(diǎn)像現(xiàn)在的AI制藥了,都是數(shù)據(jù)驅(qū)動(dòng)模型做活性預(yù)測(cè),但QSAR的數(shù)據(jù)量相對(duì)較小,只需要幾十個(gè)、幾百個(gè)分子,但如今的AI大模型動(dòng)輒千億參數(shù),兩者對(duì)數(shù)據(jù)的需求明顯不在同一層級(jí)。
從我自身的經(jīng)歷來(lái)看,AI是否真的幫到新藥研發(fā),不是說(shuō)僅僅跑一些標(biāo)準(zhǔn)數(shù)據(jù)集、提升幾個(gè)點(diǎn)的準(zhǔn)確率、是否使用最新模型做一些深度學(xué)習(xí)的任務(wù)。我們更關(guān)心的是,這些方法是否真的有助于藥物化學(xué)家和藥學(xué)家的藥物研發(fā)項(xiàng)目進(jìn)展。
所以圈內(nèi)提出干濕實(shí)驗(yàn)結(jié)合的觀點(diǎn),希望實(shí)驗(yàn)室里產(chǎn)出更多的實(shí)時(shí)數(shù)據(jù),進(jìn)一步迭代訓(xùn)練模型;以及采用一些強(qiáng)化學(xué)習(xí)、小樣本學(xué)習(xí),盡量彌補(bǔ)數(shù)據(jù)量不足的缺點(diǎn)。
如今非常多的科研人員倡導(dǎo)借力AI研發(fā)藥物,把數(shù)據(jù)看得極為重要,很大一部分原因是2020年底,AI程序AlphaFold2(DeepMind研發(fā)的深度神經(jīng)網(wǎng)絡(luò)方法)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大賽CASP14中,取得了幾乎媲美人工實(shí)驗(yàn)的解析結(jié)果。這一現(xiàn)象級(jí)成就,迅速讓AI制藥進(jìn)入到一個(gè)全新的發(fā)展階段。
應(yīng)該說(shuō),在DeepMind把蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)任務(wù)做出來(lái)之前,整個(gè)新藥研發(fā)領(lǐng)域還停留在比較常規(guī)乏味的道路上。
但蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)問(wèn)題被大部分解決了之后,很多人突然發(fā)現(xiàn)了新大陸,原來(lái)蛋白質(zhì)結(jié)構(gòu)這種非常玄妙的東西,幾乎可以通過(guò)計(jì)算的方式解決掉,與冷凍電鏡解析結(jié)果相媲美。
所以這短短兩年時(shí)間,幾乎是產(chǎn)生了一個(gè)全新的研究領(lǐng)域--AIDD(AI Drug Discovery & Design),大量的藥物學(xué)家,計(jì)算機(jī)AI人才進(jìn)入這一領(lǐng)域。
大家自然認(rèn)為,AI和大數(shù)據(jù)驅(qū)動(dòng)下,跑出first in class新藥似乎是毋庸置疑的。這兩年時(shí)間里,我們看到了大量的非??上驳某删停绕湓诖蠓肿铀幬?、多肽藥物、合成生物學(xué)等等跟蛋白結(jié)構(gòu)相關(guān)的一些領(lǐng)域,無(wú)一例外呈現(xiàn)出全新發(fā)展態(tài)勢(shì)。
最關(guān)鍵的是,AlphaFold2的出現(xiàn)一定程度上解決了以前AI制藥中比較困惑的問(wèn)題:數(shù)據(jù)問(wèn)題。
正是由于結(jié)構(gòu)生物學(xué)家們幾十年來(lái)采用冷凍電鏡等濕實(shí)驗(yàn)方式獲得了十幾萬(wàn)的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù),使得訓(xùn)練我們的深度學(xué)習(xí)AI模型成為了可能,并由AI從業(yè)人員在計(jì)算機(jī)上面驗(yàn)證了這種可以同實(shí)驗(yàn)學(xué)科相媲美的可能性。
AI技術(shù)對(duì)新藥研發(fā)的的幫助,理論上是全流程的幫助。從靶點(diǎn)發(fā)現(xiàn)到新藥上市,每個(gè)階段都能看得到AI制藥學(xué)者,或者是一些企業(yè)的介入,其中不乏在一些環(huán)節(jié)做得非常好。
比如晶型預(yù)測(cè)是藥物研發(fā)長(zhǎng)流程中非常小的一個(gè)環(huán)節(jié),有的公司就采用計(jì)算的方式將這個(gè)問(wèn)題解決得非常好,它的計(jì)算結(jié)果跟實(shí)驗(yàn)結(jié)果是相匹配的,得到了國(guó)外大型制藥公司的認(rèn)可。
可見AI技術(shù)在某些藥物研發(fā)環(huán)節(jié)上的用處非常大。但這并不代表目前AI技術(shù)就能帶來(lái)藥物研發(fā)全流程、全系統(tǒng)的賦能,它可能在某些環(huán)節(jié)方面會(huì)率先突破,進(jìn)而以點(diǎn)帶面擴(kuò)展開來(lái)。
跟傳統(tǒng)的藥物研發(fā)相比,AI制藥的優(yōu)勢(shì)更多是效率、成本的提升,以及觸及一些人類藥物研發(fā)工作者難以企及的新領(lǐng)域。
比如我們通過(guò)一些計(jì)算機(jī)模擬技術(shù)看到藥物分子內(nèi)部的微觀世界。如果沒(méi)有人機(jī)協(xié)同,我們永遠(yuǎn)不可能知道微觀世界中一個(gè)藥物分子是一種怎樣的構(gòu)象,它跟蛋白靶點(diǎn)如何作用。通過(guò)計(jì)算機(jī),我們可以相對(duì)準(zhǔn)確地捕捉到原子和原子之間的相互作用力,從而更好地改造藥物開發(fā)的技術(shù)。
另外,對(duì)于數(shù)據(jù)量非常龐大的一些藥物開發(fā)場(chǎng)景,比如蛋白質(zhì)組學(xué)、基因組學(xué)等,數(shù)據(jù)量動(dòng)不動(dòng)是幾十個(gè)T,這種級(jí)別的數(shù)據(jù)量對(duì)于人類來(lái)說(shuō)基本上是無(wú)能為力的,無(wú)法用肉眼來(lái)分析和總結(jié)規(guī)律。計(jì)算機(jī)就可以把所有的數(shù)據(jù)中最核心的規(guī)律總結(jié)出來(lái)展現(xiàn)給藥學(xué)家,大大提高效率。
張煜:我們主要關(guān)注大分子藥物研發(fā)。尤其是這兩年我們也能夠感受到,AlphaFold2確實(shí)讓整個(gè)蛋白質(zhì)結(jié)構(gòu)解析領(lǐng)域發(fā)生了顛覆性的變化。由于蛋白質(zhì)是幾乎所有藥物的主要靶點(diǎn),了解蛋白質(zhì)結(jié)構(gòu),是解決如何通過(guò)特定方式干預(yù)疾病表征的關(guān)鍵。
隨著AlphaFold2開源,一些生物技術(shù)公司現(xiàn)在正在使用它來(lái)協(xié)助開發(fā)藥物,尤其是一些原本致力于大分子藥物的研究更是加速進(jìn)行。
這也說(shuō)明了AI技術(shù)的一大好處--降低了從業(yè)門檻。比如說(shuō)冷凍電鏡設(shè)備,不是每個(gè)大學(xué)或機(jī)構(gòu)都有這樣的財(cái)力或物力,但AlphaFold2提供了強(qiáng)大的蛋白質(zhì)預(yù)測(cè)和分析工具,讓很多從業(yè)者幾乎無(wú)條件地投入到這波創(chuàng)新浪潮中。
相對(duì)來(lái)講,大分子方面規(guī)律性更強(qiáng),蛋白質(zhì)有“序列決定結(jié)構(gòu),結(jié)構(gòu)決定功能”的鏈路,反過(guò)來(lái)以后發(fā)現(xiàn)我們需要這樣一個(gè)功能,能不能把這個(gè)結(jié)構(gòu)拿到,同時(shí)我們知道它是什么樣的序列生成出來(lái)的,也就是蛋白質(zhì)設(shè)計(jì)。
所以,AI展現(xiàn)出極強(qiáng)的理解和生成能力, 使得它在在大分子方面的效果非常明顯。尤其是如今ChatGPT驗(yàn)證了參數(shù)增長(zhǎng)、訓(xùn)練數(shù)據(jù)量增大,對(duì)AI模型的重要意義,AI大模型的確能讓大分子制藥領(lǐng)域取得突破性效果。
但小分子有自己的化學(xué)性質(zhì),以及數(shù)據(jù)是制約小分子藥物設(shè)計(jì)最大的瓶頸,不僅可靠數(shù)據(jù)非常少,還存在指標(biāo)不統(tǒng)一、敏感數(shù)據(jù)難獲取等問(wèn)題?;蛟S這一點(diǎn),讓AI大模型在小分子制藥領(lǐng)域的效果沒(méi)那么顯著。
劉偉:AI對(duì)新藥的諸多流程都有幫助。
這幾年,我們把小分子和大分子都做了一遍。在騰訊的藥物AI平臺(tái)上,小分子這塊,從常見的ADMET評(píng)估,到苗頭化合物發(fā)現(xiàn)(hit),再到lead優(yōu)化都有相應(yīng)的AI算法工具支持。
在大分子這塊,最近兩年我們陸續(xù)開發(fā)了抗體結(jié)構(gòu)預(yù)測(cè)、活性預(yù)測(cè)、人源化等技術(shù)模塊。幾乎覆蓋了大分子和小分子的整個(gè)臨床前研究環(huán)節(jié)。
相對(duì)傳統(tǒng)的藥物研發(fā)模式優(yōu)勢(shì)有哪些?
剛才兩位老師也提到了,優(yōu)勢(shì)是更快的速度,用更少的錢做更少的實(shí)驗(yàn)。在這一塊我們體會(huì)也特別深,迭代速度快非常關(guān)鍵。
比如我們與某個(gè)藥企合作分析某系列化合物的心臟毒性(herg指標(biāo)優(yōu)化項(xiàng)目)。剛開始我們的數(shù)據(jù)比較少,經(jīng)歷了幾次濕實(shí)驗(yàn)后產(chǎn)生的數(shù)據(jù),雖然不是很多,但是放進(jìn)模型進(jìn)行訓(xùn)練后大幅度地提升了這一模型。在項(xiàng)目中后期階段,計(jì)算結(jié)果基本上與實(shí)驗(yàn)結(jié)果相關(guān)性達(dá)95%以上,后來(lái)就不太需要去做實(shí)驗(yàn)了,而是直接使用模型預(yù)測(cè)結(jié)果去做分析了。
實(shí)際上,藥企合作的初衷是希望通過(guò)AI的方法更快地做出藥物,更快上市,更快產(chǎn)生對(duì)患者的臨床價(jià)值。但按照以往的臨床前研究可能需要好幾年時(shí)間,現(xiàn)在最快幾個(gè)月就可以完成,效率上的優(yōu)化非常明顯。
段宏亮:過(guò)去這些年,AI制藥領(lǐng)域很多算法基本跟隨AI技術(shù)而進(jìn)步。
一、最開始的QSAR時(shí)代,我們更多是用機(jī)器學(xué)習(xí),因?yàn)槟菚r(shí)候數(shù)據(jù)量不是太大,機(jī)器學(xué)習(xí)足夠用,所以支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)(NN)、隨機(jī)森林(RF)等已建立的方法,很長(zhǎng)一段時(shí)間都被用于開發(fā)QSAR模型。
二、隨后,十年前以圖像識(shí)別領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)(CNN)為代表,開始了深度學(xué)習(xí)時(shí)代。相對(duì)而言,CNN在藥物研發(fā)上用得不多,因?yàn)镃NN是二維的,藥物分子以三維為主,但無(wú)論如何,至少將深度學(xué)習(xí)概念引入藥物研發(fā)領(lǐng)域。
但深度學(xué)習(xí)真正和藥物研發(fā)密切結(jié)合,是將自然語(yǔ)言處理領(lǐng)域的深度學(xué)習(xí)技術(shù)引入藥物研發(fā)之后。因?yàn)樗幬锓肿涌梢员硎境梢淮甋MILES代碼,跟自然語(yǔ)言非常相像,所以后來(lái)在藥物研發(fā)領(lǐng)域得到廣泛應(yīng)用的的RNN和transformer等深度學(xué)習(xí)模型,都是承接了自然語(yǔ)言處理的技術(shù)流派。
現(xiàn)如今,藥物研發(fā)領(lǐng)域中遍布transformer-base的模型,比如BERT和GPT都是在transformer技術(shù)上發(fā)展起來(lái)的大模型。
此外,因?yàn)樗幬镌拥葍r(jià)于圖中節(jié)點(diǎn),化合物的鍵等價(jià)于圖的邊,所以Graph-base的GCN(圖卷積)流行開來(lái)。這種方法的基本思想是學(xué)習(xí)節(jié)點(diǎn)(如藥物與藥物的相互作用)、邊(如藥物-藥物或藥物-疾病之間的關(guān)系或相互作用)、圖(如分子圖)的有效特征表示。
三、直到最近兩年,比較火的模型是對(duì)比學(xué)習(xí)、擴(kuò)散模型等各種新的深度學(xué)習(xí)技術(shù),在藥物研發(fā)里的應(yīng)用非常多。
最近幾個(gè)月,大家一致認(rèn)為在ChatGPT的推動(dòng)下步入了大模型時(shí)代。但在學(xué)術(shù)界,比GPT更火的可能是BERT--谷歌推出的NLP大模型。
相對(duì)而言,因?yàn)榈鞍姿幬铩⒍嚯乃幬锞邆涓育嫶蟮臄?shù)據(jù)量,比如PDB數(shù)據(jù)庫(kù)可以提供20萬(wàn)左右的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)量,可以訓(xùn)練出不錯(cuò)的大模型。目前蛋白結(jié)構(gòu)預(yù)測(cè)模型還是以transformer-base模型為主。
比較可喜的地方在于,CADD等底層物理能量算法,正在將一些深度學(xué)習(xí)模型融合在一起。
比如David Baker課題組,他們一直在做RoseTTA系列,在做底層的物理能量計(jì)算,受AF2啟發(fā)正在將深度學(xué)習(xí)與物理能量算法融合在一起,開發(fā)出RosettaFold,也有RoseTTAFold Diffusion用于蛋白質(zhì)生成設(shè)計(jì)。
這也證明,底層物理能量計(jì)算和完全基于數(shù)據(jù)驅(qū)動(dòng)的兩個(gè)技術(shù)流可以相互結(jié)合。藥物研發(fā)領(lǐng)域的算法在不停融合,不停升級(jí)中。
當(dāng)然模型的泛化能力一直是一個(gè)比較嚴(yán)重的問(wèn)題。在一些論文中,針對(duì)某些靶點(diǎn)預(yù)測(cè)的小分子藥物數(shù)據(jù)集可以達(dá)到95%甚至99%的準(zhǔn)確率。然而,一旦我們脫離這個(gè)特定的測(cè)試數(shù)據(jù)集,應(yīng)用到新的藥物分子上面時(shí),泛化能力會(huì)明顯削弱。
長(zhǎng)此以往,導(dǎo)致我們?cè)谝粋€(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上可以用很多很炫的算法,準(zhǔn)確率刷到非常高,但過(guò)擬合問(wèn)題卻難以解決。
這可能有待于我們藥學(xué)家、計(jì)算化學(xué)家以及AI專家進(jìn)行深度融合,怎么把某個(gè)藥物研發(fā)問(wèn)題徹底定義好,而不是說(shuō)藥學(xué)的人在化學(xué)生物實(shí)驗(yàn)室里做實(shí)驗(yàn),計(jì)算機(jī)的從業(yè)人員在在計(jì)算機(jī)實(shí)驗(yàn)室里面訓(xùn)練模型,各行其是。
劉偉:AI制藥領(lǐng)域的算法能力同樣來(lái)源于AI本身的一些算法,最近十年AI有三個(gè)重要的里程碑節(jié)點(diǎn),分別為以AlphaGo為代表的強(qiáng)化學(xué)習(xí)技術(shù)的廣泛應(yīng)用、以AlphaFold為代表的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù)、以及最近的預(yù)訓(xùn)練AI大模型技術(shù)。
在強(qiáng)化學(xué)習(xí)方面,2020年左右,我們利用強(qiáng)化學(xué)習(xí)和VAE做了分子生成,無(wú)論是用什么方法,重點(diǎn)是要生成滿足特定屬性和條件的分子。后來(lái)這個(gè)技術(shù)我們?cè)诟患宜幤蟮募夹g(shù)合作中,選擇將生成和SBDD統(tǒng)一起來(lái)判斷活性,通過(guò)屬性反饋來(lái)強(qiáng)化控制分子生成的化學(xué)結(jié)構(gòu)。
后來(lái)藥企也反饋這一方法的結(jié)果很不錯(cuò),在不少藥化合作項(xiàng)目上都能夠明顯看到DMTA循環(huán)周期縮短。我們將這一成果發(fā)表于ACS Omega,也是業(yè)內(nèi)最早發(fā)表的經(jīng)過(guò)濕實(shí)驗(yàn)驗(yàn)證的分子生成技術(shù)方案。我們還將生成式預(yù)訓(xùn)練AI模型結(jié)合藥物構(gòu)象生成,這方面的工作還在進(jìn)展中。
此外,我們?cè)谀P头夯芰?wèn)題也有一些工作進(jìn)展。
模型泛化能力這個(gè)問(wèn)題確實(shí)非常困難,也是非常核心的問(wèn)題,當(dāng)前很多預(yù)測(cè)效果不盡人意,落地難的問(wèn)題都是跟模型泛化能力有關(guān)。泛化也是機(jī)器學(xué)習(xí)研究的核心問(wèn)題,在已知的數(shù)據(jù)集上做風(fēng)險(xiǎn)最小化的訓(xùn)練,從而希望能將模型推廣到未知數(shù)據(jù)上,使其具有一定的預(yù)測(cè)能力。
一方面是前面提到的,如果能夠?qū)⑽锢?、化學(xué)知識(shí)有效地輸入到AI算法模型中,就能夠非常好地反映在化學(xué)、物理等底層的特征和規(guī)律,模型過(guò)擬合風(fēng)險(xiǎn)就會(huì)較低,有比較好的可解釋性。還有就是利用幾何深度學(xué)習(xí)方法約束化合物空間結(jié)構(gòu)的學(xué)習(xí)過(guò)程,就可以使用比較少的參數(shù),從而減小過(guò)擬合的風(fēng)險(xiǎn),也增強(qiáng)了泛化能力。
另一方面,利用AI大模型技術(shù),使用非監(jiān)督的方法來(lái)減少數(shù)據(jù)過(guò)少帶來(lái)的過(guò)擬合問(wèn)題。
因?yàn)榇竽P涂赡芤呀?jīng)比較好地反映出各種化合物的空間結(jié)構(gòu)信息、屬性信息,這樣就對(duì)有標(biāo)簽的數(shù)據(jù)需求相對(duì)少,那么訓(xùn)練過(guò)程中泛化能力就能有比較好的提升,并且只需要較少的訓(xùn)練迭代,做微小的調(diào)整。
針對(duì)泛化問(wèn)題的第二個(gè)例子,就是我們最新的一個(gè)工作。
我們?cè)谧鯝I輔助藥物發(fā)現(xiàn)時(shí),發(fā)現(xiàn)了這樣一個(gè)問(wèn)題,在A靶點(diǎn)(A場(chǎng)景)中訓(xùn)練的AI模型,會(huì)非常難以應(yīng)用到B靶點(diǎn)(B場(chǎng)景)上。這也是一個(gè)明顯的泛化問(wèn)題,現(xiàn)在也沒(méi)能100%完全解決,甚至有時(shí)候這種明顯的降效得到了“模型不可用”的結(jié)論。
為了驗(yàn)證我們模型的有效性,我們做了一個(gè)名叫DrugOOD的框架,在github上有開源,并且根據(jù)不同的domain把它做了一個(gè)劃分,比如按照骨架、實(shí)驗(yàn)assay、或者靶點(diǎn)區(qū)分,這樣訓(xùn)練出來(lái)的模型就會(huì)非常不一樣。
在這個(gè)過(guò)程中,我們實(shí)際上希望模型在不同場(chǎng)景具備一定的遷移能力,不然模型只能適合單一訓(xùn)練數(shù)據(jù)場(chǎng)景,這其實(shí)不是我們所希望的,因?yàn)檫@樣的模型適應(yīng)能力非常弱,沒(méi)辦法應(yīng)用到新的問(wèn)題上。
第三個(gè)例子是量子實(shí)驗(yàn)室的工作,和浙大也有合作,是針對(duì)某一類型的靶點(diǎn)去訓(xùn)練。
我們認(rèn)為,如果不同場(chǎng)景下的數(shù)據(jù)混合在一起訓(xùn)練,不容易達(dá)到比較好的泛化效果,這樣把它單獨(dú)拎出來(lái)做一個(gè)AI模型,一定程度上也可以解決模型難以泛化的問(wèn)題。
例如把含有金屬離子的蛋白質(zhì)靶點(diǎn)的數(shù)據(jù)拿出來(lái)單獨(dú)訓(xùn)練一個(gè)模型。你可以認(rèn)為是一種場(chǎng)景的細(xì)分,還有給GPCR做一個(gè)專門的AI模型也是這種情況。
謝昌諭:我個(gè)人在模型泛化能力問(wèn)題上面也有比較深刻的感觸,畢竟這是如今AI制藥面臨的最大的現(xiàn)實(shí)挑戰(zhàn)之一。
我試過(guò)很多基于純數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方案來(lái)提升模型在不同場(chǎng)景下的泛化能力,比如預(yù)訓(xùn)練一個(gè)大模型然后在下游任務(wù)上進(jìn)行微調(diào)、小樣本算法、元學(xué)習(xí)、 多任務(wù)學(xué)習(xí)和 domain adaptation等等,一些特定的問(wèn)題如活性/親和力預(yù)測(cè)或者分子的 pKa 預(yù)測(cè),我們還甚至可以融入基于物理與化學(xué)的專業(yè)知識(shí)來(lái)提升模型的泛化能力。這些方法雖然針對(duì)某一些數(shù)據(jù)集/場(chǎng)景可以看到不錯(cuò)的提升,但整體而言,我們還是得根據(jù)不同的場(chǎng)景/任務(wù)去做定制化的策略。
最后,除了研究如何在訓(xùn)練數(shù)據(jù)被固定的前提下來(lái)提升模型的泛化能力,另一個(gè)值得關(guān)注的方向,是通過(guò)開發(fā)更新的主動(dòng)學(xué)習(xí)方法去添加少量的合適數(shù)據(jù)來(lái)提升模型的準(zhǔn)確度。
劉振明:CADD和AIDD確實(shí)是一種協(xié)同。
藥企對(duì)于新生事物非常歡迎,他們知道做新的藥物品種很難。
打個(gè)比方,如果他們自己培養(yǎng)一支AI團(tuán)隊(duì),一年要花20個(gè)億,還不如合作上花20億和AI制藥公司合作,既能收到“果實(shí)”,還有可能埋了幾個(gè)“種子”。而且只要能成一個(gè),依靠他們這種大公司的強(qiáng)大商業(yè)能力,一定能獲得回報(bào)。
所以,現(xiàn)在只要AIDD企業(yè)能夠交付藥物品種,藥企就愿意合作。
有個(gè)數(shù)字,過(guò)去五年,國(guó)外一些藥企已經(jīng)開始關(guān)注前端研發(fā),超過(guò)40家藥企建立了跟AI研發(fā)相關(guān)的部門。
為什么他們不抵觸?因?yàn)樗幬镅邪l(fā)行業(yè)跟別的行業(yè)很不一樣,別的行業(yè)可能會(huì)競(jìng)爭(zhēng),但是藥企缺少藥物品種,有人能給我更多的選擇,我為什么不去鼓勵(lì)呢?
另外,藥企更關(guān)注的是自身的商業(yè)版圖。這種情況下,它和AIDD公司是一種互惠互利的關(guān)系,沒(méi)有理由去反對(duì),甚至是歡迎、扶持。但是你會(huì)發(fā)現(xiàn),藥企跟AIDD公司的合作,更多的是藥物品種交付。藥企不管你的軟件有多好,能做品種就合作,簽一個(gè)里程碑付費(fèi)的合同。
但是這種合作更像是藥企“系統(tǒng)外的合作”,藥企并沒(méi)有分享數(shù)據(jù),甚至藥企會(huì)用自己的數(shù)據(jù),自己花精力做一遍驗(yàn)證,也絕不會(huì)把數(shù)據(jù)直接開放給AIDD公司。
其次,即便藥企采用了現(xiàn)在常說(shuō)的聯(lián)邦學(xué)習(xí),做了數(shù)據(jù)接口,也不能解決數(shù)據(jù)稀缺的問(wèn)題。因?yàn)槁?lián)邦學(xué)習(xí)使用的數(shù)據(jù),大部分都是拷貝數(shù)據(jù),甚至有些數(shù)據(jù)清洗完丟失了很多信息;而且由于聯(lián)邦學(xué)習(xí)的數(shù)據(jù)光有接口,沒(méi)有打通數(shù)據(jù)內(nèi)部,所以“模型拿走數(shù)據(jù)留下”的理念具體實(shí)施起來(lái)非常難。
但在新藥研發(fā)中,數(shù)據(jù)就是知識(shí)產(chǎn)權(quán),命根子,所以傳統(tǒng)CADD公司和AIDD公司的協(xié)同更多在哪?技術(shù)協(xié)同。
因此AIDD演化成三種商業(yè)模式:SaaS、CRO、biotech,即售賣AI藥研平臺(tái)與軟件的使用服務(wù)、提供藥物發(fā)現(xiàn)服務(wù)、利用AI自建新藥研發(fā)管線成為藥企,“藥味”逐漸變濃。
在這種商業(yè)導(dǎo)向下,AIDD公司才會(huì)動(dòng)不動(dòng)說(shuō)“顛覆”藥物發(fā)現(xiàn),實(shí)際上他們還是在“打輔助”:一定程度上避免了化合物設(shè)計(jì)過(guò)程中的試錯(cuò)路徑,同時(shí)帶來(lái)更多的全新結(jié)構(gòu),為藥物發(fā)現(xiàn)打破常規(guī)的結(jié)構(gòu)壁壘。
張煜:我從藥物研發(fā)的角度說(shuō)一下。
全球Top10藥企都在做各種各樣的藥物研發(fā),多數(shù)研發(fā)投入占當(dāng)年總收入的20%以上。在疫情管控放開后,他們的研發(fā)力度在疫情之下非減反升,而且將更多精力投入在“抗疫”“抗癌”等核心領(lǐng)域,研發(fā)重點(diǎn)也從飽和的新冠疫苗轉(zhuǎn)向新冠藥物的研發(fā)上。
當(dāng)然,也有一部分小藥廠憑借一兩個(gè)藥物就上市,但因?yàn)樗幯胁块T缺少藥物積累,實(shí)踐和理論積累不強(qiáng),長(zhǎng)期盤踞在一類藥或一款藥上做深度研發(fā),最終研發(fā)無(wú)以為繼,上市虧損嚴(yán)重。
這是藥物管線不足帶來(lái)的困境,更進(jìn)一步說(shuō)是缺失平臺(tái)化發(fā)展模式所面臨的必然困境。
長(zhǎng)期來(lái)看,AI制藥平臺(tái)化是企業(yè)打“組合牌”的關(guān)鍵,隨著中國(guó)仿制藥行業(yè)面臨外部環(huán)境的快速變化,創(chuàng)新藥領(lǐng)域政策出臺(tái)密集、監(jiān)管力度趨嚴(yán),在同樣的外部挑戰(zhàn)下,企業(yè)對(duì)資源進(jìn)行整合重配變得更加明顯。
尤其是基于AI的藥物研發(fā)勢(shì)必成為醫(yī)藥行業(yè)的革命性力量,有望從根本上改變傳統(tǒng)的試錯(cuò)藥物設(shè)計(jì)流程。最近MIT傳出消息,稱他們已經(jīng)研發(fā)出大語(yǔ)言模型,一天內(nèi)可篩選超一億種化合物,比任何現(xiàn)有模型都要多得多。
所以,從制藥的流程看,AI技術(shù)已經(jīng)滲透到多個(gè)環(huán)節(jié),AI制藥平臺(tái)雖然現(xiàn)在還沒(méi)有顯示出優(yōu)勢(shì),但一定會(huì)帶來(lái)藥物研發(fā)的革命。
此外,如今的AIDD公司在平臺(tái)化策略中,既有AI計(jì)算平臺(tái)(干實(shí)驗(yàn)),還有濕實(shí)驗(yàn)平臺(tái)。從理論上講,AI在任何情況下都起作用,特別是深度學(xué)習(xí)框架出來(lái)后,能在有限的范圍內(nèi)比較好地解決一個(gè)問(wèn)題,在觸及到人類認(rèn)知邊界的問(wèn)題上效果最為明顯。
總體來(lái)說(shuō),AI制藥平臺(tái)化至少會(huì)帶來(lái)幾個(gè)好處:
一、藥研工作更穩(wěn)定,減少了藥物的人為干擾。
眾所周知,藥物研發(fā)的時(shí)間很長(zhǎng),業(yè)界的“雙十定律”可以簡(jiǎn)明扼要地回答這個(gè)問(wèn)題,即需要超過(guò)10年時(shí)間、10億美元的成本,才有可能成功研發(fā)出一款新藥。即便如此,也大約只有10%的新藥最終能成功挺進(jìn)臨床試驗(yàn)。
這個(gè)過(guò)程中,有些企業(yè)研發(fā)一款藥物可能會(huì)換好幾撥人。換一撥人就要重新做實(shí)驗(yàn),重新走流程,AI的加入會(huì)促使藥物研發(fā)重新成為一項(xiàng)系統(tǒng)工程。
第二、更多的數(shù)據(jù)積累。
剛才講到做實(shí)驗(yàn),實(shí)際上數(shù)據(jù)積累本身是有價(jià)值的,但傳統(tǒng)藥企來(lái)沒(méi)有在挖掘數(shù)據(jù)上投入很大的精力,導(dǎo)致數(shù)據(jù)之間的關(guān)聯(lián)性并不強(qiáng),遺漏研發(fā)規(guī)律。所以現(xiàn)在大模型在參數(shù)足夠多的情況下,有可能外溢到不同的種類,可以進(jìn)行相互參考。最近一些論文已經(jīng)有這方面的探討,我認(rèn)為這也是未來(lái)的發(fā)展方向。
第三、藥物研發(fā)預(yù)測(cè)性。
過(guò)去我們的所有的藥物研發(fā)幾乎很難講預(yù)測(cè)性,更多是出現(xiàn)一個(gè)病就想辦法做藥,不管是實(shí)驗(yàn)方法也好,還是做發(fā)現(xiàn)、篩查,優(yōu)化也好,都是有病才治病。
但一個(gè)AIDD平臺(tái)可以把相關(guān)規(guī)律做總結(jié),比如預(yù)測(cè)五年以后的新冠病毒是什么樣子;通過(guò)深度學(xué)習(xí)和分子動(dòng)力學(xué)預(yù)測(cè)個(gè)體身體狀況,那么我們也可以更針對(duì)性地尋找相關(guān)的抗體或者藥物。
劉偉:AIDD平臺(tái)可以整合藥物創(chuàng)新藥物研發(fā)中的諸多復(fù)雜流程,AIDD公司會(huì)把很多工具都整合在一個(gè)平臺(tái)上、快速迭代AI模型、干濕實(shí)驗(yàn)結(jié)合,目的是方便用戶使用,提升迭代效率。所以AIDD平臺(tái)絕不是靜態(tài)的,而是一直動(dòng)態(tài)變化,它需要吸納新數(shù)據(jù),自身進(jìn)行迭代提升,即便是很少的數(shù)據(jù)也可以有非常大的提升。
除了行業(yè)內(nèi)通常提到的數(shù)據(jù)反饋、流程迭代循環(huán),我們也碰到非常不一樣的例子—不是通過(guò)數(shù)據(jù)反饋去訓(xùn)練模型,而是通過(guò)濕實(shí)驗(yàn)結(jié)果數(shù)據(jù)來(lái)約束AI模型的搜索空間。
例如小分子或者抗體結(jié)合位點(diǎn),只要了解了晶體結(jié)構(gòu)實(shí)驗(yàn)結(jié)果后,就可以比較精確的框定分子和靶點(diǎn)結(jié)合位點(diǎn),活性預(yù)測(cè)模型的提升能力可提升50%以上。
段宏亮:醫(yī)藥研發(fā)企業(yè)更多是醫(yī)藥項(xiàng)目驅(qū)動(dòng)型,它們更在意的是管線。
醫(yī)藥企業(yè)自身的CADD部門,或者叫AI部門,往往只有三五個(gè)人,多是配合公司內(nèi)部的醫(yī)藥研發(fā)項(xiàng)目,或者做一些比較常規(guī)的醫(yī)藥開發(fā)軟件,更多是一種輔助作用,并沒(méi)有太多的精力做原創(chuàng)性的算法技術(shù)開發(fā)工作。
但是對(duì)于AI制藥公司來(lái)說(shuō),就不太一樣了。
大多數(shù)AI制藥公司的導(dǎo)向并不在于開發(fā)新藥管線,而是算法開發(fā)。多數(shù)AI制藥公司創(chuàng)始人是IT出身,他們更多是招聘大量的AI算法人才,研發(fā)CADD+AIDD的交叉類產(chǎn)品,以及一些底層算法開發(fā)。比如AF2出現(xiàn)后,他們可能會(huì)做一些蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)的新算法開發(fā),進(jìn)而用來(lái)做一些抗體藥物的設(shè)計(jì)改造。
有個(gè)數(shù)據(jù),截止到2022年11月,國(guó)內(nèi)有80多家AIDD公司,主要分布在科研資源豐富或者產(chǎn)業(yè)集群的地帶,以北京、上海和深圳三地最為突出,均有10家及以上AI制藥企業(yè)選擇落戶。
根據(jù)創(chuàng)始人/團(tuán)隊(duì)的不同背景,中國(guó)AI藥企主要分為6類:高校/研究所成果轉(zhuǎn)化、互聯(lián)網(wǎng)大廠入局、基金孵化;或海歸博士、資深藥企專家、互聯(lián)網(wǎng)人創(chuàng)業(yè)。
可以說(shuō),這80多家公司給整個(gè)制藥行業(yè)帶來(lái)了無(wú)限的可能性。雖然我們不確定哪一家或者哪幾家能夠在整個(gè)AI制藥行業(yè)競(jìng)爭(zhēng)中勝出,但單純靠醫(yī)藥企業(yè)內(nèi)部的CADD平臺(tái),很難給我們這個(gè)新的AI制藥行業(yè)帶來(lái)太多的想象空間。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。