0
本文作者: 喬燕薇 | 2023-06-08 16:21 |
“大型藥企在行業(yè)內(nèi)耕耘多年,內(nèi)部積累了非常多的數(shù)據(jù),在AI制藥這條賽道上,這些數(shù)據(jù)就是一條足夠?qū)挼摹o(hù)城河’,相比之下,AI制藥公司獲取數(shù)據(jù)的難度卻高得多。”
陳紅明博士是廣州實(shí)驗(yàn)室研究員,曾在藥企巨頭阿斯利康工作十余年,在AIDD領(lǐng)域有著豐富的研究經(jīng)歷。近日,在與雷峰網(wǎng)《醫(yī)健AI掘金志》的對(duì)話中,陳紅明談及了他的研究經(jīng)歷以及對(duì)AI制藥行業(yè)的觀點(diǎn)。
陳紅明畢業(yè)于中科院化工冶金研究所計(jì)算化學(xué)專(zhuān)業(yè),后赴德國(guó)拜耳制藥公司烏帕塔爾研究中心從事博士后研究。
2001年,陳紅明加入藥企巨頭阿斯利康(AstraZeneca)哥德堡研發(fā)中心,從事計(jì)算化學(xué)和新藥開(kāi)發(fā)方面的研究十余年,擔(dān)任主任研究員(Principal Scientist),主持了多個(gè)歐盟地平線2020科研項(xiàng)目。
2019年,陳紅明回國(guó)后,全職加入生物島實(shí)驗(yàn)室擔(dān)任研究員。2021年5月,加入由鐘南山院士領(lǐng)銜廣州國(guó)家實(shí)驗(yàn)室,擔(dān)任研究員。
陳紅明在阿斯利康的最后幾年,AI技術(shù)在制藥領(lǐng)域開(kāi)始大放異彩,他的研究興趣也從CADD轉(zhuǎn)向AIDD相關(guān)研究,并于2017年帶領(lǐng)團(tuán)隊(duì)開(kāi)發(fā)了業(yè)內(nèi)著名的REINVENT算法。
他指出,相比近年來(lái)大批涌現(xiàn)的AI制藥公司,以阿斯利康為代表的藥企巨頭,在AI制藥這條賽道上有著天然的優(yōu)勢(shì),他們有著多年來(lái)積累的藥物數(shù)據(jù),這是一條足夠?qū)挼摹白o(hù)城河”,將許多競(jìng)爭(zhēng)者攔在門(mén)檻之外。
近日,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))《醫(yī)健AI掘金志》推出《AI制藥十人談》系列,探究AI制藥的前景與隱憂。以下為我們與陳紅明的對(duì)話內(nèi)容,《醫(yī)健AI掘金志》做了不改變?cè)獾木庉嬇c整理。
《醫(yī)健AI掘金志》:自1998年博士畢業(yè)投身藥物研發(fā)領(lǐng)域以來(lái),您經(jīng)歷了藥物研發(fā)二十余年的變遷史。您此前工作的藥企阿斯利康是最早使用AI方法進(jìn)行藥物開(kāi)發(fā)的跨國(guó)公司之一。在您的研究歷程中,是如何完成從CADD到AIDD方法的轉(zhuǎn)變的?
陳紅明:我最初在阿斯利康的藥物發(fā)現(xiàn)部門(mén)的計(jì)算化學(xué)組,做一些與CADD相關(guān)的藥物開(kāi)發(fā)項(xiàng)目支持工作,在研究方向上,主要從事高通量藥物篩選的數(shù)據(jù)分析,虛擬篩選以及藥物性質(zhì)預(yù)測(cè)等工作。
2016年,我們申請(qǐng)了一個(gè)歐盟的項(xiàng)目ExCAPE,用大規(guī)模深度學(xué)習(xí)的方法搭建預(yù)測(cè)模型,以此為契機(jī),我開(kāi)始接觸深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)等算法。
通過(guò)這個(gè)項(xiàng)目,我開(kāi)始和當(dāng)時(shí)在歐洲高校中做相關(guān)研究的教授和學(xué)者們,如奧地利林茨大學(xué)的Sepp Hochreiter教授,Günter Klambauer博士等進(jìn)行合作,逐步轉(zhuǎn)向AIDD的研究。
事實(shí)上,早在上世紀(jì)九十年代,基于定量構(gòu)效關(guān)系的神經(jīng)網(wǎng)絡(luò)就曾在藥物研發(fā)領(lǐng)域中被嘗試用于分子的活性預(yù)測(cè),但當(dāng)時(shí)的神經(jīng)網(wǎng)絡(luò)技術(shù)在這項(xiàng)工作上表現(xiàn)并不太出色。
深度學(xué)習(xí)的興起,一度讓我認(rèn)為AI技術(shù)將在藥物性質(zhì)預(yù)測(cè),尤其是分子的生物活性預(yù)測(cè)和ADMET的性質(zhì)預(yù)測(cè)等方面取得很好的效果。
抱著試試看的想法,我們開(kāi)始使用深度學(xué)習(xí)的方法構(gòu)建預(yù)測(cè)模型。然而,受數(shù)據(jù)問(wèn)題所限,AI在藥物性質(zhì)預(yù)測(cè)領(lǐng)域雖有不錯(cuò)的表現(xiàn),但并未取得革命性的突破。
這可能有兩方面原因,一方面是制藥研發(fā)領(lǐng)域數(shù)據(jù)獲取成本非常高,導(dǎo)致整體數(shù)據(jù)量還不夠多;
另一方面,生物實(shí)驗(yàn)數(shù)據(jù)本身存在實(shí)驗(yàn)誤差,至今仍然沒(méi)有一個(gè)有效的整合標(biāo)準(zhǔn),加之開(kāi)源的數(shù)據(jù)通常來(lái)自于許多不同的實(shí)驗(yàn)室,更是增加了數(shù)據(jù)整合的難度。
相比藥物性質(zhì)預(yù)測(cè),AI在分子生成模型上的應(yīng)用效果反而更好。我的研究方向開(kāi)始從以往的藥物性質(zhì)預(yù)測(cè)轉(zhuǎn)向分子生成模型和化學(xué)反應(yīng)預(yù)測(cè)研究,2017年,我們團(tuán)隊(duì)研發(fā)了生成模型REINVENT算法(相關(guān)論文:M. Olivecrona, T. Blaschke, O. Engkvist, H. Chen, Molecular de-novo design through deep reinforcement learning, J. Cheminform., 2017, 9:48.)。
REINVENT模型使用SMILES 字符串作為分子結(jié)構(gòu)的表示方法,首次使用RNN作為生成模型架構(gòu)并結(jié)合了強(qiáng)化學(xué)習(xí)(RL)算法。
通過(guò)對(duì)這一算法的開(kāi)發(fā)和實(shí)踐應(yīng)用,我們發(fā)現(xiàn),在分子生成這一領(lǐng)域,深度學(xué)習(xí)和傳統(tǒng)方法相比,已經(jīng)取得了比較大的飛躍。
《醫(yī)健AI掘金志》:2019年,您離開(kāi)阿斯利康,加入廣州國(guó)家實(shí)驗(yàn)室,當(dāng)時(shí)有什么契機(jī)促使您做出這一決定?
陳紅明:我在阿斯利康工作時(shí),我所在的部門(mén)主要是做算法開(kāi)發(fā)等工作,同時(shí)也為一些早期項(xiàng)目提供支持,但整體還是更偏重AI算法開(kāi)發(fā)。
回國(guó)之后,我希望能夠繼續(xù)從事AI算法的開(kāi)發(fā)工作,但考慮到在藥企中工作,可能需要花費(fèi)很多精力在項(xiàng)目上,最終還是選擇了這樣一個(gè)更適合做研究的機(jī)構(gòu)。
我加入的是廣州實(shí)驗(yàn)室的前身--生物島實(shí)驗(yàn)室,是廣東省省屬的實(shí)驗(yàn)室。疫情爆發(fā)后,鐘南山院士在廣州建立了廣州國(guó)家實(shí)驗(yàn)室,我所在的生物島實(shí)驗(yàn)室大部分研究人員也轉(zhuǎn)入其下管理。
《醫(yī)健AI掘金志》:跨國(guó)藥企與AI制藥公司之間的合作情況怎么樣?國(guó)內(nèi)的AI制藥企業(yè)一般有三種主要的商業(yè)模式,自研管線、CRO以及專(zhuān)門(mén)做技術(shù)平臺(tái),跨國(guó)藥企對(duì)AI制藥公司的CRO與AI制藥軟件態(tài)度如何?
陳紅明:跨國(guó)藥企對(duì)AI技術(shù)的態(tài)度是非常開(kāi)放的,阿斯利康和其他藥企近年來(lái)與AI制藥公司之間常有合作,比如阿斯利康與AI技術(shù)公司BenevolentAI合作,基于AI算法尋找腎臟疾病的新藥物靶點(diǎn)。
在服務(wù)模式上,大型藥企可能更傾向于選擇CRO企業(yè),在這種合作模式之下,項(xiàng)目最終的評(píng)估指標(biāo)非常明確。
而AI制藥軟件在使用的過(guò)程中,常常需要根據(jù)實(shí)際研發(fā)情況進(jìn)行調(diào)整,很難以固定的模式進(jìn)行工作。
因此,相比使用AI制藥軟件,CRO的效果更直觀,也更便于評(píng)估,對(duì)大型藥企來(lái)說(shuō),這種方式明顯更方便。
《醫(yī)健AI掘金志》:傳統(tǒng)藥企起家的公司與“跨界創(chuàng)業(yè)”的AI制藥公司二者相比,在AI制藥技術(shù)的開(kāi)發(fā)上誰(shuí)更具優(yōu)勢(shì)?
陳紅明:傳統(tǒng)藥企是基于自身多年的專(zhuān)業(yè)積累和研發(fā)能力,在企業(yè)內(nèi)部建立AI平臺(tái);AI制藥公司則是以AI技術(shù)為基礎(chǔ)搭建算法平臺(tái)來(lái)做藥。
我認(rèn)為這兩種方向各有特點(diǎn),但在我個(gè)人看來(lái),二者相比之下,大型藥企開(kāi)發(fā)AI平臺(tái)或許會(huì)更具優(yōu)勢(shì)。
最根本的影響因素在于,AI藥物設(shè)計(jì)是一個(gè)比較注重實(shí)驗(yàn)與數(shù)據(jù)的學(xué)科,企業(yè)在研發(fā)過(guò)程中每獲取一個(gè)數(shù)據(jù)點(diǎn),都要付出非常高昂的費(fèi)用。
在醫(yī)療行業(yè),數(shù)據(jù)屬于稀缺資源,這也是醫(yī)藥行業(yè)區(qū)別于其他行業(yè)的地方,比如自動(dòng)駕駛等行業(yè),獲取一個(gè)數(shù)據(jù)點(diǎn)的成本并不算高。
大型藥企在行業(yè)內(nèi)耕耘多年,內(nèi)部積累了非常多的數(shù)據(jù),在AI制藥這條賽道上,這些數(shù)據(jù)就是一條足夠?qū)挼摹白o(hù)城河”。
相比之下,AI start up(指以人工智能技術(shù)為基礎(chǔ)啟動(dòng)的公司)獲取數(shù)據(jù)的難度卻高得多。而AI start up的優(yōu)勢(shì)——AI技術(shù)人才,大型藥企則可以通過(guò)雇傭AI人才或?qū)で笸獠亢献鱽?lái)彌補(bǔ)。
《醫(yī)健AI掘金志》:如您在上個(gè)問(wèn)題中所講,在AI制藥領(lǐng)域,數(shù)據(jù)是稀缺資源,也是行業(yè)的“護(hù)城河”,藥企之間能否通過(guò)數(shù)據(jù)共享的方式,打破數(shù)據(jù)對(duì)行業(yè)發(fā)展的制約?
歐洲的數(shù)據(jù)共享項(xiàng)目MELLODDY(Machine Learning Ledger Orchestration for Drug Discovery,機(jī)器學(xué)習(xí)分類(lèi)帳編排的藥物發(fā)現(xiàn)),能否為國(guó)內(nèi)藥企提供參照?
(注:MELLODDY項(xiàng)目匯集楊森制藥、安進(jìn)、安斯泰來(lái)、阿斯利康、拜耳、勃林格殷格翰、葛蘭素史克、默克、諾華和施維雅等10家頂尖制藥企業(yè),兩所高校,四家初創(chuàng)公司,以及IT企業(yè)英偉達(dá),旨在創(chuàng)建一個(gè)建模平臺(tái),在該平臺(tái)上可以利用多家制藥企業(yè)的數(shù)據(jù),創(chuàng)建更準(zhǔn)確的模型,以確定藥物開(kāi)發(fā)最有效的化合物。)
陳紅明:在這個(gè)項(xiàng)目開(kāi)啟之初,大家都期待這樣大規(guī)模的數(shù)據(jù)共享能夠?yàn)槠髽I(yè)的模型帶來(lái)一定的提升,但我和以前阿斯利康的同事交流時(shí),他表示相比阿斯利康自己原本的模型,提升并不算很大,這讓我有一些失望。
我認(rèn)為可能是由于不同公司的生化測(cè)試方法有所區(qū)別,導(dǎo)致數(shù)據(jù)之間存在一些系統(tǒng)性的誤差。
此外,對(duì)藥企來(lái)說(shuō),數(shù)據(jù)中最核心的化合物結(jié)構(gòu)往往并不會(huì)公開(kāi),因此在數(shù)據(jù)融合的過(guò)程中也可能會(huì)存在問(wèn)題。
另一個(gè)可能的原因則是,制藥公司在藥物靶點(diǎn)的選擇上存在一定的共性,因此大家都集中在某些所謂熱門(mén)靶點(diǎn)上進(jìn)行分子設(shè)計(jì),因此導(dǎo)致合成的分子骨架結(jié)構(gòu)差別不大,那么在化學(xué)空間上的提升自然就不會(huì)很大,這也可能會(huì)導(dǎo)致模型的提升有限。
這是我作為局外人觀察和猜測(cè)可能導(dǎo)致藥企模型提升有限的幾個(gè)原因,具體事實(shí)如何,還需進(jìn)行大量的研究才能調(diào)查清楚。
MELLODDY項(xiàng)目這種數(shù)據(jù)共享模式暫時(shí)也不適合移植到國(guó)內(nèi),最重要的一個(gè)原因在于,國(guó)內(nèi)的制藥公司相比MELLODDY項(xiàng)目中的大型跨國(guó)藥企,在數(shù)據(jù)積累上仍存在著非常大的差距。
目前比較常見(jiàn)的數(shù)據(jù)共享或交換的形式,往往是通過(guò)聯(lián)邦學(xué)習(xí)等技術(shù),將數(shù)據(jù)轉(zhuǎn)換為描述符等形式,交由一個(gè)可信的中間機(jī)構(gòu)來(lái)把關(guān),化合物結(jié)構(gòu)依然保密。
真正直接披露化合物結(jié)構(gòu)的數(shù)據(jù)交換,在藥物研發(fā)領(lǐng)域還是比較難以達(dá)成,比如此前阿斯利康和拜耳兩家公司,曾商定交換相同數(shù)量的化合物,這是建立在兩家公司體量相當(dāng)、數(shù)據(jù)庫(kù)規(guī)模也相當(dāng)?shù)那闆r下,進(jìn)行平等的一對(duì)一交換,參與數(shù)據(jù)交換的人員數(shù)量也很少。
《醫(yī)健AI掘金志》:加入廣州實(shí)驗(yàn)室后工作后,在藥企巨頭的工作經(jīng)驗(yàn)中對(duì)您來(lái)說(shuō)有哪些可以借鑒?
陳紅明:在阿斯利康的工作經(jīng)歷讓我對(duì)于計(jì)算化學(xué)科學(xué)家在日常工作中面臨的挑戰(zhàn)有足夠的了解。
雖然在阿斯利康工作時(shí)我主要從事算法開(kāi)發(fā),但也參加過(guò)一些藥物開(kāi)發(fā)的項(xiàng)目,對(duì)藥物開(kāi)發(fā)的流程比較熟悉,與項(xiàng)目中的核心人員有很多交流互動(dòng),更加了解在藥物開(kāi)發(fā)過(guò)程中,計(jì)算化學(xué)的方法和工具還存在哪些欠缺,從而更好地開(kāi)發(fā)AI算法。
這些經(jīng)驗(yàn)都可以應(yīng)用在我現(xiàn)在的工作之中。
《醫(yī)健AI掘金志》:相比傳統(tǒng)的CADD方法,AI制藥具有哪些優(yōu)勢(shì)?AIDD最終是將與CADD相互融合還是取代CADD?
陳紅明:相比傳統(tǒng)的CADD,AI藥物設(shè)計(jì)有其獨(dú)特之處,比如近年來(lái)才興起的生成式AI,這在以往的藥物設(shè)計(jì)中是沒(méi)有的。
傳統(tǒng)的藥物設(shè)計(jì)方法往往是基于規(guī)則進(jìn)行,而AI生成模型則是數(shù)據(jù)驅(qū)動(dòng)的算法,完全不需要預(yù)定規(guī)則,即可通過(guò)從數(shù)據(jù)中學(xué)習(xí)到的規(guī)律進(jìn)行分析。
但我認(rèn)為,AIDD仍屬于CADD這一大的范疇之中,屬于是CADD的一個(gè)全新的擴(kuò)展。
CADD常用的分子對(duì)接、利用分子描述符建模的算法,在AIDD之中仍有沿用,所以,AIDD并不會(huì)取代CADD,二者將會(huì)相互融合,AIDD成為CADD的一個(gè)新的發(fā)展階段。
《醫(yī)健AI掘金志》:在分子結(jié)構(gòu)生成環(huán)節(jié),相比陷入瓶頸的CADD,AI可以通過(guò)學(xué)習(xí)大量的化合物結(jié)構(gòu)數(shù)據(jù)發(fā)現(xiàn)隱含的結(jié)構(gòu)構(gòu)成規(guī)則,更具創(chuàng)造力,因此越來(lái)越多的AI制藥初創(chuàng)企業(yè)加入賽道,開(kāi)發(fā)出許多不同的分子生成算法。
2021年5月,您的團(tuán)隊(duì)針對(duì)現(xiàn)有分子生成模型評(píng)估方法的局限進(jìn)行研究,提出了一種基于化學(xué)空間覆蓋度的生成模型效果評(píng)估方法,在這套評(píng)估方法之下,目前比較具有優(yōu)勢(shì)的算法有哪些?
陳紅明:我們當(dāng)時(shí)提出的評(píng)估算法,主要目的是選擇合適的數(shù)據(jù)集來(lái)對(duì)分子生成模型進(jìn)行評(píng)估。
在我們之前,也有其他的研究者提出過(guò)一些生成模型的評(píng)估方法,但他們當(dāng)時(shí)所選擇的數(shù)據(jù)集并不是平均的分布。
他們選擇的數(shù)據(jù)集中,涵蓋了針對(duì)不同靶點(diǎn)的分子,因此有些靶點(diǎn)的相關(guān)的特定結(jié)構(gòu)類(lèi)型會(huì)比較多,有些的結(jié)構(gòu)類(lèi)型則比較少,數(shù)據(jù)集的分布并不均勻。
但是評(píng)價(jià)生成模型,最好還是需要一個(gè)平均分布的數(shù)據(jù)集。
所以,我們當(dāng)時(shí)選擇了GDB13分子集合,這個(gè)小分子庫(kù)包含將近10億個(gè)重原子數(shù)小于13的分子結(jié)構(gòu),而且這些分子都是從理論上窮舉出來(lái)的,分布更加均勻。
在GDB13分子集合的基礎(chǔ)上,我們基于完整的分子結(jié)構(gòu)、官能團(tuán)和環(huán)系這三個(gè)維度,對(duì)“化學(xué)空間覆蓋度”進(jìn)行評(píng)估。
在當(dāng)時(shí)的評(píng)估標(biāo)準(zhǔn)下,REINVENT算法的結(jié)果相對(duì)而言是比較好的,在這之后,國(guó)內(nèi)也涌現(xiàn)出了許多很好的算法模型。
《醫(yī)健AI掘金志》:以ChatGPT為代表的生成式AI技術(shù),將會(huì)為藥物研發(fā)帶來(lái)哪些新的可能性?
陳紅明:ChatGPT模型雖然很火爆,但我認(rèn)為它目前仍處于比較早期的階段,大語(yǔ)言模型依然在快速迭代的過(guò)程之中。
我們團(tuán)隊(duì)前不久也做了相關(guān)的評(píng)測(cè),GPT3.5版本在生物醫(yī)藥的NLP數(shù)據(jù)集上表現(xiàn)是不錯(cuò)的,但是與SOTA模型相比,GPT3.5在項(xiàng)目中的表現(xiàn)還是有很大差距的,在未來(lái)的不斷迭代升級(jí)之后,GPT也許會(huì)有更好的表現(xiàn)。
GPT模型在藥物研發(fā)的流程中也能夠起到很大的作用,一方面對(duì)知識(shí)圖譜的構(gòu)建會(huì)有很大的幫助,比如從海量的文章中提取關(guān)鍵信息,作為素材生成知識(shí)圖譜,從而助力靶點(diǎn)發(fā)現(xiàn)等工作;
另一方面,也有人嘗試用ChatGPT直接進(jìn)行藥物分子設(shè)計(jì),目前來(lái)看這項(xiàng)工作還有些困難,但ChatGPT已經(jīng)展現(xiàn)出知識(shí)綜合的能力,只要給它一個(gè)靶點(diǎn),即可據(jù)此描述出分子應(yīng)該具有的特征。雖然還處于比較初級(jí)的定性階段,但也為藥物設(shè)計(jì)工作提供了一種新的可能性。
另外,也許還可以通過(guò)ChatGPT進(jìn)行化學(xué)反應(yīng)推理等各項(xiàng)工作,總而言之,以ChatGPT為代表的的大語(yǔ)言模型,在藥物研發(fā)流程中或許會(huì)給人帶來(lái)意想不到的驚喜。
為更加深入、系統(tǒng)地探討國(guó)內(nèi)醫(yī)藥企業(yè)在新藥研發(fā)中面臨的諸多問(wèn)題,雷峰網(wǎng)將于6月8日晚8點(diǎn)至10點(diǎn),舉辦主題為《「人機(jī)協(xié)同」模式下的新藥研發(fā)》的線上圓桌論壇。
本次論壇,將由浙江大學(xué)藥學(xué)院教授謝昌諭主持,北京大學(xué)藥學(xué)院研究員劉振明、騰訊醫(yī)療健康A(chǔ)IDD技術(shù)負(fù)責(zé)人劉偉、浙江工業(yè)大學(xué)智能制藥研究院院長(zhǎng)段宏亮、清華大學(xué)智能產(chǎn)業(yè)研究院戰(zhàn)略發(fā)展與合作部主任張煜參與討論。
讀者可掃描文章底部海報(bào)的二維碼,進(jìn)入專(zhuān)家社群,我們會(huì)將您的問(wèn)題收集、匯總,反饋給參會(huì)嘉賓,并在討論環(huán)節(jié)進(jìn)行解答。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。