0
本文作者: 劉海濤 | 2021-06-10 19:05 | 專題:AI新藥研發(fā)未來(lái)獨(dú)角獸云峰會(huì) |
近日,雷鋒網(wǎng)《醫(yī)健AI掘金志》以“AI制藥·下一個(gè)現(xiàn)象級(jí)賽道”為主題,邀請(qǐng)百圖生科、劑泰醫(yī)藥、未知君、望石智慧、英矽智能、星藥科技六家先鋒企業(yè),舉辦了一場(chǎng)線上云峰會(huì)。
作為此次活動(dòng)的演講嘉賓,星藥科技創(chuàng)始人&CEO李成濤,以《人工智能在小分子藥物研發(fā)中的應(yīng)用》為題,對(duì)星藥科技的AI新藥平臺(tái)做了介紹。
李成濤表示,總結(jié)來(lái)看,AI制藥主要就包含兩類問題,首先是分類與回歸,知道一個(gè)新分子到底有怎樣性質(zhì),其次是生成與設(shè)計(jì),找出那些是好分子,那些是不好的分子。
目前人類已經(jīng)探索出的化合物空間大概是1010-1012,但適合成藥的成藥化合物大概是1060,這就像一個(gè)巨大的宇宙,我們知道的只有一個(gè)小太陽(yáng)系,甚至是小地球。在這種情況下,人工智能這樣的工具如何突破原有思維定式,找出比傳統(tǒng)人類方法更好的分子,就成為了關(guān)鍵。
以神經(jīng)網(wǎng)絡(luò)的黑箱問題為例,人們往往認(rèn)為人工智能不可解釋,在AI制藥研發(fā)當(dāng)中,星藥科技引入了信息瓶頸和剪枝技術(shù),讓黑箱問題變得更加可視化。
也就是,把分子丟進(jìn)AI制藥模型之后,不僅可以告訴我們毒性好不好,還可以找出是哪一個(gè)模塊或哪一個(gè)基團(tuán)導(dǎo)致。
把這個(gè)結(jié)果和圖像信息拿給藥物化學(xué)家判斷,就可以知道分子是不是遵循思路,描述是不是契合科學(xué)原理,當(dāng)分子不夠理想的時(shí)候,也能知道是哪部分原因,從而可以有針對(duì)性的進(jìn)行改結(jié)構(gòu)。
像這樣的路徑和方法,在創(chuàng)新分子研發(fā)、找新可專利分子、分子衍生躍遷中都有極大的幫助。
以下是演講全部?jī)?nèi)容,《醫(yī)健AI掘金志》做了不改變?cè)獾恼砗途庉嫞?/strong>
非常感謝大家留出時(shí)間參與這場(chǎng)活動(dòng),也非常感謝雷鋒網(wǎng)的組織,能讓我有機(jī)會(huì)和大家分享一下公司在人工智能以及小分子藥物研發(fā)應(yīng)用做的一些工作。
首先自我介紹一下,我是李成濤,2010年至2014年本科就讀于清華姚班,2014年去麻省理工學(xué)院攻讀博士學(xué)位。
自己的背景是計(jì)算機(jī)與人工智能的方向,但在波士頓接觸了很多做藥物研發(fā)科學(xué)家們,了解到很多與藥物研發(fā)相關(guān)的應(yīng)用,所以覺得人工智能在小分子藥物研發(fā)上是有用武之地。
在獲取博士學(xué)位后,我創(chuàng)辦了“星藥科技”,主要通過(guò)人工智能加速小分子藥物研發(fā)。
在這里與大家簡(jiǎn)單介紹一下,具體如何去做的,以及這個(gè)領(lǐng)域有哪些痛點(diǎn),同時(shí)人工智能是如何協(xié)助解決這些痛點(diǎn)。
演講分為如下幾塊:
1、簡(jiǎn)單講講新藥研發(fā)的整個(gè)流程,以及面臨的挑戰(zhàn);
2、人工智能是如何與新藥研發(fā)結(jié)合,并加速整個(gè)新藥研發(fā)流程;
3、小分子藥物研發(fā)流程,即每一步該怎么做,如何通過(guò)人工智能算法提速整個(gè)流程;
4、技術(shù)總結(jié)與領(lǐng)域展望。
首先講講新藥研發(fā)面臨的挑戰(zhàn)。
眾所周知,新藥研發(fā)其實(shí)具有長(zhǎng)周期的特點(diǎn)。我們簡(jiǎn)單把新藥研發(fā)流程分為兩大部分:
一是臨床前階段,包括早期化合物的發(fā)現(xiàn)、化合物的優(yōu)化,所有的工作都是我們?cè)谌梭w外進(jìn)行的,包括設(shè)計(jì)小分子之后,根據(jù)小分子在細(xì)胞、小鼠甚至猴子上做的一些驗(yàn)證實(shí)驗(yàn),去觀察這個(gè)小分子是否能夠達(dá)到我們想要的效果。
臨床實(shí)驗(yàn)之后,分子就可以進(jìn)入臨床實(shí)驗(yàn)階段,在人體上進(jìn)行一些實(shí)驗(yàn)。臨床實(shí)驗(yàn)本身又分為一期、二期和三期,分別能夠觀察藥物本身的毒性、有效性以及大規(guī)模人群中應(yīng)用的具體效果,如果通過(guò)臨床三期,藥物就可以獲批上市。
但整個(gè)流程下來(lái),過(guò)程非常漫長(zhǎng),總耗時(shí)達(dá)到了9-15年的時(shí)間,而臨床前時(shí)間會(huì)花費(fèi)4-7年,剩余就是臨床實(shí)驗(yàn)時(shí)間。另外流程成本極高,平均一款新藥從源頭開始,到藥物正式上市總成本是非常之高。
但這樣一個(gè)成本極高、耗時(shí)極長(zhǎng)的業(yè)務(wù),回報(bào)率卻相當(dāng)?shù)?,這歸因于每個(gè)步驟低成功率。
剛才提到臨床和臨床前階段,成功率都低于10%,所以整體概率低于1%。
如果我們做了100個(gè)項(xiàng)目,可能最后只有1個(gè)項(xiàng)目成功,甚至沒有一個(gè)結(jié)果,造成極低投資回報(bào)率。作為參考,在美股熔斷之前我們進(jìn)行投資的話,每年回報(bào)率大概是10%,但新藥研發(fā)回報(bào)率大概為1.8%,可以想象這是一個(gè)不太優(yōu)質(zhì)的投資標(biāo)的。
這也說(shuō)明這個(gè)行業(yè)面臨各種各樣痛點(diǎn),新藥研發(fā)耗時(shí)長(zhǎng)、成本高、回報(bào)率低特點(diǎn),那星藥科技能夠提供什么樣的解決方案呢?
首先是技術(shù)層面。每一個(gè)新藥研發(fā)前期的模塊上,例如虛擬篩選,我們的Hit Rate能比傳統(tǒng)方法高出十?dāng)?shù)倍;包括一些小分子預(yù)測(cè);還有可合成性篩選上,這在本質(zhì)上解決了一些新藥研發(fā)難點(diǎn),同時(shí)極大縮短了從靶點(diǎn)開發(fā),到臨床前候選藥物所用的時(shí)間。
4-7年或許能夠?qū)⑺鼔嚎s至1-2年,甚至一年以內(nèi)。最終我們通過(guò)人工智能算法和算力,可以支持多條管線并行進(jìn)行,也就是用同樣的時(shí)間,同樣成本,能夠做到更多條管線。
其中一個(gè)藥物研發(fā)的項(xiàng)目即是一個(gè)管線,如果我們可以支持多條管線同步進(jìn)行,對(duì)藥企而言,我們就可以布局更多管線,做更多嘗試,這一點(diǎn)對(duì)整個(gè)產(chǎn)業(yè)界都是至關(guān)重要。
簡(jiǎn)單談一下,人工智能和新藥研發(fā)到底是如何結(jié)合?
人工智能近幾年迎來(lái)一次爆發(fā)式增長(zhǎng),尤其是在2012年之后,即AlexNet之后各種各樣模型、算力以及數(shù)據(jù)都獲得長(zhǎng)足進(jìn)步。
以ImageNet為代表的整體數(shù)據(jù)規(guī)模提升,加上英偉達(dá)為代表基于GPU算力提升,還有模型復(fù)雜度質(zhì)的提升,為模型本身能力帶來(lái)新飛躍。
這些提升讓整個(gè)人工智能領(lǐng)域各式應(yīng)用噴薄式增長(zhǎng),這邊列舉幾個(gè)典型案例。
例如醫(yī)療影像,我們可以用AI輔助醫(yī)生CT影像、X光影像診斷;例如無(wú)人車,Google Waymo、小馬智行也都做得非常棒;
最后是Alpha Go,相信大家并不陌生,2016-2017年,大家都不看好Alpha Go可以打敗李世石,但它做到了。
這些事情非常震撼,證明某些情況下人工智能比人類更好,即使是在一些人類已經(jīng)鉆研或者學(xué)習(xí)了上百年領(lǐng)域。
那AI在醫(yī)藥領(lǐng)域到底有什么樣的應(yīng)用呢?
剛才講到,醫(yī)藥研發(fā)分為臨床前研發(fā)和臨床研發(fā)兩部分,AI對(duì)兩部分都可以提供對(duì)應(yīng)作用,這里面分為不同Modality,即不同藥物形式:有小分子,有大分子,有多肽,有PROTAC,有核酸類藥物,包括最近Modena做的mRNA藥物,也是一種Modality。
此外,臨床實(shí)驗(yàn)設(shè)計(jì)上人工智能也能提供一系列幫助。
我們列舉比較有代表性應(yīng)用,包含活性預(yù)測(cè),即小分子與蛋白質(zhì)結(jié)合后,蛋白質(zhì)活性是上調(diào)還是下調(diào),這是非常重要的成藥性參考指標(biāo) ;
還有ADME/T性質(zhì)預(yù)測(cè),即藥進(jìn)入人體之后,經(jīng)過(guò)吸收、分布、代謝包括排泄對(duì)人體毒性有多強(qiáng),所有這些性質(zhì)預(yù)測(cè),能夠幫助很好判斷小分子成藥性質(zhì)到底怎么樣;
還有人工智能對(duì)藥物晶型的預(yù)測(cè),或者人工智能對(duì)藥物制劑預(yù)測(cè),解決了我們?nèi)袠I(yè)的一個(gè)痛點(diǎn)。
所以整個(gè)小分子研發(fā)早期鏈條上,會(huì)發(fā)現(xiàn)很多不一樣的應(yīng)用,都可以用到人工智能。
今天簡(jiǎn)單講講人工智能怎么應(yīng)用在小分子早期研發(fā)上,其中包含兩個(gè)主要數(shù)據(jù),一個(gè)是分子數(shù)據(jù),一個(gè)是蛋白質(zhì)數(shù)據(jù)。
為什么是這兩個(gè)數(shù)據(jù)。首先因?yàn)樾》肿铀幬锉旧砭蛯儆谛》肿?,所以分子?shù)據(jù)非常重要;
對(duì)于蛋白質(zhì)而言,因?yàn)樾》肿釉隗w內(nèi)發(fā)生作用機(jī)制大多會(huì)與特定蛋白質(zhì)結(jié)合,調(diào)控蛋白質(zhì)活性,以達(dá)到治療疾病效果,所以小分子與蛋白質(zhì)到底能不能結(jié)合,結(jié)合之后有沒有生物活性,都是非常重要的指標(biāo)。
其中對(duì)分子有很多種表達(dá)形式,例如一維描述符,或一維SMILES string,把它變成序列,又或者變成二維數(shù)學(xué)意義上的圖,每個(gè)原子作為一個(gè)節(jié)點(diǎn),每個(gè)化學(xué)鍵變成圖中的邊。
還有三維方式,小分子在三維環(huán)境中會(huì)有各種各樣torsion,包括各種各樣奇怪結(jié)構(gòu)、構(gòu)象變化,這也非常重要。
說(shuō)完小分子,還有蛋白質(zhì)。
蛋白質(zhì)一維可以表征成一個(gè)氨基酸序列;也可以表示二維contact map,也就是距離圖,代表三維結(jié)構(gòu)中每一個(gè)氨基酸距離;再到三維,通過(guò)復(fù)雜折疊情況實(shí)現(xiàn)各種功能。
前一段時(shí)間大家關(guān)注到Deepmind工作,從整個(gè)蛋白質(zhì)序列信息中直接預(yù)測(cè)三維結(jié)構(gòu)信息,即用一維信息預(yù)測(cè)三維信息。
事實(shí)上,所有分子表征都可以用不同神經(jīng)網(wǎng)絡(luò)做編碼,例如直接做全連接神經(jīng)網(wǎng)絡(luò),直接適用于描述符;或者一個(gè)定長(zhǎng)向量,可以直接預(yù)測(cè);還有卷積神經(jīng)網(wǎng)絡(luò)適用于矩陣形式,例如蛋白質(zhì)表征;再比如循環(huán)神經(jīng)網(wǎng)絡(luò),做一維的序列信息表征;還有圖神經(jīng)網(wǎng)絡(luò),做圖結(jié)構(gòu)東西;再比如三維卷積神經(jīng)網(wǎng)絡(luò),編碼三維空間信息。
人工智能編碼完成之后,就可以完成一些藥物研發(fā)任務(wù)。
首先就是分類與回歸,知道一個(gè)新分子到底有怎樣的性質(zhì),例如ADME/T性質(zhì),毒性、水溶性、代謝吸收性質(zhì)。
給AI一個(gè)分子,預(yù)測(cè)出一個(gè)值,這個(gè)值代表水溶性是多少、毒性是多少,毒性本質(zhì)上是分類問題,有沒有毒性是0或1問題,水溶性是回歸問題,一個(gè)連續(xù)值意思。
另外就是生成與設(shè)計(jì),在探索化學(xué)空間的時(shí)候,人工智能設(shè)計(jì)新分子不僅僅是去做分類與回歸,判斷哪些是好的,哪些是不好的。
目前,人類已經(jīng)探索過(guò)的化合物空間大概是1010-1012,但成藥化合物空間大概是1060。
1060與1010差了1050倍,所以實(shí)際我們可以看到,整個(gè)藥物研發(fā)未被探索的化合物空間,又或者成藥的化合物分子空間是非常巨大的。
我們可以把它理解為一個(gè)巨大的宇宙,而我們探索過(guò)的僅僅是小太陽(yáng)系,甚至是小地球。
在這種情況下,如何去探索系外的東西,無(wú)論是星系也好、小分子也好都可以利用人工智能,問題就是如何讓人工智能設(shè)計(jì)比傳統(tǒng)人類方法更好的分子。
理解了分類與回歸和生成與設(shè)計(jì)問題之后,就可以完成整個(gè)AI制藥研發(fā)流程迭代。
接下來(lái)簡(jiǎn)單講一講,人工智能結(jié)合小分子藥物研發(fā)的流程。
首先是數(shù)據(jù),我們有很多種數(shù)據(jù),包括公開數(shù)據(jù)、商業(yè)數(shù)據(jù),以及自己標(biāo)注的數(shù)據(jù),這些數(shù)據(jù)量級(jí)都非常大。
而且對(duì)應(yīng)不用靶點(diǎn)特定項(xiàng)目,我們也有特定數(shù)據(jù),即專項(xiàng)數(shù)據(jù),處于不大不小量級(jí),結(jié)合之后對(duì)整個(gè)模型可以起到很好微調(diào)效果。
這些數(shù)據(jù)丟到藥物研發(fā)平臺(tái)之后,能夠看到經(jīng)過(guò)訓(xùn)練以后,可以進(jìn)一步精細(xì)調(diào)整,進(jìn)入到整個(gè)AI制藥主流程當(dāng)中。
其中包含各種各樣的項(xiàng)目類型,不管是First-in-class, Fast-follow, Best-in-class,Me-too還是Me-better,大家可以簡(jiǎn)單理解為藥物研發(fā)一種項(xiàng)目,這些項(xiàng)目后邊會(huì)走三條道路:
1、全新生成。在疾病治療時(shí),存在一些已有分子,結(jié)構(gòu)還不錯(cuò)、性質(zhì)也不錯(cuò),但因?yàn)閷@蛐枰荛_原本專利限制,找新可專利分子。
此時(shí)我們會(huì)直接用模型庫(kù),幾百個(gè)模型去生成一個(gè)虛擬、千萬(wàn)量級(jí)分子庫(kù),再進(jìn)行下一步篩選;
2、衍生躍遷。有些分子本身性質(zhì)已經(jīng)比較好,但可能需要進(jìn)一步的優(yōu)化;又或者有些分子已經(jīng)成藥,仍然希望看看他的IP空間是否還有其他道路,即衍生躍遷模型。
基于現(xiàn)有分子,進(jìn)行部分改構(gòu),然后做一些新優(yōu)化或生成,這樣的生成同樣是千萬(wàn)級(jí)別;
3、商業(yè)化合物庫(kù)。我們大概有幾百萬(wàn)級(jí)化合物庫(kù),能夠直接進(jìn)行篩選,這些都是人類之前已經(jīng)能夠合成、能夠買到的,能夠很快獲取需要的化合物。
其中很多化合物能夠成藥,只是之前沒有發(fā)現(xiàn),現(xiàn)在可以嘗試在建立完整庫(kù)之后,進(jìn)入下一步虛擬篩選。
通過(guò)我剛才提到的很多方式,例如直接預(yù)測(cè)各種性質(zhì),又或者給一個(gè)小分子或蛋白質(zhì),預(yù)測(cè)小分子與蛋白質(zhì)結(jié)合方式,就可能篩出幾十個(gè)甚至上百個(gè)合適分子,最終合成完之后做出新實(shí)體分子。
接下來(lái)就是濕實(shí)驗(yàn)驗(yàn)證,即在實(shí)驗(yàn)室里進(jìn)行試驗(yàn),在細(xì)胞層面甚至動(dòng)物層面看到底有沒有效果,這些實(shí)驗(yàn)結(jié)果都會(huì)反饋到整個(gè)數(shù)據(jù)庫(kù)當(dāng)中,進(jìn)一步幫助我們迭代模型。
也就是如果濕實(shí)驗(yàn)我們找到非常好的分子,就能進(jìn)行各種各樣驗(yàn)證;如果結(jié)果差強(qiáng)人意,甚至不太好,也能夠返回到數(shù)據(jù)庫(kù),再進(jìn)行進(jìn)一步迭代。
在這方面,我們已經(jīng)做出一些成績(jī),例如選一個(gè)中樞神經(jīng)系統(tǒng)靶點(diǎn),生成千萬(wàn)級(jí)別化合物庫(kù),篩選出百萬(wàn)級(jí)化合物庫(kù),并最終合成出五個(gè)分子。
經(jīng)過(guò)濕實(shí)驗(yàn)檢測(cè),全部都是有很好的活性且有專利空間。其中五個(gè)分子中有兩個(gè)分子來(lái)自于全新生成的De Novo模塊,擁有全新骨架結(jié)構(gòu),因此具有足量專利空間;
另外三個(gè)來(lái)自于衍生物躍遷模塊,根據(jù)現(xiàn)有陽(yáng)性藥進(jìn)行改造,使得各種性質(zhì)表現(xiàn)更好,也具有專利空間。
在商業(yè)化合物庫(kù)中,我們從百萬(wàn)級(jí)別商業(yè)化合物中篩選出100個(gè)小分子,在后續(xù)濕實(shí)驗(yàn)驗(yàn)證中篩出了57個(gè)具有活性分子,即IC50小于10微摩爾。
作為對(duì)比,我們看看傳統(tǒng)計(jì)算化學(xué)或傳統(tǒng)篩選方式是什么樣。
傳統(tǒng)篩選方式概率或Hit Rate大概是2%-5%。這意味如果篩選出100個(gè)分子,大概只有兩到三個(gè)或四五個(gè)有活性,而我們則能夠篩選出57個(gè)有活性分子。
所以,相比于傳統(tǒng)方法,我們能夠把這一效率提高數(shù)倍甚至十?dāng)?shù)倍。并且在57個(gè)分子中,有34個(gè)是具有較高活性的分子,IC50小于一微摩爾,這些都可以用作下一步的檢測(cè)。
總的來(lái)看,這一篩查過(guò)程被我們提速相當(dāng)之多,因?yàn)閭鹘y(tǒng)方法找到個(gè)位數(shù)納摩爾甚至皮摩爾級(jí)別分子需要一年甚至幾年,而我們只需要短短幾個(gè)月時(shí)間:甚至這次只用了兩個(gè)月。
接下來(lái)我給大家講解一下簡(jiǎn)單的技術(shù)問題。
例如,我們是如何判斷一個(gè)小分子能否與一個(gè)蛋白質(zhì)結(jié)合的?
這是發(fā)表過(guò)論文的,當(dāng)時(shí)我們使用蛋白質(zhì)三維結(jié)構(gòu)作為信息輸入,這能夠令我們?cè)谧鲂》肿雍偷鞍踪|(zhì)對(duì)接模型,考慮到小分子和蛋白質(zhì)相互作用,尤其是三維結(jié)構(gòu)上匹配程度,這個(gè)額外信息讓我們指標(biāo)有一個(gè)質(zhì)的飛躍。
大家可以看兩個(gè)圖代表我們和主流算法的區(qū)別,綠色是bar,相對(duì)于其他主流算法要高出一截,所以小分子與蛋白質(zhì)對(duì)接應(yīng)用上,我們做得非常好。
另外就是大家關(guān)心的神經(jīng)網(wǎng)絡(luò)黑箱問題。
談到人工智能,大家往往會(huì)認(rèn)為人工智能不可解釋,即AI制藥是不是也是黑箱問題,因?yàn)槲覀冏鲱A(yù)測(cè)的時(shí)候,向神經(jīng)網(wǎng)絡(luò)里丟一個(gè)分子,神經(jīng)網(wǎng)絡(luò)就會(huì)告訴分子式毒性好不好。
這樣預(yù)測(cè)結(jié)果出來(lái),我們也不清楚究竟是什么因素導(dǎo)致做出這樣的結(jié)果,為了解決可解釋性問題,我們引入了信息瓶頸和剪枝技術(shù),進(jìn)一步把信息可視化。
也就是把分子丟進(jìn)去之后,系統(tǒng)會(huì)告訴我,如果毒性表現(xiàn)不好,是哪一個(gè)模塊或哪一個(gè)基團(tuán)導(dǎo)致,這個(gè)結(jié)果和圖像我們也會(huì)拿給藥化學(xué)家看,看看分子是不是遵循思路,整體描述是不是契合科學(xué)原理。
這個(gè)內(nèi)容不僅僅讓大家看,更重要的是,他能夠給我們提供什么樣insights,最主要信息就是當(dāng)我們發(fā)現(xiàn)分子不夠好時(shí),能夠知道哪個(gè)地方的原因,以至于我們?cè)诟慕Y(jié)構(gòu)的時(shí)候,能夠有針對(duì)性進(jìn)行。
例如神經(jīng)網(wǎng)絡(luò)告訴我,因?yàn)槟硞€(gè)基團(tuán)存在毒性升高了,我們只需要改這個(gè)基團(tuán)即可。
再介紹逆合成問題,當(dāng)系統(tǒng)給我一個(gè)分子之后,所有分子都在電腦中,如果我們需要檢測(cè),就把他合成出來(lái),因?yàn)榕R床分子不可能在電腦分子中。
所以如何把分子合成出來(lái),也是我們嘗試通過(guò)人工智能去需要解決的問題。
盡管人類設(shè)計(jì)一百或者兩百分子就達(dá)到上限用不到人工智能解決,人類專家就可以判斷通量問題;
但現(xiàn)在是人工智能時(shí)代,人工智能設(shè)計(jì)每次都是上千萬(wàn)、上億級(jí)別,人類專家是無(wú)法研究如此巨大通量的逐個(gè)可行性的。
所以尋找自動(dòng)化,找合成路徑或判別分子能否合成工具就顯得十分關(guān)鍵,這一塊我們也做了不少工作,剛才說(shuō)的每一頁(yè)都有自研論文支持。
最后要一下展望。
人工智能和藥物研發(fā)結(jié)合,只是最近幾年的事情,所以我們希望人工智能夠做更多的事情,包括模塊效果提升、縮短靶點(diǎn)到開發(fā)PCC時(shí)間,在相同時(shí)間成本下盡可能多布局更多管線,這是目前能夠做到的。
未來(lái),我們希望人工智能為小分子研發(fā)研發(fā),提供加速藥物發(fā)現(xiàn)支持,這樣能夠大幅提高新藥研發(fā)效率,使得管線更加多樣化。
在整個(gè)醫(yī)藥產(chǎn)業(yè)里,我們希望促進(jìn)人工智能與生物醫(yī)藥結(jié)合,以數(shù)據(jù)為中心進(jìn)行藥物發(fā)現(xiàn),迸發(fā)出新力量。
這些工作最終都是為了患者。作為一個(gè)醫(yī)藥企業(yè),首先的責(zé)任,就是讓人們遠(yuǎn)離更多病痛,讓新藥觸手可及,讓人工智能找出更多治療方案。
Q1:小分子蛋白質(zhì)結(jié)合一級(jí)人工標(biāo)準(zhǔn)清洗的數(shù)據(jù)庫(kù),是采購(gòu)公開數(shù)據(jù)并進(jìn)行清洗的嗎?
李成濤:分為這么幾塊:一個(gè)是公開數(shù)據(jù),肯定是一大塊,其實(shí)都是我們非常好的源頭;同時(shí)還有一些商業(yè)的數(shù)據(jù)庫(kù),是我們可以購(gòu)買到的;也有些渠道可以購(gòu)買到一些更好數(shù)據(jù);還有是自己人工挖掘。
這里面用數(shù)據(jù)挖掘方法來(lái)看,例如說(shuō)專利文獻(xiàn)里面數(shù)據(jù)點(diǎn),或者是我們?nèi)斯?biāo)注的數(shù)據(jù),其實(shí)也占了相當(dāng)一部分的。
再之后,例如一些合作數(shù)據(jù)集、私有數(shù)據(jù)集,因?yàn)楝F(xiàn)在自己也做很多實(shí)驗(yàn),驗(yàn)證整個(gè)算法,所以在這邊整個(gè)數(shù)據(jù)量也不斷往上漲,這塊其實(shí)有多種數(shù)據(jù)源,最后整合在一起。
這位同學(xué)提到清洗這點(diǎn)是很好的。清洗這件事情很關(guān)鍵,因?yàn)閷?shí)際上大部分?jǐn)?shù)據(jù)都噪音比較大,而且同一個(gè)小分子和蛋白質(zhì)在這個(gè)數(shù)據(jù)里可能是這個(gè)結(jié)果,在另一個(gè)數(shù)據(jù)里可能是另一種結(jié)果。
這種誤差的原因是不同實(shí)驗(yàn)室的環(huán)境導(dǎo)致的,就是不一樣結(jié)果,又或者不同環(huán)境、不同人去操作,甚至不同protocol,做出來(lái)結(jié)果就是不一樣。
這個(gè)時(shí)候怎樣選取,甚至怎樣舍棄需要一步一步嘗試,最終我們希望結(jié)合、融合之后,能夠讓整個(gè)模型算法準(zhǔn)確率得到比較好的提升。
Q2: 分子表征方法是有開源的標(biāo)準(zhǔn)化方法,還是每家自行開發(fā)的?
李成濤:每家肯定都會(huì)自己開發(fā),我們自己也是開發(fā)了不同的各種各樣的表征方法,因?yàn)槔锩嫣徇^(guò),提取哪些 特征這一點(diǎn)是非常重要的,直接決定了我們下游的任務(wù),在有限的數(shù)據(jù)集中能不能達(dá)到非常好的效果。
所以這塊我們自己開發(fā)了很多,也有一些標(biāo)準(zhǔn)化方法,比如說(shuō)我剛才講的把一個(gè)小分子變成一個(gè)SMILES string,就是一個(gè)序列的表征,這個(gè)東西其實(shí)用一些軟件包就可以做到。
Q3:跨界做藥的難點(diǎn)在哪?
李成濤:我覺得這是一個(gè)挺好的問題,我經(jīng)常會(huì)被問到。因?yàn)槲易约菏侨斯ぶ悄鼙尘暗模鋵?shí)之前也是做純計(jì)算機(jī)科學(xué)的。
高中當(dāng)時(shí)也是化學(xué)和生物還都沒學(xué)完就被保送,所以其實(shí)積累一開始是需要做很多的工作,包括跟很多人聊,讀一些做藥物研發(fā)的書,我有幾本書就是我一直在18年的時(shí)候一整年在讀的。
學(xué)習(xí)新領(lǐng)域,這個(gè)本質(zhì)去理解新的領(lǐng)域在做什么,他們的痛點(diǎn)是什么,這需要很多工作。
當(dāng)然,最快的方法肯定是跟人聊了。但是在一開始跟人聊會(huì)遇到很大的困難,大家會(huì)發(fā)現(xiàn)很難互相理解,
因?yàn)槲覀冊(cè)谡f(shuō)不同的語(yǔ)言。我在說(shuō)人工智能或者計(jì)算機(jī)方面語(yǔ)言,但對(duì)于科學(xué)家可能在生物方面或者化學(xué)方面的語(yǔ)言,相互理解對(duì)方在說(shuō)什么其實(shí)還是需要花一些時(shí)間的。這個(gè)時(shí)間花完了之后基本就能去做了,我覺得從背景來(lái)講,其實(shí)是一個(gè)比較大的難點(diǎn)。
Q4:AI更適合用于De Novo還是改結(jié)構(gòu)?
李成濤:人工智能是可以做的,很難講更適合于哪些場(chǎng)景,因?yàn)檫@兩種場(chǎng)景我們都有成功案例。
剛才講的CNS,叫中樞神經(jīng)系統(tǒng)靶點(diǎn),我們既有這種 De Novo分子,它能達(dá)到個(gè)位數(shù)納摩活性;
也有改結(jié)構(gòu),根據(jù)陽(yáng)性藥稍做修改,拿到活性更好的分子,這都有成功案例,所以很難說(shuō)哪個(gè)更適用,都可以用人工智能輔助合成。
Q5: 目前業(yè)務(wù)的核心壁壘在哪里?
李成濤:我核心壁壘挺多。首先是know-how,就是知道這件事情應(yīng)該怎樣去做,但實(shí)際會(huì)發(fā)現(xiàn)傳統(tǒng)藥物研發(fā)是一種流程,人工智能+藥物研發(fā)+計(jì)算化學(xué)又完全是另外一種流程。
當(dāng)不知道哪種流程才是最優(yōu)化,就需要不斷去嘗試。嘗試的過(guò)程,就是不斷找新流程的過(guò)程,其實(shí)就會(huì)逐漸形成我們自己的壁壘。
算法也是壁壘,星藥科技一直致力于推進(jìn)整個(gè)算法前沿,我們同事在內(nèi)很多人在這里面,不管是人工智能會(huì)議,還是科學(xué)期刊里面發(fā)表論文大概將近20篇。
我們?cè)谡麄€(gè)算法領(lǐng)域是引領(lǐng)全球的,所以如何在有限數(shù)據(jù)內(nèi)把算法發(fā)揮到極致,這件事情也是我們自己的壁壘。
再其次,數(shù)據(jù)的壁壘,因?yàn)樽约菏亲鋈斯ぶ悄艿?,所以很早的時(shí)候就開始做數(shù)據(jù)清洗整合,怎么樣融合才能讓模型發(fā)揮最大效用的東西,
整合后的數(shù)據(jù)是我們另外一個(gè)核心壁壘,它能夠讓我們整個(gè)模型達(dá)到非常高的上限。作為對(duì)比,如果沒有積累,直接把兩邊數(shù)據(jù)融合在一起,很難得到滿意的結(jié)果。
Q6:NLP在我們的研發(fā)中,都在哪些場(chǎng)景發(fā)揮作用?
李成濤:發(fā)揮作用還挺多的。任何有序列的地方,NLP都可以發(fā)揮作用。NLP本質(zhì)上是什么?
本質(zhì)上就是對(duì)于序列的編碼和解碼,對(duì)于序列的編碼和解碼,我剛才講到的不管是分子也好,還有蛋白也好,他其實(shí)都可以表征成一個(gè)序列,只要這樣,NLP就有用武之地,transformers也好,都可以在這個(gè)場(chǎng)景中發(fā)揮很大的作用。
還有比如說(shuō)比較有意思的應(yīng)用。這里延伸一下,剛才講到的逆合成,給我一個(gè)分子,我怎么樣預(yù)測(cè),他可能是由哪些反應(yīng)物反應(yīng)生成的,這兩個(gè)反應(yīng)A+B能生成C,我given C之后我怎么樣預(yù)測(cè)A+B?這個(gè)其實(shí)就是從一個(gè)序列預(yù)測(cè)另外一個(gè)序列的問題。
從一個(gè)序列預(yù)測(cè)另外一個(gè)序列本質(zhì)上是什么?本質(zhì)上就是一個(gè)機(jī)器翻譯的問題。機(jī)器翻譯其實(shí)按照現(xiàn)在已經(jīng)有很多的工作,它可以做得很好。
Q7:AI發(fā)現(xiàn)藥物最大的難點(diǎn)是在分子合成嗎?
李成濤:這個(gè)東西沒有什么最大難點(diǎn)。我發(fā)現(xiàn)這個(gè)分子是新 ,但問題是分子還需要經(jīng)過(guò)很多步驟,才能真正上臨床。
里面包含怎么樣去合成,各種各樣活性,水溶性,ADME/T,在小鼠上面身上有沒有藥效,毒理是怎么樣的,都需要去做檢測(cè)。
這個(gè)東西本質(zhì)跟傳統(tǒng)藥物研發(fā)沒有任何區(qū)別,有點(diǎn)像游戲過(guò)關(guān),幾個(gè)關(guān)卡 Boss都已經(jīng)確定,只不過(guò)人去打還是機(jī)器去打,本質(zhì)上是一樣的,所以沒有什么最大難點(diǎn)。
Q8: 除了用AI進(jìn)行預(yù)測(cè)之外,也會(huì)用計(jì)算方法進(jìn)行預(yù)測(cè)嗎?
李成濤:我覺得這個(gè)我們會(huì)用的,任何一個(gè)基于計(jì)算的方法我們都會(huì)去嘗試。
AI的本質(zhì)是什么?AI本質(zhì)它就是一個(gè)工具,我們目的不是用這個(gè)工具解決問題,我們目的是解決問題,所以什么工具順手就用什么。
有些地方AI能做得好,我們就用AI,有些地方FEP或者其他這種方式能做得更好,我們就用這種方式,其實(shí)選擇很簡(jiǎn)單。我們?cè)谧鏊幬镅邪l(fā)的時(shí)候,最終的目的是要產(chǎn)生藥,而不是用哪種方法去做,這個(gè)其實(shí)想跟大家去傳遞的。
Q9:商業(yè)合作模式是什么樣的?
李成濤:主要是做聯(lián)合研發(fā),我們會(huì)和藥企這邊進(jìn)行聯(lián)合的深度的合作研發(fā),就是我們負(fù)責(zé)臨床前這邊,同時(shí)整個(gè)期間會(huì)跟藥企進(jìn)行深度的互動(dòng)。在之后,由藥企去把這個(gè)東西推上臨床,大概是這樣一個(gè)情況。
Q10. 有沒有嘗試AI+新靶點(diǎn)發(fā)現(xiàn)?
李成濤:我們也有在做,切入點(diǎn)可以使用知識(shí)圖譜做新靶點(diǎn),這顯然是可以做的。具體怎么做,每一家都不太一樣。
我們找到新靶點(diǎn)之后,怎么樣驗(yàn)證靶點(diǎn)是否正確,是否能夠?qū)崿F(xiàn)想象中的生物學(xué)通路或機(jī)制,我覺得這其實(shí)是一個(gè)科學(xué)問題,需要用科學(xué),也就是用實(shí)驗(yàn)方式解決,不覺得可以用AI解決。
所以AI可以發(fā)現(xiàn)新靶點(diǎn),但發(fā)現(xiàn)新靶點(diǎn)之后怎樣驗(yàn)證靶點(diǎn)是否可以work,也是需要工作的。而且在這之后,基于新靶點(diǎn)再去設(shè)計(jì)篩選優(yōu)化合成,最后檢測(cè),形成數(shù)據(jù)閉環(huán)仍然是AI可以完成的。
Q11:可不可以對(duì)中藥用AI?
李成濤:這個(gè)答案是肯定的,中藥有自己的特點(diǎn),例如活性比較多,合成比較難,但從理論上都是可以用的,而且我們現(xiàn)在也在看這個(gè)方面。
Q12: 篩選通量能達(dá)到什么樣的水平?
李成濤:其實(shí)本質(zhì)上我們計(jì)算的通量能有多少,只要投入時(shí)間和成本,通量多大并不是太大問題。首先, AI去做篩選的話,它整個(gè)計(jì)算需求量沒有想象中那么大,其實(shí)就是我給一個(gè)輸入,然后輸出一個(gè)值。這種東西其實(shí)沒有想象中那么難。
就是它的速度也非???,這塊無(wú)非取決于我們最終能有多少機(jī)器,多少云計(jì)算,所以我們直接去篩選的話,幾百萬(wàn)上千萬(wàn)甚至上億,這都不是太大問題。
Q13: 篩選前生成的分子的質(zhì)量是怎么把控的?
李成濤:這其實(shí)有各種各樣方法。例如可以用一些讓化學(xué)家總結(jié)出的一些規(guī)則,這些東西可以幫我們篩選一些明顯不正常的分子,這些會(huì)很難合成,最好直接放棄。
Q14. 人工智能在藥物中的應(yīng)用,目前市場(chǎng)行業(yè)前景怎么樣?未來(lái)的市場(chǎng)發(fā)展趨勢(shì)如何?
李成濤:整個(gè)行業(yè)處于一個(gè)比較初期的狀態(tài),大家也在不斷往前推各種新技術(shù)和新方法,在未來(lái)會(huì)有一個(gè)比較大的提升和飛躍。
首先整個(gè)行業(yè)里,國(guó)家非常鼓勵(lì)創(chuàng)新藥研發(fā),同時(shí)創(chuàng)新藥研發(fā)又面臨剛時(shí)間長(zhǎng)、成本高,投資回報(bào)率低等問題。
所以人工智能作為一個(gè)必要工具,以后會(huì)在藥物研發(fā)中起非常重要的作用,像這種技術(shù)公司的整個(gè)市場(chǎng)行業(yè)前景也是比較看好的。
Q15 .用AI篩選藥物的時(shí)候如何平衡活性和毒性?有時(shí)候有毒了,分子可能恰恰也是最有效的,修飾一下,就可能成為藥物。
李成濤:這個(gè)問題很專業(yè),同時(shí)也非常在點(diǎn)子上,我們實(shí)際發(fā)現(xiàn)有的時(shí)候優(yōu)質(zhì)分子并不是毒性最低,然后活性最高,這只是一個(gè)理想狀態(tài)。
實(shí)際我們往往會(huì)發(fā)現(xiàn),要不然就是活性高,毒性也高,要不然就是活性低,但也沒啥毒性?;钚缘投拘愿叩木筒挥每戳耍@就是毒藥嘛。
整體來(lái)看我們需要做一些取舍,這和我們的適應(yīng)癥有關(guān),例如癌癥對(duì)毒性tolerance其實(shí)是比較高的,因?yàn)榘┌Y本身是一個(gè)嚴(yán)重的疾病,致死率非常高,雖然稍微有毒一點(diǎn),但能治病,就仍然是有意義的。
但如果是一個(gè)比較小的病,像感冒藥吃了之后,發(fā)現(xiàn)對(duì)心臟有影響,就得不償失了,這個(gè)東西跟我們適應(yīng)癥是有關(guān)的,確實(shí)不太一樣。
Q16:新藥研發(fā)過(guò)程是否需要專家經(jīng)驗(yàn)參與,研發(fā)專家水平怎么樣?
李成濤:首先,肯定是需要專家參與的。需要專家給我們AI一些指導(dǎo),給我們計(jì)算化學(xué)一些指導(dǎo),尤其是他們的有些直覺其實(shí)是必要的。
我們專家團(tuán)隊(duì)同事之前是在美國(guó)跨國(guó)藥企工作幾十年,非常有經(jīng)驗(yàn),能夠帶著我們對(duì)AI有更好指導(dǎo),同時(shí)能夠?qū)φ麄€(gè)管線更好推進(jìn)。
Q17: 利用了 AI助力研發(fā)分子的成藥性,如何知道這個(gè)藥能治療哪種疾病,或者針對(duì)哪個(gè)靶點(diǎn)?
李成濤:這也可以預(yù)測(cè)和檢測(cè)出來(lái)的。我們一開始就會(huì)確定,要針對(duì)哪一個(gè)靶點(diǎn)進(jìn)行藥物開發(fā),然后根據(jù)靶點(diǎn)以及陽(yáng)性藥的三維結(jié)構(gòu)信息,去做生成設(shè)計(jì),包括合成篩工作,所以正常流程是先確定靶點(diǎn),然后再設(shè)計(jì)藥物。
Q18:新藥研發(fā)周期長(zhǎng),如何獲得穩(wěn)定的收入?
李成濤:不斷地去做藥物研發(fā),因?yàn)槲覀兡軌蛟诟痰臅r(shí)間內(nèi)以更低的成本獲得一些臨床前候選,甚至往后推到臨床,所以這個(gè)事情其實(shí)就是一個(gè)可以形成良性循環(huán)的商業(yè)模型了。
Q19:這個(gè)新藥研發(fā)模式成熟大概得多久?
李成濤:這個(gè)行業(yè)處于初期狀態(tài),但實(shí)際上發(fā)展速度也非??斓?,在未來(lái)幾年內(nèi)應(yīng)該會(huì)看到一些比較成熟的企業(yè)做得非常棒。
非常感謝大家今天的時(shí)間,也歡迎對(duì)藥物研發(fā)以及人工智能在藥物研發(fā)領(lǐng)域感興趣的同學(xué)歡迎聯(lián)系我們,加入星藥科技各種各樣全職和實(shí)習(xí)。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章