0
本文作者: 劉海濤 | 2021-06-10 19:05 | 專題:AI新藥研發(fā)未來獨角獸云峰會 |
近日,雷鋒網(wǎng)《醫(yī)健AI掘金志》以“AI制藥·下一個現(xiàn)象級賽道”為主題,邀請百圖生科、劑泰醫(yī)藥、未知君、望石智慧、英矽智能、星藥科技六家先鋒企業(yè),舉辦了一場線上云峰會。
作為此次活動的演講嘉賓,星藥科技創(chuàng)始人&CEO李成濤,以《人工智能在小分子藥物研發(fā)中的應(yīng)用》為題,對星藥科技的AI新藥平臺做了介紹。
李成濤表示,總結(jié)來看,AI制藥主要就包含兩類問題,首先是分類與回歸,知道一個新分子到底有怎樣性質(zhì),其次是生成與設(shè)計,找出那些是好分子,那些是不好的分子。
目前人類已經(jīng)探索出的化合物空間大概是1010-1012,但適合成藥的成藥化合物大概是1060,這就像一個巨大的宇宙,我們知道的只有一個小太陽系,甚至是小地球。在這種情況下,人工智能這樣的工具如何突破原有思維定式,找出比傳統(tǒng)人類方法更好的分子,就成為了關(guān)鍵。
以神經(jīng)網(wǎng)絡(luò)的黑箱問題為例,人們往往認為人工智能不可解釋,在AI制藥研發(fā)當中,星藥科技引入了信息瓶頸和剪枝技術(shù),讓黑箱問題變得更加可視化。
也就是,把分子丟進AI制藥模型之后,不僅可以告訴我們毒性好不好,還可以找出是哪一個模塊或哪一個基團導(dǎo)致。
把這個結(jié)果和圖像信息拿給藥物化學(xué)家判斷,就可以知道分子是不是遵循思路,描述是不是契合科學(xué)原理,當分子不夠理想的時候,也能知道是哪部分原因,從而可以有針對性的進行改結(jié)構(gòu)。
像這樣的路徑和方法,在創(chuàng)新分子研發(fā)、找新可專利分子、分子衍生躍遷中都有極大的幫助。
以下是演講全部內(nèi)容,《醫(yī)健AI掘金志》做了不改變原意的整理和編輯:
非常感謝大家留出時間參與這場活動,也非常感謝雷鋒網(wǎng)的組織,能讓我有機會和大家分享一下公司在人工智能以及小分子藥物研發(fā)應(yīng)用做的一些工作。
首先自我介紹一下,我是李成濤,2010年至2014年本科就讀于清華姚班,2014年去麻省理工學(xué)院攻讀博士學(xué)位。
自己的背景是計算機與人工智能的方向,但在波士頓接觸了很多做藥物研發(fā)科學(xué)家們,了解到很多與藥物研發(fā)相關(guān)的應(yīng)用,所以覺得人工智能在小分子藥物研發(fā)上是有用武之地。
在獲取博士學(xué)位后,我創(chuàng)辦了“星藥科技”,主要通過人工智能加速小分子藥物研發(fā)。
在這里與大家簡單介紹一下,具體如何去做的,以及這個領(lǐng)域有哪些痛點,同時人工智能是如何協(xié)助解決這些痛點。
演講分為如下幾塊:
1、簡單講講新藥研發(fā)的整個流程,以及面臨的挑戰(zhàn);
2、人工智能是如何與新藥研發(fā)結(jié)合,并加速整個新藥研發(fā)流程;
3、小分子藥物研發(fā)流程,即每一步該怎么做,如何通過人工智能算法提速整個流程;
4、技術(shù)總結(jié)與領(lǐng)域展望。
首先講講新藥研發(fā)面臨的挑戰(zhàn)。
眾所周知,新藥研發(fā)其實具有長周期的特點。我們簡單把新藥研發(fā)流程分為兩大部分:
一是臨床前階段,包括早期化合物的發(fā)現(xiàn)、化合物的優(yōu)化,所有的工作都是我們在人體外進行的,包括設(shè)計小分子之后,根據(jù)小分子在細胞、小鼠甚至猴子上做的一些驗證實驗,去觀察這個小分子是否能夠達到我們想要的效果。
臨床實驗之后,分子就可以進入臨床實驗階段,在人體上進行一些實驗。臨床實驗本身又分為一期、二期和三期,分別能夠觀察藥物本身的毒性、有效性以及大規(guī)模人群中應(yīng)用的具體效果,如果通過臨床三期,藥物就可以獲批上市。
但整個流程下來,過程非常漫長,總耗時達到了9-15年的時間,而臨床前時間會花費4-7年,剩余就是臨床實驗時間。另外流程成本極高,平均一款新藥從源頭開始,到藥物正式上市總成本是非常之高。
但這樣一個成本極高、耗時極長的業(yè)務(wù),回報率卻相當?shù)停@歸因于每個步驟低成功率。
剛才提到臨床和臨床前階段,成功率都低于10%,所以整體概率低于1%。
如果我們做了100個項目,可能最后只有1個項目成功,甚至沒有一個結(jié)果,造成極低投資回報率。作為參考,在美股熔斷之前我們進行投資的話,每年回報率大概是10%,但新藥研發(fā)回報率大概為1.8%,可以想象這是一個不太優(yōu)質(zhì)的投資標的。
這也說明這個行業(yè)面臨各種各樣痛點,新藥研發(fā)耗時長、成本高、回報率低特點,那星藥科技能夠提供什么樣的解決方案呢?
首先是技術(shù)層面。每一個新藥研發(fā)前期的模塊上,例如虛擬篩選,我們的Hit Rate能比傳統(tǒng)方法高出十數(shù)倍;包括一些小分子預(yù)測;還有可合成性篩選上,這在本質(zhì)上解決了一些新藥研發(fā)難點,同時極大縮短了從靶點開發(fā),到臨床前候選藥物所用的時間。
4-7年或許能夠?qū)⑺鼔嚎s至1-2年,甚至一年以內(nèi)。最終我們通過人工智能算法和算力,可以支持多條管線并行進行,也就是用同樣的時間,同樣成本,能夠做到更多條管線。
其中一個藥物研發(fā)的項目即是一個管線,如果我們可以支持多條管線同步進行,對藥企而言,我們就可以布局更多管線,做更多嘗試,這一點對整個產(chǎn)業(yè)界都是至關(guān)重要。
簡單談一下,人工智能和新藥研發(fā)到底是如何結(jié)合?
人工智能近幾年迎來一次爆發(fā)式增長,尤其是在2012年之后,即AlexNet之后各種各樣模型、算力以及數(shù)據(jù)都獲得長足進步。
以ImageNet為代表的整體數(shù)據(jù)規(guī)模提升,加上英偉達為代表基于GPU算力提升,還有模型復(fù)雜度質(zhì)的提升,為模型本身能力帶來新飛躍。
這些提升讓整個人工智能領(lǐng)域各式應(yīng)用噴薄式增長,這邊列舉幾個典型案例。
例如醫(yī)療影像,我們可以用AI輔助醫(yī)生CT影像、X光影像診斷;例如無人車,Google Waymo、小馬智行也都做得非常棒;
最后是Alpha Go,相信大家并不陌生,2016-2017年,大家都不看好Alpha Go可以打敗李世石,但它做到了。
這些事情非常震撼,證明某些情況下人工智能比人類更好,即使是在一些人類已經(jīng)鉆研或者學(xué)習了上百年領(lǐng)域。
那AI在醫(yī)藥領(lǐng)域到底有什么樣的應(yīng)用呢?
剛才講到,醫(yī)藥研發(fā)分為臨床前研發(fā)和臨床研發(fā)兩部分,AI對兩部分都可以提供對應(yīng)作用,這里面分為不同Modality,即不同藥物形式:有小分子,有大分子,有多肽,有PROTAC,有核酸類藥物,包括最近Modena做的mRNA藥物,也是一種Modality。
此外,臨床實驗設(shè)計上人工智能也能提供一系列幫助。
我們列舉比較有代表性應(yīng)用,包含活性預(yù)測,即小分子與蛋白質(zhì)結(jié)合后,蛋白質(zhì)活性是上調(diào)還是下調(diào),這是非常重要的成藥性參考指標 ;
還有ADME/T性質(zhì)預(yù)測,即藥進入人體之后,經(jīng)過吸收、分布、代謝包括排泄對人體毒性有多強,所有這些性質(zhì)預(yù)測,能夠幫助很好判斷小分子成藥性質(zhì)到底怎么樣;
還有人工智能對藥物晶型的預(yù)測,或者人工智能對藥物制劑預(yù)測,解決了我們?nèi)袠I(yè)的一個痛點。
所以整個小分子研發(fā)早期鏈條上,會發(fā)現(xiàn)很多不一樣的應(yīng)用,都可以用到人工智能。
今天簡單講講人工智能怎么應(yīng)用在小分子早期研發(fā)上,其中包含兩個主要數(shù)據(jù),一個是分子數(shù)據(jù),一個是蛋白質(zhì)數(shù)據(jù)。
為什么是這兩個數(shù)據(jù)。首先因為小分子藥物本身就屬于小分子,所以分子數(shù)據(jù)非常重要;
對于蛋白質(zhì)而言,因為小分子在體內(nèi)發(fā)生作用機制大多會與特定蛋白質(zhì)結(jié)合,調(diào)控蛋白質(zhì)活性,以達到治療疾病效果,所以小分子與蛋白質(zhì)到底能不能結(jié)合,結(jié)合之后有沒有生物活性,都是非常重要的指標。
其中對分子有很多種表達形式,例如一維描述符,或一維SMILES string,把它變成序列,又或者變成二維數(shù)學(xué)意義上的圖,每個原子作為一個節(jié)點,每個化學(xué)鍵變成圖中的邊。
還有三維方式,小分子在三維環(huán)境中會有各種各樣torsion,包括各種各樣奇怪結(jié)構(gòu)、構(gòu)象變化,這也非常重要。
說完小分子,還有蛋白質(zhì)。
蛋白質(zhì)一維可以表征成一個氨基酸序列;也可以表示二維contact map,也就是距離圖,代表三維結(jié)構(gòu)中每一個氨基酸距離;再到三維,通過復(fù)雜折疊情況實現(xiàn)各種功能。
前一段時間大家關(guān)注到Deepmind工作,從整個蛋白質(zhì)序列信息中直接預(yù)測三維結(jié)構(gòu)信息,即用一維信息預(yù)測三維信息。
事實上,所有分子表征都可以用不同神經(jīng)網(wǎng)絡(luò)做編碼,例如直接做全連接神經(jīng)網(wǎng)絡(luò),直接適用于描述符;或者一個定長向量,可以直接預(yù)測;還有卷積神經(jīng)網(wǎng)絡(luò)適用于矩陣形式,例如蛋白質(zhì)表征;再比如循環(huán)神經(jīng)網(wǎng)絡(luò),做一維的序列信息表征;還有圖神經(jīng)網(wǎng)絡(luò),做圖結(jié)構(gòu)東西;再比如三維卷積神經(jīng)網(wǎng)絡(luò),編碼三維空間信息。
人工智能編碼完成之后,就可以完成一些藥物研發(fā)任務(wù)。
首先就是分類與回歸,知道一個新分子到底有怎樣的性質(zhì),例如ADME/T性質(zhì),毒性、水溶性、代謝吸收性質(zhì)。
給AI一個分子,預(yù)測出一個值,這個值代表水溶性是多少、毒性是多少,毒性本質(zhì)上是分類問題,有沒有毒性是0或1問題,水溶性是回歸問題,一個連續(xù)值意思。
另外就是生成與設(shè)計,在探索化學(xué)空間的時候,人工智能設(shè)計新分子不僅僅是去做分類與回歸,判斷哪些是好的,哪些是不好的。
目前,人類已經(jīng)探索過的化合物空間大概是1010-1012,但成藥化合物空間大概是1060。
1060與1010差了1050倍,所以實際我們可以看到,整個藥物研發(fā)未被探索的化合物空間,又或者成藥的化合物分子空間是非常巨大的。
我們可以把它理解為一個巨大的宇宙,而我們探索過的僅僅是小太陽系,甚至是小地球。
在這種情況下,如何去探索系外的東西,無論是星系也好、小分子也好都可以利用人工智能,問題就是如何讓人工智能設(shè)計比傳統(tǒng)人類方法更好的分子。
理解了分類與回歸和生成與設(shè)計問題之后,就可以完成整個AI制藥研發(fā)流程迭代。
接下來簡單講一講,人工智能結(jié)合小分子藥物研發(fā)的流程。
首先是數(shù)據(jù),我們有很多種數(shù)據(jù),包括公開數(shù)據(jù)、商業(yè)數(shù)據(jù),以及自己標注的數(shù)據(jù),這些數(shù)據(jù)量級都非常大。
而且對應(yīng)不用靶點特定項目,我們也有特定數(shù)據(jù),即專項數(shù)據(jù),處于不大不小量級,結(jié)合之后對整個模型可以起到很好微調(diào)效果。
這些數(shù)據(jù)丟到藥物研發(fā)平臺之后,能夠看到經(jīng)過訓(xùn)練以后,可以進一步精細調(diào)整,進入到整個AI制藥主流程當中。
其中包含各種各樣的項目類型,不管是First-in-class, Fast-follow, Best-in-class,Me-too還是Me-better,大家可以簡單理解為藥物研發(fā)一種項目,這些項目后邊會走三條道路:
1、全新生成。在疾病治療時,存在一些已有分子,結(jié)構(gòu)還不錯、性質(zhì)也不錯,但因為專利原因需要避開原本專利限制,找新可專利分子。
此時我們會直接用模型庫,幾百個模型去生成一個虛擬、千萬量級分子庫,再進行下一步篩選;
2、衍生躍遷。有些分子本身性質(zhì)已經(jīng)比較好,但可能需要進一步的優(yōu)化;又或者有些分子已經(jīng)成藥,仍然希望看看他的IP空間是否還有其他道路,即衍生躍遷模型。
基于現(xiàn)有分子,進行部分改構(gòu),然后做一些新優(yōu)化或生成,這樣的生成同樣是千萬級別;
3、商業(yè)化合物庫。我們大概有幾百萬級化合物庫,能夠直接進行篩選,這些都是人類之前已經(jīng)能夠合成、能夠買到的,能夠很快獲取需要的化合物。
其中很多化合物能夠成藥,只是之前沒有發(fā)現(xiàn),現(xiàn)在可以嘗試在建立完整庫之后,進入下一步虛擬篩選。
通過我剛才提到的很多方式,例如直接預(yù)測各種性質(zhì),又或者給一個小分子或蛋白質(zhì),預(yù)測小分子與蛋白質(zhì)結(jié)合方式,就可能篩出幾十個甚至上百個合適分子,最終合成完之后做出新實體分子。
接下來就是濕實驗驗證,即在實驗室里進行試驗,在細胞層面甚至動物層面看到底有沒有效果,這些實驗結(jié)果都會反饋到整個數(shù)據(jù)庫當中,進一步幫助我們迭代模型。
也就是如果濕實驗我們找到非常好的分子,就能進行各種各樣驗證;如果結(jié)果差強人意,甚至不太好,也能夠返回到數(shù)據(jù)庫,再進行進一步迭代。
在這方面,我們已經(jīng)做出一些成績,例如選一個中樞神經(jīng)系統(tǒng)靶點,生成千萬級別化合物庫,篩選出百萬級化合物庫,并最終合成出五個分子。
經(jīng)過濕實驗檢測,全部都是有很好的活性且有專利空間。其中五個分子中有兩個分子來自于全新生成的De Novo模塊,擁有全新骨架結(jié)構(gòu),因此具有足量專利空間;
另外三個來自于衍生物躍遷模塊,根據(jù)現(xiàn)有陽性藥進行改造,使得各種性質(zhì)表現(xiàn)更好,也具有專利空間。
在商業(yè)化合物庫中,我們從百萬級別商業(yè)化合物中篩選出100個小分子,在后續(xù)濕實驗驗證中篩出了57個具有活性分子,即IC50小于10微摩爾。
作為對比,我們看看傳統(tǒng)計算化學(xué)或傳統(tǒng)篩選方式是什么樣。
傳統(tǒng)篩選方式概率或Hit Rate大概是2%-5%。這意味如果篩選出100個分子,大概只有兩到三個或四五個有活性,而我們則能夠篩選出57個有活性分子。
所以,相比于傳統(tǒng)方法,我們能夠把這一效率提高數(shù)倍甚至十數(shù)倍。并且在57個分子中,有34個是具有較高活性的分子,IC50小于一微摩爾,這些都可以用作下一步的檢測。
總的來看,這一篩查過程被我們提速相當之多,因為傳統(tǒng)方法找到個位數(shù)納摩爾甚至皮摩爾級別分子需要一年甚至幾年,而我們只需要短短幾個月時間:甚至這次只用了兩個月。
接下來我給大家講解一下簡單的技術(shù)問題。
例如,我們是如何判斷一個小分子能否與一個蛋白質(zhì)結(jié)合的?
這是發(fā)表過論文的,當時我們使用蛋白質(zhì)三維結(jié)構(gòu)作為信息輸入,這能夠令我們在做小分子和蛋白質(zhì)對接模型,考慮到小分子和蛋白質(zhì)相互作用,尤其是三維結(jié)構(gòu)上匹配程度,這個額外信息讓我們指標有一個質(zhì)的飛躍。
大家可以看兩個圖代表我們和主流算法的區(qū)別,綠色是bar,相對于其他主流算法要高出一截,所以小分子與蛋白質(zhì)對接應(yīng)用上,我們做得非常好。
另外就是大家關(guān)心的神經(jīng)網(wǎng)絡(luò)黑箱問題。
談到人工智能,大家往往會認為人工智能不可解釋,即AI制藥是不是也是黑箱問題,因為我們做預(yù)測的時候,向神經(jīng)網(wǎng)絡(luò)里丟一個分子,神經(jīng)網(wǎng)絡(luò)就會告訴分子式毒性好不好。
這樣預(yù)測結(jié)果出來,我們也不清楚究竟是什么因素導(dǎo)致做出這樣的結(jié)果,為了解決可解釋性問題,我們引入了信息瓶頸和剪枝技術(shù),進一步把信息可視化。
也就是把分子丟進去之后,系統(tǒng)會告訴我,如果毒性表現(xiàn)不好,是哪一個模塊或哪一個基團導(dǎo)致,這個結(jié)果和圖像我們也會拿給藥化學(xué)家看,看看分子是不是遵循思路,整體描述是不是契合科學(xué)原理。
這個內(nèi)容不僅僅讓大家看,更重要的是,他能夠給我們提供什么樣insights,最主要信息就是當我們發(fā)現(xiàn)分子不夠好時,能夠知道哪個地方的原因,以至于我們在改結(jié)構(gòu)的時候,能夠有針對性進行。
例如神經(jīng)網(wǎng)絡(luò)告訴我,因為某個基團存在毒性升高了,我們只需要改這個基團即可。
再介紹逆合成問題,當系統(tǒng)給我一個分子之后,所有分子都在電腦中,如果我們需要檢測,就把他合成出來,因為臨床分子不可能在電腦分子中。
所以如何把分子合成出來,也是我們嘗試通過人工智能去需要解決的問題。
盡管人類設(shè)計一百或者兩百分子就達到上限用不到人工智能解決,人類專家就可以判斷通量問題;
但現(xiàn)在是人工智能時代,人工智能設(shè)計每次都是上千萬、上億級別,人類專家是無法研究如此巨大通量的逐個可行性的。
所以尋找自動化,找合成路徑或判別分子能否合成工具就顯得十分關(guān)鍵,這一塊我們也做了不少工作,剛才說的每一頁都有自研論文支持。
最后要一下展望。
人工智能和藥物研發(fā)結(jié)合,只是最近幾年的事情,所以我們希望人工智能夠做更多的事情,包括模塊效果提升、縮短靶點到開發(fā)PCC時間,在相同時間成本下盡可能多布局更多管線,這是目前能夠做到的。
未來,我們希望人工智能為小分子研發(fā)研發(fā),提供加速藥物發(fā)現(xiàn)支持,這樣能夠大幅提高新藥研發(fā)效率,使得管線更加多樣化。
在整個醫(yī)藥產(chǎn)業(yè)里,我們希望促進人工智能與生物醫(yī)藥結(jié)合,以數(shù)據(jù)為中心進行藥物發(fā)現(xiàn),迸發(fā)出新力量。
這些工作最終都是為了患者。作為一個醫(yī)藥企業(yè),首先的責任,就是讓人們遠離更多病痛,讓新藥觸手可及,讓人工智能找出更多治療方案。
Q1:小分子蛋白質(zhì)結(jié)合一級人工標準清洗的數(shù)據(jù)庫,是采購公開數(shù)據(jù)并進行清洗的嗎?
李成濤:分為這么幾塊:一個是公開數(shù)據(jù),肯定是一大塊,其實都是我們非常好的源頭;同時還有一些商業(yè)的數(shù)據(jù)庫,是我們可以購買到的;也有些渠道可以購買到一些更好數(shù)據(jù);還有是自己人工挖掘。
這里面用數(shù)據(jù)挖掘方法來看,例如說專利文獻里面數(shù)據(jù)點,或者是我們?nèi)斯俗⒌臄?shù)據(jù),其實也占了相當一部分的。
再之后,例如一些合作數(shù)據(jù)集、私有數(shù)據(jù)集,因為現(xiàn)在自己也做很多實驗,驗證整個算法,所以在這邊整個數(shù)據(jù)量也不斷往上漲,這塊其實有多種數(shù)據(jù)源,最后整合在一起。
這位同學(xué)提到清洗這點是很好的。清洗這件事情很關(guān)鍵,因為實際上大部分數(shù)據(jù)都噪音比較大,而且同一個小分子和蛋白質(zhì)在這個數(shù)據(jù)里可能是這個結(jié)果,在另一個數(shù)據(jù)里可能是另一種結(jié)果。
這種誤差的原因是不同實驗室的環(huán)境導(dǎo)致的,就是不一樣結(jié)果,又或者不同環(huán)境、不同人去操作,甚至不同protocol,做出來結(jié)果就是不一樣。
這個時候怎樣選取,甚至怎樣舍棄需要一步一步嘗試,最終我們希望結(jié)合、融合之后,能夠讓整個模型算法準確率得到比較好的提升。
Q2: 分子表征方法是有開源的標準化方法,還是每家自行開發(fā)的?
李成濤:每家肯定都會自己開發(fā),我們自己也是開發(fā)了不同的各種各樣的表征方法,因為里面提過,提取哪些 特征這一點是非常重要的,直接決定了我們下游的任務(wù),在有限的數(shù)據(jù)集中能不能達到非常好的效果。
所以這塊我們自己開發(fā)了很多,也有一些標準化方法,比如說我剛才講的把一個小分子變成一個SMILES string,就是一個序列的表征,這個東西其實用一些軟件包就可以做到。
Q3:跨界做藥的難點在哪?
李成濤:我覺得這是一個挺好的問題,我經(jīng)常會被問到。因為我自己是人工智能背景的,其實之前也是做純計算機科學(xué)的。
高中當時也是化學(xué)和生物還都沒學(xué)完就被保送,所以其實積累一開始是需要做很多的工作,包括跟很多人聊,讀一些做藥物研發(fā)的書,我有幾本書就是我一直在18年的時候一整年在讀的。
學(xué)習新領(lǐng)域,這個本質(zhì)去理解新的領(lǐng)域在做什么,他們的痛點是什么,這需要很多工作。
當然,最快的方法肯定是跟人聊了。但是在一開始跟人聊會遇到很大的困難,大家會發(fā)現(xiàn)很難互相理解,
因為我們在說不同的語言。我在說人工智能或者計算機方面語言,但對于科學(xué)家可能在生物方面或者化學(xué)方面的語言,相互理解對方在說什么其實還是需要花一些時間的。這個時間花完了之后基本就能去做了,我覺得從背景來講,其實是一個比較大的難點。
Q4:AI更適合用于De Novo還是改結(jié)構(gòu)?
李成濤:人工智能是可以做的,很難講更適合于哪些場景,因為這兩種場景我們都有成功案例。
剛才講的CNS,叫中樞神經(jīng)系統(tǒng)靶點,我們既有這種 De Novo分子,它能達到個位數(shù)納摩活性;
也有改結(jié)構(gòu),根據(jù)陽性藥稍做修改,拿到活性更好的分子,這都有成功案例,所以很難說哪個更適用,都可以用人工智能輔助合成。
Q5: 目前業(yè)務(wù)的核心壁壘在哪里?
李成濤:我核心壁壘挺多。首先是know-how,就是知道這件事情應(yīng)該怎樣去做,但實際會發(fā)現(xiàn)傳統(tǒng)藥物研發(fā)是一種流程,人工智能+藥物研發(fā)+計算化學(xué)又完全是另外一種流程。
當不知道哪種流程才是最優(yōu)化,就需要不斷去嘗試。嘗試的過程,就是不斷找新流程的過程,其實就會逐漸形成我們自己的壁壘。
算法也是壁壘,星藥科技一直致力于推進整個算法前沿,我們同事在內(nèi)很多人在這里面,不管是人工智能會議,還是科學(xué)期刊里面發(fā)表論文大概將近20篇。
我們在整個算法領(lǐng)域是引領(lǐng)全球的,所以如何在有限數(shù)據(jù)內(nèi)把算法發(fā)揮到極致,這件事情也是我們自己的壁壘。
再其次,數(shù)據(jù)的壁壘,因為自己是做人工智能的,所以很早的時候就開始做數(shù)據(jù)清洗整合,怎么樣融合才能讓模型發(fā)揮最大效用的東西,
整合后的數(shù)據(jù)是我們另外一個核心壁壘,它能夠讓我們整個模型達到非常高的上限。作為對比,如果沒有積累,直接把兩邊數(shù)據(jù)融合在一起,很難得到滿意的結(jié)果。
Q6:NLP在我們的研發(fā)中,都在哪些場景發(fā)揮作用?
李成濤:發(fā)揮作用還挺多的。任何有序列的地方,NLP都可以發(fā)揮作用。NLP本質(zhì)上是什么?
本質(zhì)上就是對于序列的編碼和解碼,對于序列的編碼和解碼,我剛才講到的不管是分子也好,還有蛋白也好,他其實都可以表征成一個序列,只要這樣,NLP就有用武之地,transformers也好,都可以在這個場景中發(fā)揮很大的作用。
還有比如說比較有意思的應(yīng)用。這里延伸一下,剛才講到的逆合成,給我一個分子,我怎么樣預(yù)測,他可能是由哪些反應(yīng)物反應(yīng)生成的,這兩個反應(yīng)A+B能生成C,我given C之后我怎么樣預(yù)測A+B?這個其實就是從一個序列預(yù)測另外一個序列的問題。
從一個序列預(yù)測另外一個序列本質(zhì)上是什么?本質(zhì)上就是一個機器翻譯的問題。機器翻譯其實按照現(xiàn)在已經(jīng)有很多的工作,它可以做得很好。
Q7:AI發(fā)現(xiàn)藥物最大的難點是在分子合成嗎?
李成濤:這個東西沒有什么最大難點。我發(fā)現(xiàn)這個分子是新 ,但問題是分子還需要經(jīng)過很多步驟,才能真正上臨床。
里面包含怎么樣去合成,各種各樣活性,水溶性,ADME/T,在小鼠上面身上有沒有藥效,毒理是怎么樣的,都需要去做檢測。
這個東西本質(zhì)跟傳統(tǒng)藥物研發(fā)沒有任何區(qū)別,有點像游戲過關(guān),幾個關(guān)卡 Boss都已經(jīng)確定,只不過人去打還是機器去打,本質(zhì)上是一樣的,所以沒有什么最大難點。
Q8: 除了用AI進行預(yù)測之外,也會用計算方法進行預(yù)測嗎?
李成濤:我覺得這個我們會用的,任何一個基于計算的方法我們都會去嘗試。
AI的本質(zhì)是什么?AI本質(zhì)它就是一個工具,我們目的不是用這個工具解決問題,我們目的是解決問題,所以什么工具順手就用什么。
有些地方AI能做得好,我們就用AI,有些地方FEP或者其他這種方式能做得更好,我們就用這種方式,其實選擇很簡單。我們在做藥物研發(fā)的時候,最終的目的是要產(chǎn)生藥,而不是用哪種方法去做,這個其實想跟大家去傳遞的。
Q9:商業(yè)合作模式是什么樣的?
李成濤:主要是做聯(lián)合研發(fā),我們會和藥企這邊進行聯(lián)合的深度的合作研發(fā),就是我們負責臨床前這邊,同時整個期間會跟藥企進行深度的互動。在之后,由藥企去把這個東西推上臨床,大概是這樣一個情況。
Q10. 有沒有嘗試AI+新靶點發(fā)現(xiàn)?
李成濤:我們也有在做,切入點可以使用知識圖譜做新靶點,這顯然是可以做的。具體怎么做,每一家都不太一樣。
我們找到新靶點之后,怎么樣驗證靶點是否正確,是否能夠?qū)崿F(xiàn)想象中的生物學(xué)通路或機制,我覺得這其實是一個科學(xué)問題,需要用科學(xué),也就是用實驗方式解決,不覺得可以用AI解決。
所以AI可以發(fā)現(xiàn)新靶點,但發(fā)現(xiàn)新靶點之后怎樣驗證靶點是否可以work,也是需要工作的。而且在這之后,基于新靶點再去設(shè)計篩選優(yōu)化合成,最后檢測,形成數(shù)據(jù)閉環(huán)仍然是AI可以完成的。
Q11:可不可以對中藥用AI?
李成濤:這個答案是肯定的,中藥有自己的特點,例如活性比較多,合成比較難,但從理論上都是可以用的,而且我們現(xiàn)在也在看這個方面。
Q12: 篩選通量能達到什么樣的水平?
李成濤:其實本質(zhì)上我們計算的通量能有多少,只要投入時間和成本,通量多大并不是太大問題。首先, AI去做篩選的話,它整個計算需求量沒有想象中那么大,其實就是我給一個輸入,然后輸出一個值。這種東西其實沒有想象中那么難。
就是它的速度也非???,這塊無非取決于我們最終能有多少機器,多少云計算,所以我們直接去篩選的話,幾百萬上千萬甚至上億,這都不是太大問題。
Q13: 篩選前生成的分子的質(zhì)量是怎么把控的?
李成濤:這其實有各種各樣方法。例如可以用一些讓化學(xué)家總結(jié)出的一些規(guī)則,這些東西可以幫我們篩選一些明顯不正常的分子,這些會很難合成,最好直接放棄。
Q14. 人工智能在藥物中的應(yīng)用,目前市場行業(yè)前景怎么樣?未來的市場發(fā)展趨勢如何?
李成濤:整個行業(yè)處于一個比較初期的狀態(tài),大家也在不斷往前推各種新技術(shù)和新方法,在未來會有一個比較大的提升和飛躍。
首先整個行業(yè)里,國家非常鼓勵創(chuàng)新藥研發(fā),同時創(chuàng)新藥研發(fā)又面臨剛時間長、成本高,投資回報率低等問題。
所以人工智能作為一個必要工具,以后會在藥物研發(fā)中起非常重要的作用,像這種技術(shù)公司的整個市場行業(yè)前景也是比較看好的。
Q15 .用AI篩選藥物的時候如何平衡活性和毒性?有時候有毒了,分子可能恰恰也是最有效的,修飾一下,就可能成為藥物。
李成濤:這個問題很專業(yè),同時也非常在點子上,我們實際發(fā)現(xiàn)有的時候優(yōu)質(zhì)分子并不是毒性最低,然后活性最高,這只是一個理想狀態(tài)。
實際我們往往會發(fā)現(xiàn),要不然就是活性高,毒性也高,要不然就是活性低,但也沒啥毒性?;钚缘投拘愿叩木筒挥每戳?,這就是毒藥嘛。
整體來看我們需要做一些取舍,這和我們的適應(yīng)癥有關(guān),例如癌癥對毒性tolerance其實是比較高的,因為癌癥本身是一個嚴重的疾病,致死率非常高,雖然稍微有毒一點,但能治病,就仍然是有意義的。
但如果是一個比較小的病,像感冒藥吃了之后,發(fā)現(xiàn)對心臟有影響,就得不償失了,這個東西跟我們適應(yīng)癥是有關(guān)的,確實不太一樣。
Q16:新藥研發(fā)過程是否需要專家經(jīng)驗參與,研發(fā)專家水平怎么樣?
李成濤:首先,肯定是需要專家參與的。需要專家給我們AI一些指導(dǎo),給我們計算化學(xué)一些指導(dǎo),尤其是他們的有些直覺其實是必要的。
我們專家團隊同事之前是在美國跨國藥企工作幾十年,非常有經(jīng)驗,能夠帶著我們對AI有更好指導(dǎo),同時能夠?qū)φ麄€管線更好推進。
Q17: 利用了 AI助力研發(fā)分子的成藥性,如何知道這個藥能治療哪種疾病,或者針對哪個靶點?
李成濤:這也可以預(yù)測和檢測出來的。我們一開始就會確定,要針對哪一個靶點進行藥物開發(fā),然后根據(jù)靶點以及陽性藥的三維結(jié)構(gòu)信息,去做生成設(shè)計,包括合成篩工作,所以正常流程是先確定靶點,然后再設(shè)計藥物。
Q18:新藥研發(fā)周期長,如何獲得穩(wěn)定的收入?
李成濤:不斷地去做藥物研發(fā),因為我們能夠在更短的時間內(nèi)以更低的成本獲得一些臨床前候選,甚至往后推到臨床,所以這個事情其實就是一個可以形成良性循環(huán)的商業(yè)模型了。
Q19:這個新藥研發(fā)模式成熟大概得多久?
李成濤:這個行業(yè)處于初期狀態(tài),但實際上發(fā)展速度也非??斓模谖磥韼啄陜?nèi)應(yīng)該會看到一些比較成熟的企業(yè)做得非常棒。
非常感謝大家今天的時間,也歡迎對藥物研發(fā)以及人工智能在藥物研發(fā)領(lǐng)域感興趣的同學(xué)歡迎聯(lián)系我們,加入星藥科技各種各樣全職和實習。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章