清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

本文作者：劉海濤

2021-06-10 19:05

導語：談AI制藥，談跨界難點，談年輕人的選擇，星藥科技CEO李成濤有一套自己的方法論

近日，雷鋒網(wǎng)《醫(yī)健AI掘金志》以“AI制藥·下一個現(xiàn)象級賽道”為主題，邀請百圖生科、劑泰醫(yī)藥、未知君、望石智慧、英矽智能、星藥科技六家先鋒企業(yè)，舉辦了一場線上云峰會。

作為此次活動的演講嘉賓，星藥科技創(chuàng)始人&CEO李成濤，以《人工智能在小分子藥物研發(fā)中的應用》為題，對星藥科技的AI新藥平臺做了介紹。

李成濤表示，總結來看，AI制藥主要就包含兩類問題，首先是分類與回歸，知道一個新分子到底有怎樣性質，其次是生成與設計，找出那些是好分子，那些是不好的分子。

目前人類已經(jīng)探索出的化合物空間大概是10¹⁰-10¹²，但適合成藥的成藥化合物大概是10^60，這就像一個巨大的宇宙，我們知道的只有一個小太陽系，甚至是小地球。在這種情況下，人工智能這樣的工具如何突破原有思維定式，找出比傳統(tǒng)人類方法更好的分子，就成為了關鍵。

以神經(jīng)網(wǎng)絡的黑箱問題為例，人們往往認為人工智能不可解釋，在AI制藥研發(fā)當中，星藥科技引入了信息瓶頸和剪枝技術，讓黑箱問題變得更加可視化。

也就是，把分子丟進AI制藥模型之后，不僅可以告訴我們毒性好不好，還可以找出是哪一個模塊或哪一個基團導致。

把這個結果和圖像信息拿給藥物化學家判斷，就可以知道分子是不是遵循思路，描述是不是契合科學原理，當分子不夠理想的時候，也能知道是哪部分原因，從而可以有針對性的進行改結構。

像這樣的路徑和方法，在創(chuàng)新分子研發(fā)、找新可專利分子、分子衍生躍遷中都有極大的幫助。

以下是演講全部內容，《醫(yī)健AI掘金志》做了不改變原意的整理和編輯：

非常感謝大家留出時間參與這場活動，也非常感謝雷鋒網(wǎng)的組織，能讓我有機會和大家分享一下公司在人工智能以及小分子藥物研發(fā)應用做的一些工作。

首先自我介紹一下，我是李成濤，2010年至2014年本科就讀于清華姚班，2014年去麻省理工學院攻讀博士學位。

自己的背景是計算機與人工智能的方向，但在波士頓接觸了很多做藥物研發(fā)科學家們，了解到很多與藥物研發(fā)相關的應用，所以覺得人工智能在小分子藥物研發(fā)上是有用武之地。

在獲取博士學位后，我創(chuàng)辦了“星藥科技”，主要通過人工智能加速小分子藥物研發(fā)。

在這里與大家簡單介紹一下，具體如何去做的，以及這個領域有哪些痛點，同時人工智能是如何協(xié)助解決這些痛點。

清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

演講分為如下幾塊：

1、簡單講講新藥研發(fā)的整個流程，以及面臨的挑戰(zhàn)；

2、人工智能是如何與新藥研發(fā)結合，并加速整個新藥研發(fā)流程；

3、小分子藥物研發(fā)流程，即每一步該怎么做，如何通過人工智能算法提速整個流程；

4、技術總結與領域展望。

一、周期長、成本高，新藥研發(fā)難題待解

首先講講新藥研發(fā)面臨的挑戰(zhàn)。

眾所周知，新藥研發(fā)其實具有長周期的特點。我們簡單把新藥研發(fā)流程分為兩大部分：

一是臨床前階段，包括早期化合物的發(fā)現(xiàn)、化合物的優(yōu)化，所有的工作都是我們在人體外進行的，包括設計小分子之后，根據(jù)小分子在細胞、小鼠甚至猴子上做的一些驗證實驗，去觀察這個小分子是否能夠達到我們想要的效果。

臨床實驗之后，分子就可以進入臨床實驗階段，在人體上進行一些實驗。臨床實驗本身又分為一期、二期和三期，分別能夠觀察藥物本身的毒性、有效性以及大規(guī)模人群中應用的具體效果，如果通過臨床三期，藥物就可以獲批上市。

清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

但整個流程下來，過程非常漫長，總耗時達到了9-15年的時間，而臨床前時間會花費4-7年，剩余就是臨床實驗時間。另外流程成本極高，平均一款新藥從源頭開始，到藥物正式上市總成本是非常之高。

但這樣一個成本極高、耗時極長的業(yè)務，回報率卻相當?shù)?，這歸因于每個步驟低成功率。

剛才提到臨床和臨床前階段，成功率都低于10%，所以整體概率低于1%。

如果我們做了100個項目，可能最后只有1個項目成功，甚至沒有一個結果，造成極低投資回報率。作為參考，在美股熔斷之前我們進行投資的話，每年回報率大概是10%，但新藥研發(fā)回報率大概為1.8%，可以想象這是一個不太優(yōu)質的投資標的。

這也說明這個行業(yè)面臨各種各樣痛點，新藥研發(fā)耗時長、成本高、回報率低特點，那星藥科技能夠提供什么樣的解決方案呢？

二、 AI，能為新藥研發(fā)帶來什么？

清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

首先是技術層面。每一個新藥研發(fā)前期的模塊上，例如虛擬篩選，我們的Hit Rate能比傳統(tǒng)方法高出十數(shù)倍；包括一些小分子預測；還有可合成性篩選上，這在本質上解決了一些新藥研發(fā)難點，同時極大縮短了從靶點開發(fā)，到臨床前候選藥物所用的時間。

4-7年或許能夠將它壓縮至1-2年，甚至一年以內。最終我們通過人工智能算法和算力，可以支持多條管線并行進行，也就是用同樣的時間，同樣成本，能夠做到更多條管線。

其中一個藥物研發(fā)的項目即是一個管線，如果我們可以支持多條管線同步進行，對藥企而言，我們就可以布局更多管線，做更多嘗試，這一點對整個產業(yè)界都是至關重要。

簡單談一下，人工智能和新藥研發(fā)到底是如何結合？

人工智能近幾年迎來一次爆發(fā)式增長，尤其是在2012年之后，即AlexNet之后各種各樣模型、算力以及數(shù)據(jù)都獲得長足進步。

以ImageNet為代表的整體數(shù)據(jù)規(guī)模提升，加上英偉達為代表基于GPU算力提升，還有模型復雜度質的提升，為模型本身能力帶來新飛躍。

清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

這些提升讓整個人工智能領域各式應用噴薄式增長，這邊列舉幾個典型案例。

例如醫(yī)療影像，我們可以用AI輔助醫(yī)生CT影像、X光影像診斷；例如無人車，Google Waymo、小馬智行也都做得非常棒；

最后是Alpha Go，相信大家并不陌生，2016-2017年，大家都不看好Alpha Go可以打敗李世石，但它做到了。

這些事情非常震撼，證明某些情況下人工智能比人類更好，即使是在一些人類已經(jīng)鉆研或者學習了上百年領域。

那AI在醫(yī)藥領域到底有什么樣的應用呢？

清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

剛才講到，醫(yī)藥研發(fā)分為臨床前研發(fā)和臨床研發(fā)兩部分，AI對兩部分都可以提供對應作用，這里面分為不同Modality，即不同藥物形式：有小分子，有大分子，有多肽，有PROTAC，有核酸類藥物，包括最近Modena做的mRNA藥物，也是一種Modality。

此外，臨床實驗設計上人工智能也能提供一系列幫助。

我們列舉比較有代表性應用，包含活性預測，即小分子與蛋白質結合后，蛋白質活性是上調還是下調，這是非常重要的成藥性參考指標；

還有ADME/T性質預測，即藥進入人體之后，經(jīng)過吸收、分布、代謝包括排泄對人體毒性有多強，所有這些性質預測，能夠幫助很好判斷小分子成藥性質到底怎么樣；

還有人工智能對藥物晶型的預測，或者人工智能對藥物制劑預測，解決了我們全行業(yè)的一個痛點。

所以整個小分子研發(fā)早期鏈條上，會發(fā)現(xiàn)很多不一樣的應用，都可以用到人工智能。

今天簡單講講人工智能怎么應用在小分子早期研發(fā)上，其中包含兩個主要數(shù)據(jù)，一個是分子數(shù)據(jù)，一個是蛋白質數(shù)據(jù)。

為什么是這兩個數(shù)據(jù)。首先因為小分子藥物本身就屬于小分子，所以分子數(shù)據(jù)非常重要；

清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

對于蛋白質而言，因為小分子在體內發(fā)生作用機制大多會與特定蛋白質結合，調控蛋白質活性，以達到治療疾病效果，所以小分子與蛋白質到底能不能結合，結合之后有沒有生物活性，都是非常重要的指標。

其中對分子有很多種表達形式，例如一維描述符，或一維SMILES string，把它變成序列，又或者變成二維數(shù)學意義上的圖，每個原子作為一個節(jié)點，每個化學鍵變成圖中的邊。

還有三維方式，小分子在三維環(huán)境中會有各種各樣torsion，包括各種各樣奇怪結構、構象變化，這也非常重要。

說完小分子，還有蛋白質。

蛋白質一維可以表征成一個氨基酸序列；也可以表示二維contact map，也就是距離圖，代表三維結構中每一個氨基酸距離；再到三維，通過復雜折疊情況實現(xiàn)各種功能。

前一段時間大家關注到Deepmind工作，從整個蛋白質序列信息中直接預測三維結構信息，即用一維信息預測三維信息。

事實上，所有分子表征都可以用不同神經(jīng)網(wǎng)絡做編碼，例如直接做全連接神經(jīng)網(wǎng)絡，直接適用于描述符；或者一個定長向量，可以直接預測；還有卷積神經(jīng)網(wǎng)絡適用于矩陣形式，例如蛋白質表征；再比如循環(huán)神經(jīng)網(wǎng)絡，做一維的序列信息表征；還有圖神經(jīng)網(wǎng)絡，做圖結構東西；再比如三維卷積神經(jīng)網(wǎng)絡，編碼三維空間信息。

人工智能編碼完成之后，就可以完成一些藥物研發(fā)任務。

首先就是分類與回歸，知道一個新分子到底有怎樣的性質，例如ADME/T性質，毒性、水溶性、代謝吸收性質。

給AI一個分子，預測出一個值，這個值代表水溶性是多少、毒性是多少，毒性本質上是分類問題，有沒有毒性是0或1問題，水溶性是回歸問題，一個連續(xù)值意思。

另外就是生成與設計，在探索化學空間的時候，人工智能設計新分子不僅僅是去做分類與回歸，判斷哪些是好的，哪些是不好的。

目前，人類已經(jīng)探索過的化合物空間大概是10¹⁰-10¹²，但成藥化合物空間大概是10^60。

10⁶⁰與10¹⁰差了10⁵⁰倍，所以實際我們可以看到，整個藥物研發(fā)未被探索的化合物空間，又或者成藥的化合物分子空間是非常巨大的。

我們可以把它理解為一個巨大的宇宙，而我們探索過的僅僅是小太陽系，甚至是小地球。

在這種情況下，如何去探索系外的東西，無論是星系也好、小分子也好都可以利用人工智能，問題就是如何讓人工智能設計比傳統(tǒng)人類方法更好的分子。

清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

理解了分類與回歸和生成與設計問題之后，就可以完成整個AI制藥研發(fā)流程迭代。

三、填補藍圖，AI賦能研發(fā)流程

接下來簡單講一講，人工智能結合小分子藥物研發(fā)的流程。

首先是數(shù)據(jù)，我們有很多種數(shù)據(jù)，包括公開數(shù)據(jù)、商業(yè)數(shù)據(jù)，以及自己標注的數(shù)據(jù)，這些數(shù)據(jù)量級都非常大。

而且對應不用靶點特定項目，我們也有特定數(shù)據(jù)，即專項數(shù)據(jù)，處于不大不小量級，結合之后對整個模型可以起到很好微調效果。

這些數(shù)據(jù)丟到藥物研發(fā)平臺之后，能夠看到經(jīng)過訓練以后，可以進一步精細調整，進入到整個AI制藥主流程當中。

其中包含各種各樣的項目類型，不管是First-in-class， Fast-follow， Best-in-class，Me-too還是Me-better，大家可以簡單理解為藥物研發(fā)一種項目，這些項目后邊會走三條道路：

1、全新生成。在疾病治療時，存在一些已有分子，結構還不錯、性質也不錯，但因為專利原因需要避開原本專利限制，找新可專利分子。

此時我們會直接用模型庫，幾百個模型去生成一個虛擬、千萬量級分子庫，再進行下一步篩選；

2、衍生躍遷。有些分子本身性質已經(jīng)比較好，但可能需要進一步的優(yōu)化；又或者有些分子已經(jīng)成藥，仍然希望看看他的IP空間是否還有其他道路，即衍生躍遷模型。

基于現(xiàn)有分子，進行部分改構，然后做一些新優(yōu)化或生成，這樣的生成同樣是千萬級別；

3、商業(yè)化合物庫。我們大概有幾百萬級化合物庫，能夠直接進行篩選，這些都是人類之前已經(jīng)能夠合成、能夠買到的，能夠很快獲取需要的化合物。

其中很多化合物能夠成藥，只是之前沒有發(fā)現(xiàn)，現(xiàn)在可以嘗試在建立完整庫之后，進入下一步虛擬篩選。

通過我剛才提到的很多方式，例如直接預測各種性質，又或者給一個小分子或蛋白質，預測小分子與蛋白質結合方式，就可能篩出幾十個甚至上百個合適分子，最終合成完之后做出新實體分子。

接下來就是濕實驗驗證，即在實驗室里進行試驗，在細胞層面甚至動物層面看到底有沒有效果，這些實驗結果都會反饋到整個數(shù)據(jù)庫當中，進一步幫助我們迭代模型。

也就是如果濕實驗我們找到非常好的分子，就能進行各種各樣驗證；如果結果差強人意，甚至不太好，也能夠返回到數(shù)據(jù)庫，再進行進一步迭代。

在這方面，我們已經(jīng)做出一些成績，例如選一個中樞神經(jīng)系統(tǒng)靶點，生成千萬級別化合物庫，篩選出百萬級化合物庫，并最終合成出五個分子。

經(jīng)過濕實驗檢測，全部都是有很好的活性且有專利空間。其中五個分子中有兩個分子來自于全新生成的De Novo模塊，擁有全新骨架結構，因此具有足量專利空間；

另外三個來自于衍生物躍遷模塊，根據(jù)現(xiàn)有陽性藥進行改造，使得各種性質表現(xiàn)更好，也具有專利空間。

在商業(yè)化合物庫中，我們從百萬級別商業(yè)化合物中篩選出100個小分子，在后續(xù)濕實驗驗證中篩出了57個具有活性分子，即IC50小于10微摩爾。

作為對比，我們看看傳統(tǒng)計算化學或傳統(tǒng)篩選方式是什么樣。

傳統(tǒng)篩選方式概率或Hit Rate大概是2%-5%。這意味如果篩選出100個分子，大概只有兩到三個或四五個有活性，而我們則能夠篩選出57個有活性分子。

所以，相比于傳統(tǒng)方法，我們能夠把這一效率提高數(shù)倍甚至十數(shù)倍。并且在57個分子中，有34個是具有較高活性的分子，IC50小于一微摩爾，這些都可以用作下一步的檢測。

總的來看，這一篩查過程被我們提速相當之多，因為傳統(tǒng)方法找到個位數(shù)納摩爾甚至皮摩爾級別分子需要一年甚至幾年，而我們只需要短短幾個月時間：甚至這次只用了兩個月。

四、技術創(chuàng)新，如何讓研發(fā)從量變到質變

接下來我給大家講解一下簡單的技術問題。

例如，我們是如何判斷一個小分子能否與一個蛋白質結合的？

清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

這是發(fā)表過論文的，當時我們使用蛋白質三維結構作為信息輸入，這能夠令我們在做小分子和蛋白質對接模型，考慮到小分子和蛋白質相互作用，尤其是三維結構上匹配程度，這個額外信息讓我們指標有一個質的飛躍。

大家可以看兩個圖代表我們和主流算法的區(qū)別，綠色是bar，相對于其他主流算法要高出一截，所以小分子與蛋白質對接應用上，我們做得非常好。

清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

另外就是大家關心的神經(jīng)網(wǎng)絡黑箱問題。

談到人工智能，大家往往會認為人工智能不可解釋，即AI制藥是不是也是黑箱問題，因為我們做預測的時候，向神經(jīng)網(wǎng)絡里丟一個分子，神經(jīng)網(wǎng)絡就會告訴分子式毒性好不好。

這樣預測結果出來，我們也不清楚究竟是什么因素導致做出這樣的結果，為了解決可解釋性問題，我們引入了信息瓶頸和剪枝技術，進一步把信息可視化。

也就是把分子丟進去之后，系統(tǒng)會告訴我，如果毒性表現(xiàn)不好，是哪一個模塊或哪一個基團導致，這個結果和圖像我們也會拿給藥化學家看，看看分子是不是遵循思路，整體描述是不是契合科學原理。

這個內容不僅僅讓大家看，更重要的是，他能夠給我們提供什么樣insights，最主要信息就是當我們發(fā)現(xiàn)分子不夠好時，能夠知道哪個地方的原因，以至于我們在改結構的時候，能夠有針對性進行。

例如神經(jīng)網(wǎng)絡告訴我，因為某個基團存在毒性升高了，我們只需要改這個基團即可。

清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

再介紹逆合成問題，當系統(tǒng)給我一個分子之后，所有分子都在電腦中，如果我們需要檢測，就把他合成出來，因為臨床分子不可能在電腦分子中。

所以如何把分子合成出來，也是我們嘗試通過人工智能去需要解決的問題。

盡管人類設計一百或者兩百分子就達到上限用不到人工智能解決，人類專家就可以判斷通量問題；

但現(xiàn)在是人工智能時代，人工智能設計每次都是上千萬、上億級別，人類專家是無法研究如此巨大通量的逐個可行性的。

所以尋找自動化，找合成路徑或判別分子能否合成工具就顯得十分關鍵，這一塊我們也做了不少工作，剛才說的每一頁都有自研論文支持。

清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

最后要一下展望。

人工智能和藥物研發(fā)結合，只是最近幾年的事情，所以我們希望人工智能夠做更多的事情，包括模塊效果提升、縮短靶點到開發(fā)PCC時間，在相同時間成本下盡可能多布局更多管線，這是目前能夠做到的。

未來，我們希望人工智能為小分子研發(fā)研發(fā)，提供加速藥物發(fā)現(xiàn)支持，這樣能夠大幅提高新藥研發(fā)效率，使得管線更加多樣化。

在整個醫(yī)藥產業(yè)里，我們希望促進人工智能與生物醫(yī)藥結合，以數(shù)據(jù)為中心進行藥物發(fā)現(xiàn)，迸發(fā)出新力量。

這些工作最終都是為了患者。作為一個醫(yī)藥企業(yè)，首先的責任，就是讓人們遠離更多病痛，讓新藥觸手可及，讓人工智能找出更多治療方案。

問答環(huán)節(jié)

Q1：小分子蛋白質結合一級人工標準清洗的數(shù)據(jù)庫，是采購公開數(shù)據(jù)并進行清洗的嗎？

李成濤：分為這么幾塊：一個是公開數(shù)據(jù)，肯定是一大塊，其實都是我們非常好的源頭；同時還有一些商業(yè)的數(shù)據(jù)庫，是我們可以購買到的；也有些渠道可以購買到一些更好數(shù)據(jù)；還有是自己人工挖掘。

這里面用數(shù)據(jù)挖掘方法來看，例如說專利文獻里面數(shù)據(jù)點，或者是我們人工標注的數(shù)據(jù)，其實也占了相當一部分的。

再之后，例如一些合作數(shù)據(jù)集、私有數(shù)據(jù)集，因為現(xiàn)在自己也做很多實驗，驗證整個算法，所以在這邊整個數(shù)據(jù)量也不斷往上漲，這塊其實有多種數(shù)據(jù)源，最后整合在一起。

這位同學提到清洗這點是很好的。清洗這件事情很關鍵，因為實際上大部分數(shù)據(jù)都噪音比較大，而且同一個小分子和蛋白質在這個數(shù)據(jù)里可能是這個結果，在另一個數(shù)據(jù)里可能是另一種結果。

這種誤差的原因是不同實驗室的環(huán)境導致的，就是不一樣結果，又或者不同環(huán)境、不同人去操作，甚至不同protocol，做出來結果就是不一樣。

這個時候怎樣選取，甚至怎樣舍棄需要一步一步嘗試，最終我們希望結合、融合之后，能夠讓整個模型算法準確率得到比較好的提升。

Q2：分子表征方法是有開源的標準化方法，還是每家自行開發(fā)的？

李成濤：每家肯定都會自己開發(fā)，我們自己也是開發(fā)了不同的各種各樣的表征方法，因為里面提過，提取哪些特征這一點是非常重要的，直接決定了我們下游的任務，在有限的數(shù)據(jù)集中能不能達到非常好的效果。

所以這塊我們自己開發(fā)了很多，也有一些標準化方法，比如說我剛才講的把一個小分子變成一個SMILES string，就是一個序列的表征，這個東西其實用一些軟件包就可以做到。

Q3：跨界做藥的難點在哪？

李成濤：我覺得這是一個挺好的問題，我經(jīng)常會被問到。因為我自己是人工智能背景的，其實之前也是做純計算機科學的。

高中當時也是化學和生物還都沒學完就被保送，所以其實積累一開始是需要做很多的工作，包括跟很多人聊，讀一些做藥物研發(fā)的書，我有幾本書就是我一直在18年的時候一整年在讀的。

學習新領域，這個本質去理解新的領域在做什么，他們的痛點是什么，這需要很多工作。

當然，最快的方法肯定是跟人聊了。但是在一開始跟人聊會遇到很大的困難，大家會發(fā)現(xiàn)很難互相理解，

因為我們在說不同的語言。我在說人工智能或者計算機方面語言，但對于科學家可能在生物方面或者化學方面的語言，相互理解對方在說什么其實還是需要花一些時間的。這個時間花完了之后基本就能去做了，我覺得從背景來講，其實是一個比較大的難點。

Q4：AI更適合用于De Novo還是改結構？

李成濤：人工智能是可以做的，很難講更適合于哪些場景，因為這兩種場景我們都有成功案例。

剛才講的CNS，叫中樞神經(jīng)系統(tǒng)靶點，我們既有這種 De Novo分子，它能達到個位數(shù)納摩活性；

也有改結構，根據(jù)陽性藥稍做修改，拿到活性更好的分子，這都有成功案例，所以很難說哪個更適用，都可以用人工智能輔助合成。

Q5：目前業(yè)務的核心壁壘在哪里？

李成濤：我核心壁壘挺多。首先是know-how，就是知道這件事情應該怎樣去做，但實際會發(fā)現(xiàn)傳統(tǒng)藥物研發(fā)是一種流程，人工智能+藥物研發(fā)+計算化學又完全是另外一種流程。

當不知道哪種流程才是最優(yōu)化，就需要不斷去嘗試。嘗試的過程，就是不斷找新流程的過程，其實就會逐漸形成我們自己的壁壘。

算法也是壁壘，星藥科技一直致力于推進整個算法前沿，我們同事在內很多人在這里面，不管是人工智能會議，還是科學期刊里面發(fā)表論文大概將近20篇。

我們在整個算法領域是引領全球的，所以如何在有限數(shù)據(jù)內把算法發(fā)揮到極致，這件事情也是我們自己的壁壘。

再其次，數(shù)據(jù)的壁壘，因為自己是做人工智能的，所以很早的時候就開始做數(shù)據(jù)清洗整合，怎么樣融合才能讓模型發(fā)揮最大效用的東西，

整合后的數(shù)據(jù)是我們另外一個核心壁壘，它能夠讓我們整個模型達到非常高的上限。作為對比，如果沒有積累，直接把兩邊數(shù)據(jù)融合在一起，很難得到滿意的結果。

Q6：NLP在我們的研發(fā)中，都在哪些場景發(fā)揮作用？

李成濤：發(fā)揮作用還挺多的。任何有序列的地方，NLP都可以發(fā)揮作用。NLP本質上是什么？

本質上就是對于序列的編碼和解碼，對于序列的編碼和解碼，我剛才講到的不管是分子也好，還有蛋白也好，他其實都可以表征成一個序列，只要這樣，NLP就有用武之地，transformers也好，都可以在這個場景中發(fā)揮很大的作用。

還有比如說比較有意思的應用。這里延伸一下，剛才講到的逆合成，給我一個分子，我怎么樣預測，他可能是由哪些反應物反應生成的，這兩個反應A+B能生成C，我given C之后我怎么樣預測A+B？這個其實就是從一個序列預測另外一個序列的問題。

從一個序列預測另外一個序列本質上是什么？本質上就是一個機器翻譯的問題。機器翻譯其實按照現(xiàn)在已經(jīng)有很多的工作，它可以做得很好。

Q7：AI發(fā)現(xiàn)藥物最大的難點是在分子合成嗎？

李成濤：這個東西沒有什么最大難點。我發(fā)現(xiàn)這個分子是新，但問題是分子還需要經(jīng)過很多步驟，才能真正上臨床。

里面包含怎么樣去合成，各種各樣活性，水溶性，ADME/T，在小鼠上面身上有沒有藥效，毒理是怎么樣的，都需要去做檢測。

這個東西本質跟傳統(tǒng)藥物研發(fā)沒有任何區(qū)別，有點像游戲過關，幾個關卡 Boss都已經(jīng)確定，只不過人去打還是機器去打，本質上是一樣的，所以沒有什么最大難點。

Q8：除了用AI進行預測之外，也會用計算方法進行預測嗎？

李成濤：我覺得這個我們會用的，任何一個基于計算的方法我們都會去嘗試。

AI的本質是什么？AI本質它就是一個工具，我們目的不是用這個工具解決問題，我們目的是解決問題，所以什么工具順手就用什么。

有些地方AI能做得好，我們就用AI，有些地方FEP或者其他這種方式能做得更好，我們就用這種方式，其實選擇很簡單。我們在做藥物研發(fā)的時候，最終的目的是要產生藥，而不是用哪種方法去做，這個其實想跟大家去傳遞的。

Q9：商業(yè)合作模式是什么樣的？

李成濤：主要是做聯(lián)合研發(fā)，我們會和藥企這邊進行聯(lián)合的深度的合作研發(fā)，就是我們負責臨床前這邊，同時整個期間會跟藥企進行深度的互動。在之后，由藥企去把這個東西推上臨床，大概是這樣一個情況。

Q10. 有沒有嘗試AI+新靶點發(fā)現(xiàn)？

李成濤：我們也有在做，切入點可以使用知識圖譜做新靶點，這顯然是可以做的。具體怎么做，每一家都不太一樣。

我們找到新靶點之后，怎么樣驗證靶點是否正確，是否能夠實現(xiàn)想象中的生物學通路或機制，我覺得這其實是一個科學問題，需要用科學，也就是用實驗方式解決，不覺得可以用AI解決。

所以AI可以發(fā)現(xiàn)新靶點，但發(fā)現(xiàn)新靶點之后怎樣驗證靶點是否可以work，也是需要工作的。而且在這之后，基于新靶點再去設計篩選優(yōu)化合成，最后檢測，形成數(shù)據(jù)閉環(huán)仍然是AI可以完成的。

Q11：可不可以對中藥用AI？

李成濤：這個答案是肯定的，中藥有自己的特點，例如活性比較多，合成比較難，但從理論上都是可以用的，而且我們現(xiàn)在也在看這個方面。

Q12：篩選通量能達到什么樣的水平？

李成濤：其實本質上我們計算的通量能有多少，只要投入時間和成本，通量多大并不是太大問題。首先， AI去做篩選的話，它整個計算需求量沒有想象中那么大，其實就是我給一個輸入，然后輸出一個值。這種東西其實沒有想象中那么難。

就是它的速度也非?？?，這塊無非取決于我們最終能有多少機器，多少云計算，所以我們直接去篩選的話，幾百萬上千萬甚至上億，這都不是太大問題。

Q13：篩選前生成的分子的質量是怎么把控的？

李成濤：這其實有各種各樣方法。例如可以用一些讓化學家總結出的一些規(guī)則，這些東西可以幫我們篩選一些明顯不正常的分子，這些會很難合成，最好直接放棄。

Q14. 人工智能在藥物中的應用，目前市場行業(yè)前景怎么樣？未來的市場發(fā)展趨勢如何？

李成濤：整個行業(yè)處于一個比較初期的狀態(tài)，大家也在不斷往前推各種新技術和新方法，在未來會有一個比較大的提升和飛躍。

首先整個行業(yè)里，國家非常鼓勵創(chuàng)新藥研發(fā)，同時創(chuàng)新藥研發(fā)又面臨剛時間長、成本高，投資回報率低等問題。

所以人工智能作為一個必要工具，以后會在藥物研發(fā)中起非常重要的作用，像這種技術公司的整個市場行業(yè)前景也是比較看好的。

Q15 .用AI篩選藥物的時候如何平衡活性和毒性？有時候有毒了，分子可能恰恰也是最有效的，修飾一下，就可能成為藥物。

李成濤：這個問題很專業(yè)，同時也非常在點子上，我們實際發(fā)現(xiàn)有的時候優(yōu)質分子并不是毒性最低，然后活性最高，這只是一個理想狀態(tài)。

實際我們往往會發(fā)現(xiàn)，要不然就是活性高，毒性也高，要不然就是活性低，但也沒啥毒性?；钚缘投拘愿叩木筒挥每戳?，這就是毒藥嘛。

整體來看我們需要做一些取舍，這和我們的適應癥有關，例如癌癥對毒性tolerance其實是比較高的，因為癌癥本身是一個嚴重的疾病，致死率非常高，雖然稍微有毒一點，但能治病，就仍然是有意義的。

但如果是一個比較小的病，像感冒藥吃了之后，發(fā)現(xiàn)對心臟有影響，就得不償失了，這個東西跟我們適應癥是有關的，確實不太一樣。

Q16：新藥研發(fā)過程是否需要專家經(jīng)驗參與，研發(fā)專家水平怎么樣？

李成濤：首先，肯定是需要專家參與的。需要專家給我們AI一些指導，給我們計算化學一些指導，尤其是他們的有些直覺其實是必要的。

我們專家團隊同事之前是在美國跨國藥企工作幾十年，非常有經(jīng)驗，能夠帶著我們對AI有更好指導，同時能夠對整個管線更好推進。

Q17：利用了 AI助力研發(fā)分子的成藥性，如何知道這個藥能治療哪種疾病，或者針對哪個靶點？

李成濤：這也可以預測和檢測出來的。我們一開始就會確定，要針對哪一個靶點進行藥物開發(fā)，然后根據(jù)靶點以及陽性藥的三維結構信息，去做生成設計，包括合成篩工作，所以正常流程是先確定靶點，然后再設計藥物。

Q18：新藥研發(fā)周期長，如何獲得穩(wěn)定的收入？

李成濤：不斷地去做藥物研發(fā)，因為我們能夠在更短的時間內以更低的成本獲得一些臨床前候選，甚至往后推到臨床，所以這個事情其實就是一個可以形成良性循環(huán)的商業(yè)模型了。

Q19：這個新藥研發(fā)模式成熟大概得多久？

李成濤：這個行業(yè)處于初期狀態(tài)，但實際上發(fā)展速度也非?？斓?，在未來幾年內應該會看到一些比較成熟的企業(yè)做得非常棒。

非常感謝大家今天的時間，也歡迎對藥物研發(fā)以及人工智能在藥物研發(fā)領域感興趣的同學歡迎聯(lián)系我們，加入星藥科技各種各樣全職和實習。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

0人收藏

專題

AI新藥研發(fā)未來獨角獸云峰會

本專題其他文章

劉海濤

編輯

專注AI醫(yī)療的新勢力和投融資丨微信ID：Daniel-six

發(fā)私信

當月熱門文章

清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

一、周期長、成本高，新藥研發(fā)難題待解

二、 AI，能為新藥研發(fā)帶來什么？

三、 填補藍圖，AI賦能研發(fā)流程

四、 技術創(chuàng)新，如何讓研發(fā)從量變到質變

問答環(huán)節(jié)

AI新藥研發(fā)未來獨角獸云峰會

清華姚班、MIT計算機博士：入局AI制藥風口，為什么要趁早？丨附19個現(xiàn)場問答

一、周期長、成本高，新藥研發(fā)難題待解

二、 AI，能為新藥研發(fā)帶來什么？

三、填補藍圖，AI賦能研發(fā)流程

四、技術創(chuàng)新，如何讓研發(fā)從量變到質變