0
本文作者: 劉海濤 | 2021-06-04 16:51 | 專題:AI新藥研發(fā)未來獨角獸云峰會 |
AI開發(fā)者做AI新藥研發(fā)是一種什么體驗?周杰龍似乎更有體會。
2018年,百度搜索技術創(chuàng)新核心人物之一,原百度主任架構師周杰龍,帶著一批AI技術骨干實現(xiàn)了一次“跨界”,創(chuàng)立AI制藥企業(yè)「望石智慧」。
將AI用于搜索是周杰龍的強項,但是如何將AI用于制藥環(huán)節(jié),在創(chuàng)立望石智慧之前,他仍是“一張白紙”。
沒有醫(yī)藥相關的知識儲備,周杰龍選擇了一個最笨也最直接的方法——自學。
圍繞細胞學、藥物化學、結構生物學、藥物設計、有機合成、藥理學等方向買了幾十本專業(yè)書;同時,積極參加諸多醫(yī)藥領域的學術會議,與學者探討人工智能應用到創(chuàng)新藥研發(fā)領域的可行性?!?nbsp;
在周杰龍看來,小分子化合物是上帝書寫的外語,而這些化合物與生物大分子靶點的匹配過程就像外語的翻譯。望石智慧要做的就是用AI幫助藥企去‘翻譯外語’。
經過近三年布局,望石智慧AI分子設計軟件平臺已在多個高難度、全新機制或類型First-in-class或Fast-follow項目中取得突破性試驗結果。
上個月,望石智慧完成總額達1億美元的B輪和B+輪融資,是目前AI制藥新勢力里,規(guī)模最大的創(chuàng)新企業(yè)之一。
近日,雷鋒網《醫(yī)健AI掘金志》以“AI制藥·下一個現(xiàn)象級賽道”為主題,邀請百圖生科、劑泰醫(yī)藥、未知君、望石智慧、英矽智能、星藥科技六家先鋒企業(yè),舉辦了一場線上云峰會。
作為此次云峰會的報告嘉賓,望石智慧高級算法專家周文彪就以《AI+藥物研發(fā)的應用和挑戰(zhàn)》為題,從技術人角度,對望石智慧的AI制藥研發(fā)策略做了介紹。
周文彪表示:從算法角度來看AI制藥,傳統(tǒng)藥物篩選經常需要在1060分子空間中搜索藥物小分子,這很像機器學習中的最優(yōu)化過程,通過最優(yōu)化算法來將模型訓練至一個全局最優(yōu)處。
但因為算力問題,過去藥物專家經常通過經驗設計小分子再進行篩選,所以傳統(tǒng)藥物研發(fā)很容易陷入局部最優(yōu),這也就是最早AI介入制藥環(huán)節(jié)的契機。
而經過學者多年的研究和企業(yè)的逐漸深入,AI技術也已經在更多藥物研發(fā)環(huán)節(jié)生根發(fā)芽。
以已知參考分子的Me-better的項目為例,AI可以淘汰專家環(huán)節(jié),通過ligand-based(配體為基)的AI模型生成大量參考分子,針對某個特定性質、形狀、化學性質或藥效團,找到大量優(yōu)化方案。
而針對參考分子的first-in-class藥物研發(fā)項目,AI主要則可以進行更高通量的篩選,達到10億級化合物庫,并引入用分子生成方法,針對某個分子空間特定區(qū)域,密集生成理想分子。
以下是演講全部內容,雷鋒網做了不改變原意的整理和編輯:
大家晚上好,很高興參加這次雷鋒網AI藥物研發(fā)云峰會。
首先做個自我介紹,我之前背景更偏向互聯(lián)網,有10年互聯(lián)網AI算法落地經驗,算是跨界過來。
今天將更多從AI開發(fā)者角度,給大家搭建一個橋梁,讓AI領域朋友認知到 AI和藥物研發(fā)的結合意義,并分享其中的應用與挑戰(zhàn),主要想從三個方面來分享:
首先,從藥物研發(fā)問題出發(fā)介紹AI如何在其中發(fā)揮作用;
其次,介紹望石智慧助力藥物研發(fā)怎么應用AI,有哪些落地;
最后,分享對AI+藥物研發(fā)面臨的一些挑戰(zhàn)、展望和思考。
先來介紹一下,藥物研發(fā)是怎么回事。
藥物原理更類似于一個鑰匙,解開疾病的鑰匙,如何低成本找到這把鑰匙,就是藥物研發(fā)需要解決的問題。
而鎖就是疾病靶點,通常我們把它認為是一個蛋白質。
鑰匙小分子插入鎖孔就是跟蛋白質發(fā)生結合,可以抑制蛋白質正常作用,或者激活蛋白質某些作用。
圖中就是一個蛋白質分子;上面有一個小分子,即藥物分子,藍色區(qū)域是鎖孔,我們稱之為口袋,口袋中經常會有一些氫鍵作用,這種非共價鍵作用能促使其與小分子產生結合,從而讓小分子牢地結合口袋,發(fā)揮藥效作用。
例如人體的酶,在人體中起非常重要的生物功能承載作用。
其中有一種酶RNA聚合酶,可以完成RNA復制,很多病毒侵入人體以后,它會把RNA注入到人體細胞,然后特定RNA聚合酶與RNA結合,起到復制RNA功能。
2020年,有一個非常有名的藥物“瑞德西韋”,靶向的就是這種酶。
瑞德西韋有一個比較大的基團,會在復制過程中跟α-helix側鏈上某個基團發(fā)生碰撞,從而阻止RNA復制過程。
通過這個簡單案例,我們能夠清晰了解藥物如何發(fā)揮作用,但從AI角度應該怎么幫忙設計藥物呢?
整個藥物研發(fā)過程大概分為兩個階段,一是研究階段,主要就是實驗室階段;接下來實驗室到上市階段,主要內容是體外實驗和臨床實驗。
AI制藥主要就是在研究階段發(fā)揮作用,就是前面2~5年,這個過程中,大家希望非常準找到化合物,也就是有活性,成藥性比較好;在臨床實驗階段能更快完成藥物實驗和申報。
在前期實驗室研發(fā)階段,主要的痛點在于需要不停實驗、合成、測活性、測成藥性,這樣的成本不低,而且很容易失敗,一旦失敗就需要重新合成,再重復實驗,周期非常長。
這些失敗30%原因都是因為活性,以及藥效、 ADMET性質、毒性等方面原因。
那為什么失敗率會這么高?
主要就是因為小分子空間非常大,需要在1060分子空間搜索一個藥物小分子,這對于傳統(tǒng)藥物研發(fā)非常復雜,所以藥物專家往往先通過經驗設計小分子,并希望能在后續(xù)測試中達標。
這很像機器學習優(yōu)化過程,希望找到一個全局最優(yōu)點,但傳統(tǒng)藥物研發(fā)很容易陷入局部最優(yōu),這也是我們希望AI可以解決問題之一。
大體了解情況之后,再從整體看一下傳統(tǒng)藥物研發(fā)過程。
首先是確定疾病靶點和機制,再通過藥化專家、大量專利和文獻調研來完成分子篩選,主要分為兩條路:
1、當根據(jù)靶點或疾病蛋白質,已找到陽性分子或靶上藥物,就可以此為出發(fā)點,設計效果更好的新藥物,這種項目常被稱為Me-better或者Fast-follow。
因為有參考分子,專家大概可以參考分子結構設計合成化合物,進行后續(xù)試驗。
2、另一類項目是first-in-class項目,這類項目往往沒有現(xiàn)成可參考分子,需要進行傳統(tǒng)高通量篩選,這種高通量篩選通量也只能達到萬級別,主要做法是用已有化合物庫,用微孔板為載體進行高通量篩選,所以通量不會很大。
剛下已經提到藥物活性篩選,主要就是判斷蛋白質與藥物結合能不能起到藥效,以及ADMET實驗測試結果,這些如果不合格,就需要進行進一步優(yōu)化,將這一步驟循環(huán)往復。
那具體來說,AI主要作用點于哪一方面?
在靶點和疾病研究方面,AI可以基于多組學數(shù)據(jù)知識圖譜,對靶點和疾病機制進行探索;并基于時空維度對蛋白掃描,進行口袋發(fā)現(xiàn);
此外,基于NLP技術也可以分析大量專利文獻,提取分子結構和性質之間關系,輔助后續(xù)藥物設計。
根據(jù)之前兩種藥物開發(fā)路徑,首先對已有參考分子項目,不再通過專家設計分子,而是通過 ligand-based的AI分子生成模型生成大量參考分子,即在某個特定性質、形狀、化學性質或藥效團上類似分子。
其次,就是沒有參考分子的first-in-class項目,AI主要進行高通量篩選,進行數(shù)量級更高通量的篩選,這往往就是10億級化合物庫。
這里的化合物庫可合成性,雖然沒有萬級別化合物庫好,但也符合化合物合成規(guī)則。而且,AI還可以用分子生成方法,在分子空間的某一些區(qū)域內更密集生成分子。
在生成分子之后,接下里就是篩選, 例如HIT和LEAD活性實驗,這個實驗并不直接在實驗室,而是通過MD和FEP方法進行驗證。
后面我們也會用AI進行ADMET模型判別,對分子進行性質判別,如果不太符合要求就要對分子進行進一步優(yōu)化。
此時我們也可以采用強化學習技術,基于性質判別器和強化學習技術推動分子結構改變。
以上,就是AI企業(yè)切入藥物研發(fā)可供助力的幾個角度。
當然,這些層面,有些做得好,有些還在發(fā)力中,有些還比較滯后,但目前來說,整個領域發(fā)展有很多資本注入,有很多人才進入。
宏觀上看,2020年中國創(chuàng)新藥研發(fā)市場規(guī)模也越來越大,達到萬億人民幣規(guī)模。
國家政策層面上,對創(chuàng)新藥研發(fā)也非常重視,人工智能助力創(chuàng)新藥研發(fā)就是焦點之一。
接下來從數(shù)據(jù)、算法、算力維度來介紹 AI發(fā)揮作用的案例。
首先藥物研發(fā),主要有兩大要素,一個是藥物分子,往往是有機小分子;另一個要素是蛋白質,我們用計算機去建模,表示這兩個物質。
今天重點講講蛋白質表示,這是近年研究熱點之一,有結果產出。
這里列出蛋白質3級結構:一級結構是蛋白質序列,即氨基酸構成序列;二級結構是序列根據(jù)氨基酸之間氫鍵作用盤曲而成,例如β-sheet和α-helix;三級結構是進一步由這些二級結構之間、氨基酸之間相互作用折疊成整個蛋白質的結構。
三級結構從三維空間去分析,是一個很小的物體。它在生物體內形狀并不隨意,因為會承擔一些特定生物功能。
蛋白質測序技術現(xiàn)在已經非常成熟,人類也已經測得億級別蛋白質序列。
這個序列很像自然語言句子,從AI工程師角度,我們很自然會設想能不能基于這個特點做一些挖掘,事實我們后面的工作就是從這個點展開。
這里再提一個很有趣的現(xiàn)象,蛋白質序列中,盡管不使用深度學習而是傳統(tǒng)數(shù)據(jù)挖掘手段仍可以發(fā)現(xiàn)共進化現(xiàn)象。
人們發(fā)現(xiàn)同源蛋白序列中,往往成對氨基酸會被同時發(fā)生變化,故發(fā)生突變之后,兩個氨基酸仍能形成一些氫鍵作用。
例如,從這個圖上可以看到,4個同源氨基酸序列,兩個灰色框氨基酸基本同時發(fā)生變化。因為同時發(fā)生變化,所以這里始終會有一個結合位點,在結合位點,整個序列在三維空間會發(fā)生折疊。
接下來介紹一下建模工作,這是Facebook在2019年開始的一項工作,開始比較直接,后期引用一些共進化數(shù)據(jù)。
這個項目前期純粹是使用億級蛋白序列進行建模,用的模型是transformer,訓練任務是mask token prediction。他的token是 residues,也就是氨基酸。
邏輯上看,就是把序列中某個氨基酸遮蔽住,然后用其它上下文氨基酸進行預測,能不能精準這個位置氨基酸種類,這需要花費很長時間進行訓練,是比較耗時和耗資源的訓練過程。
這是20個氨基酸embedding,學出了20個詞匯的向量表示就可以把向量投射二維空間上,右邊綠色是疏水氨基酸,左邊氨基酸都是帶電荷氨基酸,叉是帶負電,方框是帶正電。
這是一個很有趣的現(xiàn)象,因為無監(jiān)督學習自然就把這些氨基酸分開了,他們通過transformer還學到另一個結果,即預測三級結構上聯(lián)系位點。
序列向量表示,AI可以被用作預測哪些氨基酸序列、哪些氨基酸之間可能發(fā)生一些聯(lián)系,即在蛋白質三級結構中,有一些氨基酸因為距離比較近(8?內)而被認為發(fā)生相互作用。
兩個氨基酸雖然比較近,但我們希望通過無監(jiān)督學習,去預測某個蛋白質序列兩個氨基酸之間的聯(lián)系,實際上就是在無監(jiān)督基礎網絡加簡單訓練任務,用transformer結構做線性回歸,并加以預測。
單從剛才介紹中,大家可以體會到把蛋白質當成一門語言,當成一個句子,從這樣思路出發(fā),去做無監(jiān)督學習,就可以挖到很豐富信息。
接下來給大家介紹Alphafold 2工作。
實際上Alphafold 2前半段工作也是類似,對蛋白質進行表征,而且跟Facebook下一步工作方式是高度雷同,都用到共進化信息。
Alphafold 2去年參加了 CASP14競賽,在第13和14屆競賽中連續(xù)兩年都拿到Top1,評分達到了92.4高分;在一些很難靶上也達到87分,基本接近人類做種x-ray去解結構精度。其實,Alphafold 2用的數(shù)據(jù)就是億級蛋白序列數(shù)據(jù),用到10萬級蛋白晶體結構數(shù)據(jù),這些都是公開數(shù)據(jù);
算力上,它跟Facebook的算力消耗資源差不多;算法上,前半部分輸入的是protein sequence,經過MSA蛋白序列多序列比對做embedding,與Facebook embedding工作是類似的。
之后,Alphafold 2通過兩個層面做 self attention:一個層面是同源蛋白序列,另一條路是同一個蛋白序列內部按殘基之間做,先輸出兩路信息,最后匯總給一個結構模型。
結構模型披露出來是一個3D的transformer,最后預測模型上的一些角,甚至預測SETI的一些位置,整個過程都是端到端訓練。所以,就需要進一步驗證挖掘蛋白質序列信息所能發(fā)揮的價值。
接下來給大家分享藥物研發(fā)中非常重要的問題,活性的預測,或者說基于活性的藥物篩選。
其中,AI的主要任務就是predict by the affinity,即對bind infinity進行預測。從而對小分子進行結合親和力初篩,衡量小分子和蛋白口袋結合能力。
建模只要能衡量出來小分子對某個靶點相對binding能力就可以。
比較精準的活性數(shù)據(jù)可以從PDBbind獲取,這里有上萬高質量活性數(shù)據(jù)。當然也可以從專利文獻中去識別、提取更多數(shù)據(jù)。
預測BF就要了解影響它的因素,包括分子構象strain energy,溶劑影響、疏水作用,靜電庫倫作用、范德華作用等等。
在AI進入之前,傳統(tǒng)對接軟件也是要解決這方面問題,有一些打分函數(shù),從算法工程師角度就是線性回歸模型。
模型含有各個項目,例如疏水項,氫鍵項,庫倫作用等等,通過少量數(shù)據(jù)擬合一些參數(shù)。
通過深度學習的方法要怎么做?
首先,需要表示蛋白以及小分子,小分子表示有很多種方法,例如字符串、拓撲圖表示方法、3D小分子表示方法等,基于不同表示方法,深度學習模型也有很多方法。
再介紹一個算法應用案例,分子生成其實是AI介入藥物設計,或者AI介入CADD領域最早的一個方面。
傳統(tǒng)CADD(計算機輔助藥物設計)是有一些model可以基于結構和性質,對數(shù)據(jù)建立關系并做一些預測。
但傳統(tǒng)model比較簡單,沒法做分子生成,所以分子生成是AI介入比較早的方面,也是望石最早發(fā)力的方面。
前面提到小分子化學空間是1060規(guī)模,基本不可能在其中進行篩選,所以可以理解為從另一個角度進行篩選。
其中不是隨機生成,而是定向生成,例如做分子躍遷,生成和參考分子結構做成藥性導向和強化學習,以及一些對抗生存網絡導向,生成成藥性更好分子。例如活性導向,希望生成特定靶向有活性分子。
但這些生成方法都依賴于,好的ADMET性質判別模型,好的活性判別方法,所以兩個生成并不容易。
接下來的問題在于,分子既然要生成首先就得表示出來。
剛才提到幾種方式,其中一種是片段表示方式,這是很重要的分子設計領域,對應模型生成方法,也是傳統(tǒng)機器學習生成領域常用的一些算法,例如VAE model,GAN網絡等。
這里先介紹評估方法,分子生成評估也有很多問題,例如新引擎怎么評估?
這里我們只談這篇文章提到的評估方式,他們找到一個評估集GDB13,列舉13個所有符合化學規(guī)則分子,大概找了有1億個,其中有2000萬個環(huán)體系,4000萬片段,然后找各種方法去生成model,這些model都是用100萬樣本訓練。
然后用這些model生成10億個分子,再觀察10億個分子中到底生成什么,并與一億個分子庫比較,這十億個分子到底生成覆蓋了多少,有多少重復,占百分之多少,有沒有生成超出1億分子的奇怪分子,從這些視角來評價。
所以我們挑選了幾個指標,第一就是重復率,看看10億個分子中,有多少分子是重復的;然后看覆蓋率,生成10億分子中能覆蓋1億分子中百分比是多少;然后看多少種超出這一億分子范疇。
一般認為這一億個分子列舉了所有合理結構,如果生成分子不在這一億個中,那大概率會被認為是不合理生成。
這里有一個評測,可以從表中看一下:
首先是Validity,這個驗證不是可合成性,而是很簡單的語法規(guī)則,我們再關注重復率,重復率這個值越高則越差。
可以看到ORGAN和LatentGAN兩個值都不理想,尤其是ORGAN,重復率非常高,說明GAN生成方式存在一定缺陷,如果不專門設計,GAN容易發(fā)生一些模式坍縮,重塑率非常之高。
然后從下面兩個圖來看,左邊是覆蓋范圍,即model能cover多少。我們看到GAN model的覆蓋范圍非常低,說明發(fā)生了明顯模式坍縮;而一些VAE方式要比GAN方式要好。
再看右圖是超出率,即超出GDB13范圍比例,可以看到,從ring system和fragment視角,兩個GAN model生成了一些很奇怪的環(huán)體系和片段。
這可能是好事,但大概率是壞事,好的地方可能會生成新分子能力、新片段能力;壞地方是因為GDB13符合化學規(guī)則,這就是以后需要重點優(yōu)化的方向。
接下來簡單介紹一下望石智慧在AI方面的應用,主要是分為兩個方面:分子設計和知識圖譜。
分子設計方面,我們從靶研究開始,一直到生成PCC分子,整個流程中都有很好的工具和平臺,在一些項目發(fā)揮了亮眼作用。
從上往下簡單看,例如靶點發(fā)現(xiàn)能力和protein 3D構象分析能力,我們結合諸如MD Analysis的傳統(tǒng)方法,也用時空領域AI建模方式去做一些困難發(fā)現(xiàn)工作。
例如分子設計方面,有一些分子躍遷、分子衍生,以及first-in-class基于口袋生成方法和超高通量篩選平臺。
同時,我們在 FEP和超高通量篩選之間也構建了,超出傳統(tǒng)對接軟件的scoring model,進行進一步篩選。
從HIT到Lead階段,我們更多借助QM/FEP工具,也會用ADMET的模型反向進行強化學習,以期對分子結構進行優(yōu)化,基本每一個流程都會有一些不錯的工具。
接下來介紹知識圖譜方面,望石在知識圖譜有持續(xù)進展,累積到目前挖掘了大量文獻數(shù)據(jù)、結構和活性數(shù)據(jù),以及ADMET性質數(shù)據(jù)。
我們構建了這樣一張以化合物靶點生物過程為核心的知識圖譜網絡,可以基于此,進行生物通路、疾病機制探索,也可以提取一些化合物結構和性質進行基于母核和取代基的活性分析。
最后談一下個人對藥物研發(fā)面臨一些挑戰(zhàn)和展望。大概分這三個方面:泛化性、準確率、數(shù)據(jù)稀疏。
數(shù)據(jù)稀疏問題要分領域,因為生物領域是一個非常大的領域,面臨問題非常多。
所以有些點上數(shù)據(jù)比較多,有些點上數(shù)據(jù)比較少,例如一些ADMET性質非常多,性質種類非常多,但有些性質數(shù)據(jù)非常稀疏。
泛化性問題也是比較嚴重的問題,很多AI模型,例如預測活性模型,在發(fā)表的paper中經常介紹它比傳統(tǒng)方法勝出多少,但實際泛化性是受到質疑的,因為評估級往往存在數(shù)據(jù)信息泄露問題。
最后,準確率問題,有些活性數(shù)據(jù)測試實驗條件不一樣,會導致同一個靶點、同一個化合物活性數(shù)據(jù)測試結果偏差較大。
這是從數(shù)據(jù)角度出發(fā),模型表達能力也需要不斷優(yōu)化和改進。
那是否有好的方面呢,我從很實際的角度簡單展望一下。
一方面,隨著 AI在各個行業(yè)發(fā)展,它的算力得到極大提升;另外,生物制藥領域經過多年積累,數(shù)據(jù)也有相當豐富積累。
例如,隨著基因工程蛋白序列技術發(fā)展,我們積累了大量蛋白序列、多組學數(shù)據(jù)等,以及人類目前已經有百億級分子庫,這些分子對高通量篩選、分子生成都有重要推進作用。
目前,AI領域也驗證了一些大規(guī)模模型成功,去年就已經有很好結果展現(xiàn)出來,Alphafold 2便是一個里程碑式事件。
Q:深度學習docking跟傳統(tǒng)的docking軟件相比,有什么優(yōu)勢?
周文彪:深度學習docking,我們更多從概率論角度出發(fā),能更好地把口袋接觸一些柔性小分子構象變化刻畫出來,當然更多也會考慮把蛋白質側鏈甚至是蛋白質口袋變化融合進來,這也是傳統(tǒng)對接軟件一個比較大的難點。
另外,我們也通過深度學習方法,能夠更全面刻畫一些口袋內的弱相互作用,以及形狀契合方面問題。
Q:從傳統(tǒng)的內容推薦AI,到新藥研發(fā),您覺得模型研發(fā)中最大的變化是什么,兩個領域有哪些地方會更加困難?
周文彪:最大的區(qū)別在于算法工程師來說,就是業(yè)務場景不同,很多底層方法是相通的,困難在于藥物研發(fā)數(shù)據(jù)獲取更難成本更高,設計解決方法時需要和藥化專家深入討論溝通,并對領域知識進行適當學習,一個是AI解決商業(yè)問題 一個是更嚴謹?shù)目茖W工業(yè)問題。
Q:在算法設計過程中,應如何與藥學家進行合作,將先驗知識指導算法設計,從而使算法效率更高,結果更加安全科學?
周文彪:藥化專家是藥物研發(fā)的主體研發(fā)者,想設計有價值的IA方案 需求一定是來自一線研發(fā)者,并進行總結提煉升華,和藥化專家深入溝通非常重要,要建立一整套互動交流機制,在立項,研發(fā), case分析, 評價指標建立,后續(xù)優(yōu)化等多個方面進行交流,這樣AI工具才能真正落地并進行客觀評價和優(yōu)化。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。