0
本文作者: 劉海濤 | 2021-06-04 16:51 | 專題:AI新藥研發(fā)未來獨(dú)角獸云峰會(huì) |
AI開發(fā)者做AI新藥研發(fā)是一種什么體驗(yàn)?周杰龍似乎更有體會(huì)。
2018年,百度搜索技術(shù)創(chuàng)新核心人物之一,原百度主任架構(gòu)師周杰龍,帶著一批AI技術(shù)骨干實(shí)現(xiàn)了一次“跨界”,創(chuàng)立AI制藥企業(yè)「望石智慧」。
將AI用于搜索是周杰龍的強(qiáng)項(xiàng),但是如何將AI用于制藥環(huán)節(jié),在創(chuàng)立望石智慧之前,他仍是“一張白紙”。
沒有醫(yī)藥相關(guān)的知識(shí)儲(chǔ)備,周杰龍選擇了一個(gè)最笨也最直接的方法——自學(xué)。
圍繞細(xì)胞學(xué)、藥物化學(xué)、結(jié)構(gòu)生物學(xué)、藥物設(shè)計(jì)、有機(jī)合成、藥理學(xué)等方向買了幾十本專業(yè)書;同時(shí),積極參加諸多醫(yī)藥領(lǐng)域的學(xué)術(shù)會(huì)議,與學(xué)者探討人工智能應(yīng)用到創(chuàng)新藥研發(fā)領(lǐng)域的可行性?!?nbsp;
在周杰龍看來,小分子化合物是上帝書寫的外語,而這些化合物與生物大分子靶點(diǎn)的匹配過程就像外語的翻譯。望石智慧要做的就是用AI幫助藥企去‘翻譯外語’。
經(jīng)過近三年布局,望石智慧AI分子設(shè)計(jì)軟件平臺(tái)已在多個(gè)高難度、全新機(jī)制或類型First-in-class或Fast-follow項(xiàng)目中取得突破性試驗(yàn)結(jié)果。
上個(gè)月,望石智慧完成總額達(dá)1億美元的B輪和B+輪融資,是目前AI制藥新勢(shì)力里,規(guī)模最大的創(chuàng)新企業(yè)之一。
近日,雷鋒網(wǎng)《醫(yī)健AI掘金志》以“AI制藥·下一個(gè)現(xiàn)象級(jí)賽道”為主題,邀請(qǐng)百圖生科、劑泰醫(yī)藥、未知君、望石智慧、英矽智能、星藥科技六家先鋒企業(yè),舉辦了一場(chǎng)線上云峰會(huì)。
作為此次云峰會(huì)的報(bào)告嘉賓,望石智慧高級(jí)算法專家周文彪就以《AI+藥物研發(fā)的應(yīng)用和挑戰(zhàn)》為題,從技術(shù)人角度,對(duì)望石智慧的AI制藥研發(fā)策略做了介紹。
周文彪表示:從算法角度來看AI制藥,傳統(tǒng)藥物篩選經(jīng)常需要在1060分子空間中搜索藥物小分子,這很像機(jī)器學(xué)習(xí)中的最優(yōu)化過程,通過最優(yōu)化算法來將模型訓(xùn)練至一個(gè)全局最優(yōu)處。
但因?yàn)樗懔栴},過去藥物專家經(jīng)常通過經(jīng)驗(yàn)設(shè)計(jì)小分子再進(jìn)行篩選,所以傳統(tǒng)藥物研發(fā)很容易陷入局部最優(yōu),這也就是最早AI介入制藥環(huán)節(jié)的契機(jī)。
而經(jīng)過學(xué)者多年的研究和企業(yè)的逐漸深入,AI技術(shù)也已經(jīng)在更多藥物研發(fā)環(huán)節(jié)生根發(fā)芽。
以已知參考分子的Me-better的項(xiàng)目為例,AI可以淘汰專家環(huán)節(jié),通過ligand-based(配體為基)的AI模型生成大量參考分子,針對(duì)某個(gè)特定性質(zhì)、形狀、化學(xué)性質(zhì)或藥效團(tuán),找到大量?jī)?yōu)化方案。
而針對(duì)參考分子的first-in-class藥物研發(fā)項(xiàng)目,AI主要?jiǎng)t可以進(jìn)行更高通量的篩選,達(dá)到10億級(jí)化合物庫,并引入用分子生成方法,針對(duì)某個(gè)分子空間特定區(qū)域,密集生成理想分子。
以下是演講全部?jī)?nèi)容,雷鋒網(wǎng)做了不改變?cè)獾恼砗途庉嫞?/strong>
大家晚上好,很高興參加這次雷鋒網(wǎng)AI藥物研發(fā)云峰會(huì)。
首先做個(gè)自我介紹,我之前背景更偏向互聯(lián)網(wǎng),有10年互聯(lián)網(wǎng)AI算法落地經(jīng)驗(yàn),算是跨界過來。
今天將更多從AI開發(fā)者角度,給大家搭建一個(gè)橋梁,讓AI領(lǐng)域朋友認(rèn)知到 AI和藥物研發(fā)的結(jié)合意義,并分享其中的應(yīng)用與挑戰(zhàn),主要想從三個(gè)方面來分享:
首先,從藥物研發(fā)問題出發(fā)介紹AI如何在其中發(fā)揮作用;
其次,介紹望石智慧助力藥物研發(fā)怎么應(yīng)用AI,有哪些落地;
最后,分享對(duì)AI+藥物研發(fā)面臨的一些挑戰(zhàn)、展望和思考。
先來介紹一下,藥物研發(fā)是怎么回事。
藥物原理更類似于一個(gè)鑰匙,解開疾病的鑰匙,如何低成本找到這把鑰匙,就是藥物研發(fā)需要解決的問題。
而鎖就是疾病靶點(diǎn),通常我們把它認(rèn)為是一個(gè)蛋白質(zhì)。
鑰匙小分子插入鎖孔就是跟蛋白質(zhì)發(fā)生結(jié)合,可以抑制蛋白質(zhì)正常作用,或者激活蛋白質(zhì)某些作用。
圖中就是一個(gè)蛋白質(zhì)分子;上面有一個(gè)小分子,即藥物分子,藍(lán)色區(qū)域是鎖孔,我們稱之為口袋,口袋中經(jīng)常會(huì)有一些氫鍵作用,這種非共價(jià)鍵作用能促使其與小分子產(chǎn)生結(jié)合,從而讓小分子牢地結(jié)合口袋,發(fā)揮藥效作用。
例如人體的酶,在人體中起非常重要的生物功能承載作用。
其中有一種酶RNA聚合酶,可以完成RNA復(fù)制,很多病毒侵入人體以后,它會(huì)把RNA注入到人體細(xì)胞,然后特定RNA聚合酶與RNA結(jié)合,起到復(fù)制RNA功能。
2020年,有一個(gè)非常有名的藥物“瑞德西韋”,靶向的就是這種酶。
瑞德西韋有一個(gè)比較大的基團(tuán),會(huì)在復(fù)制過程中跟α-helix側(cè)鏈上某個(gè)基團(tuán)發(fā)生碰撞,從而阻止RNA復(fù)制過程。
通過這個(gè)簡(jiǎn)單案例,我們能夠清晰了解藥物如何發(fā)揮作用,但從AI角度應(yīng)該怎么幫忙設(shè)計(jì)藥物呢?
整個(gè)藥物研發(fā)過程大概分為兩個(gè)階段,一是研究階段,主要就是實(shí)驗(yàn)室階段;接下來實(shí)驗(yàn)室到上市階段,主要內(nèi)容是體外實(shí)驗(yàn)和臨床實(shí)驗(yàn)。
AI制藥主要就是在研究階段發(fā)揮作用,就是前面2~5年,這個(gè)過程中,大家希望非常準(zhǔn)找到化合物,也就是有活性,成藥性比較好;在臨床實(shí)驗(yàn)階段能更快完成藥物實(shí)驗(yàn)和申報(bào)。
在前期實(shí)驗(yàn)室研發(fā)階段,主要的痛點(diǎn)在于需要不停實(shí)驗(yàn)、合成、測(cè)活性、測(cè)成藥性,這樣的成本不低,而且很容易失敗,一旦失敗就需要重新合成,再重復(fù)實(shí)驗(yàn),周期非常長。
這些失敗30%原因都是因?yàn)榛钚?,以及藥效?nbsp;ADMET性質(zhì)、毒性等方面原因。
那為什么失敗率會(huì)這么高?
主要就是因?yàn)樾》肿涌臻g非常大,需要在1060分子空間搜索一個(gè)藥物小分子,這對(duì)于傳統(tǒng)藥物研發(fā)非常復(fù)雜,所以藥物專家往往先通過經(jīng)驗(yàn)設(shè)計(jì)小分子,并希望能在后續(xù)測(cè)試中達(dá)標(biāo)。
這很像機(jī)器學(xué)習(xí)優(yōu)化過程,希望找到一個(gè)全局最優(yōu)點(diǎn),但傳統(tǒng)藥物研發(fā)很容易陷入局部最優(yōu),這也是我們希望AI可以解決問題之一。
大體了解情況之后,再從整體看一下傳統(tǒng)藥物研發(fā)過程。
首先是確定疾病靶點(diǎn)和機(jī)制,再通過藥化專家、大量專利和文獻(xiàn)調(diào)研來完成分子篩選,主要分為兩條路:
1、當(dāng)根據(jù)靶點(diǎn)或疾病蛋白質(zhì),已找到陽性分子或靶上藥物,就可以此為出發(fā)點(diǎn),設(shè)計(jì)效果更好的新藥物,這種項(xiàng)目常被稱為Me-better或者Fast-follow。
因?yàn)橛袇⒖挤肿?,專家大概可以參考分子結(jié)構(gòu)設(shè)計(jì)合成化合物,進(jìn)行后續(xù)試驗(yàn)。
2、另一類項(xiàng)目是first-in-class項(xiàng)目,這類項(xiàng)目往往沒有現(xiàn)成可參考分子,需要進(jìn)行傳統(tǒng)高通量篩選,這種高通量篩選通量也只能達(dá)到萬級(jí)別,主要做法是用已有化合物庫,用微孔板為載體進(jìn)行高通量篩選,所以通量不會(huì)很大。
剛下已經(jīng)提到藥物活性篩選,主要就是判斷蛋白質(zhì)與藥物結(jié)合能不能起到藥效,以及ADMET實(shí)驗(yàn)測(cè)試結(jié)果,這些如果不合格,就需要進(jìn)行進(jìn)一步優(yōu)化,將這一步驟循環(huán)往復(fù)。
那具體來說,AI主要作用點(diǎn)于哪一方面?
在靶點(diǎn)和疾病研究方面,AI可以基于多組學(xué)數(shù)據(jù)知識(shí)圖譜,對(duì)靶點(diǎn)和疾病機(jī)制進(jìn)行探索;并基于時(shí)空維度對(duì)蛋白掃描,進(jìn)行口袋發(fā)現(xiàn);
此外,基于NLP技術(shù)也可以分析大量專利文獻(xiàn),提取分子結(jié)構(gòu)和性質(zhì)之間關(guān)系,輔助后續(xù)藥物設(shè)計(jì)。
根據(jù)之前兩種藥物開發(fā)路徑,首先對(duì)已有參考分子項(xiàng)目,不再通過專家設(shè)計(jì)分子,而是通過 ligand-based的AI分子生成模型生成大量參考分子,即在某個(gè)特定性質(zhì)、形狀、化學(xué)性質(zhì)或藥效團(tuán)上類似分子。
其次,就是沒有參考分子的first-in-class項(xiàng)目,AI主要進(jìn)行高通量篩選,進(jìn)行數(shù)量級(jí)更高通量的篩選,這往往就是10億級(jí)化合物庫。
這里的化合物庫可合成性,雖然沒有萬級(jí)別化合物庫好,但也符合化合物合成規(guī)則。而且,AI還可以用分子生成方法,在分子空間的某一些區(qū)域內(nèi)更密集生成分子。
在生成分子之后,接下里就是篩選, 例如HIT和LEAD活性實(shí)驗(yàn),這個(gè)實(shí)驗(yàn)并不直接在實(shí)驗(yàn)室,而是通過MD和FEP方法進(jìn)行驗(yàn)證。
后面我們也會(huì)用AI進(jìn)行ADMET模型判別,對(duì)分子進(jìn)行性質(zhì)判別,如果不太符合要求就要對(duì)分子進(jìn)行進(jìn)一步優(yōu)化。
此時(shí)我們也可以采用強(qiáng)化學(xué)習(xí)技術(shù),基于性質(zhì)判別器和強(qiáng)化學(xué)習(xí)技術(shù)推動(dòng)分子結(jié)構(gòu)改變。
以上,就是AI企業(yè)切入藥物研發(fā)可供助力的幾個(gè)角度。
當(dāng)然,這些層面,有些做得好,有些還在發(fā)力中,有些還比較滯后,但目前來說,整個(gè)領(lǐng)域發(fā)展有很多資本注入,有很多人才進(jìn)入。
宏觀上看,2020年中國創(chuàng)新藥研發(fā)市場(chǎng)規(guī)模也越來越大,達(dá)到萬億人民幣規(guī)模。
國家政策層面上,對(duì)創(chuàng)新藥研發(fā)也非常重視,人工智能助力創(chuàng)新藥研發(fā)就是焦點(diǎn)之一。
接下來從數(shù)據(jù)、算法、算力維度來介紹 AI發(fā)揮作用的案例。
首先藥物研發(fā),主要有兩大要素,一個(gè)是藥物分子,往往是有機(jī)小分子;另一個(gè)要素是蛋白質(zhì),我們用計(jì)算機(jī)去建模,表示這兩個(gè)物質(zhì)。
今天重點(diǎn)講講蛋白質(zhì)表示,這是近年研究熱點(diǎn)之一,有結(jié)果產(chǎn)出。
這里列出蛋白質(zhì)3級(jí)結(jié)構(gòu):一級(jí)結(jié)構(gòu)是蛋白質(zhì)序列,即氨基酸構(gòu)成序列;二級(jí)結(jié)構(gòu)是序列根據(jù)氨基酸之間氫鍵作用盤曲而成,例如β-sheet和α-helix;三級(jí)結(jié)構(gòu)是進(jìn)一步由這些二級(jí)結(jié)構(gòu)之間、氨基酸之間相互作用折疊成整個(gè)蛋白質(zhì)的結(jié)構(gòu)。
三級(jí)結(jié)構(gòu)從三維空間去分析,是一個(gè)很小的物體。它在生物體內(nèi)形狀并不隨意,因?yàn)闀?huì)承擔(dān)一些特定生物功能。
蛋白質(zhì)測(cè)序技術(shù)現(xiàn)在已經(jīng)非常成熟,人類也已經(jīng)測(cè)得億級(jí)別蛋白質(zhì)序列。
這個(gè)序列很像自然語言句子,從AI工程師角度,我們很自然會(huì)設(shè)想能不能基于這個(gè)特點(diǎn)做一些挖掘,事實(shí)我們后面的工作就是從這個(gè)點(diǎn)展開。
這里再提一個(gè)很有趣的現(xiàn)象,蛋白質(zhì)序列中,盡管不使用深度學(xué)習(xí)而是傳統(tǒng)數(shù)據(jù)挖掘手段仍可以發(fā)現(xiàn)共進(jìn)化現(xiàn)象。
人們發(fā)現(xiàn)同源蛋白序列中,往往成對(duì)氨基酸會(huì)被同時(shí)發(fā)生變化,故發(fā)生突變之后,兩個(gè)氨基酸仍能形成一些氫鍵作用。
例如,從這個(gè)圖上可以看到,4個(gè)同源氨基酸序列,兩個(gè)灰色框氨基酸基本同時(shí)發(fā)生變化。因?yàn)橥瑫r(shí)發(fā)生變化,所以這里始終會(huì)有一個(gè)結(jié)合位點(diǎn),在結(jié)合位點(diǎn),整個(gè)序列在三維空間會(huì)發(fā)生折疊。
接下來介紹一下建模工作,這是Facebook在2019年開始的一項(xiàng)工作,開始比較直接,后期引用一些共進(jìn)化數(shù)據(jù)。
這個(gè)項(xiàng)目前期純粹是使用億級(jí)蛋白序列進(jìn)行建模,用的模型是transformer,訓(xùn)練任務(wù)是mask token prediction。他的token是 residues,也就是氨基酸。
邏輯上看,就是把序列中某個(gè)氨基酸遮蔽住,然后用其它上下文氨基酸進(jìn)行預(yù)測(cè),能不能精準(zhǔn)這個(gè)位置氨基酸種類,這需要花費(fèi)很長時(shí)間進(jìn)行訓(xùn)練,是比較耗時(shí)和耗資源的訓(xùn)練過程。
這是20個(gè)氨基酸embedding,學(xué)出了20個(gè)詞匯的向量表示就可以把向量投射二維空間上,右邊綠色是疏水氨基酸,左邊氨基酸都是帶電荷氨基酸,叉是帶負(fù)電,方框是帶正電。
這是一個(gè)很有趣的現(xiàn)象,因?yàn)闊o監(jiān)督學(xué)習(xí)自然就把這些氨基酸分開了,他們通過transformer還學(xué)到另一個(gè)結(jié)果,即預(yù)測(cè)三級(jí)結(jié)構(gòu)上聯(lián)系位點(diǎn)。
序列向量表示,AI可以被用作預(yù)測(cè)哪些氨基酸序列、哪些氨基酸之間可能發(fā)生一些聯(lián)系,即在蛋白質(zhì)三級(jí)結(jié)構(gòu)中,有一些氨基酸因?yàn)榫嚯x比較近(8?內(nèi))而被認(rèn)為發(fā)生相互作用。
兩個(gè)氨基酸雖然比較近,但我們希望通過無監(jiān)督學(xué)習(xí),去預(yù)測(cè)某個(gè)蛋白質(zhì)序列兩個(gè)氨基酸之間的聯(lián)系,實(shí)際上就是在無監(jiān)督基礎(chǔ)網(wǎng)絡(luò)加簡(jiǎn)單訓(xùn)練任務(wù),用transformer結(jié)構(gòu)做線性回歸,并加以預(yù)測(cè)。
單從剛才介紹中,大家可以體會(huì)到把蛋白質(zhì)當(dāng)成一門語言,當(dāng)成一個(gè)句子,從這樣思路出發(fā),去做無監(jiān)督學(xué)習(xí),就可以挖到很豐富信息。
接下來給大家介紹Alphafold 2工作。
實(shí)際上Alphafold 2前半段工作也是類似,對(duì)蛋白質(zhì)進(jìn)行表征,而且跟Facebook下一步工作方式是高度雷同,都用到共進(jìn)化信息。
Alphafold 2去年參加了 CASP14競(jìng)賽,在第13和14屆競(jìng)賽中連續(xù)兩年都拿到Top1,評(píng)分達(dá)到了92.4高分;在一些很難靶上也達(dá)到87分,基本接近人類做種x-ray去解結(jié)構(gòu)精度。其實(shí),Alphafold 2用的數(shù)據(jù)就是億級(jí)蛋白序列數(shù)據(jù),用到10萬級(jí)蛋白晶體結(jié)構(gòu)數(shù)據(jù),這些都是公開數(shù)據(jù);
算力上,它跟Facebook的算力消耗資源差不多;算法上,前半部分輸入的是protein sequence,經(jīng)過MSA蛋白序列多序列比對(duì)做embedding,與Facebook embedding工作是類似的。
之后,Alphafold 2通過兩個(gè)層面做 self attention:一個(gè)層面是同源蛋白序列,另一條路是同一個(gè)蛋白序列內(nèi)部按殘基之間做,先輸出兩路信息,最后匯總給一個(gè)結(jié)構(gòu)模型。
結(jié)構(gòu)模型披露出來是一個(gè)3D的transformer,最后預(yù)測(cè)模型上的一些角,甚至預(yù)測(cè)SETI的一些位置,整個(gè)過程都是端到端訓(xùn)練。所以,就需要進(jìn)一步驗(yàn)證挖掘蛋白質(zhì)序列信息所能發(fā)揮的價(jià)值。
接下來給大家分享藥物研發(fā)中非常重要的問題,活性的預(yù)測(cè),或者說基于活性的藥物篩選。
其中,AI的主要任務(wù)就是predict by the affinity,即對(duì)bind infinity進(jìn)行預(yù)測(cè)。從而對(duì)小分子進(jìn)行結(jié)合親和力初篩,衡量小分子和蛋白口袋結(jié)合能力。
建模只要能衡量出來小分子對(duì)某個(gè)靶點(diǎn)相對(duì)binding能力就可以。
比較精準(zhǔn)的活性數(shù)據(jù)可以從PDBbind獲取,這里有上萬高質(zhì)量活性數(shù)據(jù)。當(dāng)然也可以從專利文獻(xiàn)中去識(shí)別、提取更多數(shù)據(jù)。
預(yù)測(cè)BF就要了解影響它的因素,包括分子構(gòu)象strain energy,溶劑影響、疏水作用,靜電庫倫作用、范德華作用等等。
在AI進(jìn)入之前,傳統(tǒng)對(duì)接軟件也是要解決這方面問題,有一些打分函數(shù),從算法工程師角度就是線性回歸模型。
模型含有各個(gè)項(xiàng)目,例如疏水項(xiàng),氫鍵項(xiàng),庫倫作用等等,通過少量數(shù)據(jù)擬合一些參數(shù)。
通過深度學(xué)習(xí)的方法要怎么做?
首先,需要表示蛋白以及小分子,小分子表示有很多種方法,例如字符串、拓?fù)鋱D表示方法、3D小分子表示方法等,基于不同表示方法,深度學(xué)習(xí)模型也有很多方法。
再介紹一個(gè)算法應(yīng)用案例,分子生成其實(shí)是AI介入藥物設(shè)計(jì),或者AI介入CADD領(lǐng)域最早的一個(gè)方面。
傳統(tǒng)CADD(計(jì)算機(jī)輔助藥物設(shè)計(jì))是有一些model可以基于結(jié)構(gòu)和性質(zhì),對(duì)數(shù)據(jù)建立關(guān)系并做一些預(yù)測(cè)。
但傳統(tǒng)model比較簡(jiǎn)單,沒法做分子生成,所以分子生成是AI介入比較早的方面,也是望石最早發(fā)力的方面。
前面提到小分子化學(xué)空間是1060規(guī)模,基本不可能在其中進(jìn)行篩選,所以可以理解為從另一個(gè)角度進(jìn)行篩選。
其中不是隨機(jī)生成,而是定向生成,例如做分子躍遷,生成和參考分子結(jié)構(gòu)做成藥性導(dǎo)向和強(qiáng)化學(xué)習(xí),以及一些對(duì)抗生存網(wǎng)絡(luò)導(dǎo)向,生成成藥性更好分子。例如活性導(dǎo)向,希望生成特定靶向有活性分子。
但這些生成方法都依賴于,好的ADMET性質(zhì)判別模型,好的活性判別方法,所以兩個(gè)生成并不容易。
接下來的問題在于,分子既然要生成首先就得表示出來。
剛才提到幾種方式,其中一種是片段表示方式,這是很重要的分子設(shè)計(jì)領(lǐng)域,對(duì)應(yīng)模型生成方法,也是傳統(tǒng)機(jī)器學(xué)習(xí)生成領(lǐng)域常用的一些算法,例如VAE model,GAN網(wǎng)絡(luò)等。
這里先介紹評(píng)估方法,分子生成評(píng)估也有很多問題,例如新引擎怎么評(píng)估?
這里我們只談這篇文章提到的評(píng)估方式,他們找到一個(gè)評(píng)估集GDB13,列舉13個(gè)所有符合化學(xué)規(guī)則分子,大概找了有1億個(gè),其中有2000萬個(gè)環(huán)體系,4000萬片段,然后找各種方法去生成model,這些model都是用100萬樣本訓(xùn)練。
然后用這些model生成10億個(gè)分子,再觀察10億個(gè)分子中到底生成什么,并與一億個(gè)分子庫比較,這十億個(gè)分子到底生成覆蓋了多少,有多少重復(fù),占百分之多少,有沒有生成超出1億分子的奇怪分子,從這些視角來評(píng)價(jià)。
所以我們挑選了幾個(gè)指標(biāo),第一就是重復(fù)率,看看10億個(gè)分子中,有多少分子是重復(fù)的;然后看覆蓋率,生成10億分子中能覆蓋1億分子中百分比是多少;然后看多少種超出這一億分子范疇。
一般認(rèn)為這一億個(gè)分子列舉了所有合理結(jié)構(gòu),如果生成分子不在這一億個(gè)中,那大概率會(huì)被認(rèn)為是不合理生成。
這里有一個(gè)評(píng)測(cè),可以從表中看一下:
首先是Validity,這個(gè)驗(yàn)證不是可合成性,而是很簡(jiǎn)單的語法規(guī)則,我們?cè)訇P(guān)注重復(fù)率,重復(fù)率這個(gè)值越高則越差。
可以看到ORGAN和LatentGAN兩個(gè)值都不理想,尤其是ORGAN,重復(fù)率非常高,說明GAN生成方式存在一定缺陷,如果不專門設(shè)計(jì),GAN容易發(fā)生一些模式坍縮,重塑率非常之高。
然后從下面兩個(gè)圖來看,左邊是覆蓋范圍,即model能cover多少。我們看到GAN model的覆蓋范圍非常低,說明發(fā)生了明顯模式坍縮;而一些VAE方式要比GAN方式要好。
再看右圖是超出率,即超出GDB13范圍比例,可以看到,從ring system和fragment視角,兩個(gè)GAN model生成了一些很奇怪的環(huán)體系和片段。
這可能是好事,但大概率是壞事,好的地方可能會(huì)生成新分子能力、新片段能力;壞地方是因?yàn)镚DB13符合化學(xué)規(guī)則,這就是以后需要重點(diǎn)優(yōu)化的方向。
接下來簡(jiǎn)單介紹一下望石智慧在AI方面的應(yīng)用,主要是分為兩個(gè)方面:分子設(shè)計(jì)和知識(shí)圖譜。
分子設(shè)計(jì)方面,我們從靶研究開始,一直到生成PCC分子,整個(gè)流程中都有很好的工具和平臺(tái),在一些項(xiàng)目發(fā)揮了亮眼作用。
從上往下簡(jiǎn)單看,例如靶點(diǎn)發(fā)現(xiàn)能力和protein 3D構(gòu)象分析能力,我們結(jié)合諸如MD Analysis的傳統(tǒng)方法,也用時(shí)空領(lǐng)域AI建模方式去做一些困難發(fā)現(xiàn)工作。
例如分子設(shè)計(jì)方面,有一些分子躍遷、分子衍生,以及first-in-class基于口袋生成方法和超高通量篩選平臺(tái)。
同時(shí),我們?cè)?FEP和超高通量篩選之間也構(gòu)建了,超出傳統(tǒng)對(duì)接軟件的scoring model,進(jìn)行進(jìn)一步篩選。
從HIT到Lead階段,我們更多借助QM/FEP工具,也會(huì)用ADMET的模型反向進(jìn)行強(qiáng)化學(xué)習(xí),以期對(duì)分子結(jié)構(gòu)進(jìn)行優(yōu)化,基本每一個(gè)流程都會(huì)有一些不錯(cuò)的工具。
接下來介紹知識(shí)圖譜方面,望石在知識(shí)圖譜有持續(xù)進(jìn)展,累積到目前挖掘了大量文獻(xiàn)數(shù)據(jù)、結(jié)構(gòu)和活性數(shù)據(jù),以及ADMET性質(zhì)數(shù)據(jù)。
我們構(gòu)建了這樣一張以化合物靶點(diǎn)生物過程為核心的知識(shí)圖譜網(wǎng)絡(luò),可以基于此,進(jìn)行生物通路、疾病機(jī)制探索,也可以提取一些化合物結(jié)構(gòu)和性質(zhì)進(jìn)行基于母核和取代基的活性分析。
最后談一下個(gè)人對(duì)藥物研發(fā)面臨一些挑戰(zhàn)和展望。大概分這三個(gè)方面:泛化性、準(zhǔn)確率、數(shù)據(jù)稀疏。
數(shù)據(jù)稀疏問題要分領(lǐng)域,因?yàn)樯镱I(lǐng)域是一個(gè)非常大的領(lǐng)域,面臨問題非常多。
所以有些點(diǎn)上數(shù)據(jù)比較多,有些點(diǎn)上數(shù)據(jù)比較少,例如一些ADMET性質(zhì)非常多,性質(zhì)種類非常多,但有些性質(zhì)數(shù)據(jù)非常稀疏。
泛化性問題也是比較嚴(yán)重的問題,很多AI模型,例如預(yù)測(cè)活性模型,在發(fā)表的paper中經(jīng)常介紹它比傳統(tǒng)方法勝出多少,但實(shí)際泛化性是受到質(zhì)疑的,因?yàn)樵u(píng)估級(jí)往往存在數(shù)據(jù)信息泄露問題。
最后,準(zhǔn)確率問題,有些活性數(shù)據(jù)測(cè)試實(shí)驗(yàn)條件不一樣,會(huì)導(dǎo)致同一個(gè)靶點(diǎn)、同一個(gè)化合物活性數(shù)據(jù)測(cè)試結(jié)果偏差較大。
這是從數(shù)據(jù)角度出發(fā),模型表達(dá)能力也需要不斷優(yōu)化和改進(jìn)。
那是否有好的方面呢,我從很實(shí)際的角度簡(jiǎn)單展望一下。
一方面,隨著 AI在各個(gè)行業(yè)發(fā)展,它的算力得到極大提升;另外,生物制藥領(lǐng)域經(jīng)過多年積累,數(shù)據(jù)也有相當(dāng)豐富積累。
例如,隨著基因工程蛋白序列技術(shù)發(fā)展,我們積累了大量蛋白序列、多組學(xué)數(shù)據(jù)等,以及人類目前已經(jīng)有百億級(jí)分子庫,這些分子對(duì)高通量篩選、分子生成都有重要推進(jìn)作用。
目前,AI領(lǐng)域也驗(yàn)證了一些大規(guī)模模型成功,去年就已經(jīng)有很好結(jié)果展現(xiàn)出來,Alphafold 2便是一個(gè)里程碑式事件。
Q:深度學(xué)習(xí)docking跟傳統(tǒng)的docking軟件相比,有什么優(yōu)勢(shì)?
周文彪:深度學(xué)習(xí)docking,我們更多從概率論角度出發(fā),能更好地把口袋接觸一些柔性小分子構(gòu)象變化刻畫出來,當(dāng)然更多也會(huì)考慮把蛋白質(zhì)側(cè)鏈甚至是蛋白質(zhì)口袋變化融合進(jìn)來,這也是傳統(tǒng)對(duì)接軟件一個(gè)比較大的難點(diǎn)。
另外,我們也通過深度學(xué)習(xí)方法,能夠更全面刻畫一些口袋內(nèi)的弱相互作用,以及形狀契合方面問題。
Q:從傳統(tǒng)的內(nèi)容推薦AI,到新藥研發(fā),您覺得模型研發(fā)中最大的變化是什么,兩個(gè)領(lǐng)域有哪些地方會(huì)更加困難?
周文彪:最大的區(qū)別在于算法工程師來說,就是業(yè)務(wù)場(chǎng)景不同,很多底層方法是相通的,困難在于藥物研發(fā)數(shù)據(jù)獲取更難成本更高,設(shè)計(jì)解決方法時(shí)需要和藥化專家深入討論溝通,并對(duì)領(lǐng)域知識(shí)進(jìn)行適當(dāng)學(xué)習(xí),一個(gè)是AI解決商業(yè)問題 一個(gè)是更嚴(yán)謹(jǐn)?shù)目茖W(xué)工業(yè)問題。
Q:在算法設(shè)計(jì)過程中,應(yīng)如何與藥學(xué)家進(jìn)行合作,將先驗(yàn)知識(shí)指導(dǎo)算法設(shè)計(jì),從而使算法效率更高,結(jié)果更加安全科學(xué)?
周文彪:藥化專家是藥物研發(fā)的主體研發(fā)者,想設(shè)計(jì)有價(jià)值的IA方案 需求一定是來自一線研發(fā)者,并進(jìn)行總結(jié)提煉升華,和藥化專家深入溝通非常重要,要建立一整套互動(dòng)交流機(jī)制,在立項(xiàng),研發(fā), case分析, 評(píng)價(jià)指標(biāo)建立,后續(xù)優(yōu)化等多個(gè)方面進(jìn)行交流,這樣AI工具才能真正落地并進(jìn)行客觀評(píng)價(jià)和優(yōu)化。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章