0
本文作者: 劉海濤 | 2021-07-25 16:39 |
在清華建校110周年慶祝大會(huì)上,北京大學(xué)校長(zhǎng)郝平首次宣布,在人工智能教學(xué)和科研上,雙方將聯(lián)手建立通用AI實(shí)驗(yàn)班。
這意味著,這兩家互為榜樣,互相調(diào)侃多年的對(duì)門鄰居,在人工智能上首次選擇了并肩站隊(duì)。
而事實(shí)上,在多年時(shí)間里,兩所高校內(nèi)部的姚班、圖靈班已經(jīng)先后培養(yǎng)和孵化出眾多AI界的頂尖人才和創(chuàng)新企業(yè)。
僅以北大為例,先后走出了百度CEO李彥宏、前360首席科學(xué)家顏水成、微眾銀行首席人工智能官楊強(qiáng)等一眾頂尖大佬。
在人工智能領(lǐng)域也是領(lǐng)頭的北大,2002年成立了智能科學(xué)系,該系也是北大在人工智能領(lǐng)域最主要的機(jī)構(gòu),主要從事智能感知、機(jī)器學(xué)習(xí)、數(shù)據(jù)智能分析等方向的基礎(chǔ)和應(yīng)用基礎(chǔ)研究,側(cè)重于理論、方法以及重大領(lǐng)域應(yīng)用上。
其曾參加多項(xiàng)國(guó)家級(jí)重大科研課題和橫向應(yīng)用研究項(xiàng)目,如國(guó)家重大科技攻關(guān)課題、國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃(973)課題、863重大科研課題等30多項(xiàng)科研項(xiàng)目;先后獲得重要科技獎(jiǎng)勵(lì)20多項(xiàng):
其中指紋自動(dòng)識(shí)別技術(shù)先后獲得國(guó)家科技進(jìn)步二等獎(jiǎng)和教育部科技進(jìn)步一等獎(jiǎng),以該項(xiàng)成果為基礎(chǔ)建立了國(guó)內(nèi)最大的指紋技術(shù)產(chǎn)業(yè);人工神經(jīng)網(wǎng)絡(luò)說(shuō)話人識(shí)別新方法的研究獲得教育部科技進(jìn)步一等獎(jiǎng);國(guó)家空間信息基礎(chǔ)設(shè)施關(guān)鍵技術(shù)研究獲得2000年中國(guó)高??茖W(xué)技術(shù)二等獎(jiǎng),入選2000年中國(guó)高校十大科技進(jìn)展等。
此外,北大又宣布成立了人工智能研究院。研究方向包括人工智能數(shù)理基礎(chǔ)和認(rèn)知科學(xué)基礎(chǔ)、智能感知、機(jī)器學(xué)習(xí)、類腦計(jì)算、人工智能治理以及智能醫(yī)療、智能社會(huì)等方面。
而在最近爆火的AI制藥賽道,也有一家由北大系創(chuàng)立的AI企業(yè),正在逐漸嶄露頭角。
2021年5月,英飛智藥宣布完成由麗珠制藥和同創(chuàng)偉業(yè)領(lǐng)投的Pre-A 輪融資,此外在新藥研發(fā)中充分利用并持續(xù)發(fā)展先進(jìn)的AI藥物發(fā)現(xiàn)技術(shù),打造了自主知識(shí)產(chǎn)權(quán)的AI+新藥研發(fā)平臺(tái)——智藥大腦TM。智藥大腦是集頂級(jí)專家人才、一流AI+新藥研發(fā)平臺(tái)、前沿藥物設(shè)計(jì)方法一體的藥物發(fā)現(xiàn)系統(tǒng)。
在這家企業(yè)的背后,其創(chuàng)始人裴劍鋒博士便是北大前沿交叉學(xué)科研究院定量生物學(xué)中心的研究員,此外,其聯(lián)合創(chuàng)始人徐優(yōu)俊和張偉林也分別是北大前沿交叉學(xué)科研究院定量生物學(xué)中心的博士和整合生命科學(xué)博士。
近日,雷鋒網(wǎng)《醫(yī)健AI掘金志》以“AI制藥·下一個(gè)現(xiàn)象級(jí)賽道”為題,邀請(qǐng)華為云、西湖歐米、英飛智藥、宇道生物、燧坤智能五家AI制藥新秀,舉辦了一場(chǎng)線上云峰會(huì)。
作為此次活動(dòng)的演講嘉賓,英飛智藥首席科學(xué)家張偉林,以《人工智能與新藥研發(fā)》為題,對(duì)英飛智藥的管線布局,以及AI平臺(tái)做了介紹。
張偉林表示,最近幾年,生命科學(xué)的一些原創(chuàng)性研究正在加速積累,包括靶標(biāo)機(jī)制、新靶標(biāo)結(jié)構(gòu)以及檢測(cè)和表征方法,都取得了突飛猛進(jìn)的進(jìn)展;而下游產(chǎn)業(yè)端也在愈發(fā)成熟,例如CRO,就將許多任務(wù)做得非常優(yōu)秀。
但醫(yī)藥行業(yè)目前還存在一個(gè)關(guān)鍵性問(wèn)題,就是“新分子發(fā)現(xiàn)與轉(zhuǎn)化效率不足”,也就是當(dāng)新靶標(biāo)還處于早期階段的時(shí)候,很少有人真的敢去提前進(jìn)行布局。
這也導(dǎo)致我們?cè)瓌?chuàng)藥和醫(yī)藥產(chǎn)業(yè)整體處于落后地位。一個(gè)藥物在臨床之前,因?yàn)榛衔锝Y(jié)構(gòu)已經(jīng)確定,適應(yīng)癥也已經(jīng)確定,所以藥物發(fā)現(xiàn)過(guò)程,很大程度決定一個(gè)藥物能否上市,能否創(chuàng)造價(jià)值,可以看做是整個(gè)行業(yè)最重要的命脈之一。
藥物設(shè)計(jì)最重要就是要找到未被滿足的臨床需求。所謂臨床需求,更多是要從患者角度來(lái)考慮,做出來(lái)的藥物才能更有市場(chǎng),我們目標(biāo)具體定量來(lái)說(shuō),就是縮短研發(fā)周期,提高研發(fā)成功率。
對(duì)于分子對(duì)接來(lái)說(shuō),首先需要準(zhǔn)備靶蛋白結(jié)構(gòu)。當(dāng)然生物體也有一個(gè)特質(zhì),就是同樣功能可能會(huì)有同樣折疊方式,當(dāng)沒(méi)有蛋白結(jié)構(gòu)時(shí)候,也可以通過(guò)同源模建把結(jié)構(gòu)模建出來(lái)(alphafold 2可以作到比較準(zhǔn)確的從頭預(yù)測(cè))。
接下來(lái)是結(jié)合位點(diǎn)確認(rèn)。在有的項(xiàng)目中,已經(jīng)有復(fù)合物結(jié)構(gòu),也就明確了小分子結(jié)合位置,可以設(shè)計(jì)一個(gè)更好結(jié)構(gòu)。
而有的時(shí)候,對(duì)于全新蛋白結(jié)構(gòu),其實(shí)并不知道配體是什么,這時(shí)就可以運(yùn)行位點(diǎn)探測(cè)程序,例如CavityPlus程序,在表面進(jìn)行探索。
接下來(lái)才是小分子對(duì)接,對(duì)接之后再對(duì)對(duì)接構(gòu)象進(jìn)行打分評(píng)價(jià),進(jìn)行體外細(xì)胞動(dòng)物實(shí)驗(yàn)。
在這里我對(duì)計(jì)算機(jī)輔助藥物設(shè)計(jì),也就是傳統(tǒng)CADD和AIDD簡(jiǎn)單進(jìn)行一下比較。
CADD主要特點(diǎn)就是每一個(gè)工具和流程目標(biāo)比較明確,而且通量整體也比較高,底層有物理化學(xué)規(guī)則支持。
人工智能輔助計(jì)算(AIDD)就需要定義一個(gè)目標(biāo),這個(gè)模型或者一套流程究竟要干什么,這需要好好規(guī)劃,不然就會(huì)出現(xiàn)定義目標(biāo)對(duì)選擇框架太難的情況,最后導(dǎo)致罷工。
當(dāng)然AIDD最好特點(diǎn)就是超高通量,我們也曾經(jīng)做過(guò)超高通量實(shí)驗(yàn),以分子對(duì)接數(shù)據(jù)為基礎(chǔ)訓(xùn)練機(jī)器體系模型,發(fā)現(xiàn)這個(gè)模型速度能提高一百到二百倍,七八億量級(jí)數(shù)據(jù)庫(kù),大約半天就能完成初步篩選。
以下是演講全部?jī)?nèi)容,雷鋒網(wǎng)做了不改變?cè)獾恼砗途庉嫞?/strong>
首先感謝雷鋒網(wǎng)給我們提供一個(gè)和各位線上朋友進(jìn)行交流的機(jī)會(huì)。
首先介紹一下我自己,我本科專業(yè)是北京大學(xué)化學(xué)系,主要做的是物理化學(xué);幾年之后,又在北京大學(xué)前沿交叉學(xué)科研究院完成博士學(xué)位,在北京大學(xué)化學(xué)系做博士后。
2019年,我和幾位創(chuàng)始人一起參與創(chuàng)立了英飛智藥。
英飛智藥擁有國(guó)內(nèi)非常領(lǐng)先的AI+CADD的開發(fā)團(tuán)隊(duì),之前做CADD已經(jīng)有大概20多年技術(shù)積累。我們的團(tuán)隊(duì)是由AI驅(qū)動(dòng),CADD作為支持輔助,一直在為新品種努力,主要是目前針對(duì)未滿足的臨床需求,努力發(fā)展靶標(biāo)發(fā)現(xiàn)以及藥物發(fā)現(xiàn)的新方法。
我們主要就是開發(fā)自主創(chuàng)新的藥品管線,爭(zhēng)取獲得一個(gè)原始創(chuàng)新藥物,當(dāng)然我們也會(huì)為很多醫(yī)藥企業(yè)和研發(fā)機(jī)構(gòu)提供先進(jìn)的AI新藥研發(fā)技術(shù)服務(wù)和解決方案。
因?yàn)樽鰟?chuàng)新藥是一個(gè)非常復(fù)雜的過(guò)程,所以在這個(gè)過(guò)程中要非常深入和謹(jǐn)慎的思考一些事情,只有這樣創(chuàng)新藥物才能有可能做出來(lái)。
我們公司目前已經(jīng)完成Pre-A輪融資,內(nèi)部平臺(tái)——智藥大腦也已經(jīng)上線,它包括了30多個(gè)藥物設(shè)計(jì)的方法模塊,以及實(shí)用藥物設(shè)計(jì)流程。
同時(shí)公司已經(jīng)開展自研創(chuàng)新候選藥研發(fā)5項(xiàng),4項(xiàng)已經(jīng)完成設(shè)計(jì)工作,IIP-001A項(xiàng)目獲得與上市藥物可比的體外生物活性,IIP-003A項(xiàng)目的第一輪化合物體外活性數(shù)據(jù),接近或超過(guò)陽(yáng)參活性數(shù)據(jù),我們還與多家機(jī)構(gòu)進(jìn)行早期創(chuàng)新藥物研發(fā)合作。
今天晚上的報(bào)告大致包括以下內(nèi)容:
第一部分,新藥研發(fā)的相關(guān)背景;
第二部分,介紹人工智能應(yīng)用于早期藥物研發(fā)的方面;
第三部分,對(duì)人工智能如何推進(jìn)新藥研發(fā)做展望;
首先有一個(gè)問(wèn)題,我們?cè)谝粋€(gè)什么樣的時(shí)代?
其實(shí)我們目前處于一個(gè)Deep Learning的時(shí)代,當(dāng)它第一次出現(xiàn)的時(shí)候,大家還都會(huì)比較迷惑。
自從上世紀(jì)1950年提出人工智能這個(gè)概念之后,這個(gè)概念就一直往前發(fā)展,在1980年到2010年這段時(shí)間,就變成了機(jī)器學(xué)習(xí),并且在這個(gè)時(shí)期提出的許多比較先進(jìn)的機(jī)器學(xué)習(xí)算法,一直到現(xiàn)在還在使用。
而Deep Learning進(jìn)入人們的視野是在2010年之后,因?yàn)殡S著計(jì)算技術(shù)提高,我們有能力做更大規(guī)模計(jì)算,同時(shí)我們也有更多的數(shù)據(jù)。
在更多數(shù)據(jù)面前很多以前l(fā)earning算法的速度達(dá)到上限,而Deep Learning因?yàn)榧夹g(shù)本身的優(yōu)勢(shì),還能夠繼續(xù)往上提高速度,我們目前就處于這個(gè)狀態(tài)。
接下來(lái)我們來(lái)認(rèn)真地想一想究竟什么是learning?
對(duì)于學(xué)習(xí),我們可以很簡(jiǎn)單認(rèn)為,學(xué)習(xí)就是學(xué)會(huì)在接受刺激的時(shí)候該如何正確地產(chǎn)生響應(yīng)。
例如開車過(guò)程,我們?cè)陂_車的時(shí)候,會(huì)收到外界刺激信號(hào),通過(guò)眼睛、耳朵以及身體去感受這些刺激信號(hào),通過(guò)神經(jīng)系統(tǒng)進(jìn)行輸出,最后用手和腳進(jìn)行響應(yīng)。
再比如自動(dòng)駕駛技術(shù),實(shí)際上是利用技術(shù),利用不同感受器、攝像頭、雷達(dá)以及定位等,讓車子知道自己在哪兒,以及所處的環(huán)境,進(jìn)而用機(jī)械來(lái)響應(yīng)。
接下來(lái)看機(jī)器學(xué)習(xí),目前主流機(jī)器學(xué)習(xí)有三種分類:
第一種有監(jiān)督學(xué)習(xí),就是對(duì)一個(gè)數(shù)據(jù)進(jìn)行連續(xù)數(shù)據(jù)映射和分類。
在這種情況下,我們獲得的數(shù)據(jù)一般都是有標(biāo)簽的數(shù)據(jù),實(shí)際就相當(dāng)于我們考試題有標(biāo)準(zhǔn)答案一樣,需要建立這樣一個(gè)映射,能夠映射數(shù)據(jù)標(biāo)簽。
第二種無(wú)監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)在機(jī)器學(xué)習(xí)的時(shí)代比較有兩個(gè)比較著名的概念——聚類和降維。
目前Deep Learning比較火熱就是生成模型,實(shí)際在無(wú)監(jiān)督學(xué)習(xí)中,我們的數(shù)據(jù)是一些無(wú)標(biāo)簽數(shù)據(jù),需要運(yùn)用一些概率統(tǒng)計(jì)算法,然后對(duì)這些數(shù)據(jù)底層固有結(jié)構(gòu)進(jìn)行學(xué)習(xí),然后基于這樣固有結(jié)構(gòu),進(jìn)行人為價(jià)值觀判斷。
第三種強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)最重要的是與環(huán)境交互而獲得獎(jiǎng)勵(lì),比如說(shuō)下棋,通過(guò)與人或其他機(jī)器進(jìn)行對(duì)弈,然后獲得獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)可以就是這盤棋下贏了。
這里很重要的一點(diǎn)就是與環(huán)境交互數(shù)據(jù),學(xué)習(xí)如何采取合理行動(dòng)來(lái)最大化獎(jiǎng)勵(lì),所以在學(xué)習(xí)過(guò)程中,最重要一個(gè)問(wèn)題就是要好好設(shè)定學(xué)習(xí)目標(biāo)到底是什么。
如果一個(gè)目標(biāo)不切實(shí)際,或者這個(gè)目標(biāo)和真實(shí)需求相差太遠(yuǎn),學(xué)習(xí)模型往往只是徒勞而無(wú)功。
接下來(lái)簡(jiǎn)單說(shuō)一下藥物研發(fā)背景。
藥物研發(fā)從現(xiàn)有研發(fā)流程來(lái)看,首先是要提出與疾病相關(guān)的靶標(biāo),再針對(duì)這些新靶標(biāo)開展下一步工作,如果是小分子藥物,就進(jìn)行先導(dǎo)發(fā)現(xiàn)過(guò)程,發(fā)現(xiàn)有潛在活性的小分子化合物,這個(gè)時(shí)候,是否能夠與靶標(biāo)結(jié)合往往是最重要一點(diǎn)。
當(dāng)把機(jī)制搞清楚之后,就可以向下一步候選化合物階段發(fā)展,一般是優(yōu)化小分子性質(zhì),例如生物活性、藥代動(dòng)力學(xué)性質(zhì)、毒性安全性。
當(dāng)化合物基本比較安全,性質(zhì)也非常好之后,就可以開始往臨床進(jìn)行推;經(jīng)過(guò)臨床實(shí)驗(yàn)后,將化合物最終推向市場(chǎng)。
這樣一套流程,最大特點(diǎn)就是研發(fā)周期長(zhǎng),費(fèi)用也比較高,回報(bào)相對(duì)也比較高。
但在許多情況下,這樣流程還有一些不足,例如應(yīng)對(duì)突發(fā)傳染性疾病,在這種情況下,如果沒(méi)有預(yù)先準(zhǔn)備,完全按照這一套來(lái)做,就會(huì)很慢。
我們作為一個(gè)國(guó)內(nèi)的公司,自然要看一看國(guó)內(nèi)新藥研發(fā)的一個(gè)現(xiàn)狀,目前國(guó)家生物醫(yī)藥資源實(shí)際上是非常豐富的,市場(chǎng)也是非常廣闊的。
這幾年,上游生命科學(xué)的一些原創(chuàng)性研究正在加速積累,包括一些新靶標(biāo)、新靶標(biāo)機(jī)制、新靶標(biāo)結(jié)構(gòu)以及一些非常優(yōu)秀的檢測(cè)方法表征方法都在很快的積累,下游工業(yè)化工作,例如CRO也日趨成熟,能夠?qū)⒔淮娜蝿?wù)做得非常好。
但目前仍有一個(gè)關(guān)鍵問(wèn)題新分子發(fā)現(xiàn)與轉(zhuǎn)化效率不足,也就是對(duì)于新靶標(biāo),還很少有人敢去提前布局,新分子發(fā)現(xiàn)和轉(zhuǎn)化效率仍然還是有所欠缺。
藥物發(fā)展過(guò)程這張圖大家都見(jiàn)過(guò),實(shí)際是一個(gè)漫長(zhǎng)的流程,算上生物過(guò)程,前期就需要3-7年。
一般得到候選化合物再往下走,從臨床前實(shí)驗(yàn)到臨床試驗(yàn),都需要漫長(zhǎng)的觀察期,才能最終上市。
我們的創(chuàng)始人裴劍鋒也曾提到過(guò),一個(gè)藥物在上臨床的之前,因?yàn)檫@個(gè)化合物結(jié)構(gòu)已經(jīng)確定,要治的適應(yīng)癥也已經(jīng)確定了,所以藥物發(fā)現(xiàn)的過(guò)程其實(shí)就很大程度上決定了一個(gè)藥物能否上市,所以精準(zhǔn)的藥物設(shè)計(jì)工作是要在非常早期就進(jìn)行規(guī)劃。
藥物設(shè)計(jì)最重要就是要找到未被滿足的臨床需求。所謂臨床需求,更多是要從患者角度來(lái)考慮,做出來(lái)的藥物才能更有市場(chǎng),我們目標(biāo)具體定量來(lái)說(shuō),就是縮短研發(fā)周期,提高研發(fā)成功率。
藥物設(shè)計(jì)有以下的一些主要方向:
第一,要找到創(chuàng)新靶標(biāo)與創(chuàng)新藥物,實(shí)際上這是一種對(duì)疾病的理解;
第二,作用機(jī)理要明確,如果作用機(jī)理不明確,很有可能藥上了市后,出現(xiàn)意想不到的副作用;
第三,就是獲取苗頭化合物和先導(dǎo)化合物;
第四,優(yōu)化先導(dǎo)化合物,這是目前大家都能看到的。
我們的智藥大腦,實(shí)際是需要結(jié)合專家經(jīng)驗(yàn)與先進(jìn)人工智能、CADD技術(shù)以及各種藥物信息技術(shù),來(lái)幫助新靶標(biāo)發(fā)現(xiàn)以及藥物發(fā)現(xiàn),來(lái)最終驅(qū)動(dòng)原始藥物。
在這個(gè)過(guò)程中,要嚴(yán)守物理化學(xué)科學(xué)規(guī)則,并發(fā)揮想象力才能更快成功。
下面來(lái)介紹一個(gè)常見(jiàn)的例子,即基于受體結(jié)構(gòu)的藥物設(shè)計(jì)。
這里需要提一下鎖鑰模型概念:鎖鑰模型就是小分子化合物結(jié)合到蛋白表面的一個(gè)口袋,它們是一種互補(bǔ)的關(guān)系,可以通過(guò)晶體結(jié)構(gòu)來(lái)獲得一個(gè)復(fù)合物。
這個(gè)過(guò)程中,我們會(huì)抽象出一系列重要相互作用,再依據(jù)這些相互作用尋找新分子。這些重要相互作用表征得更好,那么設(shè)計(jì)效果也就越好。
對(duì)于分子對(duì)接來(lái)說(shuō),首先需要準(zhǔn)備靶蛋白結(jié)構(gòu)。當(dāng)然生物體也有一個(gè)特質(zhì),就是同樣功能可能會(huì)有同樣折疊方式,當(dāng)沒(méi)有蛋白結(jié)構(gòu)時(shí)候,也可以通過(guò)同源模建把結(jié)構(gòu)模建出來(lái)(alphafold 2可以作到比較準(zhǔn)確的從頭預(yù)測(cè))。
接下來(lái)是結(jié)合位點(diǎn)確認(rèn)。在有的項(xiàng)目中,已經(jīng)有復(fù)合物結(jié)構(gòu),也就明確了小分子結(jié)合位置,可以設(shè)計(jì)一個(gè)更好結(jié)構(gòu)。
而有的時(shí)候,對(duì)于全新蛋白結(jié)構(gòu),其實(shí)并不知道配體是什么,這時(shí)就可以運(yùn)行位點(diǎn)探測(cè)程序,例如CavityPlus程序,在表面進(jìn)行探索。
接下來(lái)才是小分子對(duì)接,對(duì)接之后再對(duì)對(duì)接構(gòu)象進(jìn)行打分評(píng)價(jià),進(jìn)行體外細(xì)胞動(dòng)物實(shí)驗(yàn)。
在這里我對(duì)計(jì)算機(jī)輔助藥物設(shè)計(jì),也就是傳統(tǒng)CADD和AIDD簡(jiǎn)單進(jìn)行一下比較。
CADD主要特點(diǎn)就是每一個(gè)工具和流程目標(biāo)比較明確,而且通量整體也比較高,底層有物理化學(xué)規(guī)則支持。
人工智能輔助計(jì)算(AIDD)就需要定義一個(gè)目標(biāo),這個(gè)模型或者一套流程究竟要干什么,這需要好好規(guī)劃,不然就會(huì)出現(xiàn)定義目標(biāo)對(duì)選擇框架太難的情況,最后導(dǎo)致罷工。
當(dāng)然AIDD最好特點(diǎn)就是超高通量,我們也曾經(jīng)做過(guò)超高通量實(shí)驗(yàn),以分子對(duì)接數(shù)據(jù)為基礎(chǔ)訓(xùn)練機(jī)器體系模型,發(fā)現(xiàn)這個(gè)模型速度能提高一百到二百倍,七八億量級(jí)數(shù)據(jù)庫(kù),大約半天就能完成初步篩選。
AI模型能夠涵蓋很多其他因素,而這些涵蓋的這么多其他因素,如果直接編程,代碼量會(huì)非常恐怖。所以,現(xiàn)階段CADD和AIDD基本一起使用,才能夠帶來(lái)更好效果。
接下來(lái)介紹一個(gè)比較工具,這是多維度配體的虛擬篩選。
我們把這部分放在先導(dǎo)優(yōu)化步驟,其實(shí)本身也是有爭(zhēng)議的,因?yàn)樗鼞?yīng)該是介于發(fā)現(xiàn)與優(yōu)化之間的這么一個(gè)工具,我們就先簡(jiǎn)單把它歸在先導(dǎo)優(yōu)化這里來(lái)。
簡(jiǎn)單說(shuō)一下基于配體的虛擬技術(shù)。
基于配體的虛擬篩選技術(shù)和我剛才講的基于受體結(jié)構(gòu)不太一樣,這里實(shí)際上有一個(gè)假設(shè):就是相似配體可以結(jié)合在相似口袋當(dāng)中,也就是有可能鑰匙不是原配鑰匙,但也能開這把鎖。
基于配體虛擬篩選技術(shù)的一個(gè)核心概念就是:相似分子需要相似性質(zhì),這涉及分子表征問(wèn)題,即如何說(shuō)明兩個(gè)分子很像。
目前主流技術(shù)上會(huì)做分子描述符、二維分子表征和三維分子表征,核心就是度量問(wèn)題。
分子描述符分為定量和定性兩方面描述一個(gè)分子。
其中有很多性質(zhì)可以來(lái)描述兩個(gè)分子是否相同:例如最基礎(chǔ)可以通過(guò)實(shí)驗(yàn)表征,比如光譜數(shù)據(jù)比較像不像,然后從結(jié)構(gòu)式上就能看出氫鍵供體數(shù)目,物理化學(xué)性質(zhì)。
對(duì)于二維分子表征,二維分子指紋是其關(guān)鍵特征,大概有幾種類型:
第一,按照路徑把它看成一個(gè)圖,就像一筆畫一樣從一個(gè)點(diǎn)到另一個(gè)點(diǎn),走怎樣路徑;
第二,就像剝洋蔥一樣,以一個(gè)點(diǎn)為中心在它周圍畫圈,再使用哈希方式對(duì)它進(jìn)行指紋化處理;
第三,用一些方式直接找其中關(guān)鍵結(jié)構(gòu);
第四,藥效團(tuán),它實(shí)際上更多的是把分子性質(zhì)作為一個(gè)散列化處理。
除了二維指紋之外,目前也有人去設(shè)計(jì)三維分子指紋,三維分子指紋相比二維來(lái)說(shuō)就會(huì)復(fù)雜一些。因?yàn)榉肿尤S構(gòu)象還比較多變,所以三維指紋目前用的還不如二維指紋多。
總結(jié)來(lái)說(shuō),AI多維度配體虛擬篩選,其實(shí)還有很多應(yīng)用場(chǎng)景。
例如細(xì)胞實(shí)驗(yàn),它可能比分子實(shí)驗(yàn)或生化實(shí)驗(yàn)更早建立體系,可以進(jìn)行高通量篩選獲得活性小分子,這可能并沒(méi)有確定靶標(biāo)或只有假設(shè)靶標(biāo),對(duì)于比較感興趣的小分子,會(huì)進(jìn)一步在大庫(kù)里搜索。
這個(gè)時(shí)候如果用對(duì)接搜索,計(jì)算量會(huì)非常大,所以直接用基于配體搜索,就像我們用搜索引擎一樣把它變成字符串搜索,就能很快得到相關(guān)度最高分子。
這是我們和合作者在去年發(fā)表的一篇綜述,里面對(duì)一些分子指紋和基于配體的虛擬篩選提供一些總結(jié),大家可以參考一下。
這是在我們平臺(tái)上做的實(shí)現(xiàn),我簡(jiǎn)單介紹一下流程。
這是非常常見(jiàn)的場(chǎng)景,例如我們?cè)谧x文獻(xiàn)的時(shí)候,發(fā)現(xiàn)一個(gè)化合物很不錯(cuò),這時(shí)就可以通過(guò)截圖方式把它用AI方式直接識(shí)別成一個(gè)計(jì)算機(jī)可讀的分子格式,然后直接提交多維相似性搜索,最后對(duì)搜索結(jié)果用AI模型進(jìn)行全面性質(zhì)評(píng)估。
這個(gè)過(guò)程非常友好,因?yàn)槲覀冊(cè)谧x文獻(xiàn)的時(shí)候突然來(lái)了一個(gè)靈感,但非常不想打斷靈感打開軟件一點(diǎn)點(diǎn)畫出來(lái),只想趕緊知道究竟有哪些與它相似分子,在這個(gè)平臺(tái)可以得到很快驗(yàn)證。
我們的多維相似性搜索,提供了一共7個(gè)維度來(lái)做這個(gè)事情。
為什么目前提供7個(gè)維度呢,因?yàn)槲覀円彩亲隽四P蛅raining和調(diào)整,讓函數(shù)整體表示相對(duì)比較平滑,不會(huì)出現(xiàn)分子指紋斷層問(wèn)題。
說(shuō)完了基于配體的虛擬篩選,我們?cè)賮?lái)講一下基于受體的分子生成。
分子生成是目前人工智能主要的發(fā)力點(diǎn),不管是有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)還是強(qiáng)化學(xué)習(xí),都會(huì)在這些上面進(jìn)行發(fā)力。
因?yàn)榉肿由墒腔谝延蟹肿咏Y(jié)構(gòu)、已有活性,然后學(xué)習(xí)它們的性質(zhì),在這個(gè)空間附近擾動(dòng),獲得新分子,這種情況下主要利用配體信息,也就是利用鑰匙信息。
當(dāng)然更多情況下,我們也可以利用鎖信息,也就是利用受體信息對(duì)空間進(jìn)行限制。
化合物空間實(shí)際上可能有1064之多,但真正針對(duì)到某一個(gè)體系肯定不會(huì)有那么多,受體信息確定后,空間將被大幅縮小。
左邊程序叫LigBuilder,是我們以前做基于片段的全新藥物設(shè)計(jì)程序,它能夠在完成全新藥物設(shè)計(jì)以及多目標(biāo)優(yōu)化的同時(shí),產(chǎn)生類藥性很好,可合成性高的虛擬庫(kù)。
右邊是AI分子逆合成分析,是我們基于AI模型開發(fā)的逆合成方法,如果使用AI逆合成方式,結(jié)合全新藥物設(shè)計(jì),它的計(jì)算效率會(huì)有很好提高。
這個(gè)流程我簡(jiǎn)單說(shuō)一下,這基本上就是我們分子生成的設(shè)計(jì)流程。
一般我們會(huì)根據(jù)項(xiàng)目需求,假設(shè)我們選擇了進(jìn)行基于結(jié)構(gòu)靶標(biāo)生成,就會(huì)先進(jìn)行一輪生成,然后再基于活性進(jìn)行優(yōu)化,優(yōu)化之后還要對(duì)它進(jìn)行綜合評(píng)估。
就像我們前面說(shuō)的AI模型對(duì)于ADMET藥物性質(zhì)預(yù)測(cè)以及毒性預(yù)測(cè),已經(jīng)有比較好的效果。
基于現(xiàn)有數(shù)據(jù)對(duì)其中毒性片段會(huì)發(fā)出一些警示信息;對(duì)于某些影響性質(zhì)片段也能夠做一定指示。
總體來(lái)說(shuō),我們希望能夠在項(xiàng)目早期得到性質(zhì)比較好的分子,對(duì)后面一系列實(shí)驗(yàn)會(huì)有很大幫助。
我簡(jiǎn)單介紹一下我們平臺(tái)智藥大腦。這個(gè)平臺(tái)目前有很多個(gè)工具組成,需要CADD、AI、藥物化學(xué)家、藥理,還有生物靶標(biāo)上游很多知識(shí)匯集。智藥大腦本身是為大家提供了平臺(tái)對(duì)話工具,是真正用AI來(lái)驅(qū)動(dòng)研發(fā)。
接下來(lái)我來(lái)說(shuō)一下我的看法。
首先,AI輔助藥物設(shè)計(jì)這件事情,目前肯定是正在開啟一個(gè)新的時(shí)代,它肯定能夠讓藥物的研發(fā)更快,成本更低,效率更高,尤其是去年AlphaGo2橫空出世,確實(shí)也給我們很大震撼,真的覺(jué)得AI能夠幫到藥物研發(fā)。
其次,制藥工業(yè)在我們國(guó)家確實(shí)是進(jìn)入換擋提速的過(guò)程,我們也緊跟國(guó)外創(chuàng)新藥先進(jìn)治療方法,有些時(shí)候甚至是需要提前布局。
但目前AI還有很多問(wèn)題,對(duì)于AI輔助藥物設(shè)計(jì)這種方法以及實(shí)用性仍還存在問(wèn)題。諸多瓶頸問(wèn)題依然限制著AI方法和技術(shù)在創(chuàng)新藥物研發(fā)中的應(yīng)用,目前多數(shù)AI輔助藥物設(shè)計(jì)方法和系統(tǒng)的實(shí)用性仍需努力。
智藥大腦最后完成之后,還需要大家一起來(lái)評(píng)價(jià),不是簡(jiǎn)單的AI模型堆砌,而是針對(duì)實(shí)際新藥研發(fā)問(wèn)題應(yīng)用場(chǎng)景,開發(fā)和整合多個(gè)底層AI藥物研發(fā)工具和工作流程。
它本身就是集成了很多業(yè)界認(rèn)可的一個(gè)藥物設(shè)計(jì)工具,底層很強(qiáng)調(diào)基于物理原理的科學(xué)解釋和對(duì)生物學(xué)機(jī)制的理解。
我們也希望智藥大腦能夠已經(jīng)被業(yè)界認(rèn)可的計(jì)算機(jī)輔助藥物設(shè)計(jì)工具,提供基于物理原理的解釋,為醫(yī)藥企業(yè)和藥物研發(fā)機(jī)構(gòu)研發(fā)自主知識(shí)產(chǎn)權(quán)創(chuàng)新藥物提供完整實(shí)用的解決方案。
最后是整體總結(jié)和展望。
藥物研發(fā)本身肯定是非常復(fù)雜極具挑戰(zhàn)的過(guò)程,因?yàn)橹芷诒容^長(zhǎng),所以這個(gè)過(guò)程中任何一個(gè)失敗都很難接受。所以AI的技術(shù)發(fā)展,為整個(gè)制藥行業(yè)提供了一個(gè)新的機(jī)遇,當(dāng)然挑戰(zhàn)也是有的。
目前來(lái)看,主要就是在每一個(gè)環(huán)節(jié)和模塊上,都有很高不確定性,對(duì)這些不確定性,我們能夠提供更多證據(jù)鏈來(lái)盡可能降低不確定性,例如:
基于現(xiàn)有數(shù)據(jù)構(gòu)建AI模型預(yù)測(cè)來(lái)提供基于統(tǒng)計(jì)的證據(jù)鏈;
基于現(xiàn)有數(shù)據(jù)構(gòu)建AI模型預(yù)測(cè)來(lái)提供基于統(tǒng)計(jì)的證據(jù)鏈;
利用理論計(jì)算模擬提供一些可解釋的證據(jù)鏈;
專家基于經(jīng)驗(yàn)和各類證據(jù)鏈進(jìn)行合理的實(shí)驗(yàn)設(shè)計(jì)和驗(yàn)證;
利用新一輪的實(shí)驗(yàn)數(shù)據(jù)迭代優(yōu)化AI模型和理論計(jì)算模型,從而提供新的證據(jù)鏈。
Q1:請(qǐng)教一下,您覺(jué)得目前做業(yè)務(wù)的核心壁壘在哪里?
張偉林:我們國(guó)家最近也在做交叉學(xué)科的布局,以前我們交叉學(xué)科研究院已經(jīng)有過(guò)一些實(shí)踐。
其實(shí)不同領(lǐng)域的人面對(duì)的問(wèn)題難點(diǎn)是不一樣的。
比如我以前是做計(jì)算模擬,其實(shí)到現(xiàn)在還是覺(jué)得有些IT問(wèn)題對(duì)我來(lái)說(shuō)是一個(gè)問(wèn)題,但這些問(wèn)題對(duì)于IT專業(yè)人員來(lái)說(shuō)覺(jué)得不是問(wèn)題。
Q2:AI發(fā)現(xiàn)出來(lái)的藥物最大的難點(diǎn)是在分子合成砌塊?
張偉林:我覺(jué)得這不一定是最大難點(diǎn),因?yàn)榭梢越Y(jié)合比較簡(jiǎn)單反應(yīng)來(lái)做,這一點(diǎn)我們和有機(jī)化學(xué)家如果能夠有充分合作,和他們進(jìn)行交流,有機(jī)合成到底應(yīng)該是怎么做。
以前都是從前往后設(shè)計(jì),到最后反饋合成出問(wèn)題就前功盡棄,對(duì)于寫算法的人來(lái)說(shuō),他可能沒(méi)有專業(yè)知識(shí),他沒(méi)寫這些限制,所以最后就會(huì)出問(wèn)題,所以分子合成砌塊我覺(jué)得并不一定是最大的難點(diǎn),但確實(shí)是一個(gè)比較重要的點(diǎn)。
Q3:如何看待AI用于晶型預(yù)測(cè)劑型這兩個(gè)環(huán)節(jié)的價(jià)值?
張偉林:還是非常有價(jià)值的,因?yàn)榫皖A(yù)測(cè)和劑型預(yù)測(cè),以前只能通過(guò)實(shí)驗(yàn)來(lái)做,但目前這個(gè)領(lǐng)域可以用AI來(lái)進(jìn)行處理。
晶型其實(shí)定義更廣泛一些來(lái)說(shuō),它其實(shí)是材料范疇,物理化學(xué)規(guī)則更嚴(yán),所以說(shuō)它能夠獲得很好數(shù)據(jù),也能夠很好反饋到上游。
Q4:用AI篩選的藥物如何平衡活性與毒性?
張偉林:這件事情我們可以做這樣一個(gè)假定,假定靶標(biāo)本身沒(méi)那么大毒性。
因?yàn)榈袠?biāo)處在復(fù)雜的生物網(wǎng)絡(luò)中,那么稍微干預(yù)一下靶標(biāo),可能整個(gè)網(wǎng)絡(luò)系統(tǒng)都?jí)牧?,這也就意味這個(gè)靶標(biāo)毒性很高,那治療窗口就比較窄,這種情況下有可能應(yīng)該換靶標(biāo)或者使用靶標(biāo)組合。
所以如果靶標(biāo)選的好,它的治療窗口就會(huì)比較寬,活性和毒性平衡也就會(huì)比較容易,所以靶標(biāo)一定要慎重考慮好好選擇。
Q5:AI研發(fā)到達(dá)成熟估計(jì)得多久?
張偉林:這個(gè)問(wèn)題其實(shí)很難回答,因?yàn)楸热绯醮鶤lpha fold跟同期一些程序相比優(yōu)勢(shì)還不是特別明顯,但到下一代集成很多專家、數(shù)據(jù)以及算力之后,就達(dá)到非常高的水平。
這其實(shí)是一個(gè)迭代過(guò)程,所需要用到的資源可能不是一個(gè)小單位能夠負(fù)擔(dān)得起,當(dāng)然目前國(guó)內(nèi)一些課題組做得都非常好,也開發(fā)出一些非常先進(jìn)的工具,但我們還需要繼續(xù)向人學(xué)習(xí)。
我舉個(gè)簡(jiǎn)單例子,雖然Alpha fold2對(duì)于一些本身結(jié)構(gòu)比較好的蛋白,它已經(jīng)能夠做一個(gè)預(yù)測(cè),但要說(shuō)真的解決結(jié)構(gòu)問(wèn)題,還需要做實(shí)驗(yàn)。
所以AI藥物研發(fā)達(dá)到成熟需要多久,我覺(jué)得會(huì)一直在路上,因?yàn)楝F(xiàn)在一些算法本身到了一定程度以后就不更新,可能就需要等它成熟以后,五年甚至十年才能知道這件事情,來(lái)告訴我們答案。
Q6:AI研發(fā)的原始數(shù)據(jù)獲取來(lái)源都有哪些?
張偉林:還是很多數(shù)據(jù)來(lái)源的,例如公開數(shù)據(jù)來(lái)源、自有數(shù)據(jù)來(lái)源等都很重要,但最重要還是如何理解這些數(shù)據(jù)質(zhì)量控制,質(zhì)量控制是最重要保證。
如果一個(gè)數(shù)據(jù)量很大,里面什么數(shù)據(jù)都有,例如在某一個(gè)靶標(biāo)活性里面,把各種各樣?xùn)|西甚至是沒(méi)法比較東西都放在一起就會(huì)很麻煩。
Q7:AI平臺(tái)physics-based modeling比較其他模型有什么優(yōu)勢(shì)呢?
張偉林:AI平臺(tái)操作里一個(gè)特點(diǎn)就是有物理原理在里面之后,其實(shí)可以通過(guò)其他物理原理來(lái)對(duì)它進(jìn)行檢驗(yàn),也就是可解釋性是非常好,這是physics-based modeling本身的一個(gè)特質(zhì)。如果別的AI模型,具有理解這種底層進(jìn)行劃分的話,同樣可以很好。
Q8:英飛目前有哪些產(chǎn)品和管線呢?
張偉林:目前我們的產(chǎn)品主要是智藥大腦這個(gè)平臺(tái),供內(nèi)部使用,也相當(dāng)于是不斷打磨內(nèi)測(cè)過(guò)程;然后還和我們一些合作伙伴進(jìn)行應(yīng)用場(chǎng)景探討。
Q9:請(qǐng)問(wèn)英飛有大分子藥物的管線嗎?
張偉林:我們主要部署管線是抗病毒癌癥方向,當(dāng)然大分子也有很多好處,大分子本身特異性還蠻好的,如果我們經(jīng)費(fèi)再高一點(diǎn),計(jì)算資源多一點(diǎn),大分子藥物我們也會(huì)考慮去做,但目前我們并沒(méi)有計(jì)劃在大分子藥物上進(jìn)行布局。
Q10:我是在校計(jì)算化學(xué)學(xué)生,最近也在自學(xué)CS,您介紹基于配體分子篩選-多維度相似性搜索,其中將文獻(xiàn)中結(jié)構(gòu)式識(shí)別成電腦能懂的語(yǔ)言,是需要通過(guò)圖像識(shí)別算法去實(shí)現(xiàn)嗎?
張偉林:覺(jué)得廣義上主要看你想怎么做,就是具體用什么算法來(lái)實(shí)現(xiàn)這個(gè)目的,而且還是要看算法能不能滿足最終目的。
圖像識(shí)別算法實(shí)際上是可以的,就是文獻(xiàn)結(jié)構(gòu)中識(shí)別為電腦能懂的,圖像識(shí)別還是個(gè)蠻不錯(cuò)的算法,因?yàn)榭山忉屝愿谩?/p>
Q11:請(qǐng)問(wèn)像英飛這樣的AI輔助藥物研發(fā)公司的商業(yè)模式是怎樣的?
張偉林:主要商業(yè)模式是這樣,我剛才提到我們是以創(chuàng)新藥為最終目標(biāo),所以我們致力于開發(fā)一個(gè)用AI技術(shù)平臺(tái),基于平臺(tái)驅(qū)動(dòng)開發(fā)創(chuàng)新藥物產(chǎn)品管線。
但新藥研發(fā)的流程很長(zhǎng),所以也會(huì)和其它單位進(jìn)行合作,大家一起做確實(shí)能夠形成優(yōu)勢(shì)互補(bǔ)。
Q12:請(qǐng)問(wèn)在治療疾病方面,大分子藥物與小分子藥物哪種應(yīng)用更廣?哪種更有前景?
張偉林:治療疾病這件事有時(shí)候診斷更重要,因?yàn)樵\斷對(duì)了之后,用對(duì)了藥才會(huì)有實(shí)際效果,如果診斷不對(duì)的話,實(shí)際很難講存活率和效果。
例如癌癥5年存活率,例如PD1響應(yīng)率,這些成功率都還在于對(duì)疾病機(jī)理的理解,也就是一個(gè)疾病還沒(méi)有清楚原因的時(shí)候,很難講選擇什么樣的路徑。
但大分子本身就是因?yàn)楸旧肀容^大,性質(zhì)比較穩(wěn)定,所以基礎(chǔ)性質(zhì)比較好,小分子好處在于生產(chǎn)比較容易,保存比較方便,所以很難講哪個(gè)更有前景,應(yīng)該是并重的。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。