0
本文作者: 任平 | 2023-05-19 09:43 |
“AI的應(yīng)用場(chǎng)景很多,但是AIDD最佳的應(yīng)用場(chǎng)景是品種交付?,F(xiàn)在很多AIDD公司的理念、研發(fā)路徑、戰(zhàn)略都不一樣;如果拿中國歷史比,現(xiàn)在更像春秋時(shí)代,連戰(zhàn)國都還沒到?!?/p>
劉振明博士是北京大學(xué)藥學(xué)院研究員,國家化合物資源庫北京大學(xué)負(fù)責(zé)人,是我國抗腫瘤創(chuàng)新藥物研發(fā)和AIDD領(lǐng)域的科學(xué)家。前不久,劉振明研究員在與雷峰網(wǎng)&《醫(yī)健AI掘金志》的對(duì)話中,表達(dá)了他對(duì)AIDD制藥的一些個(gè)人看法。
作為一名北大培養(yǎng)出的科研工作者,從在北大藥學(xué)院學(xué)習(xí)藥物合成,到北大化學(xué)院學(xué)習(xí)藥物設(shè)計(jì),再到法國實(shí)踐藥理學(xué),劉振明研究員認(rèn)為,多學(xué)科的融匯學(xué)習(xí),促使他走上藥物設(shè)計(jì)方法和候選藥物發(fā)現(xiàn)這條路。
2005年8月至今,劉振明研究員在北大藥學(xué)院藥物化學(xué)系任教,相繼參與北京大學(xué)藥學(xué)院分子設(shè)計(jì)平臺(tái)和化合物庫的建設(shè)。目前,北京大學(xué)正在打造“智慧藥物研發(fā)平臺(tái)”,對(duì)接創(chuàng)新藥物發(fā)現(xiàn)重大國家戰(zhàn)略需求。
隨著醫(yī)藥體制改革的不斷推進(jìn)和創(chuàng)新環(huán)境的不斷改善,中國已經(jīng)進(jìn)入創(chuàng)新藥時(shí)代,頂層制度設(shè)計(jì)為迎接創(chuàng)新藥研發(fā)鋪平了道路,積極開展和建立人工智能驅(qū)動(dòng)的創(chuàng)新藥物研發(fā)(AIDD),成為新一輪產(chǎn)業(yè)變革的核心驅(qū)動(dòng)力。
然而現(xiàn)實(shí)情況卻是,自從2012年Exscientia注冊(cè)成立,AI制藥開始在全球萌芽,至今已經(jīng)十多個(gè)年頭,依然沒有一款A(yù)IDD“獨(dú)立”研發(fā)的藥物成功獲批上市,甚至進(jìn)入臨床試驗(yàn)的藥物都鳳毛麟角。此外,部分進(jìn)入臨床階段的藥物是否全流程基于AI設(shè)計(jì)還存在爭議。
在劉振明研究員看來,“AIDD不是謊言,按照AI研發(fā)的藥物規(guī)律,樂觀來講,給這個(gè)行業(yè)5-8年時(shí)間,能看到一波AIDD設(shè)計(jì)出來的藥物,至少做到讓傳統(tǒng)藥企眼前一亮。完成這歷史性第一步的,未必是現(xiàn)在公認(rèn)為最好的AIDD公司?!?/p>
近日,雷峰網(wǎng)&《醫(yī)健AI掘金志》推出《AI制藥十人談》系列,探究AI制藥的前景與隱憂。以下為我們與劉振明研究員的對(duì)話內(nèi)容,雷峰網(wǎng)&《醫(yī)健AI掘金志》做了不改變?cè)獾木庉嬇c整理。
雷峰網(wǎng):作為一名北大培養(yǎng)出的科研工作者,從在北大藥學(xué)院學(xué)習(xí)藥物的合成,到北大化學(xué)院學(xué)習(xí)藥物設(shè)計(jì),再到法國實(shí)踐藥理學(xué),您何時(shí)嘗試在藥物設(shè)計(jì)中使用計(jì)算機(jī)技術(shù)?
我本科是北京醫(yī)科大學(xué)(現(xiàn)北京大學(xué)醫(yī)學(xué)部)藥學(xué)院藥物化學(xué)專業(yè),直博保送到北京大學(xué)化學(xué)與分子工程學(xué)院物理化學(xué)專業(yè)。雖然是物理化學(xué),但總體來說,五年博士學(xué)習(xí)更側(cè)重計(jì)算化學(xué)。當(dāng)時(shí)和我一同入門的有4 個(gè)博士生,一律都進(jìn)入了計(jì)算機(jī)模擬方向。入學(xué)第五天,我跟師兄就到了國家氣象局接觸到了曙光大型機(jī)和超算,從那時(shí)開始,我就嘗試將計(jì)算機(jī)輔助手段用于藥物研發(fā)。
2005年畢業(yè),我回母校效力,碰巧當(dāng)時(shí)北大藥學(xué)院要建設(shè)計(jì)算機(jī)輔助藥物設(shè)計(jì)(CADD,computer aided drug design)平臺(tái),這就成了我留校任教后的第一個(gè)項(xiàng)目。自然地,CADD就成為了我的研究方向。
后來我到法國做了一年半的訪問學(xué)者,主要工作是熟悉神經(jīng)藥理學(xué)研究的一般流程和規(guī)律,進(jìn)一步熟悉和了解藥物研發(fā)的過程。
為什么要做這個(gè)研究?在此之前,我有幸參與了國家“重大新藥創(chuàng)制”科技重大專項(xiàng)的啟動(dòng)和實(shí)施工作,那時(shí)候我就發(fā)現(xiàn):新藥研發(fā)一定會(huì)成為中國未來10~15年的重要發(fā)展方向。我進(jìn)一步梳理自己的知識(shí)背景,發(fā)現(xiàn)我本科更多是做合成,博士是計(jì)算,所以我到法國,主要是為了補(bǔ)充和完善自己在藥物研究方面的知識(shí)和認(rèn)知體系。
為什么選擇藥理學(xué)?實(shí)際上,藥理學(xué)對(duì)藥物研發(fā)非常關(guān)鍵,很多人將藥理學(xué)定義為一個(gè)“橋梁學(xué)科”,聯(lián)接基礎(chǔ)研究和臨床研究。所以我經(jīng)常感慨,我是站在了“計(jì)算機(jī)科學(xué)”和“生命科學(xué)”的分水嶺上,同時(shí)看到了兩邊的發(fā)展情況。
現(xiàn)在隨著算力的提升,AI真正走入藥物設(shè)計(jì)領(lǐng)域,證明國家的判斷方向是正確的。
AI其實(shí)并不神秘,在我們?nèi)?nèi)一些老師看來,簡化一些講,AI就是定量構(gòu)效關(guān)系,完成各種各樣的定量關(guān)系。只不過當(dāng)時(shí)我們用“已知模型框架”做算法和軟件,后來出現(xiàn)了以“深度神經(jīng)網(wǎng)絡(luò)”為基礎(chǔ)的工具,比如AlphaGo,AlphaGoZero。
從我的經(jīng)歷看,8年前CADD還不是那么火熱,但正如當(dāng)初預(yù)期,現(xiàn)在風(fēng)口來了,CADD的能力逐漸顯現(xiàn)出來了,用了AIDD這個(gè)詞。但無論叫什么名字,藥物研發(fā)的門檻還是蠻高的。
目前大家比較擔(dān)憂的是很多闖入“AIDD”這個(gè)領(lǐng)域的人是不懂藥的,以化學(xué)藥研發(fā)為例,至少要懂藥化、藥理,否則光會(huì)玩程序,算出了一個(gè)binding(用于配體結(jié)合位點(diǎn)的檢測(cè),ligand binding site,LBS),就認(rèn)為解決了藥物發(fā)現(xiàn)的問題,這是比較危險(xiǎn)的“樂觀”。
雷峰網(wǎng):近年來,您在知識(shí)庫構(gòu)建上做了很多工作,為什么決定從數(shù)據(jù)出發(fā)做工作?
我們?cè)跀?shù)據(jù)庫上做了兩個(gè)重要工作。一個(gè)是“通用知識(shí)的海洋天然產(chǎn)物數(shù)據(jù)庫”(CMNPD)。這是北大藥物設(shè)計(jì)研究室與北大計(jì)算機(jī)技術(shù)研究所等多家機(jī)構(gòu)合作構(gòu)建的,面向化學(xué)知識(shí)庫自動(dòng)生成的高效策略平臺(tái)。
以化合物的結(jié)構(gòu)為主索引,在結(jié)構(gòu)信息、制備(來源)信息、譜圖信息、科研人員信息、開展工作的科研實(shí)體等方面實(shí)現(xiàn)了自動(dòng)化提取與整合,目前加工效率達(dá)到每天超300篇文獻(xiàn)(大于每天10000個(gè)結(jié)構(gòu))。
特別是在針對(duì)復(fù)雜天然產(chǎn)物數(shù)據(jù)庫的構(gòu)建中,一個(gè)月內(nèi)就可以完成數(shù)年非冗余海洋天然產(chǎn)物數(shù)據(jù)庫的構(gòu)建與標(biāo)引工作。
另一個(gè)是參與到北京大學(xué)張陸霞研究員所承擔(dān)的重點(diǎn)研發(fā)計(jì)劃“生物與信息融合(BT 與 IT 融合)”重點(diǎn)專項(xiàng):“基于AI大數(shù)據(jù)驅(qū)動(dòng)和可信安全計(jì)算的創(chuàng)新藥物篩選系統(tǒng)研發(fā)與應(yīng)用”,前不久啟動(dòng)會(huì)在北大醫(yī)學(xué)部召開。
回過頭看,我們?yōu)槭裁匆鲞@些數(shù)據(jù)庫項(xiàng)目?
因?yàn)樵缭谖迥昵拔覀兙鸵庾R(shí)到了數(shù)據(jù)的重要性。當(dāng)時(shí)我們也在用別人的數(shù)據(jù),雖然能拿到一部分?jǐn)?shù)據(jù),但是底層數(shù)據(jù)是觸及不到的。所以即便我們的能力再高,在下游的模型搭建上只能做一些修修補(bǔ)補(bǔ)的工作。
但這五年以來,我反而對(duì)自己做的模型和方法更有信心了,因?yàn)槲覀冎睋舻耐袋c(diǎn)是“自主可控的原始數(shù)據(jù)”。只有自主可控的數(shù)據(jù),才能使得模型自主可控。
目前我們的CMNPD數(shù)據(jù)平臺(tái)上線后,一年內(nèi)達(dá)六萬點(diǎn)擊量, 90多個(gè)國家訪問。不同人的需求對(duì)接過來,我們首先會(huì)問他們要做什么問題?所以很明顯,數(shù)據(jù)成了我們的護(hù)城河。
總體來說,后信息時(shí)代的生物醫(yī)學(xué)研究,使整個(gè)生命科學(xué)領(lǐng)域都面臨著學(xué)科整合的問題。只有整合,才能避免科學(xué)研究中的“盲人摸象”,而不同學(xué)科之間整合的基礎(chǔ)和最優(yōu)途徑,就是結(jié)構(gòu)化的知識(shí)和數(shù)據(jù)。
所以現(xiàn)在我有一個(gè)判斷:未來“基于數(shù)據(jù)的科研”可能會(huì)超過“基于實(shí)驗(yàn)的科研”,效率和維度都會(huì)提升。而且大家也意識(shí)到,基于高維數(shù)據(jù)可以俯瞰整個(gè)學(xué)科,這要和翻閱某一學(xué)者的一篇文獻(xiàn)或者若干篇文獻(xiàn),或者基于自身知識(shí)體系看到的東西不一樣。
雷峰網(wǎng):有人稱,AIDD一定會(huì)成為藥研專家必不可少的工具,這也意味未來數(shù)據(jù)一定是“兵家必爭之地”。目前您在這方面有哪些準(zhǔn)備?
大家都知道,數(shù)據(jù)很值錢,但如果僅僅把數(shù)據(jù)存到硬盤上是不值錢的,那是死數(shù)據(jù)。所以近年來,很多人想用聯(lián)邦學(xué)習(xí)解決這一問題。
但聯(lián)邦學(xué)習(xí)最大的問題在哪?
它本質(zhì)上是一種加密的分布式機(jī)器學(xué)習(xí)技術(shù),可以在不披露底層數(shù)據(jù)和加密形態(tài)的前提下共建模型。但在實(shí)際使用中,如果只是做了數(shù)據(jù)接口,并不能解決數(shù)據(jù)稀缺的問題。
首先,聯(lián)邦學(xué)習(xí)使用的數(shù)據(jù),大部分都是拷貝數(shù)據(jù),甚至有些數(shù)據(jù)清洗完丟失了很多信息;
其次,由于聯(lián)邦學(xué)習(xí)的數(shù)據(jù)光有接口,沒有打通數(shù)據(jù)內(nèi)部,所以“模型拿走數(shù)據(jù)留下”的理念具體實(shí)施起來非常難。
此外,國內(nèi)搞了很多數(shù)據(jù)匯交,數(shù)據(jù)中心,但很多時(shí)候這些也都是“死數(shù)據(jù)”。
舉個(gè)例子,ACS(American Chemical Society,美國化學(xué)學(xué)會(huì))是世界上最大的科技協(xié)會(huì)之一,涵蓋了20多個(gè)與化學(xué)相關(guān)的學(xué)科,是全球被使用次數(shù)最多的化學(xué)期刊源之一。
為什么ACS這么受歡迎?因?yàn)锳CS的一大特色,Article References可直接鏈接到Chemical Abstracts Services(CAS)的資料記錄,也可與PubMed、Medline、GenBank、Protein Data Bank等數(shù)據(jù)庫相鏈接。
但ACS的創(chuàng)立時(shí)間是1876年,有150年的發(fā)展歷史,現(xiàn)在ACS為了讓數(shù)據(jù)流動(dòng),每年幾乎花費(fèi)4億美元從全世界找人往里面敲數(shù)據(jù)。
這個(gè)事情中國現(xiàn)在干不了,我們和國外的差距,一是時(shí)間沉淀,二是資金支持。
因此,大概在五年前我們定了一個(gè)原則:絕對(duì)不做人工的事情,要做主動(dòng)數(shù)據(jù)采集,不能做被動(dòng)的數(shù)據(jù)獲取,而且要找一個(gè)和AI技術(shù)結(jié)合得更好的數(shù)據(jù)解決方案。
我們現(xiàn)在認(rèn)為自己做的還不錯(cuò)的是“面向結(jié)構(gòu)的生物醫(yī)藥大數(shù)據(jù)生態(tài)社區(qū)”。這個(gè)社區(qū)的建設(shè)不依靠人工,首先是太過昂貴漫長,其次是依賴責(zé)任心和主觀判斷得到的數(shù)據(jù)也不可靠。
我們采取了幾種方式:
第一,自動(dòng)化數(shù)據(jù)主動(dòng)采集。
我們不會(huì)讓研究者自己去上傳數(shù)據(jù),而是采用光學(xué)識(shí)別技術(shù)(OSR,Optical Scanning Recognition)、語義識(shí)別技術(shù)(NLP)在內(nèi)的AI策略,自動(dòng)且高效抓取數(shù)據(jù)和構(gòu)建知識(shí)庫
第二,打造“面向?qū)W科的數(shù)據(jù)知識(shí)信息體系和社區(qū)”。
比如某位研究海洋天然產(chǎn)物的學(xué)者發(fā)了200篇文章和專利,我們只要把他的200篇文章和專利做結(jié)構(gòu)化,就能很快推出一個(gè)免費(fèi)的知識(shí)庫。他本人也不再需要使用excel或者word工具去做標(biāo)記,而是郵箱或賬號(hào)登陸,馬上就能看到結(jié)構(gòu)化信息。
更進(jìn)一步地,他可以再次利用自己的已有知識(shí)做分析或補(bǔ)充,并獲得相應(yīng)的積分,再去換取別人的知識(shí)和數(shù)據(jù)。通過我們的初步實(shí)踐發(fā)現(xiàn),這也許才是打造一個(gè)高質(zhì)量知識(shí)庫的更好路徑。
事實(shí)上,結(jié)構(gòu)化數(shù)據(jù)庫已經(jīng)成為我們研究小組的根基。雖然占比不大,但是自從開始做這個(gè)方向后,我們愈發(fā)看好這個(gè)方向,也計(jì)劃在這個(gè)方向上投入相關(guān)的人力、物力。期待未來在藥物研發(fā)的某個(gè)細(xì)分領(lǐng)域做出類似ChatGPT的工具。
雷峰網(wǎng):北大在藥物設(shè)計(jì)上非常開放,建立藥物設(shè)計(jì)研究室,生物醫(yī)藥大數(shù)據(jù)庫和生態(tài)社區(qū),藥物設(shè)計(jì)-信息與情報(bào)分析中心、“智慧藥物研發(fā)平臺(tái)”,與杭州市共建創(chuàng)新應(yīng)用基地,以及前不久和10家單位共同開發(fā)創(chuàng)新藥物篩選系統(tǒng)。您在這一過程中也進(jìn)行了不少跨學(xué)科合作,有哪些課題可以分享?
在AI方向上,北大前不久剛剛獲批教育部支持建設(shè)的“中國首個(gè)智慧藥物研發(fā)平臺(tái)”。這個(gè)平臺(tái)包括了智能設(shè)計(jì)、智能合成、智能檢測(cè),智能篩選等四個(gè)模塊,都可以對(duì)外合作。
我們正在跟晶泰科技洽談,希望將他們的智能化自動(dòng)化實(shí)驗(yàn)室,發(fā)展為我們面向特定合成方法的、訓(xùn)練模型的“數(shù)據(jù)產(chǎn)生器”。
如果將來面向單步合成的條件篩選一天能產(chǎn)生1萬個(gè)數(shù)據(jù)點(diǎn),一年就是365萬個(gè)數(shù)據(jù)點(diǎn),某種程度上就可以破解國外的數(shù)據(jù)壁壘或數(shù)據(jù)封鎖。
除了擴(kuò)大數(shù)據(jù)生產(chǎn)渠道,在數(shù)據(jù)標(biāo)準(zhǔn)上我們也有對(duì)外合作。
比如,我們跟望石智慧成立了“北大醫(yī)學(xué)-望石智慧AI生物醫(yī)藥數(shù)據(jù)技術(shù)協(xié)同創(chuàng)新聯(lián)合實(shí)驗(yàn)室”,在此基礎(chǔ)上合作孵化了一些高質(zhì)量的數(shù)據(jù)產(chǎn)品,并開發(fā)了一些面向業(yè)界的解決方案。
實(shí)際上,我跟望石智慧的創(chuàng)始人周杰龍先生在2017年6月就有過交流。我們之所以一拍即合,第一,我們都認(rèn)清了一個(gè)問題,AIDD最根本的東西是數(shù)據(jù)、高質(zhì)量、自主可控的數(shù)據(jù);第二,AI的盈利模式很多,但是AIDD的盈利模式一定是藥物品種交付。
我特別希望這個(gè)行業(yè)中有更多的公司成長起來,所以我以及北大團(tuán)隊(duì)都非常開放,我們和很多藥企都有學(xué)生聯(lián)合培養(yǎng),比如泰德制藥、普洛藥業(yè)、望石智慧。
我接下來要講一句話:中國現(xiàn)在已經(jīng)進(jìn)入到創(chuàng)新藥時(shí)代,很重要的一點(diǎn),我們“懇請(qǐng)”中國的創(chuàng)新藥企業(yè)幫助中國的科研院所一起成長,把我們自己的創(chuàng)新藥研發(fā)能力提升上來,進(jìn)而服務(wù)于企業(yè)的藥物研發(fā)。
我現(xiàn)在基本上每個(gè)月出差三次以上,主要工作就是和業(yè)界、醫(yī)院溝通,包括我們很多項(xiàng)目都是跟企業(yè)、醫(yī)院一起申請(qǐng)的。我們課題組算是跟行業(yè)、產(chǎn)業(yè)結(jié)合比較緊密的實(shí)驗(yàn)室。
這也是北大的一個(gè)理念:給企業(yè)提需求,高校建高地。我也經(jīng)常跟學(xué)生講,我們做任何事,一定要面向需求,就像習(xí)總書記經(jīng)常告訴我們科研人員的那句話:廣大科技工作者要把論文寫在祖國的大地上,把科技成果應(yīng)用在實(shí)現(xiàn)現(xiàn)代化的偉大事業(yè)中。
雷峰網(wǎng):從您自己的研究經(jīng)歷出發(fā),您覺得現(xiàn)在AI制藥人才應(yīng)該如何培養(yǎng),還有哪些不足和問題?
我個(gè)人感覺AI制藥這個(gè)概念熱得太快。AIDD絕對(duì)有用,但需要一個(gè)發(fā)展過程,往后再看5年到8年,AIDD對(duì)于藥物研發(fā)和智能醫(yī)療的作用一定不可估量。
為什么需要 5 到 8 年?實(shí)際上,這就是AIDD領(lǐng)域中的技術(shù)積累和爬坡的過程,而且這個(gè)過程必然要有,學(xué)費(fèi)一定要交。
對(duì)學(xué)校的科研團(tuán)隊(duì)而言,科研經(jīng)費(fèi)比較充足,不那么迫切,但對(duì)于AIDD從業(yè)者和投資人來講,大家都要有一些耐心。我能肯定的是,未來AIDD的收益一定會(huì)超過傳統(tǒng)的藥物研發(fā),而且周期一定會(huì)縮短,但也絕對(duì)不會(huì)像醫(yī)療器械研發(fā)那么快。
回過頭看人才培養(yǎng),這個(gè)領(lǐng)域快速熱起來,我挺高興也挺擔(dān)憂的。
一方面這個(gè)領(lǐng)域非常缺人,另一方面AIDD在過去屬于小眾學(xué)科,人才輸出量沒有那么大,能夠培養(yǎng)到博士的人才更是少之又少。
但是讓老師們非常尷尬的是,即使是一些在校期間水平不高的學(xué)生,因?yàn)檎瓷狭艘粋€(gè)概念,薪資不不低?,F(xiàn)在一個(gè)碩士的月薪炒到3萬以上,一個(gè)博士月薪炒到5萬以上,高校培養(yǎng)人才蠻難的,人都搶光了。
雷峰網(wǎng):國外有些基于AIDD的新藥推到了臨床一期,您覺得截至今天,進(jìn)入臨床的分子里面有哪些是沒有AIDD,專家就無法設(shè)計(jì)出來的嗎?AIDD的重要性是否會(huì)提高?
首先回答第一個(gè)問題,AIDD能夠贏過專家?
大家可以這樣理解,藥物開發(fā)在某種程度上是“大海撈針”,那么AIDD在內(nèi)一些新技術(shù)、新策略的介入,是讓“撈針”的準(zhǔn)確性稍微高點(diǎn)。但這個(gè)任務(wù)的本質(zhì)沒有變化,它依舊是大海撈針。所以如果把一個(gè)藥物的發(fā)現(xiàn)過程倒回去,再重新做一遍,有可能就是變成了另一條路徑。
藥物研發(fā)中的影響因素比較多,是因?yàn)樗幬镅邪l(fā)本身的鏈條很長,涉及數(shù)據(jù)、法規(guī)、主觀因素,絕對(duì)不能說“沒有AIDD,藥物就發(fā)現(xiàn)不出來”。如果真的如此,那之前很多藥物都是怎么來的?
但與此同時(shí),AIDD的作用也在逐漸提高。
現(xiàn)在我們經(jīng)常在講,要做基于臨床需求的、新技術(shù)驅(qū)動(dòng)的創(chuàng)新候選藥物研發(fā)。沒有臨床需求,藥物研發(fā)就是“無病呻吟”,沒有落腳點(diǎn)。
舉個(gè)例子,之前有個(gè)新聞?wù)f到一個(gè)生理學(xué)家的女兒患了罕見病,無藥可治,這位父親就去學(xué)習(xí)藥學(xué)知識(shí),了解這種罕見疾病的臨床表現(xiàn),再利用自己的已有手段,結(jié)合新技術(shù),完成整個(gè)藥物發(fā)現(xiàn)過程。
所以這位父親是有了主觀動(dòng)力,才想去解決具體的臨床需求。但如今的行業(yè)現(xiàn)狀是,新技術(shù)有了,但70%的疾病依然沒有臨床治療藥物。
第二個(gè)問題,AIDD的重要性是否提高?
我做一個(gè)推斷,未來5-8年,大家會(huì)看到AIDD參與到藥物發(fā)現(xiàn)過程中的證據(jù)或痕跡。那時(shí)候人們會(huì)驚嘆AIDD的巧妙:“為什么計(jì)算機(jī)能發(fā)現(xiàn),我沒有發(fā)現(xiàn)?”
如果AIDD能給一個(gè)傳統(tǒng)藥物學(xué)家感受到驚喜,那它就是有優(yōu)勢(shì)的。所以我們是兩邊站的,我們?cè)敢馊ソ邮芤恍┬录夹g(shù),期待它能超越我們。
不要說AIDD賦能整個(gè)藥物研發(fā)鏈條,只要它能解決其中某一個(gè)環(huán)節(jié),把這一個(gè)環(huán)節(jié)做好,在大家倒推結(jié)果的時(shí)候,發(fā)現(xiàn)這個(gè)工具確實(shí)是充分必要條件,就足夠了。
雷峰網(wǎng):AIDD和CADD,或者說AI方法和物理方法,各有什么優(yōu)缺點(diǎn)?您認(rèn)為未來二者的關(guān)系是什么?
這兩個(gè)詞怎么理解?CADD的全稱是computer aided drug design,計(jì)算機(jī)輔助藥物設(shè)計(jì);AIDD是AI drug discovery,人工智能輔助藥物發(fā)現(xiàn)。
業(yè)界在講,“為什么以前叫CADD不熱,叫AIDD就突然熱了?”
解釋一下,CADD是先預(yù)設(shè)一個(gè)模型,這個(gè)情況下需要加入專家經(jīng)驗(yàn)。
比如我認(rèn)為它是S型模型、二元一次函數(shù),都是我給它預(yù)設(shè)一個(gè)模型之后,再用數(shù)據(jù)去訓(xùn)練它,最后把這個(gè)模型變成方程,并應(yīng)用到具體的領(lǐng)域中。這也是早期機(jī)器學(xué)習(xí)的基本思想。
那么AIDD是什么?它不用做預(yù)設(shè),給它一堆數(shù)據(jù),直接就能基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一個(gè)模型,機(jī)器學(xué)出來什么算什么。這個(gè)過程當(dāng)中,當(dāng)加入新數(shù)據(jù)時(shí),它能夠自動(dòng)做優(yōu)化。
大家知道遷移學(xué)習(xí)(Transformer Learning),它最大的作用是以任務(wù)A開發(fā)的模型作為初始點(diǎn),重新使用在為任務(wù)B開發(fā)模型的過程中。
例如,有了英語的語言模型后,后續(xù)只需要提供法語法規(guī)則和小樣本數(shù)據(jù),就可以很快幫你生成法語的語言模型。
但是AIDD的短板也很明顯--只要有數(shù)據(jù),它始終能給出答案。但是基于10個(gè)數(shù)據(jù)和基于1萬個(gè)數(shù)據(jù)的答案是不一樣的,但總會(huì)有“答案”。
因此,對(duì)AIDD來說,它和CADD一樣:大量的、高質(zhì)量數(shù)據(jù)是剛需。
基于這一點(diǎn),我始終認(rèn)為,CADD和AIDD沒有本質(zhì)性的差別,本身就是一體的,只不過業(yè)界或投資者有意把它們割裂了。至于各自的優(yōu)缺點(diǎn),業(yè)界的觀點(diǎn)不太一樣。
但只要有用,它們可以融合互補(bǔ)。比如目前數(shù)據(jù)不足的情況下,CADD肯定有優(yōu)勢(shì),因?yàn)樗囊徊糠帜P褪腔趯<蚁到y(tǒng)做出來的,普通人的知識(shí)很難企及。
而在數(shù)據(jù)足夠多的時(shí)候,當(dāng)數(shù)據(jù)本身可以涵蓋或者超越專家的認(rèn)知,AIDD的優(yōu)勢(shì)會(huì)更明顯。這也是我們看好AIDD的一個(gè)原因。
但是現(xiàn)在行業(yè)里太多人愛蹭熱點(diǎn),包括最近GPT-4.0出來后,有些AIDD公司一周內(nèi)就推出了所謂的“DrugdesignGPT”,這種跟風(fēng)做出來的東西意義不大。
第一,達(dá)不到預(yù)期,自己和資本方失去信心;
第二,對(duì)藥物發(fā)現(xiàn)的本質(zhì)和核心路徑的改變并沒有實(shí)質(zhì)性貢獻(xiàn)。
雷峰網(wǎng):針對(duì)國內(nèi)創(chuàng)新藥研發(fā)現(xiàn)狀,目前還是 Fast follow 居多,或者是 me too ,me better,這種情況下最需要AI去解決什么問題?
首先我們要回歸到一個(gè)本質(zhì)問題,AI最大的作用在哪?
當(dāng)給它40%的數(shù)據(jù),AI有可能基于40%的數(shù)據(jù)產(chǎn)生一個(gè)模型,找到另外60%數(shù)據(jù)中的缺失點(diǎn)?,F(xiàn)在我們比較看好AI模型,因?yàn)樵缭?016年和2017年,AlphaGo和AlphaGoZero已經(jīng)展示出AI的“創(chuàng)造力”:當(dāng)給它足夠多的棋譜數(shù)據(jù)之后,它能夠創(chuàng)造新的棋譜。
現(xiàn)在我們?cè)诟鷩鴥?nèi)的藥企去聊,發(fā)現(xiàn)大家都形成了一個(gè)基本共識(shí):Fast follow沒有前途,很多藥企提出新的創(chuàng)新藥口號(hào),“我們要做世界前五,中國前三?!?/p>
為什么?
因?yàn)橹袊呀?jīng)被迫進(jìn)入創(chuàng)新藥時(shí)代,頂層制度設(shè)計(jì)為迎接創(chuàng)新藥時(shí)代鋪平了道路。
2018年3月,十三屆全國人大一次會(huì)議表決通過了關(guān)于國務(wù)院機(jī)構(gòu)改革方案的決定,組建國家醫(yī)療保障局和國家市場(chǎng)監(jiān)督管理總局;
2019年1月國務(wù)院辦公廳印發(fā)《國家組織藥品集中采購和使用試點(diǎn)方案》的通知,確定將在4個(gè)直轄市和7個(gè)城市進(jìn)行帶量采購,涉及31個(gè)指定規(guī)格的采購品種。
2021年7月,國家藥監(jiān)局關(guān)于實(shí)施《藥品專利糾紛早期解決機(jī)制實(shí)施辦法(試行)》相關(guān)事宜的通告,預(yù)示著未來Fast follow生存空間變小,F(xiàn)ast in Class勢(shì)在必行。
而且當(dāng)中國進(jìn)入創(chuàng)新藥時(shí)代后,不管你愿意面對(duì)還是不愿意面對(duì),都要面對(duì)。
像我們國家非常好的某家藥企,2021年裁員了仿制藥員工,根本原因是Fast in Class和Fast follow的思路完全不一樣。
前幾年創(chuàng)新藥企業(yè)的日子比較好,某醫(yī)藥企業(yè)登陸港股市場(chǎng),但上市來研發(fā)跟不上,對(duì)投資人的信心也有打擊,最終結(jié)果是大家對(duì)創(chuàng)新藥投資比較悲觀。
但是再悲觀,創(chuàng)新藥時(shí)代已經(jīng)來了,現(xiàn)在的重點(diǎn)是找到一顆好種子。
以前做仿制藥,大家在找種子這件事上不愿意花錢,撿別人的就行。按照以前的藥物研發(fā)生態(tài),做成歪瓜裂棗也照樣有人買。
現(xiàn)在你會(huì)發(fā)現(xiàn),如果沒有一個(gè)好種子,你的努力全部白費(fèi),市場(chǎng)和監(jiān)管層都不可能認(rèn)可。
因此,如何找到一顆好種子,需要“新技術(shù)、新策略驅(qū)動(dòng)創(chuàng)新藥候選品種研發(fā)”。實(shí)際上,AIDD就屬于其中的一種新技術(shù)。我們比較看好,未來AIDD一定能夠在創(chuàng)新藥研發(fā)過程中賦能。
同時(shí),我不想把AIDD單獨(dú)拿出來說 ,因?yàn)樗褪且环N賦能技術(shù)。
我們也是親歷者和踐行者,它一定能夠起到作用,存在一條上升曲線,具體發(fā)揮什么作用,業(yè)界和投資界都稍微給點(diǎn)耐心。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)):自從2012年首家AI制藥公司成立,至今已經(jīng)第十個(gè)年頭,但是依然沒有一款藥物成功獲批上市,甚至進(jìn)入臨床試驗(yàn)的藥物都鳳毛麟角。AI研發(fā)的藥物距離上市還有多遠(yuǎn)?
實(shí)際上你們看到的,跟我們看到的一樣。所以我對(duì)行業(yè)的一個(gè)忠告,現(xiàn)在AI制藥企業(yè)正處于艱難期,在資本和外界都很焦慮的情況下,一定不要為了應(yīng)付“考試”,說出一些莫須有的話。
AIDD這個(gè)東西不是謊言,按照AI的藥物研發(fā)規(guī)律,具體還有多長時(shí)間上市,我不能直接回答你,樂觀來講,給這個(gè)行業(yè)5到8年時(shí)間,就能看到一波AIDD設(shè)計(jì)出來的藥物,至少做到讓傳統(tǒng)藥物廠商眼前一亮。
現(xiàn)在以藥學(xué)驅(qū)動(dòng)的公司,或者圍繞藥物研發(fā)的公司太少。
有一個(gè)數(shù)據(jù),截至2022年底,國內(nèi)已經(jīng)成立了73家AI制藥公司,大部分都是IT背景的創(chuàng)業(yè)者轉(zhuǎn)過來的,他們?nèi)匀皇恰盎ヂ?lián)網(wǎng)+”的模式。真正的AIDD,我想一定是藥學(xué)家牽頭的,叫做“藥學(xué)+AI” 的方式。
可能在投資人看來,第一,藥學(xué)家自己不敢吹,第二,藥物家相對(duì)比較保守,這幫人知道藥物研發(fā)這個(gè)任務(wù)有多大,也知道其中有多少變數(shù)。
但是現(xiàn)在很多AIDD制藥公司的理念、研發(fā)路徑、戰(zhàn)略都不一樣,如果拿中國歷史比,現(xiàn)在更像春秋時(shí)代,連戰(zhàn)國都還沒到。
當(dāng)然,我也對(duì)AIDD的未來充滿信心。因?yàn)檎麄€(gè)醫(yī)藥研發(fā)體系分為兩個(gè)階段:以PCC為臨界點(diǎn),前端為research研究;后端為development研發(fā)。
中國的后端研發(fā)體系很強(qiáng)大,特別是相對(duì)于歐洲,只要PCC之前的東西做好,中國至少在全世界排名前三沒問題。所以中國藥物研發(fā)的最大問題在于,前端的基礎(chǔ)研究沒有做好,根本能力提升不了。但只要種下一顆好種子,藥物研發(fā)領(lǐng)域的信譽(yù)就建立起來了。
這也給我們高校老師提出的一個(gè)要求。對(duì)于產(chǎn)業(yè)也是一樣,好種子種活了,整個(gè)產(chǎn)業(yè)都是得利的,所有環(huán)節(jié)都能打通。
雷峰網(wǎng):目前AI制藥公司大都進(jìn)行到什么階段,還有哪些痛點(diǎn)沒有解決,技術(shù)瓶頸在哪?
瓶頸倒不在技術(shù),是很多AI制藥公司沒有真正的做過藥物研發(fā)。
我個(gè)人觀點(diǎn),IT驅(qū)動(dòng)的AIDD公司,軟件產(chǎn)品乃至服務(wù)都不是產(chǎn)業(yè)想要的東西。
其次,現(xiàn)在AIDD從業(yè)者, IT人很多,但是真正參與的臨床專家、藥學(xué)專家還太少。當(dāng)然,一些公司可能是為了融資,找了一個(gè)做藥的人站臺(tái)。但實(shí)際上做藥物研發(fā),并不是靠一個(gè)藥學(xué)背景的人就夠了。
此外,IT人創(chuàng)立的公司,基因是IT的思維,藥企人可能融不進(jìn)去。未來需要讓更多的臨床學(xué)家、藥物學(xué)家加入到AI制藥中,由他們來攢局,創(chuàng)立IT公司,或者招募一批IT人才,解決藥物研發(fā)當(dāng)中的數(shù)據(jù)、知識(shí),以及模型的問題。這樣才能真正的觸及AIDD技術(shù),促使它面向產(chǎn)業(yè),面向研發(fā)任務(wù)。
現(xiàn)在有個(gè)聲音:未來會(huì)死一批AI制藥公司。
因?yàn)楹芏喙居没ヂ?lián)網(wǎng)思維做藥物研發(fā),互聯(lián)網(wǎng)思維做消費(fèi)是可以的,它們叫“高舉快打”,但是在藥品研發(fā)領(lǐng)域,藥物研發(fā)的周期太長,速度太慢,“互聯(lián)網(wǎng)+”這種方式不適合,半天到不了終點(diǎn)。
雷峰網(wǎng):針對(duì)創(chuàng)新藥,國內(nèi)在這一領(lǐng)域還存在哪些薄弱環(huán)節(jié)?
有很多,最直接的是國家提倡的基礎(chǔ)研究沒跟上。
我們?yōu)槭裁磿?huì)follow?說到底是別人有了,我們一做就是follow。原始創(chuàng)新太少。
比如靶點(diǎn)發(fā)現(xiàn),人家敢做,我們敢做嗎?
人家敢做,是因?yàn)楸澈笥写罅康难邪l(fā)數(shù)據(jù),證明這個(gè)東西跟疾病密切相關(guān)。但試想一下,你一做之后,人家不做了,你心里是什么滋味,肯定很慌。這就是說,如果沒有原始創(chuàng)新,你只能永遠(yuǎn)被迫去做follow。從國家層面來講,基礎(chǔ)研究是一個(gè)長期的事情。
同時(shí),中國的優(yōu)勢(shì)也很明顯:人口優(yōu)勢(shì)。這是西方所不具備的。因此我們的重要工作,是面向臨床做原始藥物發(fā)現(xiàn)。此外還有一點(diǎn),要推動(dòng)中國特色的創(chuàng)新藥物研發(fā),要制定我們自己的臨床藥物評(píng)審原則。
雷峰網(wǎng):新藥發(fā)現(xiàn)太難,很多百年藥企巨頭的爆款藥物很多是靠收購而來。那么AIDD公司的出現(xiàn),是否會(huì)加速百年藥企“藥物研發(fā)”的沒落?也就是說,百年藥企越來越依賴外部創(chuàng)新,自身的創(chuàng)新是否愈加乏力,會(huì)不會(huì)出現(xiàn)一種惡性循環(huán)?
百年藥企,為什么會(huì)做這個(gè)事情?
第一,有錢。
國外大藥企經(jīng)常一個(gè)License out能開到20億。但小的企業(yè)做不了這個(gè)事情,包括國內(nèi)大藥企也做不了,仍然保持自研。
第二,百年藥企的成本權(quán)衡。
國外大藥企很風(fēng)光,但是內(nèi)部的管理成本、人員成本,要遠(yuǎn)遠(yuǎn)超過小企業(yè)。
如果他們自己培養(yǎng)一支AI團(tuán)隊(duì),一年要花20個(gè)億,還不如合作上花20億和AI制藥公司合作,既能收到“果實(shí)”,還有可能埋了幾個(gè)“種子”。而且只要能成一個(gè),依靠他們這種大公司的強(qiáng)大商業(yè)能力,一定能獲得回報(bào)。
所以我和創(chuàng)新企業(yè)交流時(shí)會(huì)說一句話,如果你本身沒有AI研發(fā)基因,還不如跟高校合作,學(xué)習(xí)大藥企的思路,把原始研發(fā)放出去。
事情證明,2015年后FDA批準(zhǔn)的新藥,59%都來自于Biotech和Bigpharma的合作。
這是一個(gè)好現(xiàn)象。
我曾經(jīng)看到一個(gè)段子,大概是說某Bigpharma幾千號(hào)人,研究十年,沒搞出一個(gè)新藥,后來有人考證過,其實(shí)是有研究出新藥的,但Bigpharma研究效率低確實(shí)也是客觀現(xiàn)象。
與此同時(shí),從Biotech變到Bigpharma很難,因?yàn)槎唐趦?nèi)Biotech的商業(yè)能力不可能快速提升,不靠時(shí)間和資金積累是提升不上去的,所以Biotech也會(huì)主動(dòng)和Bigpharma合作。合作才又可能產(chǎn)生賦能和共贏。
所以這是兩廂情愿的事情,目的都是一個(gè):更快完成能力積累,推出藥物并盈利。
此外,這里還涉及到藥品專利保護(hù)期的問題。藥品跟別的不一樣,它的專利保護(hù)期非常重要,多一年可能就多賺十幾個(gè)億,少一年就少賺十幾個(gè)億。這種現(xiàn)實(shí)情況下也讓他們更愿意合作共贏。
所以,我不認(rèn)為百年藥企會(huì)沒落,或者AI制藥公司會(huì)沒落,只不過大家在藥物研發(fā)和商業(yè)版圖上做了更好的分工而已。
雷峰網(wǎng):歸根到底, AIDD的價(jià)值還是需要跟藥企的合作來證明。在您看來,傳統(tǒng)藥企或百年藥企巨頭,他們對(duì)于AI 制藥新技術(shù)的看法是怎樣的?怎么去做成果驗(yàn)證?是否愿意付費(fèi)?
百年藥企對(duì)AI這種新興事物比較歡迎。有個(gè)數(shù)字,過去五年,國外一些創(chuàng)新藥企業(yè)已經(jīng)開始關(guān)注前端研發(fā),超過40家藥企建立了跟AI研發(fā)相關(guān)的部門。
為什么它們不抵觸?因?yàn)樗幬镅邪l(fā)行業(yè)跟別的行業(yè)很不一樣,別的行業(yè)可能會(huì)競(jìng)爭,但是百年藥企缺少藥物品種,有人能給我更多的選擇,我為什么不去鼓勵(lì)呢?
另外,百年藥企更關(guān)注的是自身的商業(yè)版圖。這種情況下,它和AIDD公司是一種互惠互利的關(guān)系,沒有理由去反對(duì),甚至是歡迎、扶持。
但是你會(huì)發(fā)現(xiàn),藥企跟AIDD公司的合作,更多的是藥物品種交付。藥企不管你的軟件有多好,能做品種就合作,簽一個(gè)里程碑付費(fèi)的合同。
雷峰網(wǎng):最近ChatGPT 火,包括背后的AIGC技術(shù),對(duì)AI制藥行業(yè)產(chǎn)生了哪些影響?
我們非常歡迎新技術(shù)的出現(xiàn)。早在OpenAI和DeepMind兩家公司成立之初,我們就有關(guān)注,這些年來它們已經(jīng)分化出兩種不同的技術(shù)路徑。
簡單來說,前者非常注重?cái)?shù)據(jù)和語料,靠規(guī)模數(shù)據(jù)、龐大算力、充分訓(xùn)練而“大力出奇跡”的暴力美學(xué),在大模型時(shí)代發(fā)揮到了極致。
后者是不搞暴力美學(xué),大搞神經(jīng)科學(xué),在數(shù)學(xué)、物理,這些涉及抽象世界和人類深層直覺的領(lǐng)域長期深耕。比如2021年DeepMind與頂級(jí)數(shù)學(xué)家合作研發(fā)的AI登上Nature,找到一個(gè)幾十年來都沒有結(jié)局的數(shù)學(xué)猜想,2022年與瑞士等離子體中心合作開發(fā)的AI系統(tǒng)參與核聚變。
但實(shí)際上,它們最終解決的問題都是一個(gè):如何讓電腦看懂你在說什么,而不是簡單的復(fù)述。
這個(gè)是基礎(chǔ),因?yàn)槿斯ぶ悄苋齻€(gè)領(lǐng)域--圖像、語音和語義。
實(shí)際上,ChatGPT代表著人工智能在語義方面已經(jīng)邁出了第一步。這對(duì)于AI制藥非常重要,因?yàn)檫@個(gè)領(lǐng)域的發(fā)展方向就是做“基于知識(shí)的藥物發(fā)現(xiàn)”。
以前AI不懂語義時(shí),我們要像一個(gè)老師一樣,給AI“喂知識(shí)”。未來AI懂得語義之后,我們只需要給它“喂數(shù)據(jù)”就行,甚至是一種開源數(shù)據(jù),不需要提前做太多規(guī)范。
另外我認(rèn)為ChatGPT這些技術(shù)的出現(xiàn),也迅速讓AIDD行業(yè)熱鬧起來了,大家都在說基于GPT-4要做一個(gè)DrugDeginGPT。不管說法對(duì)不對(duì),至少有人意識(shí)到,以ChatGPT代表的語義解析能力,將為藥物研發(fā)、智能醫(yī)療帶來很大的賦能。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。