0
本文作者: 劉海濤 | 2021-07-29 10:46 |
1987年,《紐約時(shí)報(bào)》雜志曾將人類基因組計(jì)劃描述為“歷史上最大、最昂貴、最激進(jìn)的生物醫(yī)學(xué)研究計(jì)劃?!?/p>
但此后三十年時(shí)間,測序技術(shù)的進(jìn)步,卻讓基因組學(xué)這一技術(shù),成為這個(gè)世紀(jì)最主要的醫(yī)學(xué)科研進(jìn)展之一。
其不僅改變了醫(yī)學(xué)研究的性質(zhì),也讓科學(xué)家能夠進(jìn)行全面且強(qiáng)大的探索,據(jù)美國銀行預(yù)測,到2025年,與基因組學(xué)直接相關(guān)的研究產(chǎn)業(yè)就會達(dá)到410億美元。
而今,同樣的故事也在蛋白質(zhì)組學(xué)研究出現(xiàn),在人類基因組計(jì)劃完成之后,就有科學(xué)家在《Science》和《Nature》雜志興奮預(yù)言,蛋白質(zhì)組學(xué)時(shí)代即將到來,并將取代基因組學(xué)成為生命科學(xué)研究的焦點(diǎn)。
西湖大學(xué)特聘研究員、西湖歐米創(chuàng)始人郭天南表示:一切生命的表現(xiàn)形式,本質(zhì)上主要就是以蛋白質(zhì)為主的生物分子的體現(xiàn),而蛋白質(zhì)被認(rèn)為是一切生命活動的齒輪,也是藥物作用的最主要靶點(diǎn)。完整意義上的蛋白質(zhì)組學(xué),能夠?qū)】岛图膊〉陌l(fā)生、發(fā)展、轉(zhuǎn)歸等過程有一個(gè)全面的認(rèn)識,把握疾病診治的關(guān)鍵,提高藥物開發(fā)的效率。
近些年,隨著蛋白質(zhì)組大數(shù)據(jù)和人工智能技術(shù)的出現(xiàn),這一研究領(lǐng)域獲得了極大的加速,并展現(xiàn)出非常廣闊的前景。
近日,雷鋒網(wǎng)《醫(yī)健AI掘金志》以“AI制藥·下一個(gè)現(xiàn)象級賽道”為主題,邀請燧坤智能、英飛智藥、宇道生物、西湖歐米、華為云,五家先鋒企業(yè),舉辦了一場云峰會分享。
作為此次論壇的嘉賓,西湖歐米聯(lián)合創(chuàng)始人、董事長郭天南以《蛋白質(zhì)組大數(shù)據(jù)聯(lián)合AI在藥物開發(fā)中的潛在應(yīng)用》為題,進(jìn)行了演講。
郭天南表示:目前,微觀生物世界數(shù)據(jù)仍是一個(gè)黑盒子,成年人身體大約有30萬億個(gè)細(xì)胞,即使一個(gè)非常簡單的真菌細(xì)胞也有4千萬個(gè)以上蛋白質(zhì),而且這些細(xì)胞里面蛋白質(zhì)數(shù)量也是目前難以估量的復(fù)雜存在。
雖然,我們看不到這些微觀世界的數(shù)據(jù),但這與我們的生命和健康都有重要的意義。
以甲狀腺結(jié)節(jié)良、惡性判斷為例,大約50%以上成年人都有甲狀腺結(jié)節(jié),其中絕大多數(shù)結(jié)節(jié)都是良性,但同時(shí)也有30%結(jié)節(jié)無法診斷,如果不切除可能危及生命,如果切除發(fā)現(xiàn)是良性可能過度治療,因?yàn)榛颊卟⒉恍枰诋?dāng)前這個(gè)階段切掉甲狀腺。
過去四年,郭天南的團(tuán)隊(duì)和多國合作者一起,從蛋白質(zhì)組數(shù)據(jù)出發(fā),引入神經(jīng)網(wǎng)絡(luò)等技術(shù)開發(fā)了判斷甲狀腺結(jié)節(jié)良、惡性的新方法。
該方法通過和新加坡、西湖大學(xué)等科研機(jī)構(gòu)合作,對超過6000多個(gè)蛋白質(zhì)組數(shù)據(jù)做了測試和鑒定,得到新型甲狀腺結(jié)節(jié)鑒定方法ThyroProt (version1),使甲狀腺結(jié)節(jié)良惡性診斷特異性達(dá)到93%以上。
目前,該技術(shù)和方法正在通過西湖大學(xué)校辦企業(yè)西湖歐米進(jìn)行臨床轉(zhuǎn)化。
以下是演講全部內(nèi)容,《醫(yī)健AI掘金志》做了不改變原意的整理和編輯:
大家晚上好,我是郭天南,是西湖大學(xué)特聘研究員、博士生導(dǎo)師,西湖大學(xué)蛋白質(zhì)組大數(shù)據(jù)實(shí)驗(yàn)室負(fù)責(zé)人,西湖實(shí)驗(yàn)室iMarker實(shí)驗(yàn)室主任,西湖歐米創(chuàng)始人。
很高興跟大家進(jìn)行分享,今天的演講題目是“蛋白質(zhì)組大數(shù)據(jù)聯(lián)合AI在藥物開發(fā)中的潛在應(yīng)用”。
大數(shù)據(jù)實(shí)際上是目前我們數(shù)字經(jīng)濟(jì)時(shí)代的“石油”,它的價(jià)值甚至比石油更加昂貴。
觀察家們預(yù)計(jì),數(shù)字經(jīng)濟(jì)將成為全球經(jīng)濟(jì)與國家競爭力的又一個(gè)分水嶺。
新冠疫情全球爆發(fā),更是加速這一進(jìn)程,我國計(jì)劃總投入50萬億元來推動“新基建”的建設(shè)。
據(jù)統(tǒng)計(jì),4年之后,全世界的數(shù)據(jù)量將達(dá)到175ZB,相當(dāng)于1750億TB,90%以上的數(shù)據(jù)是過去5年產(chǎn)生,所以今后5年產(chǎn)生的數(shù)據(jù)可能會更快。
而幾個(gè)主要存儲數(shù)據(jù)的公司都是科技企業(yè)。例如Google、Facebook、Microsoft和Mmazon都存儲了至少1200PB信息,數(shù)據(jù)應(yīng)該是目前經(jīng)濟(jì)數(shù)據(jù)及科研的一個(gè)制高點(diǎn)。
我們發(fā)現(xiàn)這些數(shù)據(jù)很多來自于旅行、教育、通訊、購物平臺等,主要是文本、視頻、聲音、圖片等形式,普遍都是宏觀世界數(shù)據(jù),也有一些健康和生命相關(guān)數(shù)據(jù),例如什么病應(yīng)該掛哪一科室,找哪一個(gè)醫(yī)生等等。
前面提到全部都是人類宏觀世界數(shù)據(jù)。地球約有70億人,像杭州、蘇州常住人口有1000多萬人,每天產(chǎn)生大量宏觀世界數(shù)據(jù)。但我們還缺乏微觀世界的數(shù)據(jù)。
我們看不到的微觀世界目前像是一個(gè)黑盒子,一個(gè)成年人大約有30萬億個(gè)細(xì)胞,即使一個(gè)非常簡單的真菌細(xì)胞也有4000萬個(gè)以上蛋白質(zhì)。
我們?nèi)祟愐粋€(gè)細(xì)胞蛋白質(zhì)數(shù)量遠(yuǎn)遠(yuǎn)高于4000萬個(gè)蛋白質(zhì)。每個(gè)細(xì)胞都有獨(dú)特特征,每個(gè)細(xì)胞里面蛋白質(zhì)數(shù)量是目前無法估量的復(fù)雜存在。
雖然我們?nèi)庋劭床坏?,但可以通過一些模擬,一個(gè)視頻感受我們體內(nèi)的蛋白質(zhì)機(jī)器。例如新冠病毒入侵,將會引起人肺內(nèi)細(xì)胞蛋白質(zhì)反應(yīng)。這是我們看不到的過程。
但如果我們有技術(shù)把細(xì)胞放大幾萬倍,就可以看到里面存在一個(gè)全新世界,各種各樣蛋白質(zhì)機(jī)器有條不紊的運(yùn)動、變化。我們雖然看不到它們存在,但蛋白質(zhì)組世界同我們健康息息相關(guān)。
再舉一個(gè)例子,這是一個(gè)ATP合成酶動畫。1997年,獲得諾貝爾化學(xué)獎的三位科學(xué)家發(fā)現(xiàn)了這樣一個(gè)蛋白質(zhì)機(jī)器。
這個(gè)機(jī)器可以不斷旋轉(zhuǎn),可以讓我們吃的食物變成以ATP為主的能量分子,這些紅色、綠色、黃色、藍(lán)色就是分子馬達(dá)不同部件,他們的運(yùn)作同我們宏觀世界的汽車和機(jī)械表里面的零件很相似。只是生命活動分子馬達(dá)不需要電流作為能源來源,是通過我們生物能量來運(yùn)作。
現(xiàn)在我們有技術(shù)可以將這些蛋白質(zhì)動態(tài)變成數(shù)據(jù),即蛋白質(zhì)組大數(shù)據(jù)。
這里舉一個(gè)例子,圖中每一個(gè)像素點(diǎn)都是一個(gè)蛋白質(zhì)片段和一個(gè)多肽片段,紅色表示片段強(qiáng)度比較高,黑色表示片段強(qiáng)度比較低。
如果我們將動畫平鋪到一張圖上,大家可以看到像竹簡一樣一列一列,這就是微量組織產(chǎn)生的蛋白質(zhì)組大數(shù)據(jù)視覺化呈現(xiàn)。
將其中4條挑出來橫著放,可以看到它們具有高度復(fù)雜的內(nèi)容,如果再將其中很小一個(gè)區(qū)域放大,可以看到像宇宙一樣的星空圖。
宇宙里有很多點(diǎn)紅的、綠的、灰色的,像浩瀚宇宙一樣神秘,這里每一個(gè)點(diǎn)對應(yīng)都是體內(nèi)蛋白質(zhì)信息,目前人類對蛋白質(zhì)組了解非常少。
我們團(tuán)隊(duì)現(xiàn)在建立了蛋白質(zhì)大數(shù)據(jù)新數(shù)據(jù)結(jié)構(gòu),叫DIAtensor (DIAT)。有了這樣數(shù)據(jù)結(jié)構(gòu),就可以很方便將蛋白質(zhì)大數(shù)據(jù)進(jìn)行視覺化、轉(zhuǎn)換為各種格式,并且進(jìn)行深度學(xué)習(xí),回答生物醫(yī)學(xué)健康相關(guān)問題。
下面列舉幾個(gè)案例,第一是新冠疫情剛開始階段,我們與浙江省恩澤醫(yī)院、迪安凱萊譜一起合作的項(xiàng)目。
武漢疫情報(bào)道出來之后,大家非常關(guān)注,怎么樣鑒定哪些新冠患者是重癥,因?yàn)榇蟛糠殖赡耆烁腥拘鹿诓《局鬀]有任何癥狀,我們體內(nèi)免疫力可以殺死新冠病毒。
據(jù)統(tǒng)計(jì)大概80%感染新冠是輕癥,絕大部分輕癥患者只要居家隔離,吃簡單抗病毒藥物,就可以得到有效治療,直至自愈,甚至不經(jīng)過治療也可以痊愈。
但有20%癥狀新冠患者會出現(xiàn)非常不好情況,呼吸困難,如果不吸氧、不用呼吸機(jī)就可能死亡。如果能夠及早發(fā)現(xiàn)重癥患者,就可以很有效地利用寶貴的 ICU病房等資源。
當(dāng)時(shí),要判斷患者是否為重癥,只有當(dāng)患者呼吸困難、血氧指數(shù)下降非常嚴(yán)重、進(jìn)入ICU時(shí)才能夠得到鑒定。
我們?nèi)ツ旰歪t(yī)院合作,做了一個(gè)基于蛋白質(zhì)組學(xué)和AI的新診斷方法,可以從血液里的蛋白質(zhì)、代謝等特征建立模型,提前預(yù)判哪些病人會出現(xiàn)重癥,準(zhǔn)確度有93.5%。
但其中有兩個(gè)患者經(jīng)常不準(zhǔn)確,我們發(fā)現(xiàn)其中一個(gè)患者模型跟臨床不相符,是XG3患者,他是一個(gè)輕癥患者,但模型認(rèn)為他是一個(gè)重癥。
后來發(fā)現(xiàn)這位輕癥患者是一個(gè)70歲男性,雖然是輕癥,但他是整個(gè)研究隊(duì)列里年齡最大,所以雖然是輕癥,但他的血液分子特征卻提示和重癥患者更相似。
上圖中,是一個(gè)獨(dú)立訓(xùn)練驗(yàn)證集,共有10個(gè)病人,其中1個(gè)患者是XG45,臨床診斷是重癥患者,但模型把他劃在虛線左邊,認(rèn)為他和輕癥患者更相似。
后來臨床審核發(fā)現(xiàn),這位患者是一位62歲男性,入院之前經(jīng)過20多天中藥和抗病毒治療,所以臨床上雖然表現(xiàn)為重癥,但實(shí)際其分子特征和輕癥更加相似,所以通過分子檢測可以看到臨床表現(xiàn)之外的一些蛛絲馬跡和預(yù)兆。
在圖中下方是一位XG22輕癥患者,但模型認(rèn)為是重癥,和臨床醫(yī)生反復(fù)的核實(shí)臨床資料,發(fā)現(xiàn)患者有乙肝傳染史、糖尿病,雖然是輕癥,但住院時(shí)間是所有患者最久,甚至我們至今也不知道他為什么50多天才轉(zhuǎn)陰。
此外,在后續(xù)訓(xùn)練中,我們也發(fā)現(xiàn)還有十幾位病人經(jīng)過分子檢測和AI預(yù)測,和臨床診斷也不太相符,最終才知道來自底層的分子診斷可能會更加精準(zhǔn)。
例如,樣本X2-22在患者里分?jǐn)?shù)最低,甚至比重癥患者打分更低,但臨床認(rèn)為他是輕癥。
臨床審核這個(gè)患者是一位66歲女性,在采血當(dāng)天血糖達(dá)到27.8mmol/L,正常應(yīng)該不超過6.1mmol/L,她當(dāng)時(shí)處于非常危險(xiǎn)的高血糖危象,好在恩澤醫(yī)院對她進(jìn)行了救治,如果晚一些,患者有可能就會因?yàn)楦哐俏O蠖ド?/p>
所以我們?nèi)绻崆坝蟹肿訖z測模型,就可以預(yù)測哪些患者更嚴(yán)重,使用蛋白質(zhì)檢測和AI模型監(jiān)測病人病情,可以達(dá)到非常好效果。
宏觀世界上看不到一些分子機(jī)理也可以通過蛋白質(zhì)檢測來實(shí)現(xiàn),例如找到藥物靶點(diǎn)。
例如,我們今年完成的一篇發(fā)表在CELL上的工作,將當(dāng)時(shí)在武漢協(xié)和醫(yī)院因?yàn)樾鹿诙恍译x世的患者進(jìn)行尸檢,觀察死亡患者的心、肝、脾、肺、腎、甲狀腺、睪丸等組織器官的細(xì)胞層面改變。
過去對類似新冠疾病等未知疾病的理解,通常是宏觀世界癥狀為基礎(chǔ),將組織用顯微鏡放大,通過病理技術(shù)檢測了解疾病對人體影響,但這樣的檢測并不能知道什么病因?qū)е禄颊咚劳?,也不能告訴我們什么樣藥物,讓病人病情逆轉(zhuǎn),降低死亡率。
我們通過蛋白質(zhì)檢測可以獲得底層信息,對每一個(gè)器官蛋白質(zhì)發(fā)生的改變進(jìn)行鑒定。
圖中標(biāo)色的蛋白質(zhì)都是在心、肝、脾、肺、腎、甲狀腺、睪丸等里面死亡患者的高蛋白表達(dá),這可能是他們治療的靶點(diǎn)。
這兩個(gè)案例說明對于人體所有組織器官、液體、體液等都可以進(jìn)行蛋白質(zhì)分析,只要有生命就有蛋白質(zhì),有人體活動就有蛋白質(zhì)變化。
我們可以從血、尿、眼淚等體液中鑒定到大量蛋白質(zhì),例如眼淚里有數(shù)千個(gè)蛋白質(zhì)、腦積液、唾液、活檢組織、腫瘤組織、冰凍組織、石蠟組織細(xì)胞、頭發(fā)、牙齒、指甲、骨骼、糞便也含有大量蛋白質(zhì)。
極小量樣品,小到一個(gè)芝麻的1/10或者是一滴血的1/10,或者是幾滴尿液,可以進(jìn)行有效蛋白質(zhì)組分析。
大多數(shù)人認(rèn)為蛋白質(zhì)鑒定比較貴、慢。但現(xiàn)在隨著技術(shù)改進(jìn),實(shí)驗(yàn)室每天可以快速處理數(shù)百個(gè)蛋白質(zhì)組,產(chǎn)生大量用于AI分析的數(shù)據(jù)。
圖中一個(gè)石蠟組織里大部分都是石蠟,腫瘤組織極少,從這么小組織中提取的蛋白質(zhì)可以進(jìn)行幾十次蛋白質(zhì)組分析,實(shí)現(xiàn)定量組織的蛋白質(zhì)組全面分析。
例如這張圖,是目前廣州健康營養(yǎng)隊(duì)列以及西湖大學(xué)鄭鉅圣團(tuán)隊(duì)一起合作的蛋白質(zhì)組項(xiàng)目,項(xiàng)目分析大約18000個(gè)血清蛋白質(zhì)組,進(jìn)行了代謝綜合征預(yù)測。
代謝綜合癥就是三高,高血壓、高血糖、高血脂患者和亞健康狀態(tài)患者。
他們從2008年開始,對大約兩千個(gè)人進(jìn)行監(jiān)測,通過臨床資料,采集血、尿、糞便等,2014年又隨訪了1800多人繼續(xù)研究,2018年還有1179位仍然在參與這個(gè)項(xiàng)目。
目前的設(shè)備用1微升血提出的蛋白質(zhì),就足夠做幾百次蛋白質(zhì)組分析,20分鐘就可以分析一個(gè)樣品蛋白質(zhì)組。
現(xiàn)在分析速度提高,5~10分鐘就可以做一個(gè)樣品,分析成本又降低數(shù)倍。
我們一共鑒定300多個(gè)蛋白質(zhì)組,建立了機(jī)器學(xué)習(xí)模型,準(zhǔn)確度差不多達(dá)到80%,這個(gè)數(shù)據(jù)是幾個(gè)月前的,最近我們又取得新進(jìn)展,可以達(dá)到約90%準(zhǔn)確度。
僅僅通過不到一滴血的12個(gè)蛋白質(zhì),就可以預(yù)測一個(gè)人10年當(dāng)中是否會出現(xiàn)代謝綜合征,這樣技術(shù)對健康狀態(tài)監(jiān)測有非常好的應(yīng)用前景。
此外,新冠病毒研究也有了新發(fā)現(xiàn),通過尿液里蛋白質(zhì)結(jié)合鑒定新冠輕癥和重癥。
醫(yī)院檢測尿蛋白是比較傳統(tǒng)的方法,尿蛋白非常高的時(shí)候才能測出,而我們通過靈敏蛋白質(zhì)組技術(shù),發(fā)現(xiàn)健康人尿里也有數(shù)千個(gè)蛋白。
血液蛋白質(zhì)基本都可以在尿里檢測出,腎小球重吸收導(dǎo)致血高豐度蛋白大大降低,所以可以看到更多蛋白質(zhì)。
我們通過分子量分析發(fā)現(xiàn),尿液蛋白質(zhì)分子量大小同血液沒有明顯區(qū)別。
而且,我們的多個(gè)研究還發(fā)現(xiàn)細(xì)胞因子風(fēng)暴、免疫治療或其他疾病中,尿蛋白都有非常重要指示作用。
尿蛋白質(zhì)組數(shù)據(jù)結(jié)合機(jī)器學(xué)習(xí)可以進(jìn)行新冠輕重癥判斷。如圖所示,紅色顏色越深代表預(yù)測效果越好,準(zhǔn)確度越高。
最后列舉一個(gè)甲狀腺結(jié)節(jié)分析案例,甲狀腺每個(gè)人都有,在脖子下面像蝴蝶一樣的小器官,只有十幾克。
甲狀腺結(jié)節(jié)也常見,50%以上成年人都有甲狀腺結(jié)節(jié),年紀(jì)越大發(fā)生率越高,大部分經(jīng)常吃海鮮的人甲狀腺結(jié)節(jié)概率高達(dá)90%以上。
甲狀腺結(jié)節(jié)分惡性和良性,惡性醫(yī)生會建議全切或半切除,但甲狀腺是非常重要的激素器官,患者切除后需要終身服藥,情緒上也會有變化。
目前,有30%結(jié)節(jié)是無法診斷良惡性,當(dāng)出現(xiàn)無法診斷結(jié)節(jié),病人和醫(yī)生都會感到巨大壓力,如果切除可能是過度治療。
因?yàn)榛颊卟⒉恍枰诋?dāng)前階段切掉甲狀腺,所以就涉及到精準(zhǔn)診斷問題。
從十幾年前開始,基因測序技術(shù)成熟之后,美國FDA就已經(jīng)批準(zhǔn)多個(gè)基因診斷試劑盒,通常測量幾十,甚至一百多個(gè)基因DNA和RNA來診斷甲狀腺結(jié)節(jié)良惡性。
經(jīng)過權(quán)威雜志Nature Reviews Endocrinology 在2018年評估,這些基因測序檢測結(jié)果靈敏度可以達(dá)到83%~100%,即如果結(jié)節(jié)是惡性,檢測試劑盒基本可以判斷出來,但特異性只有10%~52%。
換句話說試劑盒判斷是惡性結(jié)節(jié)實(shí)際有大約50%~90%是良性,最后會讓最高達(dá)90%的患者有過度治療危險(xiǎn)。
過去四年,我們首次用蛋白質(zhì)組大數(shù)據(jù)結(jié)合神經(jīng)網(wǎng)絡(luò),開發(fā)了判斷甲狀腺結(jié)節(jié)良、惡性的新方法,前面所有診斷方法都是基于基因,而基因跟蛋白質(zhì)相比疾病相關(guān)性相對弱一些。
基因會有很多改變,如果不在蛋白質(zhì)水平得到體現(xiàn),很難影響到疾病發(fā)生和進(jìn)展。
而蛋白質(zhì)檢測難點(diǎn)在于,如何處理小量組織,鑒定更多蛋白,穩(wěn)定進(jìn)行蛋白質(zhì)定量,我們已經(jīng)有效解決這些技術(shù)難點(diǎn),也開展多中心臨床研究。
我們同新加坡Gopal和Kon教授等團(tuán)隊(duì)合作建立訓(xùn)練集,采集了578個(gè)患者樣品。
新加坡是海邊城市,人吃海鮮比較多,甲狀腺結(jié)節(jié)也非常多,我們做了1700多個(gè)蛋白質(zhì)組,同時(shí)在中國也做了回顧性研究,有3個(gè)中心納入271個(gè)患者;后來又做了前瞻性研究,納入255個(gè)患者,目前這些還都是尚未公開發(fā)表的前期數(shù)據(jù)。
我們用微量組織高通量蛋白質(zhì)定量方法,總共鑒定6000多個(gè)蛋白,其中神經(jīng)網(wǎng)絡(luò)分析是西湖大學(xué)李子青教授團(tuán)隊(duì)完成的。
新加坡樣品得到這個(gè)模型,在回顧性隊(duì)列和前瞻性隊(duì)列綜合都達(dá)到90%以上準(zhǔn)確度。
將蛋白質(zhì)組織更多用于藥物開發(fā),是后續(xù)非常有信心要做的一件事,藥物開發(fā)是大家非常關(guān)注的焦點(diǎn)。
ThyroProt v1基于蛋白質(zhì)檢測方法,同發(fā)表在New England Journal of Medicine的基因診斷方法相比,靈敏度要稍弱一些。
這因?yàn)槟壳暗鞍踪|(zhì)診斷甲狀腺診斷主要問題是特異性,基因檢測特異性在50%~81%左右,蛋白質(zhì)可以達(dá)到93%,綜合準(zhǔn)確度蛋白質(zhì)是90%以上,基因最高是84%,這是2018年結(jié)果。
這個(gè)研究說明我們可以對數(shù)以千計(jì)微量臨床樣品進(jìn)行有效蛋白組學(xué)分析,并且聯(lián)合AI改善疾病診斷。
將蛋白質(zhì)組技術(shù)更多用于藥物開發(fā),是我們下一步非常有決心和信心要做的方向,藥物開發(fā)是大家非常關(guān)注的焦點(diǎn),所有疾病都希望通過藥物進(jìn)行有效治療。
將三個(gè)步驟進(jìn)行分析,會發(fā)現(xiàn)蛋白質(zhì)組學(xué)在藥物開發(fā)中每一個(gè)步驟都有非常大潛作用,幾乎所有藥物都針對蛋白質(zhì)發(fā)揮作用。
藥物臨床結(jié)果預(yù)測,通常需要幾個(gè)療程,每個(gè)療程可能需要幾個(gè)月時(shí)間甚至更久。
新冠研究里發(fā)現(xiàn),急性期可能在血液已經(jīng)出現(xiàn)一些征兆,這和后來反應(yīng)都有一些復(fù)雜關(guān)聯(lián)。已有研究發(fā)現(xiàn),血液里尿蛋白質(zhì)改變,同幾天或幾周后臨床表現(xiàn)有非常密切關(guān)聯(lián)。
所以我們有信心通過臨床試驗(yàn),加上蛋白質(zhì)數(shù)據(jù),加上模型建立,更快更準(zhǔn)確的判斷。
目前非常受到關(guān)注的兩種新型藥物,研究歷史都有十年或十幾年,這些藥物得到國內(nèi)、外非常多關(guān)注。
第一類是ADC藥物(Antibody-Drug conjugates),它的設(shè)計(jì)非常巧妙,一個(gè)抗體可以結(jié)合腫瘤細(xì)胞表面一些特異性蛋白,而尾巴上有一些傳統(tǒng)毒素,這使得它具有殺傷力同時(shí)又具有特異性。
但特異性前提是能夠找到只在腫瘤細(xì)胞表面的高表達(dá)蛋白。
我們團(tuán)隊(duì)做了簡單調(diào)研,自2000年以來,全球共有11個(gè)ADC產(chǎn)品在FDA獲批上市,主要以癌癥為主。
國內(nèi)ADC稍晚一些,目前ADC藥物研發(fā)處于初級階段,有一款藥物今年剛剛獲得批準(zhǔn)。
可以看到Nature Reviews Drug Discovery預(yù)測結(jié)果,今后5年ADC銷量在國外銷量會出現(xiàn)非常大提升。
ADC研發(fā)及蛋白質(zhì)組學(xué)應(yīng)用難點(diǎn),重要就是靶向抗原選擇,抗體結(jié)合哪些蛋白很重要,這是ADC開發(fā)的起點(diǎn),也是ADC研發(fā)企業(yè)競爭的熱點(diǎn)。
目前,國內(nèi)已公開研發(fā)藥物中大部分都是靶向HER2,未來預(yù)期會有越來越多ADC藥物靶點(diǎn)有待發(fā)掘。
蛋白質(zhì)組學(xué)可能有非常巨大作用,團(tuán)隊(duì)也在這方面綜述,現(xiàn)有蛋白質(zhì)數(shù)據(jù)可以看到大腸癌、胃癌、肺癌等等,有非常多潛在藥物靶點(diǎn)存在數(shù)據(jù)當(dāng)中,我們團(tuán)隊(duì)后面會和一些ADC公司合作,尋找新差異化靶點(diǎn)提供支持。
此外是臨床試用者選擇,這和前面一樣,雖然已經(jīng)找到有效藥物,但藥物并不對所有人有效。
通過蛋白質(zhì)組學(xué)、質(zhì)譜檢測,可以有效確定患者腫瘤組織里有沒有蛋白質(zhì)高表達(dá),在疾病進(jìn)展當(dāng)中有沒有改變,通過蛋白質(zhì)檢測針對不同個(gè)體情況,提供相對應(yīng)治療方案,為助力精準(zhǔn)醫(yī)療落地提供有效指導(dǎo)。
第二類創(chuàng)新藥是PROTAC技術(shù),這個(gè)技術(shù)可以使以前沒有藥物的蛋白靶點(diǎn)有效降解,是非常巧妙的體內(nèi)泛素化系統(tǒng)。
這個(gè)藥物有兩端,一端連接E3連接酶,另外一端連接降解蛋白質(zhì),將兩端連接到一起后,靶向蛋白就會被泛素化。
泛素化也被稱為死亡之吻,蛋白質(zhì)結(jié)合這樣一個(gè)泛素化蛋白,就會被一個(gè)Proteasome機(jī)器將蛋白質(zhì)變成碎片實(shí)現(xiàn)降解,這比小分子結(jié)合阻斷蛋白功能更加直接有效。
目前PROTAC相關(guān)藥物,國內(nèi)、外臨床研究還比較早期,人類基因組里面有600多個(gè)E3連接酶,其中只有非常少數(shù)被用于PROTAC設(shè)計(jì),這個(gè)領(lǐng)域還有廣泛開發(fā)空間。
表格總結(jié)了小分子成功靶向關(guān)鍵靶點(diǎn),這些靶點(diǎn)不是特別多,據(jù)不完全統(tǒng)計(jì)全球基于PROTAC技術(shù)研發(fā)管線有60多個(gè),國內(nèi)也有好多正在啟動。
PROTAC如果成功靶點(diǎn)選擇非常重要。哪些蛋白可以被泛素化或者泛素化效率如何?用了藥物之后被修飾效率有沒有提高?降解程度如何?腫瘤組織和非腫瘤組織有什么區(qū)別?哪些蛋白質(zhì)降解可以全局通過蛋白質(zhì)組進(jìn)行系統(tǒng)檢測,都是全新的領(lǐng)域。
下圖是2015年的文章,文章發(fā)現(xiàn)基因組生命科學(xué)時(shí)代,基因組數(shù)據(jù)增長更快,把蛋白質(zhì)加進(jìn)來增長可能會更快,因?yàn)榈鞍踪|(zhì)比基因更多信息,和生命科學(xué)更加相關(guān)。
蛋白質(zhì)組大數(shù)據(jù)距離我們還有多遠(yuǎn)?
現(xiàn)在我們擁有將臨床樣品轉(zhuǎn)化為蛋白質(zhì)大數(shù)據(jù)的技術(shù),今后幾年我們將產(chǎn)生更多蛋白質(zhì)組大數(shù)據(jù),聯(lián)合AI可以對生命奧妙和調(diào)控有更加深刻的理解。
Q1:蛋白質(zhì)組大數(shù)據(jù)聯(lián)合AI診斷疾病準(zhǔn)確率高嗎?
郭天南:這是一個(gè)非常大的問題,應(yīng)該針對每一個(gè)疾病而定。蛋白質(zhì)大數(shù)據(jù)可以理解為一個(gè)新興領(lǐng)域,一個(gè)新技術(shù),有獨(dú)特的優(yōu)勢,也具有一些局限性。
我們目前在西湖大學(xué)做了幾個(gè)例子,前面講的甲狀腺結(jié)節(jié)判斷準(zhǔn)確率還可以的。目前經(jīng)過基因診斷準(zhǔn)確度,尤其是特異度,都比不上目前基于蛋白質(zhì)的診斷方法,對于前面代謝綜合征預(yù)測模型也非常好。
但這種方法是不是對所有疾病都非常好,目前尚沒有數(shù)據(jù)證實(shí)或證偽,從理論上看,蛋白質(zhì)分析應(yīng)該是任何疾病都需要的。
Q2:蛋白質(zhì)組中是否含有人類疾病的生物標(biāo)志物(Biomarker)?
郭天南:肯定是含有的,人類疾病甚至健康狀態(tài)改變都會涉及蛋白質(zhì)改變。
說話、休息、吃飯都有蛋白質(zhì)改變,當(dāng)然這些改變是背景改變,蛋白質(zhì)改變可能是正常改變,有些蛋白質(zhì)在疾病狀態(tài)下改變。
我們需要通過復(fù)雜計(jì)算方法挑出疾病有影響的蛋白質(zhì)。
Q3:BCR-ABL融合基因是什么?
郭天南:這是伊馬替尼(imatinib)的藥物靶點(diǎn),《我不是藥神》電影原型就是這個(gè)。
針對慢性髓系白血病,BCR和ABL本來是兩個(gè)蛋白,不同染色體編碼兩個(gè)蛋白在某一些白血病當(dāng)中會融合形成新蛋白,具有非常強(qiáng)酶活性,打破生理平衡引發(fā)慢性白血病。
神藥出現(xiàn),實(shí)際也是蛋白質(zhì)檢測的一個(gè)成功,當(dāng)然蛋白質(zhì)水平源于基因表達(dá),蛋白的融合源自基因融合。
Q4:請問針對不同組學(xué)方法得到的數(shù)據(jù),該怎么整合?
郭天南:我們有很多嘗試,沒有統(tǒng)一方法可以用于所有多模態(tài)、多組學(xué)數(shù)據(jù),但只要有這樣一個(gè)臨床問題,有這樣數(shù)據(jù)相信一定可以找到方法。
例如甲狀腺,我們用蛋白質(zhì)組數(shù)據(jù)進(jìn)行建模,實(shí)際我們還有一個(gè)正在進(jìn)行的項(xiàng)目,是將蛋白質(zhì)跟基因還有超聲特征,包括人性別年齡等信息全部整合起來,進(jìn)行AI建模,這是生命科學(xué)的新領(lǐng)域。
聽眾當(dāng)中如果有計(jì)算機(jī)專家,也歡迎你們加入生命科學(xué)這個(gè)領(lǐng)域,現(xiàn)在是非常激動人心的時(shí)刻。
隨著更多計(jì)算機(jī)專家加入,這些整合一定可以更加有效實(shí)現(xiàn),前面提到宏觀世界大數(shù)據(jù),實(shí)際數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,復(fù)雜性不亞于生命科學(xué)數(shù)據(jù),但照樣可以整合起來。
例如搜索Google,可以告訴我們是什么樣網(wǎng)頁,然后我們看抖音可以推薦喜歡看的視頻,這都是通過算法可以實(shí)現(xiàn),在有經(jīng)驗(yàn)計(jì)算機(jī)專家看來,問題不是很大。
Q5:痕量樣本蛋白檢測的重復(fù)性能夠保證嗎?距離臨床檢測應(yīng)用還有多遠(yuǎn)?
郭天南:衡量樣品進(jìn)行檢測重復(fù)性讓我覺得非常驚嘆,可以看到我們的數(shù)據(jù),訓(xùn)練集都是痕量樣品,訓(xùn)練集是來自于新加坡,新加坡有各種人種,生活環(huán)境、經(jīng)度、緯度跟中國都不太一樣。
但我們從這些數(shù)據(jù)訓(xùn)練出的模型,在中國杭州、大連、沈陽患者居然可以適用。并且訓(xùn)練集樣品是石蠟組織,在石蠟組織中建立模型,同時(shí)在前瞻性新鮮組織里也可以達(dá)到90%以上綜合準(zhǔn)確度。
這個(gè)準(zhǔn)確度我們都覺得驚訝,非常穩(wěn)定,但并不表示所有組織和數(shù)據(jù)都會這么穩(wěn)定,這里面有很多考量,我們對質(zhì)控、數(shù)據(jù)分析要求也非常高。
距離臨床應(yīng)用檢測還有多遠(yuǎn),我希望在保證質(zhì)量同時(shí)盡快。我們在大學(xué)里建立這個(gè)模型尚不能直接應(yīng)用于臨床。
我們正在通過西湖大學(xué)校辦企業(yè)西湖歐米進(jìn)行臨床轉(zhuǎn)化,有可能明年會推出通過志愿者進(jìn)行臨床檢測。
Q6:蛋白質(zhì)組中怎么判斷哪些蛋白不會相互作用?準(zhǔn)確率多高?比判斷相互作用困難嗎?
郭天南:蛋白質(zhì)相互作用分析,質(zhì)譜是可以實(shí)現(xiàn)的,如果一個(gè)具體問題可以通過一個(gè)細(xì)胞模型,某個(gè)蛋白跟哪個(gè)蛋白結(jié)合或不結(jié)合,都可以通過實(shí)驗(yàn)數(shù)據(jù)以及后續(xù)對應(yīng)分析方法進(jìn)行監(jiān)測。
Q7:計(jì)算蛋白質(zhì)組學(xué)有哪些應(yīng)用場景?
郭天南:這太多了,如果我們有蛋白質(zhì)大數(shù)據(jù),其在生命健康的應(yīng)用場景不會亞于現(xiàn)在宏觀世界大數(shù)據(jù)應(yīng)用場景。
如果你問我宏觀世界大數(shù)據(jù)有什么應(yīng)用場景,我可以說它幾乎無所不在。我們的衣、食、住、行都跟宏觀世界大數(shù)據(jù)相關(guān),但微觀世界數(shù)據(jù),一個(gè)人細(xì)胞數(shù)量和地球上所有人數(shù)量是同一個(gè)量級。
一個(gè)成年人有30~70萬億個(gè)細(xì)胞,很多細(xì)胞不斷生成降解,像紅細(xì)胞每隔120天就會生成降解,每個(gè)細(xì)胞里都有數(shù)億萬計(jì)蛋白質(zhì),這些蛋白質(zhì)數(shù)據(jù)包含什么信息,有什么應(yīng)用場景現(xiàn)在沒有人可以估量。
舉例說凡是跟生命健康相關(guān)的應(yīng)用場景,都有可能通過蛋白質(zhì)智能計(jì)算獲得。
Q8:猶如體檢之前會要求禁止飲食,可能會影響體檢結(jié)果。患者是否有些行為會影響到蛋白質(zhì)組學(xué)的檢測結(jié)果?
郭天南:我們做了18000個(gè)血漿蛋白質(zhì)組預(yù)測代謝綜合征,代謝綜合征是三高、高血糖、高血脂、高血壓,是非常復(fù)雜的疾病,遺傳因素,生活習(xí)慣因素,飲食因素等都會影響到。
我們測出蛋白質(zhì)組數(shù)據(jù),一定會受到各種各樣因素的干擾,好在有大數(shù)據(jù)可以容忍一些變異,容忍噪音,在大數(shù)據(jù)層面,AI會自動剔除干擾因素,將好的信號提示出來。
雖然我們有幾百個(gè)蛋白被檢測,最后只找到12個(gè)最穩(wěn)定跟疾病最相關(guān),雖然肯定會有影響,但后面會挑出來。
甲狀腺結(jié)節(jié)診斷也測到6000多個(gè)蛋白,最后AI模型只發(fā)現(xiàn)其中的20個(gè),這種準(zhǔn)確度和其它6000多個(gè)蛋白相比,還沒有達(dá)到足夠穩(wěn)定性和信息含量。
Q9:疾病診斷中有沒有采用RNA轉(zhuǎn)錄組進(jìn)行判斷的?相比蛋白質(zhì)組哪個(gè)更有優(yōu)勢呢?
郭天南:像甲狀腺結(jié)節(jié)的良、惡性判斷,基因診斷試劑盒,很多依賴RNA,但為什么會出現(xiàn)很多問題?
因?yàn)镽NA很容易降解,并且RNA絕大部分不具有生命活動和執(zhí)行功能分子,目前已經(jīng)有很多研究表明, RNA和蛋白質(zhì)相關(guān)性并沒有那么強(qiáng)。
我們之所以要測RNA,一方面是因?yàn)橛羞@樣技術(shù)很容易檢測,另一方面因?yàn)橄Mㄟ^RNA來預(yù)測蛋白質(zhì),越來越多研究發(fā)現(xiàn)RNA并不能完全預(yù)測蛋白質(zhì)表達(dá)。
在臨床應(yīng)用中二者很容易降解,像甲狀腺穿刺出來,一不小心RNA就會降解,或者測到跟他體內(nèi)RNA表達(dá)并不一致,而蛋白質(zhì)非常穩(wěn)定。
研究石蠟組織可以很方便從新加坡接到中國,因?yàn)槌乇4孢\(yùn)輸,而石蠟組織里是不能做RNA分析,即使能做測出來結(jié)果跟他體內(nèi)狀態(tài)也不一樣。
我們團(tuán)隊(duì)前期做了很多工作,發(fā)現(xiàn)石蠟組織和新鮮冰凍組織蛋白質(zhì)表達(dá)非常穩(wěn)定。
Q10:AI+蛋白質(zhì)預(yù)測這樣的前沿技術(shù),目前在產(chǎn)業(yè)落地中有哪些比較難的瓶頸?
郭天南:最大瓶頸就是人才隊(duì)伍。聽眾里有很多非常優(yōu)秀人員,可能大家都知道基因組,很多從事生命科學(xué)都去做基因相關(guān)研究和轉(zhuǎn)化。
也有更多非常優(yōu)秀年輕人去做AI,像隔壁的阿里或騰訊都有非常高的工資,而在蛋白質(zhì)這樣的領(lǐng)域,聯(lián)合使用AI還需要進(jìn)行一定探索,所以如果沒有好的隊(duì)伍,這個(gè)領(lǐng)域也很難發(fā)展起來。
領(lǐng)域重要性毋庸置疑,現(xiàn)在越來越多人關(guān)注這個(gè)領(lǐng)域,非常高興有這么多人參與討論,相信只要有優(yōu)秀的人加入,就不會存在什么問題,只是時(shí)間的問題,或遲或早,人類總有一天會解密,黑匣子會被打開,我們對生命理解就會更加深刻。
Q11:請問歐米的質(zhì)譜分析是自己做嗎?跟其他做蛋白質(zhì)譜的企業(yè)相比數(shù)據(jù)方面有哪些優(yōu)勢?
郭天南:我們質(zhì)譜都是自己做,跟其他企業(yè)相比有什么優(yōu)勢這里不便回答。
Q12:郭老師,蛋白質(zhì)檢測技術(shù)和基因檢測相比,區(qū)別和優(yōu)勢有哪些?
郭天南:針對一個(gè)難以診斷問題,大家第一想法就是做基因檢測,目前基因檢測學(xué)術(shù)上是如火如荼。
從產(chǎn)業(yè)上大家都可以做,一個(gè)基因突變,哪個(gè)公司都可以去檢測,沒有什么門檻,而蛋白質(zhì)檢測有門檻,蛋白質(zhì)經(jīng)過挑選之后只有20個(gè)蛋白質(zhì),在腫瘤和非腫瘤、良、惡性都有。
但基因突變良性沒有惡性有,蛋白質(zhì)是個(gè)連續(xù)不一樣的變量,通過不一樣建立模型,進(jìn)行更加全面精準(zhǔn)判斷。
因?yàn)樯隙ú粫@么簡單,用學(xué)術(shù)術(shù)語來說蛋白質(zhì)表達(dá)具有更高顆粒度,內(nèi)涵更加的豐富,可以精準(zhǔn)描述一個(gè)生命狀態(tài),生命肯定不會像基因突變一樣簡單,這就是蛋白質(zhì)優(yōu)勢。
蛋白質(zhì)檢測也有缺點(diǎn),例如現(xiàn)在沒有技術(shù)可以很好擴(kuò)增蛋白質(zhì),以前蛋白質(zhì)檢測需要大量組織,很多研究不能夠進(jìn)行,現(xiàn)在可以用比較小微量、痕量組織進(jìn)行蛋白質(zhì)分析,很大程度彌補(bǔ)蛋白質(zhì)基因和蛋白質(zhì)應(yīng)用障礙。
很多時(shí)候我們能夠分析蛋白質(zhì)組織,基因測序做不了,但蛋白質(zhì)可以做,像石蠟組織RNA做不了,而蛋白質(zhì)可以做的非常好。
我們更喜歡用石蠟組織,還有頭發(fā),里面除了毛囊之外只有蛋白質(zhì),所以頭發(fā)里面的蛋白質(zhì)信息是非常豐富,還有牙齒等等。
最后,感謝大家參與這次的交流。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。