0
本文作者: 劉海濤 | 2022-01-06 10:43 |
近日,由雷峰網(wǎng) & 醫(yī)健AI掘金志主辦的GAIR「醫(yī)療科技高峰論壇」在深圳正式召開。
論壇上,西湖大學(xué)特聘研究員、西湖歐米創(chuàng)始人郭天南以《AI 賦能的蛋白質(zhì)組大數(shù)據(jù)助力精準(zhǔn)醫(yī)療》為題發(fā)表了演講。
郭天南表示:“AlphaFold2 使用 AI 技術(shù)在蛋白質(zhì)結(jié)構(gòu)預(yù)測上取得了突破性進(jìn)展,但此類 AI 驅(qū)動的生命科學(xué)的更大價(jià)值將體現(xiàn)在蛋白質(zhì)組學(xué)中。”
他說到,一個(gè)戰(zhàn)場上,有各類兵種和武器,各自的性能就如同是一個(gè)蛋白質(zhì)的結(jié)構(gòu)。要贏得一場戰(zhàn)斗,不僅要知道各類兵種和武器的性能,更需要知道他們的數(shù)量、運(yùn)行及修復(fù)方式,以及所有軍力在整個(gè)作戰(zhàn)系統(tǒng)中的互動,這個(gè)過程在生命健康中就如同是動態(tài)的蛋白質(zhì)組。這個(gè)類比在一定程度上體現(xiàn)了蛋白質(zhì)結(jié)構(gòu)和蛋白質(zhì)組的關(guān)系。”
演講中,郭天南還重點(diǎn)介紹了一種新的蛋白質(zhì)組大數(shù)據(jù)展示形式——怎樣將蛋白質(zhì)組數(shù)據(jù)轉(zhuǎn)化成為張量(即 Tensor,多維矩陣)。
“張量可轉(zhuǎn)化為多種數(shù)據(jù)格式視頻,包括這里每個(gè)像素就是某個(gè)蛋白質(zhì)的一個(gè)多肽的一個(gè)片段,平鋪后可以得到一副有規(guī)律的、類似宇宙的圖像,密集像素之間的間隔都是一個(gè)分子單位。這種數(shù)據(jù)可直接用于深度學(xué)習(xí),將人體內(nèi)的小宇宙轉(zhuǎn)化為大數(shù)據(jù)?!?nbsp;
以下為演講的全部內(nèi)容,雷峰網(wǎng)(公眾號:雷峰網(wǎng))做了不改變原意的整理和編輯:
大家好,我是西湖大學(xué)特聘研究員郭天南,給大家分享 AI 蛋白質(zhì)組大數(shù)據(jù)輔助精準(zhǔn)醫(yī)療的一些想法和實(shí)踐。
我的演講分為六個(gè)部分:
第一,什么是蛋白質(zhì)組學(xué);
第二,蛋白質(zhì)組學(xué)最新臨床技術(shù)進(jìn)展;
第三,蛋白質(zhì)組學(xué)大數(shù)據(jù)的概念,以及 AI 發(fā)揮的作用;
第四,AI 助力甲狀腺結(jié)節(jié)的診斷;
第五,AI 在尿檢中實(shí)現(xiàn)新冠肺炎分類;
第六,將蛋白質(zhì)轉(zhuǎn)化為 Tensor 的多維矩陣新概念。
宏觀世界中存在各種各樣的疾病,不同的檢測方法會把結(jié)果以圖像、文字、數(shù)字等呈現(xiàn)在我們面前。而 AI 能將這些大數(shù)據(jù)進(jìn)行整理、分析、歸納、預(yù)測,給我們的疾病診治帶來極大便利。
同時(shí),還有一個(gè)我們看不到的微觀分子的世界,雖然目前還沒有技術(shù)可以直接看到微觀世界里分子機(jī)器如蛋白質(zhì)等的具體呈現(xiàn)和動態(tài),但它是真實(shí)存在的,并且所有生命活動都是在微觀世界中以蛋白質(zhì)為主的分子層面上發(fā)生的。
例如在感染新冠肺炎的時(shí)候,病毒入侵細(xì)胞后,細(xì)胞內(nèi)各種蛋白質(zhì)等分子會發(fā)生相應(yīng)的改變。一個(gè)成年人大約有 30 萬億個(gè)細(xì)胞,一個(gè)真菌細(xì)胞大約有 4000 萬個(gè)蛋白質(zhì)。而人體的每一個(gè)白細(xì)胞、紅細(xì)胞到底有多少種類型的蛋白質(zhì),而每一類蛋白質(zhì)有多少個(gè),現(xiàn)在還沒有準(zhǔn)確數(shù)據(jù)。所以,人體其實(shí)包含了無數(shù)個(gè)非常宏大的微觀世界。
這張圖展示的是一個(gè)人的基因組,一個(gè)人的基因組基本上固定不變,從出生到死亡,心肝脾肺腎各個(gè)不同器官的基因組非常穩(wěn)定。但每一個(gè)器官、每一個(gè)細(xì)胞都不一樣。我們有紅細(xì)胞、白細(xì)胞、神經(jīng)細(xì)胞、腫瘤細(xì)胞等,它們在形態(tài)上有很大差別,功能也不盡相同,這些差別也主要體現(xiàn)在蛋白質(zhì)層面,也就是蛋白質(zhì)組。
蛋白質(zhì)組是一個(gè)非常復(fù)雜的體系,這里展示的是其中一些蛋白質(zhì),每一個(gè)蛋白質(zhì)就像汽車的一個(gè)零件,研究所有蛋白質(zhì)的科學(xué)就叫蛋白質(zhì)組學(xué) (Proteomics),與基因組 (Genomics) 的概念相對應(yīng)。
最近,在生命科學(xué)和 AI 領(lǐng)域有一個(gè)突破性進(jìn)展,將 AI 應(yīng)用于蛋白質(zhì)結(jié)構(gòu)的預(yù)測,因?yàn)?nbsp;AI 預(yù)測在理論上可以無限并行計(jì)算,也有人將之稱為“蛋白質(zhì)組”結(jié)構(gòu)的預(yù)測。
每一個(gè)蛋白質(zhì)都有獨(dú)特的結(jié)構(gòu),并且這個(gè)結(jié)構(gòu)處于動態(tài)變化中,不同蛋白質(zhì)結(jié)構(gòu)間還有相互作用,目前這些結(jié)構(gòu)在一定程度上可以由 AI 進(jìn)行預(yù)測。
第一,蛋白質(zhì)結(jié)構(gòu)預(yù)測跟蛋白質(zhì)組關(guān)系是什么?
我有一個(gè)比喻。這里展示有不同的戰(zhàn)士、不同的武器和不同的裝備,他們就如同是微觀分子世界的一個(gè)個(gè)蛋白質(zhì)。每一個(gè)裝備有什么性能、有什么樣的形態(tài)、可以做什么,都需要研究。
而且,要贏得一場戰(zhàn)斗,還需要知道各種士兵和武器的數(shù)量、運(yùn)行及修復(fù)方式,以及所有軍力在整個(gè)作戰(zhàn)系統(tǒng)中的互動,這個(gè)過程在生命健康中就是蛋白質(zhì)組學(xué)。這個(gè)類比在一定程度上體現(xiàn)了蛋白質(zhì)結(jié)構(gòu)預(yù)測和蛋白質(zhì)組學(xué)的關(guān)系。
第二,蛋白質(zhì)組學(xué)的臨床最新技術(shù)進(jìn)展。
我一直以來都是從事臨床蛋白質(zhì)組研究,十幾年前還很難將蛋白質(zhì)組學(xué)技術(shù)應(yīng)用在臨床,因?yàn)楫?dāng)時(shí)蛋白質(zhì)組學(xué)技術(shù)非常復(fù)雜,價(jià)格昂貴,距離臨床應(yīng)用尚有很長的路。
但最近幾年,這個(gè)領(lǐng)域有了顯著進(jìn)步,多種新的技術(shù)可有效分析各類臨床樣品。
例如血清、血漿、尿液、眼淚、唾液等各種體液樣本,以及活體組織、石蠟切片、細(xì)胞等固體樣本,甚至像毛發(fā)、骨骼、牙齒、糞便等特殊組織樣本都可以進(jìn)行蛋白質(zhì)組分析,且只需極小量樣本就可進(jìn)行蛋白質(zhì)組分析。
圖中這個(gè)案例的組織,直徑是 0.5 毫米,上部 90% 以上都是白色石蠟,下面紅色部分是僅肉眼可見的組織樣本。
在這部分組織上,我們可以提取出足夠量的樣本進(jìn)行多次高通量的蛋白質(zhì)組分析。通過獨(dú)特的壓力循環(huán)技術(shù),3 小時(shí)能處理 16 個(gè)微量組織樣品;從組織提取到進(jìn)行質(zhì)譜分析,只需要 3 個(gè)小時(shí)。
這是我們幾個(gè)月前在 Cell 發(fā)表的關(guān)于 Clinical proteomics 的Snapshot文章,總結(jié)了最新的針對各類臨床樣品的蛋白質(zhì)組分析方法。
還有一個(gè)重要問題,蛋白質(zhì)組分析的成本。
根據(jù)估算,2006 年使用質(zhì)譜測一個(gè)蛋白質(zhì)的成本大約是 3 美金;而 2020 年測一個(gè)蛋白質(zhì)的成本是 0.1 美金左右。
如果用在臨床,經(jīng)過更好地工業(yè)優(yōu)化,使用質(zhì)譜進(jìn)行蛋白質(zhì)檢測的成本還會進(jìn)一步降低。
有了高通量微量蛋白質(zhì)組學(xué)技術(shù),我們就有可能將 AI 納入蛋白質(zhì)組學(xué)驅(qū)動的精準(zhǔn)醫(yī)療當(dāng)中。
AI 醫(yī)療的初衷是希望通過人工智能和醫(yī)療大數(shù)據(jù)來實(shí)現(xiàn)對疾病的早期預(yù)測、準(zhǔn)確診斷、有效治療、靶點(diǎn)發(fā)現(xiàn)、預(yù)后判斷等。目前使用的醫(yī)療數(shù)據(jù)主要是臨床數(shù)據(jù)、圖像、文本分析,或簡單的生化檢測。
而組學(xué)數(shù)據(jù)正在興起,因?yàn)榻M學(xué)可以得到微觀世界分子的動態(tài)信息,其中蛋白質(zhì)是最主要的靶點(diǎn),幾乎所有藥物的靶點(diǎn)和效應(yīng)分子都離不開蛋白質(zhì)。我們在蛋白質(zhì)組方面的進(jìn)展會讓我們加深對生命的理解。
上圖來自于我們最近的一篇綜述,AI 醫(yī)療的核心驅(qū)動力是 AI,還有臨床數(shù)據(jù)、蛋白質(zhì)組、轉(zhuǎn)錄組、基因組。蛋白質(zhì)組從臨床隊(duì)列到樣本到制備分析,整個(gè)流程會越來越容易,我們將產(chǎn)生越來越多的蛋白質(zhì)組大數(shù)據(jù)。
所以我們提出“蛋白質(zhì)組大數(shù)據(jù)”概念。蛋白質(zhì)組大數(shù)據(jù)可以通過各種臨床樣本含有的蛋白質(zhì)組的內(nèi)容,和各種蛋白質(zhì)的量,獲取 AI 醫(yī)療以前無法獲得的信息。
下面介紹一下蛋白質(zhì)組在臨床上的應(yīng)用。
第一,甲狀腺結(jié)節(jié)。甲狀腺結(jié)節(jié)很常見,幾乎一半成年人都有甲狀腺結(jié)節(jié),而這些絕大多數(shù)為良性。
如果出現(xiàn)甲狀腺結(jié)節(jié),一般都是通過 B 超、血液檢測進(jìn)行診斷,如果懷疑結(jié)節(jié)是惡性的,還需要做穿刺活檢,判斷組織的良惡性。
如果是惡性,就要通過手術(shù)切除,雖然這并不是很大的手術(shù)。但切除之后,病人需要終生服用人工激素。因?yàn)榧谞钕偈且粋€(gè)非常重要的器官,切除之后就無法分泌甲狀腺素。
這其中有個(gè)關(guān)鍵問題,30% 左右的甲狀腺結(jié)節(jié)目前無法判斷是良性還是惡性,因此患者通常有非常大的心理壓力。壓力之下,大多數(shù)人會選擇甲狀腺切除。但手術(shù)后卻經(jīng)常發(fā)現(xiàn)其實(shí)是良性結(jié)節(jié),原本并不需要切除這么重要的器官。這是因?yàn)槿狈谞钕俳Y(jié)節(jié)良惡性進(jìn)行準(zhǔn)確判斷的方法。
美國有多項(xiàng)研究嘗試使用基因測序方法,為這些無法判斷的甲狀腺結(jié)節(jié)作
進(jìn)一步診斷,通常要測 100 多個(gè)基因,其中包括 DNA 和 RNA。
以上表格是目前市面上所有經(jīng)過 FDA 批準(zhǔn)的商業(yè)化試劑盒。經(jīng)過第三方評估,發(fā)現(xiàn)這些檢測靈敏度很高,接近百分之百,但特異性只有 10%-52%,也就是被判斷為惡性的結(jié)節(jié),實(shí)際上有大約50%-90%是良性的,這就導(dǎo)致過度治療,大量良性甲狀腺結(jié)節(jié)被切除。
所以,我們就嘗試開發(fā)基于蛋白質(zhì)的甲狀腺結(jié)節(jié)診斷系統(tǒng)。具體來說,我們將新加坡 578 位患者的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集。
首先這些患者的結(jié)節(jié)良惡性情況是已知的,利用這部分?jǐn)?shù)據(jù)我們訓(xùn)練出了一個(gè)神經(jīng)網(wǎng)絡(luò)模型,這個(gè)模型最初包含了 6000 多個(gè)蛋白。
最后我們挑選出了 19 個(gè)蛋白質(zhì),在一個(gè)回顧性的臨床隊(duì)列中進(jìn)行了驗(yàn)證,并在一個(gè)前瞻性的多中心臨床隊(duì)列中也做了驗(yàn)證,目前已經(jīng)有十幾個(gè)國內(nèi)外醫(yī)院參與到這項(xiàng)工作中。
該方法在回顧性與前瞻性的隊(duì)列里面都能夠達(dá)到比較好的效果,具有 90% 的準(zhǔn)確率,尤其在特異性方面優(yōu)于基因組的效果。我們正在通過更大規(guī)模的前瞻性的隊(duì)列去驗(yàn)證、進(jìn)一步優(yōu)化這個(gè)基于蛋白質(zhì)的 AI 模型,并正在開發(fā)可以在臨床使用的試劑盒。
蛋白質(zhì)組不僅僅可以用作診斷,還可以發(fā)現(xiàn)潛在的藥物靶點(diǎn),幾乎所有的藥物都是要以蛋白質(zhì)作為靶點(diǎn)。
例如,我們在甲狀腺癌中發(fā)現(xiàn)有一個(gè)特殊的亞型叫 Hürthle cell 亞型,目前的分子機(jī)理研究非常少,也沒有特別有效的藥物治療。
目前僅知道這種腫瘤主要患者群體是老年女性,在顯微鏡下酸性染色比較強(qiáng),但原因未知。我們的數(shù)據(jù)顯示,在這一群特殊的腫瘤中,有 186 個(gè)蛋白跟其它腫瘤是不一樣的,其中有 160 個(gè)蛋白都跟線粒體蛋白相關(guān)。
這些線粒體相關(guān)的蛋白,很多都是潛在藥物的靶點(diǎn),有可能用來開發(fā)針對這一特殊亞型腫瘤的新方法。
第二個(gè)案例是新冠診斷。絕大部分患者感染新冠之后,自身免疫力都可以將病毒消滅,核酸陽性患者只有很少的部分,其中約 20% 的陽性患者會出現(xiàn)重癥和危重癥。 根據(jù) 2020 年的數(shù)據(jù)統(tǒng)計(jì),占 80% 的輕癥患者可以通過一般抗病毒治療或隔離治愈,而占20% 的重癥患者,如果早期干預(yù)也可以轉(zhuǎn)化為輕癥。
但現(xiàn)在世界上還有很多國家的重癥、危重癥病人無法轉(zhuǎn)好。重癥診斷一般都是基于臨床數(shù)據(jù)判斷,也就是宏觀世界的數(shù)據(jù)——病人呼吸急促、血氧飽和度非常低等。
當(dāng)這些指征出現(xiàn)的時(shí)候,病人已經(jīng)處于重癥,治療窗口期已經(jīng)非常短,要進(jìn)行緊急處理,如吸氧、上呼吸機(jī)等。
所以,我們試圖在血液中找到一些分子,在患者演變?yōu)橹匕Y之前,通過 AI 進(jìn)行鑒別診斷,通過分子的改變,提前預(yù)判重癥,以期為每一位患者提供更加精準(zhǔn)的治療。
為此,我們在 2020 年收集了一些輕癥患者、重癥患者以及健康人群對照樣本,將患者分為訓(xùn)練集和驗(yàn)證集。
我們在訓(xùn)練集中測量了蛋白,其中包含 22 個(gè)蛋白和 7 個(gè)代謝物,最終在訓(xùn)練集中 AI 達(dá)到了 93.5% 的準(zhǔn)確度,有兩個(gè)患者的預(yù)測結(jié)果和臨床結(jié)果不符。其中一位 70 歲男性患者,臨床是輕癥,但模型認(rèn)為他是重癥,而我們發(fā)現(xiàn),他在所有患者中年齡最大,所以這位男性的治療方法也跟重癥患者最相似。
而在驗(yàn)證集中的 19 位患者中,有 3 個(gè)患者跟臨床診斷不相符,后來發(fā)現(xiàn)主要是因?yàn)榛颊邚?fù)雜的病史情況。
其中,XG45 這位患者臨床判斷為重癥,但 AI 認(rèn)為他是輕癥,后來得知,這位患者入院前做了 20 多天各種的抗病毒治療,所以入院時(shí)雖然臨床表現(xiàn)為重癥,但很快就康復(fù)出院。
另外一位患者 XG22,臨床癥狀是輕癥,AI 模型判斷為重癥,后來診斷發(fā)現(xiàn)有乙肝和糖尿病,是所有觀察組中住院時(shí)間最長的一位。其他重癥患者都已經(jīng)出院,他還沒有明顯的好轉(zhuǎn),連續(xù) 50 多天檢測都呈陽性。這位患者的微觀世界數(shù)據(jù)表明,他的慢性疾病導(dǎo)致他的免疫系統(tǒng)與其他人都不一樣,比重癥患者對病毒清除能力更弱。
另外一個(gè)獨(dú)立隊(duì)列有十幾位患者,其中 3 位患者與臨床診斷不相符,后來發(fā)現(xiàn)不一定是我們錯(cuò)了,甚至我們微觀世界的數(shù)據(jù)其實(shí)更加準(zhǔn)確。
例如,X2-22 這個(gè)患者是一位 66 歲的女性,她的分?jǐn)?shù)是所有患者中最低的,比重癥患者還要低,她在采血當(dāng)天,血糖達(dá)到 27.8,這是典型的高血糖危象。
我們通過蛋白質(zhì)和代謝的分析,利用 AI 模型,準(zhǔn)確找到了這位患者,未來如果我們有可能將這個(gè)方法在臨床廣泛使用,有可能讓醫(yī)生更加從容的應(yīng)對類似患者。
除了對疾病診斷和預(yù)后進(jìn)行判斷之外,蛋白質(zhì)組數(shù)據(jù)同時(shí)還可以提供分子通路信息,這些改變的通路里通常含有潛在的治療靶點(diǎn)。
我們的文章發(fā)表之后,確實(shí)有很多臨床研究針對其中一些潛在靶點(diǎn),對新冠藥物進(jìn)行了開發(fā)。
此外,我們也做了新的研究,利用尿液做新冠診斷。一般我們認(rèn)為尿液中沒有蛋白,如果發(fā)現(xiàn)蛋白尿,一般認(rèn)為是腎臟功能出了問題。
但這種觀念是因?yàn)檫^去臨床使用的一般的蛋白檢測技術(shù)比較陳舊,而目前蛋白質(zhì)譜技術(shù)可以發(fā)現(xiàn)正常尿液里有非常多的蛋白。為此,我們采集新冠和相應(yīng)對照患者的血樣和尿樣,展開了更多蛋白質(zhì)組學(xué)分析。
我們發(fā)現(xiàn)尿液里有 3800 多個(gè)蛋白,而同樣的方法只能在血液中發(fā)現(xiàn)大約 1500 個(gè)蛋白,我們在血液中發(fā)現(xiàn)的蛋白,其實(shí)在尿液樣本中絕大多數(shù)都可以測到,且分子量分布差不多,并不是只有小的蛋白才能進(jìn)入尿液。
得到結(jié)果之后,我們再用機(jī)器學(xué)習(xí)預(yù)測,使用血蛋白和尿蛋白進(jìn)行新冠輕重癥鑒別,發(fā)現(xiàn)和目前使用血液檢測蛋白的方法效果類似。
并且,重癥患者尿蛋白模型的分?jǐn)?shù)剛開始還比較高,康復(fù)期才逐漸下降。這說明尿蛋白也可以對新冠病情進(jìn)行分類和預(yù)測。
此外,尿液中還可以發(fā)現(xiàn)很多細(xì)胞因子,一般通過抗體檢測新冠重癥患者,在細(xì)胞因子風(fēng)暴數(shù)據(jù)中一般只測量十?dāng)?shù)個(gè)細(xì)胞因子。
用質(zhì)譜檢測可以測到 200 多個(gè)細(xì)胞因子以及受體,我們發(fā)現(xiàn)一些新發(fā)現(xiàn)的細(xì)胞因子都與新冠有密切相關(guān)性,這些都是目前只能通過蛋白質(zhì)譜檢測到的。蛋白質(zhì)譜可以讓我們看到肉眼無法察覺的,但在微觀世界中真實(shí)發(fā)生著的蛋白分子的一舉一動。
最后介紹一下我們的新技術(shù)——蛋白質(zhì)大數(shù)據(jù)。
大數(shù)據(jù)一定要有展示形式,大數(shù)據(jù)領(lǐng)域有一個(gè)基本的、適用于深度學(xué)習(xí)的大數(shù)據(jù)格式,叫做張量 (Tensor),即多維矩陣。各種大數(shù)據(jù)形式,包括文本、聲音、圖像都可以轉(zhuǎn)化成 Tensor。
那么蛋白質(zhì)組數(shù)據(jù)能不能轉(zhuǎn)化成 Tensor?
我們最近將蛋白質(zhì)轉(zhuǎn)化為 Tensor 多維矩陣,這個(gè)矩陣可以轉(zhuǎn)化為視頻。
如圖所示,每個(gè)像素就是某個(gè)蛋白質(zhì)的一個(gè)多肽片段,平鋪后可以得到一副有規(guī)律的圖片,如果再放大就會發(fā)現(xiàn)每個(gè)像素之間像宇宙圖像一樣有一些間隔,每個(gè)間隔都是一個(gè)分子單位。
我們的微觀世界蛋白質(zhì)組就像宇宙一樣,有大量信號,這些信號絕大部分都不是隨機(jī)存在的,而是生物信號。
我們做了統(tǒng)計(jì),45 分鐘內(nèi)質(zhì)譜機(jī)采集的像素點(diǎn)達(dá)到 100 多億個(gè)。我們也建立了一些針對蛋白質(zhì)組 tensor 的計(jì)算流程,像 TensorFlow 一樣,可以進(jìn)行各種深度學(xué)習(xí)分析,用于疾病診斷、新靶點(diǎn)發(fā)現(xiàn)等。
西湖歐米是我們實(shí)驗(yàn)室的 Spin-off,我們希望和醫(yī)院和社區(qū)合作,滿足大家對健康及醫(yī)療的需求。雖然有很多宏觀世界數(shù)據(jù),但是微觀世界分子運(yùn)作數(shù)據(jù)極其匱乏。歐米工廠生產(chǎn)試劑盒、做樣本制備,可以將各類臨床樣品轉(zhuǎn)化為蛋白質(zhì)組數(shù)據(jù)。在數(shù)據(jù)中心處理之后,AI 可發(fā)現(xiàn)并總結(jié)規(guī)律,用于指導(dǎo)疾病診療。同時(shí),也有望發(fā)現(xiàn)新的藥物靶點(diǎn),與制藥公司合作,開發(fā)更好的治療方法。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。