0
本文作者: 任平 | 2024-04-10 14:20 |
在生物醫(yī)學(xué)研究的前沿領(lǐng)域,“單細(xì)胞蛋白質(zhì)組學(xué)”是怎樣的存在?
用一個(gè)比喻來說,它就像一把鑰匙,能夠開啟細(xì)胞內(nèi)部世界的大門,讓我們得以窺見細(xì)胞如何通過蛋白質(zhì)的相互作用來執(zhí)行生命活動(dòng)。
這一研究領(lǐng)域的突破,不僅能夠推動(dòng)科學(xué)界對(duì)生命過程的理解,也為精準(zhǔn)醫(yī)療的實(shí)現(xiàn)奠定了基礎(chǔ)。
近期,騰訊的 AI Lab,無疑成為了這一前沿研究領(lǐng)域率先“揭開英雄榜 ”的那個(gè)研究機(jī)構(gòu)。
3月20日,騰訊 AI Lab 的 3 篇蛋白質(zhì)組論文正式入選國際頂級(jí)學(xué)術(shù)期刊。論文分別在數(shù)據(jù)庫、AI 建模、AI 輔助臨床三個(gè)角度提出了全新的研究方案,為人類從根本上闡釋生命提供了重要技術(shù)參考。
《SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution》,被生物信息學(xué)領(lǐng)域數(shù)據(jù)庫方面的的權(quán)威期刊 Nucleic Acids Research收錄。
《 scPROTEIN: a versatile deep graph contrastive learning framework for single-cell proteomics embedding》,被Nature旗下的方法學(xué)期刊Nature Methods收錄。
《Deep domain adversarial neural network for the deconvolution of cell type mixtures in tissue proteome profiling》,被Nature旗下機(jī)器學(xué)習(xí)專業(yè)期刊 Nature Machine Intelligence 所收錄。
借此契機(jī),雷峰網(wǎng)近期對(duì)話騰訊 AI Lab 科學(xué)家姚建華和研究員楊帆,他們是三篇論文的共同作者。在訪談中,他們深入闡述了這些論文背后的技術(shù)突破、應(yīng)用價(jià)值和未來的研究規(guī)劃。
他們解釋道,這三篇論文的創(chuàng)新之處在于,它們首次為單細(xì)胞蛋白質(zhì)組提供了全面的數(shù)據(jù)知識(shí)庫和系統(tǒng)的AI分析方法。
論文一中建立的 SPDB 數(shù)據(jù)庫,通過標(biāo)準(zhǔn)化處理不同來源的單細(xì)胞蛋白質(zhì)組學(xué)數(shù)據(jù),使得數(shù)據(jù)易于比較和分析,是目前全球數(shù)據(jù)量最大、覆蓋技術(shù)和數(shù)據(jù)集最為廣泛的單細(xì)胞蛋白質(zhì)數(shù)據(jù)庫。
論文二中的 scPROTEIN 框架,針對(duì)單細(xì)胞蛋白組數(shù)據(jù)的特殊性提出了解決方案,能夠處理數(shù)據(jù)中的不確定性、缺失值、批次效應(yīng)和噪聲問題。為基于單細(xì)胞蛋白質(zhì)組的腫瘤發(fā)生發(fā)展機(jī)制研究、藥物靶點(diǎn)發(fā)現(xiàn)和腫瘤早篩和微環(huán)境研究提供重要的AI輔助作用。
第三篇論文中提出的 scpDeconv 方法,是一種全新的反卷積方法,能夠從“組織蛋白質(zhì)組”數(shù)據(jù)中挖掘出特定細(xì)胞類型比例,為腫瘤輔診和預(yù)后分析提供了新的視角,是三篇論文中與臨床應(yīng)用最為貼近的一項(xiàng)成果。
姚建華,作為騰訊 AI Lab 的 AI 醫(yī)療首席科學(xué)家,補(bǔ)充道:
“AlphaFold 在蛋白質(zhì)結(jié)構(gòu)領(lǐng)域取得了令人矚目的成就,它主要關(guān)注單個(gè)蛋白質(zhì)的結(jié)構(gòu)和功能,或幾個(gè)蛋白質(zhì)之間的相互作用。
而我們的研究則聚焦于細(xì)胞內(nèi)所有蛋白質(zhì)的表達(dá)模式,這些信息反映了整個(gè)細(xì)胞的狀態(tài)和微環(huán)境,使我們的工作更加貼近臨床應(yīng)用和疾病機(jī)制的探索?!?/p>
值得一提的是,當(dāng)我們在討論論文成果的同時(shí),一個(gè)更深遠(yuǎn)的議題逐漸浮現(xiàn):成立于2016年的騰訊 AI Lab,是否有能力在接下來的五年中,引領(lǐng)生命科學(xué)領(lǐng)域的未來發(fā)展?
這個(gè)問題不僅考驗(yàn)著實(shí)驗(yàn)室的科研實(shí)力,也反映出科技公司在生物醫(yī)學(xué)領(lǐng)域的影響力和責(zé)任。如今的騰訊 AI Lab,走的每一步都比以往更受關(guān)注。
以下為對(duì)話(經(jīng)編輯):
雷峰網(wǎng):首先請兩位介紹下,三篇論文的創(chuàng)新點(diǎn),簡要介紹技術(shù)實(shí)現(xiàn)形式,應(yīng)用價(jià)值,以及對(duì)單細(xì)胞蛋白質(zhì)組學(xué)這一研究領(lǐng)域的貢獻(xiàn)(比如最適合哪些人/機(jī)構(gòu)使用)。
楊帆:單細(xì)胞測序技術(shù)已經(jīng)取得了飛速發(fā)展,盡管單細(xì)胞轉(zhuǎn)錄組相關(guān)的測序技術(shù)和計(jì)算方法已經(jīng)相當(dāng)成熟,但轉(zhuǎn)錄水平與蛋白質(zhì)水平的相關(guān)性通常低于 50% 。在單細(xì)胞層面,這種相關(guān)性更低。
因此,只有通過研究蛋白質(zhì)組,我們才能深入理解生命活動(dòng)和疾病的本質(zhì)。
單細(xì)胞蛋白質(zhì)組測序技術(shù)也在不斷進(jìn)步,技術(shù)革新層出不窮,并受到了國際頂級(jí)期刊如 Nature Methods 的關(guān)注和報(bào)道。特別是以 SCOPE-MS(Single-Cell Proteomics by Mass Spectrometry)、nanoPOTS (nanodroplet processing in one pot for trace samples) 為代表的基于質(zhì)譜的蛋白質(zhì)測序技術(shù),能夠檢測到單細(xì)胞中數(shù)千種蛋白質(zhì)的存在。這比以往基于抗體的單細(xì)胞蛋白質(zhì)組測序技術(shù)有了顯著的提升。
然而,這些數(shù)據(jù)的復(fù)雜性,使得專門針對(duì)單細(xì)胞蛋白質(zhì)組數(shù)據(jù)的AI計(jì)算方法相對(duì)缺乏。
正是基于這一背景,我們的三篇論文圍繞單細(xì)胞蛋白質(zhì)組數(shù)據(jù)分析進(jìn)行了深入研究。我們首次為單細(xì)胞蛋白質(zhì)組提供了一套系統(tǒng)的 AI 分析方法和數(shù)據(jù)知識(shí)庫。
其中,第一篇論文收集了目前世界上最全面的、不同來源、不同測序技術(shù)、不同物種的單細(xì)胞蛋白質(zhì)組數(shù)據(jù),并進(jìn)行了標(biāo)準(zhǔn)化處理和系統(tǒng)性評(píng)估。
第二篇論文基于遷移學(xué)習(xí)技術(shù),從單細(xì)胞蛋白質(zhì)組數(shù)據(jù)中推斷組織蛋白質(zhì)組中的細(xì)胞比例;
第三篇論文則采用對(duì)比學(xué)習(xí)方法對(duì)單細(xì)胞蛋白質(zhì)組進(jìn)行表征;
我們的計(jì)算方法通過實(shí)驗(yàn)驗(yàn)證,明顯優(yōu)于直接應(yīng)用單細(xì)胞轉(zhuǎn)錄組的方法。這些方法已經(jīng)開源,并配備了詳盡的使用說明,可供全球范圍內(nèi)的研究人員使用。
我們的算法特別適合那些從事單細(xì)胞蛋白質(zhì)組數(shù)據(jù)生成的團(tuán)隊(duì),他們可以直接應(yīng)用我們的技術(shù)進(jìn)行細(xì)胞級(jí)別的數(shù)據(jù)分析和下游應(yīng)用。
對(duì)于臨床醫(yī)學(xué)專家而言,他們可以利用我們的反卷積算法分析公開的TCGA或CPTAC等蛋白質(zhì)組數(shù)據(jù)庫,或者基于自己收集的臨床組織樣本,以深入理解腫瘤微環(huán)境,輔助疾病機(jī)制的研究和診斷預(yù)測。
此外,我們的數(shù)據(jù)庫允許生物學(xué)家和醫(yī)學(xué)工作者在線探索他們感興趣的蛋白質(zhì)或細(xì)胞類型,觀察這些蛋白質(zhì)在不同細(xì)胞類型中的變化規(guī)律,從而支持他們在特定蛋白質(zhì)研究方向上的研究。
雷峰網(wǎng):因?yàn)槿撐某晒际羌性趩渭?xì)胞蛋白質(zhì)組學(xué)領(lǐng)域,探討了如何通過不同的計(jì)算方法和數(shù)據(jù)庫資源來分析和理解單細(xì)胞水平上的蛋白質(zhì)表達(dá)數(shù)據(jù)。那么,在此之前你們做了哪些工作?在三篇論文成果出來后,緊接著有哪些研究計(jì)劃?
楊帆:在此之前,我們團(tuán)隊(duì)已經(jīng)進(jìn)行了大量工作,包括醫(yī)學(xué)多模態(tài)數(shù)據(jù)分析、疾病預(yù)測以及精準(zhǔn)醫(yī)療等領(lǐng)域的研究。同時(shí),我們也在單細(xì)胞轉(zhuǎn)錄組和空間組學(xué)等生命科學(xué)基礎(chǔ)計(jì)算領(lǐng)域進(jìn)行了深入探索,并在多個(gè)AI頂級(jí)會(huì)議和期刊上發(fā)表了相關(guān)論文。
因此,我們在醫(yī)學(xué)、生命科學(xué)、精準(zhǔn)醫(yī)療和數(shù)據(jù)分析等領(lǐng)域積累了豐富的經(jīng)驗(yàn)。
舉個(gè)例子:
我們在預(yù)訓(xùn)練語言模型尚未廣泛應(yīng)用于單細(xì)胞數(shù)據(jù)分析領(lǐng)域時(shí),就意識(shí)到預(yù)訓(xùn)練模型在自然語言處理(NLP)領(lǐng)域已經(jīng)取得了巨大成功。當(dāng)時(shí),單細(xì)胞數(shù)據(jù)分析主要依賴于簡單的機(jī)器學(xué)習(xí)方法,并且常常需要針對(duì)每個(gè)數(shù)據(jù)集進(jìn)行手工處理,這限制了模型的泛化能力。
針對(duì)這一問題,我們在 2021 年啟動(dòng)了一個(gè)項(xiàng)目,設(shè)計(jì)了一種基于單細(xì)胞數(shù)據(jù)的大規(guī)模預(yù)訓(xùn)練語言模型,名為scBERT。我們根據(jù)單細(xì)胞數(shù)據(jù)的特性,開發(fā)了基因嵌入(gene embedding)和表達(dá)嵌入(expression embedding),使得這些數(shù)據(jù)能夠被 Transformer 這種先進(jìn)的計(jì)算模型處理和識(shí)別。
我們首次引入了 BERT 這種預(yù)訓(xùn)練和微調(diào)的范式,從而充分利用了當(dāng)時(shí)尚未充分利用的大規(guī)模單細(xì)胞數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,顯著提升了模型的泛化性和處理跨批次、跨數(shù)據(jù)集數(shù)據(jù)的能力。
這一成果發(fā)表在了 Nature Machine Intelligence上,開啟了單細(xì)胞大模型研究的新篇章。
在這三篇論文發(fā)表之后,我們計(jì)劃更加聚焦于重大科學(xué)問題的研究,并注重其臨床應(yīng)用和轉(zhuǎn)化。我們將進(jìn)一步整合多組學(xué)數(shù)據(jù)和蛋白質(zhì)大模型,賦能更多的應(yīng)用場景。
姚建華:我可以補(bǔ)充一些背景信息。
眾所周知,生物體內(nèi)的核心法則是中心法則,即 DNA、RNA 和蛋白質(zhì)之間的關(guān)系。
DNA 攜帶遺傳信息,通過轉(zhuǎn)錄成為 RNA,形成轉(zhuǎn)錄組。
而RNA進(jìn)一步翻譯成蛋白質(zhì),即蛋白質(zhì)組。
我們的研究工作正是基于這一原理?;驕y序技術(shù)的發(fā)展歷程顯示,DNA 測序是相對(duì)容易的部分,而 RNA 和蛋白質(zhì)的測序難度逐漸增加,因?yàn)樗鼈冃枰鼜?fù)雜的擴(kuò)增和測量技術(shù)。
從上個(gè)世紀(jì) 70 年代開始,人類基因組測序技術(shù)已經(jīng)經(jīng)歷了幾代的發(fā)展。
最初,人類主要關(guān)注 DNA 信息的測序。大約 10 年前,單細(xì)胞技術(shù)開始興起,最初主要集中在 RNA 信息的測序。而單細(xì)胞蛋白質(zhì)組學(xué)則是最近五六年才開始發(fā)展的新興技術(shù)。
我們的研究工作也是沿著這一脈絡(luò)逐步推進(jìn)的,從較簡單的數(shù)據(jù)開始,逐步過渡到更復(fù)雜的數(shù)據(jù)分析。
例如,我們之前的工作 scBERT 主要針對(duì)轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行分析。而現(xiàn)在,我們進(jìn)一步研究蛋白質(zhì)組數(shù)據(jù),這是一個(gè)更為復(fù)雜和具有挑戰(zhàn)性的領(lǐng)域。隨著數(shù)據(jù)難度的增加,對(duì)算法和計(jì)算能力的要求也越來越高。我們的研究正是在這一背景下不斷進(jìn)步和發(fā)展的。
雷峰網(wǎng):總體從技術(shù)層面來說,論文一提供了一個(gè)數(shù)據(jù)資源庫,論文二和論文三則分別提出了新的深度學(xué)習(xí)框架來處理不同類型的數(shù)據(jù)分析問題。論文二側(cè)重于通過圖學(xué)習(xí)處理單細(xì)胞蛋白質(zhì)組數(shù)據(jù),而論文三側(cè)重于使用域?qū)股窠?jīng)網(wǎng)絡(luò)進(jìn)行細(xì)胞類型比例的解卷積。
不知道我這樣理解是否正確,請兩位再介紹下三篇論文的聯(lián)系與區(qū)別。以及,全球范圍內(nèi),還有哪些課題組或企業(yè)在做類似的工作?
楊帆:您的理解非常準(zhǔn)確。
數(shù)據(jù)資源庫是算法研究的基石,我們深知AI算法的發(fā)展離不開數(shù)據(jù)的支撐。在單細(xì)胞蛋白組學(xué)領(lǐng)域,數(shù)據(jù)的準(zhǔn)確表征是進(jìn)行下游應(yīng)用的關(guān)鍵。
掌握了單細(xì)胞蛋白組數(shù)據(jù)后,我們能夠詳細(xì)了解每種細(xì)胞類型在細(xì)胞內(nèi)蛋白質(zhì)表達(dá)的模式。
基于這些數(shù)據(jù),結(jié)合AI算法,我們可以進(jìn)一步推斷組織蛋白組中細(xì)胞類型的比例,這對(duì)于理解腫瘤微環(huán)境至關(guān)重要。
目前,臨床上已有大量基于組織蛋白組的數(shù)據(jù),這些數(shù)據(jù)通常來源于腫瘤患者癌組織及其周圍正常組織的樣本,通過質(zhì)譜技術(shù)獲得的是多種細(xì)胞類型混合后的蛋白質(zhì)表達(dá)平均水平。
我們的反卷積算法能夠精確推斷出不同細(xì)胞類型的比例,使全球研究者能夠從公開數(shù)據(jù)集中挖掘出有關(guān)細(xì)胞比例的信息,從而更好地理解腫瘤微環(huán)境。
此外,即使在無法進(jìn)行單細(xì)胞蛋白組測序的臨床情況下,我們的算法也能提供一種解決方案,幫助理解細(xì)胞微環(huán)境,從而輔助臨床進(jìn)行疾病預(yù)后和預(yù)測。
這三篇論文可以視為一個(gè)整體,其中數(shù)據(jù)資源庫為基底,上面有兩個(gè)不同角度的AI應(yīng)用,如同一棵大樹上結(jié)出的兩個(gè)果實(shí)。
據(jù)我們所知,目前全球范圍內(nèi)尚無其他團(tuán)隊(duì)或企業(yè)開展與我們完全相同的工作。其他機(jī)構(gòu)主要在進(jìn)行單細(xì)胞轉(zhuǎn)錄組或蛋白質(zhì)結(jié)構(gòu)的研究,這些研究當(dāng)然也很重要,但我們的工作填補(bǔ)了單細(xì)胞蛋白組學(xué)領(lǐng)域的一個(gè)空白,具有創(chuàng)新性和前瞻性,未來必將吸引更多研究聚焦于此領(lǐng)域。
姚建華:正如楊帆所提到的,蛋白質(zhì)結(jié)構(gòu)在AI領(lǐng)域中,尤其是 AlphaFold 這樣的技術(shù)最為人所熟知。
AlphaFold 主要分析的是單個(gè)蛋白質(zhì)的結(jié)構(gòu),例如蛋白質(zhì)的折疊方式或幾個(gè)蛋白質(zhì)之間的相互作用,它關(guān)注的是單個(gè)蛋白質(zhì)的三維結(jié)構(gòu),以及其功能和對(duì)人體細(xì)胞的作用。
而我們的研究則是從另一個(gè)角度出發(fā),分析細(xì)胞內(nèi)所有蛋白質(zhì)的表達(dá)模式。
我們知道,人體有數(shù)以億計(jì)的蛋白質(zhì),即使是單個(gè)細(xì)胞內(nèi)也有成千上萬的蛋白質(zhì)。我們的目標(biāo)是分析這些蛋白質(zhì)之間的相互作用和表達(dá)模式,這些信息反映了整個(gè)細(xì)胞的狀態(tài)和微環(huán)境。
通過蛋白質(zhì)組或轉(zhuǎn)錄組等組學(xué)數(shù)據(jù),我們可以更全面地理解細(xì)胞的微環(huán)境和疾病產(chǎn)生的原因,這對(duì)于臨床治療和疾病機(jī)制的研究具有重要意義。
與 AlphaFold 等關(guān)注單個(gè)蛋白質(zhì)結(jié)構(gòu)的技術(shù)相比,我們的研究更側(cè)重于整個(gè)細(xì)胞和微環(huán)境的系統(tǒng)性分析,這使得我們的工作更接近臨床應(yīng)用和疾病機(jī)制的探索。
雷峰網(wǎng):雖然是三個(gè)論文成果,但其實(shí)是在一個(gè)研究項(xiàng)目之中的嗎(因?yàn)檠芯渴琼樦鴶?shù)據(jù)庫、AI建模、AI輔助臨床三個(gè)層面逐一展開)?三篇論文的作者團(tuán)隊(duì)在專業(yè)背景上有何區(qū)分?整體來說,從立項(xiàng)到出論文成果,持續(xù)時(shí)間多久?
楊帆:這三篇論文是在同一個(gè)大的研究方向下自然展開的。主要作者包括我和姚老師。
此外,我們的團(tuán)隊(duì)還包括來自不同領(lǐng)域的合作者,如生物信息學(xué)和 AI 機(jī)器學(xué)習(xí)領(lǐng)域的專家,以及校企聯(lián)合培養(yǎng)的學(xué)生。
騰訊 AI Lab 作為一個(gè)跨學(xué)科的平臺(tái),為跨學(xué)科AI應(yīng)用提供了豐富的土壤。實(shí)驗(yàn)室匯集了 數(shù)百位頂尖科學(xué)家,這為我們的研究提供了強(qiáng)大的支持。
在 AI Lab,我們有來自生物信息學(xué)領(lǐng)域的研究員,他們從生物醫(yī)學(xué)問題出發(fā),收集數(shù)據(jù)并定義研究問題。
在模型研發(fā)階段,尤其是面對(duì)原創(chuàng)性研究中的新問題和挑戰(zhàn)時(shí),我們需要AI技術(shù)的創(chuàng)新。在這方面,我們有AI領(lǐng)域世界頂級(jí)的科學(xué)家與我們合作,共同應(yīng)對(duì)圖模型、可信 AI 以及遷移學(xué)習(xí)等領(lǐng)域的挑戰(zhàn)。
正是在 AI Lab 這樣一個(gè)充滿世界級(jí)專家、緊密交流和跨學(xué)科合作的環(huán)境中,我們才能夠激發(fā)出創(chuàng)新的火花,并推動(dòng)一系列跨學(xué)科AI應(yīng)用研究的發(fā)展。
我們的實(shí)驗(yàn)室主任張正友老師和AI醫(yī)療首席科學(xué)家姚建華博士,分別是 IEEE Fellow 和 AIMBE Fellow,ACM fellow,是世界知名的學(xué)術(shù)領(lǐng)袖。在他們的指導(dǎo)和把關(guān)下,我們的研究員在進(jìn)行科研和創(chuàng)新時(shí)更加自信和從容。
一般來說,我們的項(xiàng)目從啟動(dòng)到成果發(fā)表大約需要一年到一年半的時(shí)間。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)):楊帆博士,您的背景和經(jīng)歷是怎樣的?同時(shí)請問姚建華老師,如今騰訊 AI lab 的工作者在專業(yè)背景上有何共性?
楊帆:我是清華大學(xué)的博士畢業(yè)生,在博士期間主要從事臨床組學(xué)分析的研究。自2016年起,我開始接觸人工智能領(lǐng)域。博士畢業(yè)后,我加入了騰訊隨后在 AI Lab 做研究,至今已近六年。在這里,我相當(dāng)于又完成了一個(gè) AI 領(lǐng)域的博士學(xué)位,進(jìn)行了廣泛的AI研究。
我感覺自己的知識(shí)結(jié)構(gòu)像是“T”字型。
一方面,在組學(xué)生物數(shù)據(jù)分析領(lǐng)域有深入的研究和超過十年的經(jīng)驗(yàn);
另一方面,在AI領(lǐng)域,包括多模態(tài)研究、醫(yī)學(xué)影像、臨床文本數(shù)據(jù)處理、圖模型、深度學(xué)習(xí)等多個(gè)方面都有所涉獵,并發(fā)表了相關(guān)論文。
這種“一專多能”的背景使我在跨學(xué)科領(lǐng)域,如 AI for Science ,能夠提出獨(dú)特的見解和研究方向。
姚建華:我們團(tuán)隊(duì)確實(shí)需要這樣的跨學(xué)科人才。正如楊帆所提到的,AI Lab 涵蓋了人工智能、機(jī)器學(xué)習(xí)、語音識(shí)別、多模態(tài)等多個(gè)研究方向。我們特別注重生命科學(xué)領(lǐng)域的人工智能應(yīng)用,因此團(tuán)隊(duì)中的許多研究員都具備 AI 和生物學(xué)的雙重背景。
只有通過這樣的交叉合作,才能真正推動(dòng)這一領(lǐng)域的發(fā)展。我們也經(jīng)常與其他專注于人工智能的團(tuán)隊(duì)進(jìn)行技術(shù)上的交流和探討,共同促進(jìn)科學(xué)的進(jìn)步。
|論文一:《SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution》
鏈接:https://academic.oup.com/nar/article/52/D1/D562/7416372
該論文已入選生物信息學(xué)領(lǐng)域數(shù)據(jù)庫方面專業(yè)期刊 Nucleic Acids Research
雷峰網(wǎng):SPDB 如何整合不同來源和技術(shù)的單細(xì)胞蛋白質(zhì)組學(xué)數(shù)據(jù)?團(tuán)隊(duì)在數(shù)據(jù)庫設(shè)計(jì)和實(shí)施過程中遇到的主要挑戰(zhàn)及解決方案。還有哪些研究不足和優(yōu)化計(jì)劃?
楊帆:SPDB旨在為不同技術(shù)類型的單細(xì)胞蛋白組學(xué)數(shù)據(jù)提供一個(gè)專門的數(shù)據(jù)處理框架。
我們通過在統(tǒng)一的環(huán)境中對(duì)來自不同基礎(chǔ)來源的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理和分析,使得用戶能夠在一個(gè)平臺(tái)上對(duì)比和探索不同技術(shù)來源的數(shù)據(jù)。
為了確保數(shù)據(jù)集的獨(dú)立性和可靠性,SPDB 并沒有直接整合不同來源的數(shù)據(jù)集,而是提供了對(duì)單個(gè)數(shù)據(jù)集的獨(dú)立探索功能,以及對(duì)同一蛋白質(zhì)在不同數(shù)據(jù)集中的對(duì)比探索。
在SPDB數(shù)據(jù)庫建設(shè)的初期,我們面臨的一大挑戰(zhàn)是:如何處理和分析一些我們之前未曾接觸過的數(shù)據(jù)類型。
例如質(zhì)譜蛋白質(zhì)組數(shù)據(jù),以及這些原始數(shù)據(jù)的處理程度和存儲(chǔ)格式的多樣性。
我們通過廣泛閱讀相關(guān)文獻(xiàn),并詳細(xì)研究每個(gè)數(shù)據(jù)集的源文獻(xiàn)中關(guān)于數(shù)據(jù)處理的描述,為每個(gè)數(shù)據(jù)集制定了針對(duì)性的數(shù)據(jù)處理步驟,從而確保了數(shù)據(jù)的準(zhǔn)確性和可靠性。
目前,SPDB 的一個(gè)不足之處在于:缺乏在線工具供用戶直接使用。未來,我們計(jì)劃將研究團(tuán)隊(duì)開發(fā)的相關(guān)算法集成到SPDB平臺(tái)上,以便用戶能夠更方便地使用這些工具。
此外,SPDB 目前還沒有提供蛋白質(zhì)對(duì)應(yīng)的基因表達(dá)信息,即轉(zhuǎn)錄組數(shù)據(jù)。因此,我們的后續(xù)工作將包括為蛋白質(zhì)表達(dá)提供相應(yīng)的基因表達(dá)數(shù)據(jù),以便于用戶進(jìn)行更全面的對(duì)比展示和分析。
SPDB數(shù)據(jù)庫 概述圖
雷峰網(wǎng):在我的理解,這應(yīng)該是這一工作的最大貢獻(xiàn),是收集了大量數(shù)據(jù),還對(duì)這些數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理,使得不同來源的數(shù)據(jù)可以放在一起比較和分析。這就好比把不同語言的書籍翻譯成同一種語言,讓讀者更容易理解。為什么當(dāng)下這種工作成為必要?
楊帆:您的理解非常準(zhǔn)確。我們構(gòu)建這個(gè)數(shù)據(jù)庫的初衷,是因?yàn)閱渭?xì)胞轉(zhuǎn)錄組和空間組學(xué)領(lǐng)域的研究已經(jīng)日益成熟,積累了大量的數(shù)據(jù)。
市場上也存在一些對(duì)單細(xì)胞轉(zhuǎn)錄組和空間組數(shù)據(jù)進(jìn)行整合和統(tǒng)計(jì)的數(shù)據(jù)庫,這些數(shù)據(jù)庫不僅為生物學(xué)家和臨床工作者提供了探索和發(fā)現(xiàn)的工具,也為生物信息學(xué)研究者提供了基于標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行算法開發(fā)的平臺(tái)。
由于許多研究者更傾向于使用已經(jīng)處理好的標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行開發(fā),而并非所有人都具備從大量分散的原始生物學(xué)文獻(xiàn)中提取數(shù)據(jù)的經(jīng)驗(yàn)或知識(shí),我們的論文和工作的目標(biāo)就是為單細(xì)胞蛋白組學(xué)領(lǐng)域做出貢獻(xiàn)。
我們希望通過標(biāo)準(zhǔn)化的數(shù)據(jù),讓更多的AI研究者和生物信息學(xué)工作者能夠看到單細(xì)胞蛋白組學(xué)數(shù)據(jù)的潛力,并在此基礎(chǔ)上進(jìn)行算法的研發(fā)和創(chuàng)新。
這就像是為整個(gè)單細(xì)胞蛋白組學(xué)研究社區(qū)提供了一片沃土,讓更多創(chuàng)新得以孕育。
此外,這個(gè)數(shù)據(jù)庫也為那些日常工作繁忙、非生物信息學(xué)專長的生物科學(xué)工作者和醫(yī)療工作者提供了便利。有了這個(gè)實(shí)用的工具,他們可以從單細(xì)胞蛋白組學(xué)的角度獲得新的啟示和發(fā)現(xiàn),即使這不是他們的主要研究領(lǐng)域。
姚建華:建立這樣一個(gè)數(shù)據(jù)庫的工作量非常巨大,數(shù)據(jù)分散在各個(gè)地方。所以這種工作其實(shí)非常適合像我們這樣資源相對(duì)充足的公司來開展。
尤其是在大模型時(shí)代,數(shù)據(jù)的重要性愈發(fā)凸顯。
以前訓(xùn)練一個(gè)模型可能只需要幾十萬、幾百萬的數(shù)據(jù),但現(xiàn)在訓(xùn)練一個(gè)大型模型可能需要數(shù)億的數(shù)據(jù)量。
我們的數(shù)據(jù)庫已經(jīng)收集了 3 億個(gè)細(xì)胞的數(shù)據(jù),這樣的數(shù)據(jù)量才有可能支撐大型模型的訓(xùn)練。我們將持續(xù)更新數(shù)據(jù)庫,隨著新數(shù)據(jù)的加入,我們希望這個(gè)數(shù)據(jù)庫能夠真正為整個(gè)領(lǐng)域的發(fā)展做出貢獻(xiàn)。
鏈接:https://www.nature.com/articles/s41592-024-02214-9
已入選 Nature 旗下方法學(xué)專業(yè)期刊 Nature Methods
雷峰網(wǎng):我的理解是,scPROTEIN 是一種新型的數(shù)據(jù)分析框架,它能夠處理和分析單細(xì)胞蛋白質(zhì)組數(shù)據(jù)。這就好比我們有了一臺(tái)超級(jí)顯微鏡,不僅能夠看到細(xì)胞,還能夠看到它們內(nèi)部的蛋白質(zhì)如何互動(dòng)。創(chuàng)新之處在于它能夠解決數(shù)據(jù)中的不確定性、缺失值、批次效應(yīng)和噪聲問題,這些都是以往研究中的難題。
為什么要這么做?還有哪些研究不足,應(yīng)對(duì)辦法?
楊帆:scPROTEIN 框架的開發(fā)是為了解決單細(xì)胞蛋白組數(shù)據(jù)分析中的獨(dú)特挑戰(zhàn)。
在單細(xì)胞蛋白組的測定過程中,從細(xì)胞分離、裂解、蛋白質(zhì)提取,到通過質(zhì)譜技術(shù)進(jìn)行肽段檢測,每一個(gè)步驟都可能引入不確定性和噪聲。
例如,樣本制備的差異、標(biāo)記策略的不同、質(zhì)譜儀的狀態(tài)變化,以及肽段在質(zhì)譜儀中的離子化和檢測過程,都可能導(dǎo)致批次效應(yīng)和數(shù)據(jù)中的噪聲問題。
此外,與單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)不同,單細(xì)胞蛋白組信號(hào)無法通過擴(kuò)增來增強(qiáng),只能依靠質(zhì)譜技術(shù)的靈敏度來檢測微量蛋白。
現(xiàn)有的許多單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析方法,并未充分考慮單細(xì)胞蛋白組數(shù)據(jù)的特殊性,直接應(yīng)用這些方法效果并不理想。
因此,我們提出了 scPROTEIN 框架,它不僅考慮了單細(xì)胞蛋白組數(shù)據(jù)的層次結(jié)構(gòu),還采用了基于可信度的方法來估計(jì)肽段測定的不確定性,并通過圖對(duì)比學(xué)習(xí)進(jìn)行表征和去噪,有效解決了數(shù)據(jù)中的復(fù)雜問題。
經(jīng)過下游任務(wù)的充分驗(yàn)證,scPROTEIN 的性能顯著優(yōu)于現(xiàn)有的單細(xì)胞蛋白組數(shù)據(jù)分析方法和直接套用單細(xì)胞轉(zhuǎn)錄組的方法。
姚建華:我們的算法實(shí)際上提供了一種“數(shù)據(jù)增強(qiáng)”功能,能夠有效去除數(shù)據(jù)中的噪聲和批次效應(yīng),使得數(shù)據(jù)分析更為一致和準(zhǔn)確。
此外,我們還提出了一種數(shù)據(jù)編碼的 embedding 方法,這在某種程度上起到了“數(shù)據(jù)降維”的作用。
正如許多大型模型如 Transformer 和 GPT 所做的那樣,通過 embedding ,我們可以將復(fù)雜的蛋白質(zhì)信息以一種高效的方式表示出來。
這種方法不僅能夠幫助我們提取數(shù)據(jù)中的核心信息,還能夠揭示不同蛋白質(zhì)之間的關(guān)系,為單細(xì)胞蛋白組數(shù)據(jù)分析提供了一種全新的視角和工具。
雷峰網(wǎng):其他現(xiàn)有的單細(xì)胞數(shù)據(jù)分析工具,為什么差強(qiáng)人意?
楊帆:正如我們之前提到的,scPROTEIN 框架是專門為解決單細(xì)胞蛋白組數(shù)據(jù)所面臨的挑戰(zhàn)而設(shè)計(jì)的。現(xiàn)有的大多數(shù)單細(xì)胞數(shù)據(jù)分析工具,并沒有專門針對(duì)單細(xì)胞蛋白組數(shù)據(jù)的特性。例如數(shù)據(jù)的層次結(jié)構(gòu)和測量不確定性等,進(jìn)行優(yōu)化。
scPROTEIN 框架則完全針對(duì)單細(xì)胞蛋白組數(shù)據(jù)的特有問題進(jìn)行了算法開發(fā),因此能夠有效解決這些數(shù)據(jù)特有的問題。
姚建華:目前而言,幾乎沒有其他方法專門針對(duì)單細(xì)胞蛋白組分析。這項(xiàng)技術(shù)非常前沿,相關(guān)數(shù)據(jù)也相對(duì)稀缺,很少有研究能夠收集到如此多的單細(xì)胞蛋白組數(shù)據(jù)。
此外,分析這些數(shù)據(jù)本身也存在很大的難度,因?yàn)閿?shù)據(jù)量大且復(fù)雜。
在我們開始這個(gè)項(xiàng)目的時(shí)候,市場上還沒有專門針對(duì)單細(xì)胞蛋白組的分析工具,大部分工作都是集中在單細(xì)胞轉(zhuǎn)錄組上。
我們預(yù)計(jì)在未來幾年,研究者們將會(huì)更多地關(guān)注蛋白質(zhì)組學(xué),因此我們在這方面的工作實(shí)際上是領(lǐng)先一步,提前進(jìn)行了探索和開發(fā)。
鏈接:https://www.nature.com/articles/s42256-023-00737-y
已被Nature旗下機(jī)器學(xué)習(xí)專業(yè)期刊 Nature Machine Intelligence 所收錄
雷峰網(wǎng):我理解的是,這篇論文的一大亮點(diǎn):提出了一種新的基于深度學(xué)習(xí)的解卷積方法(命名為scpDeconv),專門針對(duì)蛋白質(zhì)組數(shù)據(jù),獲取其中的腫瘤微環(huán)境信息。
能否介紹一下scpDeconv在臨床診斷和治療中的應(yīng)用前景和潛在挑戰(zhàn)。scpDeconv方法在實(shí)際應(yīng)用中可能遇到哪些問題,以及是否有解決方案。
楊帆:scpDeconv 的臨床應(yīng)用前景非常廣闊。如我們之前提到的,該方法可以挖掘組織樣本中的細(xì)胞比例信息,從而反映腫瘤微環(huán)境的狀況。
例如,在我們的研究中,對(duì)黑色素瘤樣本進(jìn)行 scpDeconv 分析后,我們發(fā)現(xiàn)不同細(xì)胞類型比例的患者預(yù)后存在顯著差異。
這種分析可以作為一種輔助診斷工具,幫助醫(yī)生預(yù)測疾病預(yù)后,是精準(zhǔn)醫(yī)療的一個(gè)重要應(yīng)用場景。
然而,scpDeconv 的潛在挑戰(zhàn)在于:單細(xì)胞蛋白質(zhì)組數(shù)據(jù)的覆蓋范圍可能不夠廣泛,包括細(xì)胞類型和組織類型。
為了克服這一挑戰(zhàn),我們需要與進(jìn)行單細(xì)胞蛋白質(zhì)組測序的實(shí)驗(yàn)室合作,共同貢獻(xiàn)更多的公開數(shù)據(jù),以便進(jìn)行更準(zhǔn)確的分析。
姚建華:“組織蛋白質(zhì)組”分析相對(duì)容易進(jìn)行,因?yàn)樗诘氖钦麄€(gè)組織樣本,包括了成千上萬個(gè)細(xì)胞的蛋白質(zhì)總和,而“單細(xì)胞蛋白質(zhì)組”分析則需要對(duì)每個(gè)細(xì)胞單獨(dú)進(jìn)行測量,難度和成本都顯著增加。
目前,臨床上主要進(jìn)行的是組織蛋白質(zhì)組分析,因?yàn)槌杀据^低,技術(shù)相對(duì)成熟。
我們的 scpDeconv 方法,能夠從組織蛋白質(zhì)組數(shù)據(jù)中解析出細(xì)胞類型的異質(zhì)性,從而提供類似于單細(xì)胞分析的結(jié)果,盡管可能不如單細(xì)胞數(shù)據(jù)那么精確,但至少能夠揭示組織中細(xì)胞組成的信息。
這樣的技術(shù)使得臨床醫(yī)生能夠利用現(xiàn)有的數(shù)據(jù)獲得更多的診斷信息,幫助更準(zhǔn)確地進(jìn)行疾病診斷和治療決策,實(shí)現(xiàn)精準(zhǔn)醫(yī)療的目標(biāo)。
雷峰網(wǎng):最后,請說一下,騰訊 AI Lab 在單細(xì)胞蛋白質(zhì)組學(xué)領(lǐng)域的未來研究計(jì)劃。
楊帆:我拋磚引玉,分享一下我們的未來規(guī)劃。
首先,我們將貫徹和落實(shí)我們實(shí)驗(yàn)室主任張正友博士的指導(dǎo)思想,更加聚焦于解決世界級(jí)的重大科學(xué)問題,并在 AI for Science 領(lǐng)域?qū)崿F(xiàn) AI Lab 的使命——在學(xué)術(shù)界產(chǎn)生影響,在工業(yè)界創(chuàng)造產(chǎn)出。
我們的研究方向與騰訊公司的“科技向善”愿景相契合。未來,我們將繼續(xù)利用現(xiàn)有基礎(chǔ),整合單細(xì)胞多組學(xué)和蛋白質(zhì)大模型,推動(dòng)臨床應(yīng)用研究,并致力于產(chǎn)出具有世界影響力的原創(chuàng)AI應(yīng)用研究成果。
姚建華:我們的工作重點(diǎn)是利用人工智能技術(shù)解決實(shí)際問題和科學(xué)挑戰(zhàn)。
作為 AI Lab,我們的優(yōu)勢在于資源的相對(duì)豐富性和研究的聚焦性。與高校相比,公司的環(huán)境允許我們集中力量進(jìn)行大規(guī)模的研究項(xiàng)目。
此外,公司的組織結(jié)構(gòu)也使得不同領(lǐng)域的研究員能夠協(xié)同合作,共同推進(jìn)同一項(xiàng)目。雖然高校的研究環(huán)境更為自由,但我們這里的研究可以更加集中和深入。
我們的目標(biāo)是聚焦于最前沿的課題和方向,解決最具挑戰(zhàn)性的問題,以此形成強(qiáng)大的影響力。
我們將繼續(xù)在單細(xì)胞蛋白質(zhì)組學(xué)領(lǐng)域深耕,不僅推動(dòng)科學(xué)的發(fā)展,也為臨床應(yīng)用提供創(chuàng)新的解決方案。我們期待通過這些努力,為整個(gè)領(lǐng)域帶來積極的變化,并為社會(huì)做出更大的貢獻(xiàn)。
雷峰網(wǎng):我了解到,騰訊 AI Lab 也在探索腦科學(xué)等領(lǐng)域,這是否意味著我們未來可能會(huì)看到更多相關(guān)成果?
姚建華:我們目前的重點(diǎn)還是集中在生命科學(xué)的一些基礎(chǔ)問題上,如蛋白質(zhì)和基因組學(xué)等領(lǐng)域。
我們確實(shí)進(jìn)行了一些大腦相關(guān)的研究,但主要是為了探索大腦的本質(zhì)。例如,去年我們進(jìn)行了大腦圖譜的研究,這更偏向于腦科學(xué)的基礎(chǔ)研究。
我們試圖通過蛋白質(zhì)組學(xué)和基因組學(xué)的信息來區(qū)分不同類型的神經(jīng)元,并理解它們是如何相互聯(lián)系和作用的。這樣的研究有助于我們深入理解大腦的機(jī)制。
通過我們的AI算法分析基因組學(xué)和蛋白質(zhì)組學(xué)數(shù)據(jù),我們幫助神經(jīng)科學(xué)家對(duì)不同腦細(xì)胞進(jìn)行分類,并描繪它們在大腦中的空間位置。這樣的大腦圖譜研究是神經(jīng)科學(xué)研究的基礎(chǔ)。
當(dāng)然,要真正深入到腦圖譜的研究,最終還需要回到基因和蛋白質(zhì)的層面。我們的目標(biāo)是支持更高層次的科學(xué)研究。
雷峰網(wǎng):那么三篇論文成果之后,還有關(guān)于臨床應(yīng)用和成果轉(zhuǎn)化的規(guī)劃嗎?
姚建華:目前,我們更側(cè)重于研究成果的產(chǎn)出,因?yàn)楣I(yè)產(chǎn)出往往需要更多的資源和工程團(tuán)隊(duì)。
我們現(xiàn)階段主要致力于解決一些基礎(chǔ)科學(xué)問題。當(dāng)然,隨著技術(shù)積累到一定程度,我們可能會(huì)通過與其他團(tuán)隊(duì)合作或?qū)ふ液献骰锇閬韺?shí)現(xiàn)這些技術(shù)的落地和產(chǎn)業(yè)化。
我們的目標(biāo)是先在科研領(lǐng)域取得突破,為未來的工業(yè)應(yīng)用打下堅(jiān)實(shí)的基礎(chǔ)。
本文作者 吳彤 長期關(guān)注人工智能、生命科學(xué)和科技一線工作者,習(xí)慣系統(tǒng)完整記錄科技的每一次進(jìn)步,歡迎同道微信交流:icedaguniang
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。