0
本文作者: 喬燕薇 | 2022-04-21 14:17 |
2022年4月,由雷峰網(wǎng)(公眾號:雷峰網(wǎng))《醫(yī)健AI掘金志》主辦的醫(yī)療隱私計算·云峰會開幕,從技術(shù)普及與案例剖析的初衷出發(fā),邀請一批隱私計算企業(yè)CXO,討論隱私計算的技術(shù)路線和在醫(yī)療場景下的實際應(yīng)用前景,共話產(chǎn)業(yè)的未來趨勢。
锘崴科技創(chuàng)始人、董事長王爽教授發(fā)表了題為《隱私計算賦能醫(yī)療健康大數(shù)據(jù)價值流轉(zhuǎn)》的演講,就醫(yī)療大數(shù)據(jù)隱私保護(hù)的背景、醫(yī)療大數(shù)據(jù)安全共享解決方案與底層技術(shù)、醫(yī)療大數(shù)據(jù)隱私保護(hù)的應(yīng)用場景等話題進(jìn)行了分享。
王爽教授是四川大學(xué)華西醫(yī)院特聘教授、同濟(jì)大學(xué)附屬醫(yī)院客座教授?;貒?,王爽教授在美國加州大學(xué)圣地亞哥分校UCSD醫(yī)學(xué)院做教職。
過去十余年,王爽教授及其團(tuán)隊一直專注醫(yī)療大數(shù)據(jù)隱私保護(hù)相關(guān)研究。2014年,王爽教授創(chuàng)辦了目前最早也是規(guī)模最大的iDASH國際隱私保護(hù)計算大賽;2017年,牽頭成立了國際同態(tài)加密標(biāo)準(zhǔn)委員會,推動制定相關(guān)國際標(biāo)準(zhǔn)。
王爽教授表示,醫(yī)療大數(shù)據(jù)的隱私安全保護(hù)需要進(jìn)行全局性的思考。
“首先,我們要弄清楚數(shù)據(jù)的類型是什么,數(shù)據(jù)在哪里,由誰在用以及如何在用,從而實現(xiàn)對數(shù)據(jù)整體安全的保護(hù)。在保護(hù)過程中,我們既需要滿足合規(guī)的能力,又需要數(shù)據(jù)保護(hù)的能力。
他認(rèn)為,隱私計算正是一種能夠輔助實現(xiàn)從形式合規(guī)到實質(zhì)合規(guī)的全流程醫(yī)療大數(shù)據(jù)安全的技術(shù)手段,并且它是目前最優(yōu)技術(shù)解。
以下為王爽教授的演講內(nèi)容,雷峰網(wǎng)《醫(yī)健AI掘金志》作了不改變原意的編輯及整理。
數(shù)據(jù)正加速向“生產(chǎn)要素”轉(zhuǎn)化。
近些年,國家層面相繼出臺了數(shù)據(jù)要素化市場配置的政策文件,今年4月10日又推出了加快建設(shè)全國統(tǒng)一大市場的相關(guān)意見,這些政策都明確要加快培育數(shù)據(jù)要素市場,建立健全數(shù)據(jù)安全、權(quán)利保護(hù)、跨境傳輸管理、交易流通、共享開放、安全驗證等基礎(chǔ)制度和標(biāo)準(zhǔn)規(guī)范,深入開展數(shù)據(jù)資源調(diào)查,推動數(shù)據(jù)資源開發(fā)利用。
在地方層面上,多個省、市也推出了聚焦數(shù)據(jù)要素領(lǐng)域的相關(guān)法律法規(guī),并主導(dǎo)成立地方數(shù)據(jù)交易中心,推動數(shù)據(jù)要素實現(xiàn)市場化,加快數(shù)據(jù)資源共享開放進(jìn)程。
在數(shù)據(jù)要素市場發(fā)展過程中,存在著一系列問題和挑戰(zhàn)。
首先,是法律合規(guī)風(fēng)險。明文數(shù)據(jù)一旦可見就可能被無限復(fù)制,同時暴露數(shù)據(jù)中所包含的個人敏感信息,以及數(shù)據(jù)所對應(yīng)的某個用戶或數(shù)據(jù)提供方的商業(yè)機(jī)密。
其次,是數(shù)據(jù)的不可控。數(shù)據(jù)一旦被泄露或復(fù)制,將導(dǎo)致超范圍使用甚至被轉(zhuǎn)賣,無法控制其用途、用量,因此也存在數(shù)據(jù)濫用的風(fēng)險。
此外,當(dāng)明文數(shù)據(jù)被濫用,打破市場供需關(guān)系后,會導(dǎo)致數(shù)據(jù)價值無法定價,也無法形成“要素化”的概念,無法產(chǎn)生大規(guī)模的市場流通,數(shù)據(jù)要素的價值也將無法充分體現(xiàn)。
在國家層面上,數(shù)據(jù)隱私保護(hù)也受到重視,法律法規(guī)日趨嚴(yán)格。
2021年9月正式施行的《數(shù)據(jù)安全法》提出國家將對數(shù)據(jù)實行分類分級保護(hù),開展數(shù)據(jù)活動須履行數(shù)據(jù)安全保護(hù)義務(wù)、承擔(dān)社會責(zé)任。
2021年11月正式施行的《個人信息保護(hù)法》明確要求保護(hù)個人信息權(quán)益,規(guī)范個人信息處理活動,保障個人信息依法有序自由流動,促進(jìn)個人信息合理使用。
如何在數(shù)據(jù)開發(fā)利用與安全保護(hù)上實現(xiàn)平衡?既要能“放得開”,又要“管得住”,傳統(tǒng)的數(shù)據(jù)中心化模式已經(jīng)不適應(yīng)當(dāng)前市場需求,需要引入新技術(shù)、新方法適應(yīng)數(shù)據(jù)在共享、開放、利用中的隱私保護(hù)問題。
傳統(tǒng)數(shù)據(jù)隱私保護(hù)是采用脫敏的方式。
但脫敏后的數(shù)據(jù)并不等于匿名化數(shù)據(jù)。過往研究發(fā)現(xiàn),美國HIPPA Safe Harbor脫敏后的數(shù)據(jù)中,每15000人里依舊有兩個病人的信息可能會被恢復(fù)。
2020年,我們與國家癌癥中心合作,完成了全國最大規(guī)模的脫敏數(shù)據(jù)風(fēng)險評估,橫跨34個省、市、自治區(qū)、直轄市,共涉及7000多萬病人的脫敏信息,其中大約0.01%病人的脫敏信息,能夠結(jié)合背景知識恢復(fù)出病人的身份。
因此,脫敏只是對數(shù)據(jù)的保護(hù)與約束,并不等于完全沒有風(fēng)險,它只能夠?qū)L(fēng)險控制在一個較低的范圍內(nèi)。此外,數(shù)據(jù)脫敏很難有效處理醫(yī)學(xué)相關(guān)的基因數(shù)據(jù)、影像數(shù)據(jù)的隱私保護(hù)。
根據(jù)《個人信息保護(hù)法》規(guī)定,匿名化數(shù)據(jù)是指經(jīng)過處理后無法識別出自然人的數(shù)據(jù)。參照前例,脫敏數(shù)據(jù)并不等價于匿名化數(shù)據(jù),所以同樣受到《個人信息保護(hù)法》的保護(hù)。
因此,醫(yī)療大數(shù)據(jù)的隱私安全需要進(jìn)行全局性的思考。首先,我們要弄清楚數(shù)據(jù)的類型是什么,數(shù)據(jù)在哪里,由誰在用以及如何在用,從而實現(xiàn)對數(shù)據(jù)整體安全的保護(hù)。
在保護(hù)過程中,我們既需要滿足合規(guī)的能力,又需要數(shù)據(jù)保護(hù)的能力。
所謂合規(guī)能力,是指從數(shù)據(jù)采集源頭保證其合規(guī)性,對此,現(xiàn)有法律對包括知情授權(quán)、數(shù)據(jù)使用協(xié)議、數(shù)據(jù)使用范圍等在內(nèi)的要求都有明確的規(guī)定。
同時在使用過程中對數(shù)據(jù)進(jìn)行分級分類,通過數(shù)據(jù)日志監(jiān)控匹配是否存在超范圍使用,使用后需要進(jìn)行數(shù)據(jù)安全審計與可信存證。
在這個過程中,需要一些技術(shù)手段來保證從數(shù)據(jù)采集到使用的合規(guī)性,隱私計算正是一種能夠輔助實現(xiàn)從形式合規(guī)到實質(zhì)合規(guī)的全流程醫(yī)療大數(shù)據(jù)安全的技術(shù)手段,并且它是目前最優(yōu)技術(shù)解。
醫(yī)療大數(shù)據(jù)安全共享解決方案包括幾個層面,首先是支持安全合規(guī)高效。通過隱私保護(hù)計算結(jié)合區(qū)塊鏈等其他技術(shù),提供安全合規(guī)高效的醫(yī)療大數(shù)據(jù),在“可用不可見”的情況下融合多源數(shù)據(jù),實現(xiàn)聯(lián)合分析。
其次是支持醫(yī)療監(jiān)管決策。通過結(jié)合區(qū)塊鏈實現(xiàn)數(shù)據(jù)使用全流程可追溯、可監(jiān)管,對數(shù)據(jù)的用途、使用方、使用期限、使用范圍等都能進(jìn)行非常細(xì)致的控制與監(jiān)管,為監(jiān)管部門決策提供數(shù)據(jù)支撐。
第三是支持醫(yī)療數(shù)據(jù)開放。通過醫(yī)療大數(shù)據(jù)價值轉(zhuǎn)化平臺,實現(xiàn)醫(yī)療數(shù)據(jù)跨醫(yī)院甚至是跨境合作。
通過以上幾個目標(biāo),該方案還可以支持醫(yī)療產(chǎn)業(yè)應(yīng)用,形成圍繞醫(yī)療產(chǎn)業(yè)的聚合,包括在科研、制藥以及保險等相關(guān)領(lǐng)域的應(yīng)用。
醫(yī)療大數(shù)據(jù)安全共享解決方案具備幾個核心能力,第一是隱私合規(guī)的多維檢測。
在醫(yī)療大數(shù)據(jù)從形式合規(guī)到實質(zhì)合規(guī)的過程中,對數(shù)據(jù)知情授權(quán)、使用協(xié)議、數(shù)據(jù)的使用范圍、數(shù)據(jù)使用后的銷毀等環(huán)節(jié)進(jìn)行自動化檢測,保證全流程的數(shù)據(jù)合規(guī),這是醫(yī)療數(shù)據(jù)使用中的先決條件。
另一個核心能力則是數(shù)據(jù)的分級分類。對不同級別和不同類型的數(shù)據(jù),我們可以采取不同的安全措施,充分利用不同技術(shù)能力范圍滿足法律監(jiān)管的需求和敏感信息保護(hù)的需求。
這里涉及到隱私保護(hù)計算。我們經(jīng)常提到的隱私保護(hù)計算有四個類型的底層技術(shù)。
其中一種技術(shù)是聯(lián)邦學(xué)習(xí)(FL),是指在各個數(shù)據(jù)源不需要分享個體數(shù)據(jù)的情況下,通過交換統(tǒng)計信息完成多中心的聯(lián)合計算,實現(xiàn)“數(shù)據(jù)不動模型動”的虛擬數(shù)據(jù)融合。
聯(lián)邦學(xué)習(xí)的安全假設(shè)條件是在不交換個體數(shù)據(jù)的情況下,只需要交換一些統(tǒng)計信息。然而,在很多情況下這些明文的統(tǒng)計信息通過推理或者逆向工程的方式,可能推演出數(shù)據(jù)源的敏感信息,造成隱私泄露。
基于以上考慮,我們提出了安全聯(lián)邦學(xué)習(xí)的概念,通過結(jié)合聯(lián)邦學(xué)習(xí)、同態(tài)加密、多方安全計算、可信執(zhí)行環(huán)境等技術(shù),實現(xiàn)數(shù)據(jù)建模過程中的數(shù)據(jù)隱私保護(hù)。數(shù)據(jù)源本身,個體信息交換的統(tǒng)計量,模型的梯度,最后生成的全局模型,以及統(tǒng)計分析的結(jié)果,都可以在密態(tài)下完成計算,并且只有授權(quán)用戶才能夠拿到對應(yīng)密鑰,獲得計算結(jié)果。
除了聯(lián)邦學(xué)習(xí)外,還有一些其他的輔助技術(shù),比如上文中介紹到的同態(tài)加密(HE),它是一種基于軟件的密碼學(xué)技術(shù),能夠在加密數(shù)據(jù)上進(jìn)行運(yùn)算。同態(tài)加密技術(shù)在密文下所做的加法和乘法運(yùn)算完全等價于在明文下進(jìn)行計算,因此一些計算任務(wù)能夠在密文下利用同態(tài)加密技術(shù)完成,從而保護(hù)原始數(shù)據(jù)的隱私安全。
同態(tài)加密設(shè)計之初是用來解決數(shù)據(jù)的外包服務(wù)問題,包括數(shù)據(jù)的儲存外包與計算外包。
數(shù)據(jù)擁有方將自己的數(shù)據(jù)利用同態(tài)加密進(jìn)行加密后,將私鑰保留在自己手中,將公鑰加密后的數(shù)據(jù)放到公有云之類的第三方,即可進(jìn)行儲存或計算。當(dāng)有多個計算方或多個數(shù)據(jù)源參與時,則需要第三方生成密鑰。
多方參與情況下的密鑰管理問題,正對應(yīng)我們上文所說的基于數(shù)據(jù)分級分類采用不同安全級別的保護(hù)措施。
多方安全計算(MPC)是指多個數(shù)據(jù)參與方以亂碼電路或秘密分享的方式,在不需要交換明文數(shù)據(jù)的情況下,共同完成某項計算的密碼學(xué)解決方案。
其中最常用的是基于亂碼電路實現(xiàn)的安全兩方計算,超過兩方的計算則通常以秘密分享的方式實現(xiàn)。
在多方安全計算中,基本的安全假設(shè)是參與方是不能進(jìn)行竄謀。因此如果在某些應(yīng)用場景中參與計算的幾方之間不足以信任,可能會存在竄謀風(fēng)險,那么多方安全計算就不適用。也就是說,對于非常機(jī)密的數(shù)據(jù),仍需要其他的額外技術(shù)提供保護(hù)。
可信執(zhí)行環(huán)境(TEE)是指在基于硬件防護(hù)能力的隔離環(huán)境中進(jìn)行計算,實現(xiàn)數(shù)據(jù)安全和隱私保護(hù)功能。在CPU或GPU空間中形成的隔離區(qū)域中運(yùn)行的代碼、程序、數(shù)據(jù)均不受外界干擾,只有授權(quán)用戶方可使用。
可信執(zhí)行環(huán)境提供了一套驗證機(jī)制,使用戶能夠遠(yuǎn)程確定所使用的可信執(zhí)行環(huán)境安全性,以及確保在可信執(zhí)行環(huán)境中運(yùn)行的代碼和數(shù)據(jù)的完整性和安全性,從而實現(xiàn)對某些敏感數(shù)據(jù)在隱私保護(hù)的情況下進(jìn)行運(yùn)算。
可信執(zhí)行環(huán)境的優(yōu)點在于,基于硬件模式,與同態(tài)加密和多方安全計算相比能夠支持更大規(guī)模的復(fù)雜運(yùn)算。
在上述四個不同技術(shù)領(lǐng)域中,我們都完成了一些早期工作。
在聯(lián)邦學(xué)習(xí)領(lǐng)域,最早在2012年我們將聯(lián)邦學(xué)習(xí)應(yīng)用于在線多中心醫(yī)療數(shù)據(jù)在“可用不可見”情況下的聯(lián)合分析,后面會介紹一個相關(guān)的案例。
之后聯(lián)邦學(xué)習(xí)也被谷歌應(yīng)用到移動互聯(lián)網(wǎng)領(lǐng)域,以及被微眾銀行應(yīng)用到金融科技領(lǐng)域。
可信執(zhí)行環(huán)境最早于2009年提出,大規(guī)模的商業(yè)化應(yīng)用則是2015年底英特爾發(fā)布支持SGX功能的CPU之后。
我們是全球最早與英特爾達(dá)成深度合作的兩個機(jī)構(gòu)之一,通過可信執(zhí)行環(huán)境完成了全球首例多中心跨國罕見病研究,榮獲了英特爾杰出貢獻(xiàn)獎。
同態(tài)加密領(lǐng)域的概念早在上世紀(jì)七八十年代就已提出,但是直到2009年,第一個全同態(tài)算法(即可做密文下做加法和乘法運(yùn)算的算法)被Craig Gentry提出。
我們團(tuán)隊在2015年首次將同態(tài)加密應(yīng)用到多中心罕見病研究中,解決了基于同態(tài)加密的多中心情況下的基因數(shù)據(jù)比對和統(tǒng)計分析問題。
2017年,我與ISO、美國國家標(biāo)準(zhǔn)局(ANSI)、IBM和微軟等機(jī)構(gòu)共同創(chuàng)辦了國際同態(tài)加密標(biāo)準(zhǔn)委員會,推進(jìn)同態(tài)加密相關(guān)標(biāo)準(zhǔn)制定。
多方安全計算中最著名的是姚期智教授提出的百萬富翁問題,它解決了安全的兩方計算,之后在1987年被拓展到多方計算。我們在2016年將多方安全計算技術(shù)結(jié)合聯(lián)邦學(xué)習(xí)運(yùn)用到了國家級醫(yī)療網(wǎng)絡(luò)數(shù)據(jù)共享過程中。
對于應(yīng)用平臺架構(gòu),我們涉及到醫(yī)療機(jī)構(gòu)云、數(shù)據(jù)中心、省市健康云、專病網(wǎng)絡(luò)等數(shù)據(jù)提供方,支持結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、處方數(shù)據(jù)、基因數(shù)據(jù)、影像數(shù)據(jù)等不同類型的數(shù)據(jù),同時也支持衛(wèi)健委等相關(guān)監(jiān)管機(jī)構(gòu)可通過區(qū)塊鏈進(jìn)行數(shù)據(jù)使用全流程的監(jiān)管和審批。
在對外輸出能力上,支持臨床相關(guān)應(yīng)用、大健康應(yīng)用、健康管理、公共衛(wèi)生以及科研制藥等不同方面的應(yīng)用。
醫(yī)療大數(shù)據(jù)隱私保護(hù)的場景和應(yīng)用有以下幾種。
一種是多中心目標(biāo)條件隱私查詢。一個病人或者一批病人在醫(yī)院的臨床數(shù)據(jù),結(jié)合基因檢測中心的基因數(shù)據(jù)或者影像中心的影像數(shù)據(jù),可以實現(xiàn)多模態(tài)模型研發(fā)。
在不同機(jī)構(gòu)之間進(jìn)行病人數(shù)據(jù)匹配時,在縱向聯(lián)邦學(xué)習(xí)中,我們要跨不同的醫(yī)院、機(jī)構(gòu),找到同一批病人的數(shù)據(jù)進(jìn)行支持;在橫向聯(lián)邦學(xué)習(xí)中,提高樣本量時需進(jìn)行去重,去掉在多個中心里面可能重復(fù)的病人,避免重復(fù)的病人記錄影響模型建立。
除了精準(zhǔn)匹配外,模糊匹配在醫(yī)療領(lǐng)域中亦有應(yīng)用。臨床實驗入組時,需選擇參考組和被試組,不同的組別對應(yīng)不同條件,此時需使用模糊查找,根據(jù)某一模型和權(quán)重,基于用戶的不同生理指標(biāo),判斷這個用戶是否滿足某一個入組條件,找到相關(guān)目標(biāo)用戶。這是多中心目標(biāo)查找的隱私計算在醫(yī)療領(lǐng)域的主要應(yīng)用。
另一個常見的應(yīng)用是多中心隱私數(shù)據(jù)分析、建模及推理。在某些疾病研究中,單體大數(shù)據(jù)的數(shù)據(jù)量或者單個醫(yī)院的數(shù)據(jù)維度是不夠的,我們需要更大的樣本量提高模型的統(tǒng)計效果,或者實現(xiàn)更精準(zhǔn)的病人畫像,因此需要結(jié)合多個中心進(jìn)行聯(lián)合計算。
這個過程中,如果不直接交換個體數(shù)據(jù),使用隱私計算即可實現(xiàn)在數(shù)據(jù)“可用不可見”的情況下,通過虛擬數(shù)據(jù)融合實現(xiàn)多中心建模。
接下來,介紹我們在醫(yī)療大數(shù)據(jù)隱私保護(hù)領(lǐng)域做過的案例。
下圖是我們在2012年開始做的全球首創(chuàng)的隱私保護(hù)超大規(guī)模醫(yī)療科研網(wǎng)絡(luò),通過隱私計算覆蓋了美國3000多萬病人,這些病人來自17個醫(yī)療系統(tǒng),覆蓋200多家醫(yī)院。
我們做的是比較效果研究。具體來說是,探究不同藥物對于同一個病人,或是不同手術(shù)方法、器械對于同一種病人所產(chǎn)生的不同效果,從而幫助制定更好的臨床指南;
探究同一藥物對于不同并發(fā)癥的病人產(chǎn)生的效果,或是同一個藥物不同劑量時的相關(guān)效果或副作用,以及藥物適應(yīng)癥的擴(kuò)展。這些場景可以通過基于多中心的研究實現(xiàn)更大樣本量、更具有統(tǒng)計意義的結(jié)果。
但醫(yī)療機(jī)構(gòu)受限于隱私保護(hù)政策的限制,以及醫(yī)院自身對于數(shù)據(jù)安全的顧慮,無法直接形成大規(guī)模數(shù)據(jù)遷移,將數(shù)據(jù)都匯總到公共區(qū)域。
于是我們通過聯(lián)邦學(xué)習(xí)方式,將計算節(jié)點部署到各個醫(yī)院,然后通過一個中心節(jié)點將比較效果研究的請求發(fā)送到各個計算節(jié)點,在本地完成運(yùn)算后,通過交換加密統(tǒng)計信息完成基于大規(guī)模數(shù)據(jù)的臨床研究。
基于在國外完成的成功案例,我們在國內(nèi)也將相關(guān)的研究范式應(yīng)用到了不同的癌癥領(lǐng)域,下圖案例是我們在消化外科領(lǐng)域的嘗試。
我們橫跨24個省、直轄市、自治區(qū)的60多家醫(yī)院,覆蓋數(shù)萬名相關(guān)病人,在數(shù)據(jù)庫中進(jìn)行上述比較效果研究,有關(guān)不同的器械、術(shù)式對胃癌、腸癌等消化外科病人治療過程中的復(fù)發(fā)癥以及生存率等分析,能夠更好地為臨床治療提供幫助,同時也為藥廠與器械廠商在相關(guān)藥物器械的研發(fā)提供臨床證據(jù)。
下圖是我們2016年做的隱私保護(hù)跨國罕見病分析項目。
罕見病的痛點有兩個,一是由于其罕見性,許多醫(yī)生缺乏足夠的經(jīng)驗在第一時間做出正確診斷。由于醫(yī)生缺乏對罕見病的了解,容易出現(xiàn)誤診現(xiàn)象。
本案例中研究的罕見病是川崎病。川崎病主要發(fā)病人群是兒童,癥狀包括發(fā)燒、草莓舌、眼睛發(fā)紅、身上起疹子等,大多數(shù)情況下會被誤診為與發(fā)燒相關(guān)的疾病,錯過最佳治療時間。
如果不能及時治療,60~70%的患兒可能會發(fā)展成嚴(yán)重的心臟并發(fā)癥,甚至危及生命。但是,如果能夠在患病早期完成診斷,就可以針對此病癥有非常好的干預(yù)和治療方法。
罕見病的第二個痛點是每家醫(yī)院的數(shù)據(jù)量都極少,難以通過單體數(shù)據(jù)源實現(xiàn)對于罕見病致病基因的研究。
通過多中心合作可以找到滿足樣本量的病人數(shù)目,從而幫助醫(yī)生能夠更好地確定與疾病相關(guān)的致病位點。類似于新冠疫情中使用核酸檢測快速定位某個人是否感染新冠病毒。
如果能夠找到罕見病基因與疾病的相關(guān)性,即可設(shè)計試劑盒或臨床輔助診斷系統(tǒng),幫助醫(yī)生進(jìn)行罕見病診斷,在患病早期進(jìn)行干預(yù)和治療。
此外,由于是罕見病,基因變異位點通常比較罕見,因此敏感性也更高,這些病人的數(shù)據(jù)隱私需受到更好的保護(hù)。
基于以上幾點,我們通過隱私計算為兒童罕見病,特別是川崎病提供了整套解決方案。
我們聯(lián)合美國雷迪兒童醫(yī)院、英國帝國理工學(xué)院以及新加坡基因研究所,通過虛擬化容器的方式,在每家醫(yī)院的數(shù)據(jù)中心進(jìn)行了本地計算節(jié)點的部署,本地計算節(jié)點通過虛擬化容器將底層跟川崎病相關(guān)的疾病數(shù)據(jù),包括基因數(shù)據(jù)和表型數(shù)據(jù)接入系統(tǒng),即可實現(xiàn)本地計算。
將本地計算生成的統(tǒng)計信息進(jìn)行加密,在密態(tài)下完成全局模型構(gòu)建,通過反復(fù)交互實現(xiàn)統(tǒng)計模型訓(xùn)練,獲得最終結(jié)果,從而基于大樣本獲取更具有統(tǒng)計意義的信息。
在三個國家的多所醫(yī)院中,共找到250個滿足條件的家庭。研究中,共使用了150個個體數(shù)據(jù),每個個體有70萬個基因變異位點,可在秒級內(nèi)完成跨國隱私保護(hù)研究。
這項研究成果獲得了英特爾杰出貢獻(xiàn)獎,并發(fā)表于核心生物學(xué)期刊。
基于在國外的研究成果,我們回國完成了全國首例基于隱私保護(hù)的跨多個省市的全基因組分析系統(tǒng)。
其中涉及的疾病是強(qiáng)直性脊柱炎。通過基因分析,我們能夠盡早確定某些基因變異位點與強(qiáng)直性脊柱炎的相關(guān)性,進(jìn)行疾病的早期預(yù)測和診斷,從而實現(xiàn)更早干預(yù)、治療,減緩病情。
在這項研究中也遇到了之前類似的問題——單體醫(yī)院的數(shù)據(jù)量非常有限。我們與清華大學(xué)、四川大學(xué)華西醫(yī)院、上海長征醫(yī)院、鄭州大學(xué)第一附屬醫(yī)院、安徽醫(yī)科大學(xué)第一附屬醫(yī)院5所機(jī)構(gòu)合作,將锘崴信一體機(jī)部署到醫(yī)院信息科,然后醫(yī)院將相關(guān)數(shù)據(jù)接入一體機(jī),在防火墻后完成本地病人基因數(shù)據(jù)和表型數(shù)據(jù)分析。
每家醫(yī)院都提供了將近1000例的患者與非患者數(shù)據(jù),我們組成了參考組和被試組做對比性分析。
研究成果體現(xiàn)在以下幾方面。
首先,我們驗證了計算精度。在實驗數(shù)據(jù)上,虛擬數(shù)據(jù)可以實現(xiàn)等價于中心式計算。在計算時間上,由于多個中心可以同時并行計算,等價于將數(shù)據(jù)集中后的明文計算。雖然計算在密文下運(yùn)行,但是效率依舊非常高。
同時,該研究也驗證了獲得的疾病位點與中心計算完全一致。由于通過隱私計算觸達(dá)到了更多的數(shù)據(jù)源,我們實現(xiàn)了高一個數(shù)量量級的統(tǒng)計意義,研究成果獲得上海市科技進(jìn)步獎一等獎。
此外,我們也做了一些其他應(yīng)用,比如通過隱私計算幫助兒童罕見病網(wǎng)絡(luò)進(jìn)行帶有隱私保護(hù)的查詢和臨床輔助診斷系統(tǒng)的應(yīng)用,通過隱私計算實現(xiàn)對于輸入系統(tǒng)的患兒基因信息、臨床診斷信息等查詢條件的保護(hù)。
我們提供了一套自然語言處理(NLP)工具,能夠?qū)⒎墙Y(jié)構(gòu)化的醫(yī)囑信息進(jìn)行自然語言處理,提取出與表型相關(guān)信息,將其映射到人類表型本體(HPO)上。
通過以上結(jié)構(gòu)化數(shù)據(jù),即可在加密狀態(tài)下與全國范圍內(nèi)罕見病病人的數(shù)據(jù)進(jìn)行匹配。
匹配過程并非簡單的精準(zhǔn)匹配,而是在不同基因位點對應(yīng)不同權(quán)重和表型相關(guān)性的情況下完成匹配,最終返回加密結(jié)果,告知醫(yī)生或患者基于當(dāng)前的基因和表型可能確診的疾病或是潛在疾病。
在整個查詢過程中,查詢條件與查詢結(jié)果不存留在被查詢方,同時也保護(hù)了被查詢方的數(shù)據(jù)和匹配模型,實現(xiàn)雙盲下的數(shù)據(jù)查詢。
除以上應(yīng)用外,我們還將隱私計算應(yīng)用到了新發(fā)和突發(fā)傳染病智慧化多點預(yù)警突發(fā)系統(tǒng)中。
如今,疫情在多地爆發(fā)。如果能夠借助于大數(shù)據(jù),將病人在不同醫(yī)院的就診數(shù)據(jù)、軌跡信息、藥房購藥信息、病人自主上報的信息、病人在互聯(lián)網(wǎng)上搜索的信息構(gòu)建一個多點觸發(fā)預(yù)警的深度學(xué)習(xí)模型,就可以在突發(fā)傳染病剛剛萌發(fā)時實現(xiàn)早期干預(yù)。
然而在實際應(yīng)用中,由于數(shù)據(jù)隱私、數(shù)據(jù)實時性、大數(shù)據(jù)計算資源等諸多限制,上述各種數(shù)據(jù)往往無法簡單匯總到一個數(shù)據(jù)中心實現(xiàn)中心化的模型構(gòu)建和決策。
通過隱私計算技術(shù)在不同的數(shù)據(jù)源部署計算節(jié)點,即可充分利用分布在不同地方的數(shù)據(jù),在隱私計算下基于更多維度的信息構(gòu)建預(yù)警模型。
基于預(yù)警模型,我們利用實時觀測到的數(shù)據(jù)進(jìn)行預(yù)警,有助于衛(wèi)健委等部門進(jìn)行傳染病的管理和管控。
此外,醫(yī)健AI掘金志也上線了王爽教授的演講視頻,感興趣的朋友可以關(guān)注公眾號 醫(yī)健AI掘金志,對話框回復(fù)關(guān)鍵詞“王爽”,即可回看。雷峰網(wǎng)雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。