0
本文作者: 李雨晨 | 2020-04-13 21:58 |
雷鋒網(wǎng)消息,近日,騰訊天衍實驗室聯(lián)合微眾銀行聯(lián)合研發(fā)了醫(yī)療聯(lián)邦學(xué)習(xí)框架,實現(xiàn)了在保護不同醫(yī)院數(shù)據(jù)隱私下的疾病預(yù)測模型,破解醫(yī)療行業(yè)數(shù)據(jù)安全與隱私保護難題。
作為醫(yī)療AI成長道路不可或缺的“糧食”,數(shù)據(jù)一直是醫(yī)療AI落地的“攔路虎”。我國醫(yī)療健康數(shù)據(jù)領(lǐng)域長期存在“信息孤島”問題,不同地區(qū)甚至不同醫(yī)院間的醫(yī)療數(shù)據(jù)沒有互聯(lián),也沒有統(tǒng)一的標(biāo)準(zhǔn)。與此同時,數(shù)據(jù)安全問題也存在著巨大挑戰(zhàn)。
據(jù)雷鋒網(wǎng)了解,這是聯(lián)邦學(xué)習(xí)在醫(yī)療健康大數(shù)據(jù)領(lǐng)域應(yīng)用的一個成功案例,為醫(yī)療大健康的各種潛在應(yīng)用如分診診療、慢病防控、疾病早篩、醫(yī)??刭M的落地等探索出了新的方向。
在重大疾病早期篩查和預(yù)測領(lǐng)域,如果要成功能建立大數(shù)據(jù)疾病預(yù)測模型,就需要將居民在不同醫(yī)院的醫(yī)療信息與健康檔案進行整合與建模。
但由于信息系統(tǒng)不統(tǒng)一,醫(yī)院管理機構(gòu)對于數(shù)據(jù)隱私泄露的擔(dān)憂,和相關(guān)數(shù)據(jù)保護法規(guī)的限制,相關(guān)機構(gòu)之間形成了數(shù)據(jù)壁壘,很少有醫(yī)院愿意進行數(shù)據(jù)的共享,這就導(dǎo)致了AI難以在疾病預(yù)測領(lǐng)域“施展拳腳”。
這也是近年來聯(lián)邦學(xué)習(xí)方法日益受到關(guān)注的重要原因。
2016年,谷歌率先提出該技術(shù),而后微眾銀行則在首席人工智能官楊強教授的帶領(lǐng)下首次提出了“聯(lián)邦遷移學(xué)習(xí)”,并開源自研聯(lián)邦學(xué)習(xí)框架Federated AI Technology Enabler(簡稱FATE),推動聯(lián)邦學(xué)習(xí)技術(shù)在行業(yè)中的落地。
目前,聯(lián)邦學(xué)習(xí)在金融、互聯(lián)網(wǎng)、智慧零智等領(lǐng)域已經(jīng)有多個成功應(yīng)用案例,但在醫(yī)療領(lǐng)域,由于醫(yī)療知識的專業(yè)性,電子病歷的復(fù)雜性對聯(lián)邦學(xué)習(xí)的構(gòu)建帶來了種種困難。
結(jié)合自身醫(yī)療機器學(xué)習(xí)與自然語言處理的先天優(yōu)勢,騰訊天衍實驗室與微眾銀行共同將聯(lián)邦學(xué)習(xí)與醫(yī)療深度融合,通過搭建基于聯(lián)邦學(xué)習(xí)技術(shù)的大數(shù)據(jù)集中與挖掘平臺,開發(fā)醫(yī)療聯(lián)邦學(xué)習(xí)(Medical Federated Learning)技術(shù)。
圖片來源:天衍-微眾投稿給人工智能頂級會議IJCAI 2020的論文
聯(lián)邦學(xué)習(xí)可以繞過醫(yī)療機構(gòu)之間的信息壁壘,不考慮將各自數(shù)據(jù)做合并,而是通過協(xié)議在其間傳遞加密之后的信息,該加密過程具有一定的隱私保護機制,保證加密后的信息不會產(chǎn)生數(shù)據(jù)泄露。各個醫(yī)療機構(gòu)通過使用這些加密的信息更新模型參數(shù),從而實現(xiàn)在不暴露原始數(shù)據(jù)的條件下使用全部患者數(shù)據(jù)的訓(xùn)練過程。
舉例來說,假設(shè)醫(yī)院 A 和 B 想聯(lián)合訓(xùn)練一個腦卒中疾病預(yù)測模型,兩個醫(yī)院各自掌握科研病例數(shù)據(jù),此外,醫(yī)院 B 還擁有模型需要預(yù)測的標(biāo)簽數(shù)據(jù)如腦卒中發(fā)病標(biāo)簽。出于數(shù)據(jù)隱私保護和安全考慮,醫(yī)院A和 B無法直接進行數(shù)據(jù)交換。聯(lián)邦學(xué)習(xí)系統(tǒng)則可以利用基于加密的患者樣本對齊技術(shù),在醫(yī)院 A 和 B 不公開各自數(shù)據(jù)的前提下確認(rèn)雙方的共有患者,并且不暴露不互相重疊的患者,以便聯(lián)合這些用戶的特征進行建模,在確定共有用戶群體后,就可以利用這些數(shù)據(jù)訓(xùn)練疾病預(yù)測模型。
圖片來源:天衍-微眾投稿給人工智能頂級會議IJCAI 2020的論文
在這樣的一種方式下,聯(lián)邦學(xué)習(xí)技術(shù)就實現(xiàn)了保護不同醫(yī)院數(shù)據(jù)隱私的疾病預(yù)測模型,而這項技術(shù)也在疾病預(yù)測領(lǐng)域落地,天衍實驗室和微眾銀行成功構(gòu)建了一個“腦卒中發(fā)病風(fēng)險預(yù)測模型”。
腦卒中預(yù)測準(zhǔn)確率達80%
在構(gòu)建疾病預(yù)測模型過程中,不同醫(yī)院數(shù)據(jù)缺乏標(biāo)準(zhǔn)化是關(guān)鍵性難題。
首先,雙方通過搭建的大數(shù)據(jù)集中與挖掘平臺,構(gòu)建醫(yī)療健康領(lǐng)域機器學(xué)習(xí)、深度學(xué)習(xí)、自然語言理解、文本特征抽取、多種關(guān)系網(wǎng)絡(luò)等多種大數(shù)據(jù)模型,對地區(qū)居民連續(xù)電子病歷和其它數(shù)據(jù)進行多重關(guān)聯(lián)和信息抽取。構(gòu)建帶有時間標(biāo)志的重大慢病標(biāo)簽(腦卒中、冠心病、腫瘤、慢阻肺等)與大健康醫(yī)療特征(疾病、用藥、檢查、癥狀、手術(shù)、費用、家庭關(guān)系、行為、生活、環(huán)境),并對不同醫(yī)院構(gòu)建統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)形成疾病標(biāo)簽集與特征集。
對疾病預(yù)測模型所需特征進行標(biāo)準(zhǔn)與歸一化后,再將標(biāo)準(zhǔn)化模型部署到不同醫(yī)院,各醫(yī)院按照該標(biāo)準(zhǔn)對自有的疾病、用藥、檢驗檢查、癥狀、手術(shù)等方面的數(shù)據(jù)進行清洗,形成各自的標(biāo)準(zhǔn)化的疾病標(biāo)簽集與醫(yī)療特征集,再以此建立巢式病例對照研究隊列,基于聯(lián)邦學(xué)習(xí)算法協(xié)議,有效訓(xùn)練機器學(xué)習(xí)模型。
通過使用來自就診記錄數(shù)量TOP5的醫(yī)院真實就診數(shù)據(jù)驗證,聯(lián)邦學(xué)習(xí)模型和集中訓(xùn)練模型表現(xiàn)幾乎一致,在腦卒中預(yù)測模型中的準(zhǔn)確率達到80%,僅比集中訓(xùn)練模型準(zhǔn)確率降低1%。
同時,聯(lián)邦學(xué)習(xí)技術(shù)顯著提升了不同醫(yī)院的獨立模型效果,特別是,對于兩家腦卒中確診病例數(shù)量較少的醫(yī)院而言,聯(lián)邦學(xué)習(xí)分別提升其準(zhǔn)確率10%和20%以上。
除疾病預(yù)測模型外,雙方還會圍繞聯(lián)邦學(xué)習(xí)在醫(yī)療大數(shù)據(jù)領(lǐng)域的應(yīng)用落地進行更多維度的合作,包括醫(yī)保控費、合理診斷、精準(zhǔn)醫(yī)療等領(lǐng)域,例如通過聯(lián)邦學(xué)習(xí)助力電子健康卡實現(xiàn)保護用戶隱私建模等等,進而促進醫(yī)療健康產(chǎn)業(yè)發(fā)展,提升醫(yī)療服務(wù)的質(zhì)量。雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。