1
本文作者: 李雨晨 | 2017-08-09 16:51 |
雷鋒網(wǎng)按:2016年12月,深圳大學(xué)獲批國家級大數(shù)據(jù)工程實驗室,其中健康醫(yī)療大數(shù)據(jù)研究中心是由深圳市南山人民醫(yī)院與深圳大學(xué)、騰訊聯(lián)合組成。
雷鋒網(wǎng)消息,近日,深圳市南山區(qū)人民醫(yī)院信息中心主任朱歲松在演講中介紹了該實驗室目前在AI方向上的研究和應(yīng)用:基于特征工程的醫(yī)保欺詐的識別、醫(yī)保扣費、于洛侖茲分析的醫(yī)療架構(gòu)改革、基于機器學(xué)習(xí)的醫(yī)療體制、基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別和基于區(qū)塊鏈的電子健康記錄。
雷鋒網(wǎng)了解到,朱歲松主任針對上述的幾個問題提出了自己的看法:醫(yī)保欺詐方面人類的欺詐行為具有社會學(xué)特征,把具象的人抽象為數(shù)學(xué)特征后可以用算法來判定可疑度;在醫(yī)療體系方面,未來的腫瘤圖像應(yīng)該與電子病歷、基因組學(xué)、生物樣本數(shù)據(jù)庫等等關(guān)聯(lián),才是一種真正的基于機器學(xué)習(xí)的醫(yī)療體制;卷積神經(jīng)網(wǎng)絡(luò)的圖像識別是目前業(yè)界的主流方向。騰訊覓影的食道癌檢測也是基于卷積神經(jīng)網(wǎng)絡(luò)類似的算法來展開的。
聯(lián)合實驗室的幾個研究方向
在這個聯(lián)合實驗室下面,我們有幾個AI實踐方向:
基于特征工程的醫(yī)保欺詐的識別
第一個研究方向是基于特征工程的醫(yī)保欺詐的識別。這個題目是國家2015年全國大學(xué)生數(shù)學(xué)建模里面的一道A題,A題是醫(yī)保欺詐工程,第一題是基因測序,是華大基因的,C題是紅樹林環(huán)境評估模型。在這個特征工程里面,為什么說是基于特征工程呢?因為人類的欺詐行為具有社會學(xué)特征。將這些社會學(xué)特征在我們的醫(yī)保大數(shù)據(jù)里面做成一系列的標(biāo)志、工程,就能夠?qū)⑦@些具體社會的人抽象為一系列的數(shù)學(xué)特征,再利用大數(shù)據(jù)上面一系列的算法來判斷可疑度有多大。
舉個例子,它的標(biāo)準(zhǔn)答案一共有三十幾個場景。舉幾個例子,它是列為X1、X2,一直到XN。
以X1為例,患者的就診是有一定的范圍的,比如說在一個地區(qū),一段時間內(nèi),患者醫(yī)??ǖ木驮\次數(shù),有些醫(yī)??ǖ木驮\次數(shù)為0,有些就診次數(shù)為1,有一些為2、3、4,一直到N,N越大,他的次數(shù)也就越少,那么研究這個數(shù)的分布,我們會發(fā)現(xiàn)它符合補充分布。知道它的補充分布以后,就能夠得出來一個Y=F(X)的函數(shù)邏輯,就能夠找出他的敏感點。這個敏感點找出來以后,大于5次或者大于8次就是他的敏感點,有95%的行為不一樣,這就是一個異常,就可以做一個標(biāo)記。
X2,患者開了處方,這個藥品是不可以拿來當(dāng)飯吃的,在我們醫(yī)學(xué)上面有一個值,就是DDD值,就是該藥每次的標(biāo)準(zhǔn)用量,你吃藥不能吃得太多,超過這個數(shù),你就超過了DDD值,每個處方也是有這個DDD值控制,限制你不能吃這么多藥。研究這個DDD值,它這個稍微偏正態(tài)的一個分布。偏正態(tài)以后,我們也能夠求得出來一個Y=F(X)這么一個函數(shù),求出這個函數(shù),也能夠求出你的整個分布出來,也就能求得出來當(dāng)你這個DDD值大于多少的時候,你就是合理的,這些都是來源于大數(shù)據(jù)。
X3,醫(yī)學(xué)上很多檢查與用藥都是相關(guān)聯(lián)的,如果你用了很多高血壓的藥,但是從你的體檢數(shù)據(jù)里面、門診數(shù)據(jù)、住院數(shù)據(jù),查到你的血壓從來就不曾高過,你這個藥很顯然不是你在使用的藥。
X4,比如說醫(yī)學(xué)上面很多是不可逆的特征,比如說做了一個有腦卒中的,腦子出了問題,做了CT,是陽性。但是在大數(shù)據(jù)里面,你在第二次、第三次住院,他就沒問題了,有可能沒問題嗎?很多醫(yī)學(xué)上面是不可逆的,這里面也標(biāo)記為陽性,很可能是你的卡被別人在用。
從X1一直到XN這么多的數(shù)學(xué)特征,我們以一種模型的方式,或者是條件概率的方式把它組合成一個值、一個熵值。建模以后,這個熵值是介于0與1之間,比較靠近1的時候,我們會賦予他一個值,醫(yī)保欺詐嫌疑就非常高,如果小于0.4就是醫(yī)保欺詐嫌疑會比較低。把這個模型建立好以后,統(tǒng)統(tǒng)通過這個模型跑一遍,那么整個醫(yī)保就會更加規(guī)范。事實上很多是基于特征分析,你可以知道他是不是存在不合理的行為,這是研究方向之一。
醫(yī)??圪M
研究方向之二就是基于第二期的醫(yī)保扣費。所謂的第二期,就是將這些人類的疾病,2萬多種疾病,按照臨床過程相似,復(fù)雜程度相似以及資源消耗相似這三個相似原則,把它分類合并到幾百個組,那么醫(yī)保就按這個組來付費,它是非??扇〉?,在國外是一種方法學(xué),不但用于醫(yī)院之間相互之間綜合實力的對比,更重要是用于醫(yī)院之間的評價,社保的收費、付費,它的價值是非常大的。這個第二期是國家醫(yī)改的重點之重點。
國家一共有三個試點,第一個試點是福建的三明,第二個試點是新疆克拉瑪依,第三個試點就是深圳。深圳這邊其實真正落地的就是在我們南山醫(yī)院,我是國家CTR項目組的成員,我負(fù)責(zé)這塊的工作也是利用大數(shù)據(jù)來進(jìn)行核算以及 DR值。在這個 DR 值算出來分到這個組以后,按照這個理想狀態(tài),它應(yīng)該是資源消耗相似,它的相似度怎么樣來檢驗,比如說你分到這個組了,假如分組系數(shù)是非常準(zhǔn)的話,那么類似的情形可能是這樣子的。在這一組里面,患者的平均費用假設(shè)是1萬塊錢,那么分到這個組以后,其他的患者費用應(yīng)該是在9000-11000之間,在這個區(qū)間內(nèi),它是非常準(zhǔn)的,也就是這些數(shù)據(jù)非常集中,離散度越小越集中,說明你這個分組越準(zhǔn)。但是事實上它通常不是這樣子,那么你怎么樣來檢驗它是準(zhǔn)還是不準(zhǔn)呢?它是有多種方法的,其中最主要的有三個。
第一個就是用變異系數(shù),就是分子,分子就是它的標(biāo)準(zhǔn)差,分母就是它的均數(shù),這么一個解讀,這是作為離散度的比較。第二個是方差。第三個是檢驗,它能夠判斷你這個分組準(zhǔn)還是不準(zhǔn)。如果分到這個組里面,它不準(zhǔn)怎么辦,這里面也是要應(yīng)用大數(shù)據(jù)的一些算法來判斷分組還是不分組。
它的主要算法有三種,第一種就是用到系統(tǒng)聚類的方法。聚類了以后,把它分為兩大類,以準(zhǔn)不準(zhǔn)給它拆散成兩組或者三組,它立馬就準(zhǔn)了,數(shù)據(jù)立馬就集中了。第二個叫做決策樹,第三種叫做回歸數(shù),在大數(shù)據(jù)里面有很多這樣的算法。這種算法就是將分組不是太準(zhǔn)的數(shù)據(jù),利用這些數(shù)學(xué)模型把它拆散成兩到三組,就是提出這個數(shù)據(jù)模型給你驗證。所以國家這次把這個分組做成一個試點工作,義無反顧地放到南山,實際上對我們的技術(shù)是一個挑戰(zhàn),也是一個檢驗。
基于洛侖茲分析的醫(yī)療架構(gòu)改革
在我們的第三個研究方面,是基于洛侖茲分析的醫(yī)療架構(gòu)改革。大家知道這個改革是國家的一個課題,國家的醫(yī)改,藥品、耗材占據(jù)了很大的比例,可是對于這些手術(shù)費、治療費,體現(xiàn)醫(yī)生勞動價值的這些項目并沒有增加,300塊錢、500塊錢的手術(shù)費,這是非常不合理的。那么怎么來扭轉(zhuǎn)這種不合理的現(xiàn)象,國家的醫(yī)改價格要改革。
那么這個價格改革怎么改?很多的那些專家、學(xué)者們,很多都是基于宏觀經(jīng)濟(jì)學(xué)上來定義這個價格,你怎么樣來調(diào),大家達(dá)到的共識是什么呢——總體衛(wèi)生資源的支出,患者支出的總費用不應(yīng)該上漲。第二就是檢驗費、檢查費等等這些依賴于儀器設(shè)備的費用應(yīng)該降價。第三個就是治療費、手術(shù)費這之類的體現(xiàn)醫(yī)務(wù)人員勞動價值的收費項目要漲,漲的幅度是多少。
在我這邊所做的研究是什么呢?就是基于洛侖茲分析,我就能夠給你找得出來哪些數(shù)據(jù)可移動,哪些數(shù)據(jù)必須很謹(jǐn)慎的動,哪些數(shù)據(jù)是不能動的?;诼鍋銎澐治鑫覀冞M(jìn)行一系列的數(shù)學(xué)建模,就能夠知道你這個收費項目被引用了多少次,產(chǎn)生了多少金額,那么它是可以動,還是不可移動的。醫(yī)學(xué)上面的收費項目,包括檢驗費、治療費、手術(shù)費等等這些,就非常類似于我們有100畝地。在這100畝地里面,不同農(nóng)作物所用的化肥是不一樣的,農(nóng)藥是不一樣的,勞動時間是不一樣的,生長時間也不一樣,最終賣出的錢也不一樣,這就可以達(dá)到一種博弈模型。這個博弈模型就是這些費用,這么多的產(chǎn)品,用什么方案可以讓勞動時間是最短的,產(chǎn)品總價是最多的,等等,它是可以用一個規(guī)劃來做的
線性方程加上一系列的約束條件能夠求得一個最優(yōu)解。同樣的道理,我們醫(yī)學(xué)價格改革也是一樣,不同的價格,漲價的幅度不一樣,我們利用一個計算機大數(shù)據(jù)的模擬,在南山區(qū)這邊,在十幾年數(shù)以千億計的就診患者,生成一種新的價格體系以后,讓政府重新進(jìn)行一次結(jié)算。因為我們的分布式就是要讓它重新結(jié)算一次,生成一組新的費用,對這種新的費用再來進(jìn)行線性規(guī)劃,再來進(jìn)行洛侖茲分析,這樣我就能夠非常精準(zhǔn)地定義出某一種項目、某一類項目,漲多少是比較合適的,它最終的產(chǎn)出類似于有三個博弈模型。
第一個博弈模型,怎么樣的調(diào)價方案對患者是最有利的,還有什么樣的調(diào)價方案對醫(yī)院是最有利的,醫(yī)院要生存、要發(fā)展,這是不得不考慮的數(shù)據(jù)模型。所以這樣我的研究模型里面會涉及到三種模型,并且把它標(biāo)注成什么樣的條件,它會達(dá)成一種什么樣的目標(biāo)。
基于機器學(xué)習(xí)的醫(yī)療體制
第四個方向是基于機器學(xué)習(xí)的,比如說我們剛才講的食道癌篩選,僅僅是基于圖像本身,這是遠(yuǎn)遠(yuǎn)不夠的,未來的腫瘤圖像應(yīng)該與電子病歷、基因組學(xué)、生物樣本數(shù)據(jù)庫等等這些關(guān)聯(lián)在一起,才真正有生命力,才是一種真正的基于機器學(xué)習(xí)的醫(yī)療體制,這是我們的第四個研究方向。當(dāng)然這些研究方向都是和騰訊、和深大資源密切相關(guān)的。
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別
第五個研究方向,就是基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別。剛才講了,我們的食道癌,它這邊的判讀都是基于卷積神經(jīng)網(wǎng)絡(luò)這種類似的算法來展開的,這是目前整個業(yè)界的主流方向。
基于區(qū)塊鏈的電子健康記錄
最后一個研究方向就是我們基于區(qū)塊鏈的電子健康記錄。因為我們目前整個電子健康記錄是基于CA認(rèn)證、基于PKI格式的,國家也有電子碼來確保這些數(shù)據(jù)的準(zhǔn)確性,它在法律上的不可推卸性。另外一個身份認(rèn)證,一個CA證書來證明,這條醫(yī)囑是在一個可信的人在一個合法的時間里面所下注的,這種電子病歷是有合法性的,它是能夠拿來打官司的,這是電子記錄。
但是像這種電子記錄,它的成本也是非常高的,大家知道我們要做一個CA認(rèn)證的話,你要有公證處服務(wù)器,要有時間服務(wù)器,要有U-key,要有每年的服務(wù)費用,還有一些災(zāi)備,專門的網(wǎng)絡(luò)等等,它的成本實際上是非常高的。但是有另外一種技術(shù)可以良好地解決這個問題,就是區(qū)塊鏈。區(qū)塊鏈,我定義為改變未來的技術(shù),我們也非常期待區(qū)塊鏈能與我們整個電子健康記錄關(guān)聯(lián)在一起,讓在醫(yī)院產(chǎn)生的醫(yī)療健康記錄,患者在遠(yuǎn)端也能看到,而且中間在互聯(lián)網(wǎng)往上面走的時候,其他任何環(huán)節(jié)把這些數(shù)據(jù)截取下來,你是看不到,你也看不懂,而且它是確保了終端生產(chǎn)這段是完全一致的。像這個電子貨幣,未來你得病,它都是基于算法,實際上它很簡單,就是一個函數(shù)加密起來,讓你解不開。
我們也非常期待在這六個方面與深圳大學(xué)、與騰訊這邊有密切的合作,我也相信這一天已經(jīng)到來了,而且我們在前期已經(jīng)有很多的項目已經(jīng)做出來了,不僅僅是在醫(yī)學(xué)圖像識別這一塊,我們和騰訊這邊合作,做成了新農(nóng)合,做成了醫(yī)保的異地結(jié)算,還做成了整個移動互聯(lián)網(wǎng)社保支付等等,我們的成果是非常多的。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。