丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
醫(yī)療科技 正文
發(fā)私信給張利
發(fā)送

0

哥倫比亞大學(xué)副教授翁春華:大量的醫(yī)療數(shù)據(jù)不正確、不完整并且不可用

本文作者: 張利 2017-06-27 10:26
導(dǎo)語:數(shù)據(jù)質(zhì)量不高、數(shù)據(jù)不完整、信息不具體、數(shù)據(jù)重復(fù)、數(shù)據(jù)分布不均與、信息不集中……

雷鋒網(wǎng)消息,近日,由HC3i中國數(shù)字醫(yī)療網(wǎng)、中關(guān)村移動互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟移動醫(yī)療專委會主辦的《2017中美智能醫(yī)療大數(shù)據(jù)峰會》在北京召開,眾多專家出席探討了智能醫(yī)療大數(shù)據(jù)存在的問題。

其中哥倫比亞大學(xué)醫(yī)療信息學(xué)系副教授翁春華以“云計算和大數(shù)據(jù)帶來了很好的機會,但擁抱的同時也應(yīng)該知道數(shù)據(jù)可能存在的局限性”開始了她的演講,她指出醫(yī)療數(shù)據(jù)現(xiàn)狀令人擔(dān)憂。

據(jù)翁春華副教授介紹,醫(yī)療大數(shù)據(jù)存在的問題有數(shù)據(jù)質(zhì)量不高、數(shù)據(jù)不完整、信息不具體、數(shù)據(jù)重復(fù)、數(shù)據(jù)分布不均與、信息不集中等。

哥倫比亞大學(xué)副教授翁春華:大量的醫(yī)療數(shù)據(jù)不正確、不完整并且不可用

以下是其演講內(nèi)容,雷鋒網(wǎng)做了精簡編輯。

數(shù)據(jù)不正確

醫(yī)院常用的疾病分類標(biāo)準(zhǔn)是ICD9/10,診斷信息最常見的問題是粒度不夠。ICD的信息本來都是統(tǒng)計出來的,所以真正有意義的深度信息和表型信息應(yīng)該來自于文本或者是其它更有意義的數(shù)據(jù)類型。另外,ICD9/10有漏診和過渡診斷的問題。

如果生成的數(shù)據(jù)是醫(yī)生特別忙的時候,他們可能沒有時間把正確的代碼找出來,只是找?guī)讉€特別有用的或可以代表病人疾病的數(shù)據(jù),漏掉其它非主要的疾病。如果診斷信息不是醫(yī)生生成,而是專門人員生成,他們可能會漏掉一些經(jīng)濟價值不高的信息。

我們有一次做研究尋找高血壓病人,讓他們參與有關(guān)高血壓的臨床測試,結(jié)果我們發(fā)現(xiàn)所有病人都沒有關(guān)于高血壓的ICD9/10數(shù)據(jù),醫(yī)生說因為所有人都有高血壓,所以懶得把信息放在病例里,病人患其它疾病時才會把信息放在病例里??梢钥吹剑娮硬±暮芏嘈畔⑹欠裼涗浭腔谟涗浫说男枰?,之后信息會被用來重用或做其他研究分析,如果不知道當(dāng)初記錄信息時的篩選標(biāo)準(zhǔn),有可能產(chǎn)生誤導(dǎo)。

還有就是過度診斷的問題,患者的情況不斷變化,有可能以前患有的病現(xiàn)在已經(jīng)治好了,但這些信息還繼續(xù)留在那里,當(dāng)你拿到電子病例的時候,可能以為這個病人還患有這種病。如果基于這些信息分析的話,有可能會被誤導(dǎo)。

數(shù)據(jù)不完整

衡量數(shù)據(jù)是否完整有4個維度,分別是:有多少醫(yī)療事件會被記錄;數(shù)據(jù)類型有多少;同一數(shù)據(jù)類型是否有完整的數(shù)據(jù)收集結(jié)果;是否有具體的數(shù)據(jù)值。

長老醫(yī)院有450萬病人的電子病歷記錄,可以說數(shù)據(jù)是非常龐大的,但如果用這四個維度衡量一下,結(jié)果讓人大吃一驚。

我們的實驗中納入了390萬個病人信息,只有一半左右的病例滿足其中一種完整性標(biāo)準(zhǔn);1/4滿足更嚴(yán)格的數(shù)據(jù)完整性要求,比如其文本信息和來訪時間記錄吻合或有多個來訪記錄等;僅有小部分有充分信息或有研究價值;只有0.6%的病歷完全符合4種數(shù)據(jù)完整性定義。

在此之前,我們樂觀地認(rèn)為有海量數(shù)據(jù),可以做很多事情。但分析之后,我們才知道在用數(shù)據(jù)之前衡量一下數(shù)據(jù)能做什么非常重要。

數(shù)據(jù)不可用

數(shù)據(jù)的重復(fù)性嚴(yán)重影響數(shù)據(jù)挖掘的算法結(jié)果解釋。病人疾病進(jìn)展記錄中54%是重復(fù)的,出院記錄的30.7%和登記記錄完全一樣。電子病例中有很多沒有價值、不產(chǎn)生新信息的數(shù)據(jù),這些數(shù)據(jù)分析影響特別大,帶來偏見和噪音,降低數(shù)據(jù)的可用價值,其實其中很多信息根本沒用。大家都繼續(xù)粘貼和復(fù)制,更加加大了數(shù)據(jù)的不一致性。如果需要使用要尋找真實的信息和信息來源,但這個過程很困難。如果欲根據(jù)其中數(shù)據(jù)概念的頻率了解概念和疾病的相關(guān)性,不能直接用,因為頻率受重復(fù)性的影響,很多概念是通過拷貝生成的。

更多關(guān)于雷鋒網(wǎng)的人工智能升級傳統(tǒng)行業(yè)文章,請關(guān)注雷鋒網(wǎng)AI商業(yè)化垂直微信公眾號:AI掘金志(ID:HealthAI)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

編輯

我是雷鋒網(wǎng)醫(yī)療科技編輯,歡迎與我交流:zhangli@leiphone.com
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說