丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
醫(yī)療科技 正文
發(fā)私信給李雨晨
發(fā)送

0

深度 | CMU 邢波教授團隊再出新成果:利用深度學(xué)習技術(shù)預(yù)測出院用藥

本文作者: 李雨晨 2017-12-10 09:31
導(dǎo)語:隨著美國采用了電子健康記錄(EHR)系統(tǒng)以及新的醫(yī)療保健數(shù)據(jù)源的快速發(fā)展,醫(yī)療和保健數(shù)據(jù)大量出現(xiàn)。隨著數(shù)據(jù)量和復(fù)雜性的增長,醫(yī)學(xué)分析和決策變得耗時、容易出錯,并

雷鋒網(wǎng)消息,隨著電子健康記錄(EHR)系統(tǒng)以及新的醫(yī)療保健數(shù)據(jù)源的快速發(fā)展,醫(yī)療和保健數(shù)據(jù)大量出現(xiàn)。數(shù)據(jù)量和復(fù)雜性的增長,醫(yī)學(xué)分析和決策變得耗時、容易出錯,并且不理想。在各種臨床決策中,制定理想的治療方案是至關(guān)重要并且很有難度的一個。即使在確診的前提下,醫(yī)生仍需根據(jù)患者病程不斷優(yōu)化治療方案。

其中,在患者入院之后進行出院用藥預(yù)測就是一個重要的臨床決策,它可以幫助醫(yī)生規(guī)劃藥物種類,并決定在住院期間何時開始或停止藥物治療,因為有些藥物需要時間補充,或者進行管理其他藥物的設(shè)置。這對于醫(yī)生來說可能是一個困難的決定,因為入院時可用的信息是有限的。

雷鋒網(wǎng)幾天前曾報道了《CMU 邢波教授團隊最新成果:利用 AI 自動生成醫(yī)學(xué)影像報告》。近日,該團隊又出新成果,研究如何使用深度學(xué)習技術(shù)來協(xié)助醫(yī)生根據(jù)病人就診記錄中的健康信息來預(yù)測其出院用藥。他們設(shè)計了一種卷積神經(jīng)網(wǎng)絡(luò)來分析就診記錄,然后預(yù)測病人在出院時的用藥。

雷鋒網(wǎng)了解到,該模型可以從非結(jié)構(gòu)化和有噪聲的文本中提取語義表征,并能自動學(xué)習不同藥物之間的藥理相關(guān)性。團隊在 2.5 萬份病人就診記錄上對該模型進行了評估,并與 4 種基準模型進行了比較。在宏平均 F1 分數(shù)上,該方法相對于最好的基準模型有 20% 的提升。

用深度學(xué)習預(yù)測出院藥物的兩大困難

在利用深度學(xué)習方法在入院就診時間對出院藥物進行預(yù)測的過程中,主要有兩方面的困難。首先,可用的就診信息大多數(shù)都是非結(jié)構(gòu)化的病歷記錄(稱為入院記錄),比如既往病史、家族史、過敏等情況。與實驗室檢測數(shù)據(jù)和體征數(shù)據(jù)等結(jié)構(gòu)化信息相比,這些自由形式的文本更難被機器處理和理解。此外,這些記錄還包含了同義詞、縮寫和拼寫錯誤。因此,從這些非結(jié)構(gòu)化且有噪聲的文本中有效提取語義模式是我們需要解決的第一個問題。

其次,在臨床上,為了快速并有效的治愈疾病,常常會使用兩種或兩種以上的藥物,許多聯(lián)合用藥的方案在臨床治療指南或?qū)<夜沧R中被廣泛認可。例如,對已服用阿司匹林的中風病人,為了有效預(yù)防再次中風的發(fā)生,醫(yī)生會推薦雙聯(lián)抗血小板治療(dual anti-platelet therapy),即同時服用阿司匹林和氯吡格雷。大量研究表明多重藥物的聯(lián)合治療對疾病的進展,預(yù)后及死亡事件的發(fā)生都有一定的影響。如何自動發(fā)現(xiàn)和利用藥物之間的這種相關(guān)性,對于更準確的多藥物預(yù)測是至關(guān)重要的,這也是非常有價值的。

方法

研究設(shè)計

我們在之前收集到的重癥監(jiān)護病房(ICU)病人的電子健康記錄進行了回顧性研究(retrospective study),根據(jù)就診記錄構(gòu)建了一個預(yù)測出院用藥的深度學(xué)習模型。我們對比了該模型和其他四個基準模型所預(yù)測的藥物與醫(yī)生給出的藥物的區(qū)別,從而評估了模型的性能。

數(shù)據(jù)預(yù)處理

該研究使用了 MIMIC-III 數(shù)據(jù)集并且重點關(guān)注了其中出現(xiàn)的 8 種抗高血壓藥:美托洛爾(metoprolol)、呋塞米(furosemide)、賴諾普利(lisinopril)、氨氯地平(amlodipine)、阿替洛爾(atenolol)、氫氯噻嗪(hydrochlorothiazide)、地爾硫卓(diltiazem)、卡維地洛(carvedilol)。

選用這些藥物是基于以下考慮:首先,這些藥物通常用于治療高血壓——一種最普遍、最嚴重的慢性疾病,它們廣泛地發(fā)生在MIMIC-III。其次,它們很難預(yù)測:它們的處方和用法有很大的差異,尤其是當它們一起使用的時候,使它們成為我們方法的一個很好的試驗臺。這些藥物的頻率是不平衡的(如圖1所示):其中一些頻率非常頻繁,而另一些則是小頻率,這增加了另一層難度。值得注意的是,只要有足夠的臨床資料,我們的方法可以很容易地擴展到其他種類的藥物。

深度 | CMU 邢波教授團隊再出新成果:利用深度學(xué)習技術(shù)預(yù)測出院用藥

圖1.8 種抗高血壓藥物在 MIMIC-III 數(shù)據(jù)集中的頻率,Hctz 是氫氯噻嗪的簡寫

模型設(shè)計

我們開發(fā)了一個可基于就診時可用的信息來預(yù)測出院用藥的深度學(xué)習模型。該模型的輸入為就診記錄,輸出是病人的出院用藥(一種或多種)。該模型具備兩種功能:能有效地從有噪聲的和非結(jié)構(gòu)化的原始文本中提取高層次的語義并能適當?shù)乜紤]連續(xù)詞匯之間的序列結(jié)構(gòu);其次,該模型能學(xué)習不同藥物之間的藥理相關(guān)性。

為了同時實現(xiàn)這兩個目標,我們開發(fā)了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型。從高層面看,該模型:1)使用了多個堆疊的隱藏單元層來獲取輸入記錄的隱含語義;2) 使用了不同窗口大小的卷積算子來獲取 n-gram 中存在的局部語義和序列結(jié)構(gòu);3) 可發(fā)現(xiàn)常見的隱含因子,從而學(xué)習得到藥物之間的藥理相關(guān)性。

深度 | CMU 邢波教授團隊再出新成果:利用深度學(xué)習技術(shù)預(yù)測出院用藥

左欄顯示 8 種就診時可用的信息類型,右欄每行顯示了 MIMIC-III 中對應(yīng)的提取此類信息的標題字符串

深度 | CMU 邢波教授團隊再出新成果:利用深度學(xué)習技術(shù)預(yù)測出院用藥

圖2.CNN 模型的網(wǎng)絡(luò)架構(gòu)

結(jié)果

從宏平均和微平均兩種 F1 分數(shù)上來看,CNN 有遠高于其他所有基準模型的準確率。在兩種平均 F1 分數(shù)之間,CNN 在宏平均上的提升更為顯著。CNN 在 7 種藥物上都得到了最好的 F1 分數(shù)。呋塞米是唯一的例外,其中RF的表現(xiàn)優(yōu)于 CNN。CNN 相對于基準的提升主要體現(xiàn)在召回率(recall)上,而其準確率則與基準模型相當。在各類基準模型中,只使用就診藥物作為輸入的 多層感知機(MLP)在宏平均和微平均 F1 上的表現(xiàn)最差;另外,非線性支撐向量機(SVM)和 RF 的表現(xiàn)優(yōu)于線性的邏輯回歸模型(LR)。

CNN 相較于其它基準較高的得分來源于它分層的隱藏層結(jié)構(gòu)。這樣的結(jié)構(gòu)使得 CNN 能在多種粒度(單詞層面、短語層面和文本層面)上提取相關(guān)的語義信息。

設(shè)置和評估

基線模型:我們將CNN模型與SVM、RF和LR三種分類模型進行比較。與CNN不同,這些模型缺乏自動學(xué)習文本的語義表示或者在藥物之間捕獲相關(guān)性的機制。這些模型的輸入特征是從登記記錄中提取的詞頻和逆文件頻率(TF-IDF)矢量。(雷鋒網(wǎng)注:TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。

正如在臨床實踐中所觀察到的,出院藥物與入院藥物密切相關(guān),有時甚至有個很大的重疊。有人可能會懷疑,僅僅根據(jù)入院藥物預(yù)測出院藥物是否足夠,而不需要其他類型的入院信息,如過去的病史和主訴。為了回答這個問題,我們比較另一個基線,只使用入院藥物作為輸入,并使用多層感知器(MLP)來預(yù)測出院藥物。

評估指標:為了評估模型的表現(xiàn),我們測量了測試集上的分類(藥物)的精確度,召回率和F1分數(shù)以及所有藥物分類的這些分數(shù)的微平均和宏平均。由于藥物類別的頻率是高度偏離的(如圖1所示),微平均值(這有利于頻繁類別)可能低估了頻繁類別中的錯誤,宏平均值可以更好地揭示模型在不頻繁班級上的表現(xiàn)。

結(jié)果

不同模型對降壓藥物進行5次評估,得出的準確度(P),召回率(R)和F值(F)的平均值見于表2。

深度 | CMU 邢波教授團隊再出新成果:利用深度學(xué)習技術(shù)預(yù)測出院用藥

表2:CNN和4個基本模型評估藥物的準確度(P),召回率(R)和F值(F)。通過微平均和宏平均來比較5種模型。

在補充表6中可見這5次準確度,召回率和F值的標準偏差。

深度 | CMU 邢波教授團隊再出新成果:利用深度學(xué)習技術(shù)預(yù)測出院用藥

補充表6

表2最后兩行顯示7種藥物的微平均(Micro Avg)和宏平均(Macro Avg)。單獨觀察F值可以看出,CNN比其他四種模型的微平均和宏平均要好得多。相比于微平均來說,CNN對宏平均的優(yōu)化更為顯著。8種藥物其中的7種,CNN都獲得了最高的F值。唯一的例外是呋塞米,RF的F值高于CNN。與其他4種基本模型相比較,CNN主要改善了藥物的召回率,準確度的值與其他模型類似。4種基本模型中,多層感知機(MLP)方法F1值的微平均和宏平均最低,非線性支撐向量機(SVM)和RF是非線性模型,其綜合水平比基于線性模型的邏輯回歸模型(LR)好。

CNN勝過其他基本模型的一個主要原因是:它使用分層次的隱藏層從多個粒度捕獲語義信息。我們使用各種可視化指標來驗證這一點。首先,檢查嵌入向量是否能夠捕獲單詞語義。 把每個單詞視為嵌入向量w,計算嵌入向量w與其他單詞向量之間的歐幾里得距離,然后檢索距離嵌入向量w最近的單詞。表3中顯示了20個單詞及其歐幾里得距離最近的單詞。 接下來,我們用可視化指標檢測卷積層中的濾波器,并檢查它們是否能夠捕獲短語的語義。 我們通過與窗口大小相匹配的不同濾波器挑出具有最大特征值的短語。表4顯示窗口大小為3及窗口大小為4的過濾器產(chǎn)生的最大特征值短語。

討論

表2所示,綜合評價5個模型,CNN優(yōu)于其他基本模型,原因主要有2個:一個原因是CNN能夠通過多種粒度捕獲語義信息,而其他基本模型缺乏這樣的機制。CNN分別利用詞嵌入層、卷積層和密集層來識別單詞語義、短語語義和文本語義。

深度 | CMU 邢波教授團隊再出新成果:利用深度學(xué)習技術(shù)預(yù)測出院用藥

表3.20個嵌入向量w及其歐幾里得距離最近的單詞。

表3可見每個嵌入向量與其最鄰近的單詞具有很強的臨床相關(guān)性。例如,“動脈”的鄰近單詞是“肌鈣蛋白”,這兩個詞的臨床相關(guān)性很高。

詞語之間的相關(guān)性如下:對于冠心病患者,肌鈣蛋白水平升高時,“主動脈”和“二尖瓣”將成為相關(guān)單詞,因為主動脈瓣和二尖瓣是最易患病的瓣膜。“心絞痛”和“超聲波心動圖”這兩個單詞也具有相關(guān)性,因為心絞痛可以通過超聲波心動圖診斷。這表明嵌入向量能夠很好地捕獲單詞的語義。

深度 | CMU 邢波教授團隊再出新成果:利用深度學(xué)習技術(shù)預(yù)測出院用藥

表4.過濾器的可視化。窗口大小為3及窗口大小為4的過濾器產(chǎn)生的最大特征值短語。

通過卷積層,每個過濾器都能夠識別特定的語義。例如,過濾器1-4分別是靜脈曲張、腎臟疾病、實驗室檢查和冠狀動脈疾病。過濾器5-8分別是呼吸問題、心肌病、動脈移植和心力衰竭。有趣的是,不具有任何共同詞語但語義相關(guān)的詞存在于相同過濾器下。例如,在過濾器2中,“腎性高血壓”,“黑色大便”,“血液透析過程”,這三個詞沒有共同的詞語,但它們的語義密切相關(guān)?!昂诒恪笔墙K末期腎病的常見癥狀,“血液透析”是腎病的常見治療手段。過濾器8展示了使用不同窗口大小過濾器的必要性。雖然這幾個詞語都與“充血性心力衰竭”(CHF)有關(guān),但它們在第一個單詞的不同揭示了不同的語義。分別是CHF的轉(zhuǎn)歸,病史,病因,嚴重性和存在。如果我們只使用窗口大小為3的過濾器,那只能獲得“充血性心力衰竭”這一個語義。但是使用窗口大小為4的過濾器可以捕獲更多粒度的語義。

深度 | CMU 邢波教授團隊再出新成果:利用深度學(xué)習技術(shù)預(yù)測出院用藥

在密集層中可以獲得整個文本的語義。如圖3所示,通過向量接近的程度給出出院藥物的相關(guān)注釋。例如,在第一個小圖中,很清晰地看到兩組標記物,這兩組標記物分別對應(yīng)“美托洛爾”和“無美托洛爾”。其他圖也可以看到類似現(xiàn)象,這表明通過向量接近的程度來預(yù)測患者出院所服藥物是非常有用的。另外,通過這些圖,我們可以得到一些臨床知識?!懊劳新鍫枴焙汀斑蝗住钡男颖緢D中,紅色標記物與黑色標記物有很大的重疊,這表明這兩種藥物可以配伍。“氨氯地平”和“阿替洛爾”的小樣本圖可以看出,紅色標記物與黑色標記物的重疊程度很小,說明這兩種藥物很少配伍。

CNN模型勝過其他基本模型的另一個主要原因是它能夠捕獲藥物之間的相關(guān)性。CNN模型得出的相關(guān)性排名與PMI的排名非常一致。除賴諾普利以外的所有藥物,CNN模型根據(jù)相關(guān)性得到的最相關(guān)藥物與根據(jù)PMI發(fā)現(xiàn)的藥物相同。這表明CNN模型能夠有效地捕捉藥物之間的相關(guān)性。

我們可以看到CNN模型可以有效改善阿替洛爾、地爾硫卓等使用頻率較低藥物的F1值。美托洛爾和呋塞米等使用頻率高的藥物,CNN模型與其他模型的F1值差不多。因此,CNN模型能夠有效提高使用頻率較低藥物的F1值的宏平均。但是對于使用藥物頻率高的藥物,CNN模型對于其F1值的微平均沒有顯著改善。藥物的預(yù)測取決于兩個因素:

(i)藥物與入院信息之間的相關(guān)性; 

(ii)藥物與其他藥物之間的相關(guān)性。

對于使用頻率較低藥物藥物來說,藥物與其他藥物之間的相關(guān)性便非常重要。 CNN擁有有效捕捉藥物相關(guān)性的機制,因此更加適用于預(yù)測使用頻率較低藥物。

MLP在5種藥物中的F1值最低,而且平均F1值也低。原因是MLP模型只使用藥物作為輸入,應(yīng)該輸入更多的信息,如過去病史、主訴等等。這表明出院藥物的預(yù)測與入院藥物的預(yù)測顯著不同,必須有效地利用其他類型的信息做出準確的預(yù)測。對于所有模型來說,使用頻率較高的藥物一般F值比較高,因為較大的數(shù)據(jù)庫有益于發(fā)揮機器學(xué)習的預(yù)測性能。

局限性

雖然CNN的性能比其他強大的基準模型更好,但我們討論了它的一些局限性。

首先,CNN在頻繁和不頻繁的藥物類別上的表現(xiàn)差距仍然很大,盡管與基線相比已經(jīng)有所改善。例如,CNN在兩種最常見的藥物上的F1評分分別是0.79和0.70,這比那些不常見的藥物(阿替洛爾和hctz)要好得多。在未來的工作中,我們計劃想出辦法來彌補這個缺口。

我們方法的另一個局限是,它純粹是由數(shù)據(jù)驅(qū)動的,不包含人類的知識。在臨床實踐中,醫(yī)生參考專業(yè)協(xié)會的指導(dǎo)方針來開藥。這樣的指導(dǎo)方針可以納入CNN模型,以進一步提高預(yù)測的準確性,我們計劃在未來進行探索。

再次,在我們目前的方法中,只有醫(yī)療信息被用來預(yù)測出院藥物。非臨床因素,如保險類型,藥物費用,影響藥物處方,也應(yīng)該納入預(yù)測模型。

最后,MIMIC-III中的注意事項非常嘈雜,我們目前的預(yù)處理步驟不能完全處理這些噪音。例如,用于識別不同類型的準入信息的標題字符串并不是詳盡無遺的,這導(dǎo)致了大量的信息丟失。下一步,我們將手動處理這些“角落里”的案例,并將它們納入訓(xùn)練集。

結(jié)論

我們發(fā)現(xiàn),只有使用入院時可用的信息才能準確預(yù)測出院藥物。這樣的預(yù)測可以為醫(yī)生提供有價值的信息來制定治療計劃。在8種藥物中,CNN模型達到0.63的(微觀平均)精確度,召回率為0.70。

就宏觀平均F1分數(shù)而言,CNN模型勝過20%以上的最佳基線模型。性能增益歸功于CNN的兩種能力,而這兩種能力并不屬于基線方法。首先,CNN能夠?qū)W習文本的語義表示。我們對單個模型組件進行詳細的可視化,包括單詞嵌入、卷積過濾器和密集層。

這些可視化表明,CNN模型能夠從原始文本中提取不同粒度的語義。其次,CNN能夠通過共享潛在因素的機制來捕捉藥物之間的相關(guān)性。這種能力是CNN比基線表現(xiàn)更好的另一個主要原因是被捕獲的相關(guān)療法缺乏訓(xùn)練樣本,特別是在不常見的藥物治療中。

盡管我們解決方案的靈感是從一個特定的任務(wù)中得來的,但它也可能成為其他臨床預(yù)測任務(wù)的通用方案。例如,通過將目標標簽從藥物轉(zhuǎn)移到疾病,CNN就可以被用于輔助診斷。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說