深度 | CMU 邢波教授團(tuán)隊(duì)再出新成果：利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)出院用藥

本文作者：李雨晨

2017-12-10 09:31

導(dǎo)語：隨著美國(guó)采用了電子健康記錄（EHR）系統(tǒng)以及新的醫(yī)療保健數(shù)據(jù)源的快速發(fā)展，醫(yī)療和保健數(shù)據(jù)大量出現(xiàn)。隨著數(shù)據(jù)量和復(fù)雜性的增長(zhǎng)，醫(yī)學(xué)分析和決策變得耗時(shí)、容易出錯(cuò)，并

雷鋒網(wǎng)消息，隨著電子健康記錄（EHR）系統(tǒng)以及新的醫(yī)療保健數(shù)據(jù)源的快速發(fā)展，醫(yī)療和保健數(shù)據(jù)大量出現(xiàn)。數(shù)據(jù)量和復(fù)雜性的增長(zhǎng)，醫(yī)學(xué)分析和決策變得耗時(shí)、容易出錯(cuò)，并且不理想。在各種臨床決策中，制定理想的治療方案是至關(guān)重要并且很有難度的一個(gè)。即使在確診的前提下，醫(yī)生仍需根據(jù)患者病程不斷優(yōu)化治療方案。

其中，在患者入院之后進(jìn)行出院用藥預(yù)測(cè)就是一個(gè)重要的臨床決策，它可以幫助醫(yī)生規(guī)劃藥物種類，并決定在住院期間何時(shí)開始或停止藥物治療，因?yàn)橛行┧幬镄枰獣r(shí)間補(bǔ)充，或者進(jìn)行管理其他藥物的設(shè)置。這對(duì)于醫(yī)生來說可能是一個(gè)困難的決定，因?yàn)槿朐簳r(shí)可用的信息是有限的。

雷鋒網(wǎng)幾天前曾報(bào)道了《CMU 邢波教授團(tuán)隊(duì)最新成果：利用 AI 自動(dòng)生成醫(yī)學(xué)影像報(bào)告》。近日，該團(tuán)隊(duì)又出新成果，研究如何使用深度學(xué)習(xí)技術(shù)來協(xié)助醫(yī)生根據(jù)病人就診記錄中的健康信息來預(yù)測(cè)其出院用藥。他們?cè)O(shè)計(jì)了一種卷積神經(jīng)網(wǎng)絡(luò)來分析就診記錄，然后預(yù)測(cè)病人在出院時(shí)的用藥。

雷鋒網(wǎng)了解到，該模型可以從非結(jié)構(gòu)化和有噪聲的文本中提取語義表征，并能自動(dòng)學(xué)習(xí)不同藥物之間的藥理相關(guān)性。團(tuán)隊(duì)在 2.5 萬份病人就診記錄上對(duì)該模型進(jìn)行了評(píng)估，并與 4 種基準(zhǔn)模型進(jìn)行了比較。在宏平均 F1 分?jǐn)?shù)上，該方法相對(duì)于最好的基準(zhǔn)模型有 20% 的提升。

用深度學(xué)習(xí)預(yù)測(cè)出院藥物的兩大困難

在利用深度學(xué)習(xí)方法在入院就診時(shí)間對(duì)出院藥物進(jìn)行預(yù)測(cè)的過程中，主要有兩方面的困難。首先，可用的就診信息大多數(shù)都是非結(jié)構(gòu)化的病歷記錄（稱為入院記錄），比如既往病史、家族史、過敏等情況。與實(shí)驗(yàn)室檢測(cè)數(shù)據(jù)和體征數(shù)據(jù)等結(jié)構(gòu)化信息相比，這些自由形式的文本更難被機(jī)器處理和理解。此外，這些記錄還包含了同義詞、縮寫和拼寫錯(cuò)誤。因此，從這些非結(jié)構(gòu)化且有噪聲的文本中有效提取語義模式是我們需要解決的第一個(gè)問題。

其次，在臨床上，為了快速并有效的治愈疾病，常常會(huì)使用兩種或兩種以上的藥物，許多聯(lián)合用藥的方案在臨床治療指南或?qū)＜夜沧R(shí)中被廣泛認(rèn)可。例如，對(duì)已服用阿司匹林的中風(fēng)病人，為了有效預(yù)防再次中風(fēng)的發(fā)生，醫(yī)生會(huì)推薦雙聯(lián)抗血小板治療（dual anti-platelet therapy），即同時(shí)服用阿司匹林和氯吡格雷。大量研究表明多重藥物的聯(lián)合治療對(duì)疾病的進(jìn)展，預(yù)后及死亡事件的發(fā)生都有一定的影響。如何自動(dòng)發(fā)現(xiàn)和利用藥物之間的這種相關(guān)性，對(duì)于更準(zhǔn)確的多藥物預(yù)測(cè)是至關(guān)重要的，這也是非常有價(jià)值的。

方法

研究設(shè)計(jì)

我們?cè)谥笆占降闹匕Y監(jiān)護(hù)病房（ICU）病人的電子健康記錄進(jìn)行了回顧性研究（retrospective study），根據(jù)就診記錄構(gòu)建了一個(gè)預(yù)測(cè)出院用藥的深度學(xué)習(xí)模型。我們對(duì)比了該模型和其他四個(gè)基準(zhǔn)模型所預(yù)測(cè)的藥物與醫(yī)生給出的藥物的區(qū)別，從而評(píng)估了模型的性能。

數(shù)據(jù)預(yù)處理

該研究使用了 MIMIC-III 數(shù)據(jù)集并且重點(diǎn)關(guān)注了其中出現(xiàn)的 8 種抗高血壓藥：美托洛爾（metoprolol）、呋塞米（furosemide）、賴諾普利（lisinopril）、氨氯地平（amlodipine）、阿替洛爾（atenolol）、氫氯噻嗪（hydrochlorothiazide）、地爾硫卓（diltiazem）、卡維地洛（carvedilol）。

選用這些藥物是基于以下考慮：首先，這些藥物通常用于治療高血壓——一種最普遍、最嚴(yán)重的慢性疾病，它們廣泛地發(fā)生在MIMIC-III。其次，它們很難預(yù)測(cè)：它們的處方和用法有很大的差異，尤其是當(dāng)它們一起使用的時(shí)候，使它們成為我們方法的一個(gè)很好的試驗(yàn)臺(tái)。這些藥物的頻率是不平衡的(如圖1所示)：其中一些頻率非常頻繁，而另一些則是小頻率，這增加了另一層難度。值得注意的是，只要有足夠的臨床資料，我們的方法可以很容易地?cái)U(kuò)展到其他種類的藥物。

深度 | CMU 邢波教授團(tuán)隊(duì)再出新成果：利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)出院用藥

圖1.8 種抗高血壓藥物在 MIMIC-III 數(shù)據(jù)集中的頻率，Hctz 是氫氯噻嗪的簡(jiǎn)寫

模型設(shè)計(jì)

我們開發(fā)了一個(gè)可基于就診時(shí)可用的信息來預(yù)測(cè)出院用藥的深度學(xué)習(xí)模型。該模型的輸入為就診記錄，輸出是病人的出院用藥（一種或多種）。該模型具備兩種功能：能有效地從有噪聲的和非結(jié)構(gòu)化的原始文本中提取高層次的語義并能適當(dāng)?shù)乜紤]連續(xù)詞匯之間的序列結(jié)構(gòu)；其次，該模型能學(xué)習(xí)不同藥物之間的藥理相關(guān)性。

為了同時(shí)實(shí)現(xiàn)這兩個(gè)目標(biāo)，我們開發(fā)了一種基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的模型。從高層面看，該模型：1）使用了多個(gè)堆疊的隱藏單元層來獲取輸入記錄的隱含語義；2) 使用了不同窗口大小的卷積算子來獲取 n-gram 中存在的局部語義和序列結(jié)構(gòu)；3) 可發(fā)現(xiàn)常見的隱含因子，從而學(xué)習(xí)得到藥物之間的藥理相關(guān)性。

深度 | CMU 邢波教授團(tuán)隊(duì)再出新成果：利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)出院用藥

左欄顯示 8 種就診時(shí)可用的信息類型，右欄每行顯示了 MIMIC-III 中對(duì)應(yīng)的提取此類信息的標(biāo)題字符串

深度 | CMU 邢波教授團(tuán)隊(duì)再出新成果：利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)出院用藥

圖2.CNN 模型的網(wǎng)絡(luò)架構(gòu)

結(jié)果

從宏平均和微平均兩種 F1 分?jǐn)?shù)上來看，CNN 有遠(yuǎn)高于其他所有基準(zhǔn)模型的準(zhǔn)確率。在兩種平均 F1 分?jǐn)?shù)之間，CNN 在宏平均上的提升更為顯著。CNN 在 7 種藥物上都得到了最好的 F1 分?jǐn)?shù)。呋塞米是唯一的例外，其中RF的表現(xiàn)優(yōu)于 CNN。CNN 相對(duì)于基準(zhǔn)的提升主要體現(xiàn)在召回率（recall）上，而其準(zhǔn)確率則與基準(zhǔn)模型相當(dāng)。在各類基準(zhǔn)模型中，只使用就診藥物作為輸入的多層感知機(jī)（MLP）在宏平均和微平均 F1 上的表現(xiàn)最差；另外，非線性支撐向量機(jī)（SVM）和 RF 的表現(xiàn)優(yōu)于線性的邏輯回歸模型（LR）。

CNN 相較于其它基準(zhǔn)較高的得分來源于它分層的隱藏層結(jié)構(gòu)。這樣的結(jié)構(gòu)使得 CNN 能在多種粒度（單詞層面、短語層面和文本層面）上提取相關(guān)的語義信息。

設(shè)置和評(píng)估

基線模型：我們將CNN模型與SVM、RF和LR三種分類模型進(jìn)行比較。與CNN不同，這些模型缺乏自動(dòng)學(xué)習(xí)文本的語義表示或者在藥物之間捕獲相關(guān)性的機(jī)制。這些模型的輸入特征是從登記記錄中提取的詞頻和逆文件頻率（TF-IDF）矢量。（雷鋒網(wǎng)注：TF-IDF是一種統(tǒng)計(jì)方法，用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加，但同時(shí)會(huì)隨著它在語料庫(kù)中出現(xiàn)的頻率成反比下降）。

正如在臨床實(shí)踐中所觀察到的，出院藥物與入院藥物密切相關(guān)，有時(shí)甚至有個(gè)很大的重疊。有人可能會(huì)懷疑，僅僅根據(jù)入院藥物預(yù)測(cè)出院藥物是否足夠，而不需要其他類型的入院信息，如過去的病史和主訴。為了回答這個(gè)問題，我們比較另一個(gè)基線，只使用入院藥物作為輸入，并使用多層感知器（MLP）來預(yù)測(cè)出院藥物。

評(píng)估指標(biāo)：為了評(píng)估模型的表現(xiàn)，我們測(cè)量了測(cè)試集上的分類（藥物）的精確度，召回率和F1分?jǐn)?shù)以及所有藥物分類的這些分?jǐn)?shù)的微平均和宏平均。由于藥物類別的頻率是高度偏離的（如圖1所示），微平均值（這有利于頻繁類別）可能低估了頻繁類別中的錯(cuò)誤，宏平均值可以更好地揭示模型在不頻繁班級(jí)上的表現(xiàn)。

結(jié)果

不同模型對(duì)降壓藥物進(jìn)行5次評(píng)估，得出的準(zhǔn)確度（P），召回率（R）和F值（F）的平均值見于表2。

深度 | CMU 邢波教授團(tuán)隊(duì)再出新成果：利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)出院用藥

表2：CNN和4個(gè)基本模型評(píng)估藥物的準(zhǔn)確度（P），召回率（R）和F值（F）。通過微平均和宏平均來比較5種模型。

在補(bǔ)充表6中可見這5次準(zhǔn)確度，召回率和F值的標(biāo)準(zhǔn)偏差。

深度 | CMU 邢波教授團(tuán)隊(duì)再出新成果：利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)出院用藥

補(bǔ)充表6

表2最后兩行顯示7種藥物的微平均（Micro Avg）和宏平均（Macro Avg）。單獨(dú)觀察F值可以看出，CNN比其他四種模型的微平均和宏平均要好得多。相比于微平均來說，CNN對(duì)宏平均的優(yōu)化更為顯著。8種藥物其中的7種，CNN都獲得了最高的F值。唯一的例外是呋塞米，RF的F值高于CNN。與其他4種基本模型相比較，CNN主要改善了藥物的召回率，準(zhǔn)確度的值與其他模型類似。4種基本模型中，多層感知機(jī)（MLP）方法F1值的微平均和宏平均最低，非線性支撐向量機(jī)（SVM）和RF是非線性模型，其綜合水平比基于線性模型的邏輯回歸模型（LR）好。

CNN勝過其他基本模型的一個(gè)主要原因是：它使用分層次的隱藏層從多個(gè)粒度捕獲語義信息。我們使用各種可視化指標(biāo)來驗(yàn)證這一點(diǎn)。首先，檢查嵌入向量是否能夠捕獲單詞語義。把每個(gè)單詞視為嵌入向量w，計(jì)算嵌入向量w與其他單詞向量之間的歐幾里得距離，然后檢索距離嵌入向量w最近的單詞。表3中顯示了20個(gè)單詞及其歐幾里得距離最近的單詞。接下來，我們用可視化指標(biāo)檢測(cè)卷積層中的濾波器，并檢查它們是否能夠捕獲短語的語義。我們通過與窗口大小相匹配的不同濾波器挑出具有最大特征值的短語。表4顯示窗口大小為3及窗口大小為4的過濾器產(chǎn)生的最大特征值短語。

討論

表2所示，綜合評(píng)價(jià)5個(gè)模型，CNN優(yōu)于其他基本模型，原因主要有2個(gè)：一個(gè)原因是CNN能夠通過多種粒度捕獲語義信息，而其他基本模型缺乏這樣的機(jī)制。CNN分別利用詞嵌入層、卷積層和密集層來識(shí)別單詞語義、短語語義和文本語義。

深度 | CMU 邢波教授團(tuán)隊(duì)再出新成果：利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)出院用藥

表3.20個(gè)嵌入向量w及其歐幾里得距離最近的單詞。

表3可見每個(gè)嵌入向量與其最鄰近的單詞具有很強(qiáng)的臨床相關(guān)性。例如，“動(dòng)脈”的鄰近單詞是“肌鈣蛋白”，這兩個(gè)詞的臨床相關(guān)性很高。

詞語之間的相關(guān)性如下：對(duì)于冠心病患者，肌鈣蛋白水平升高時(shí)，“主動(dòng)脈”和“二尖瓣”將成為相關(guān)單詞，因?yàn)橹鲃?dòng)脈瓣和二尖瓣是最易患病的瓣膜。“心絞痛”和“超聲波心動(dòng)圖”這兩個(gè)單詞也具有相關(guān)性，因?yàn)樾慕g痛可以通過超聲波心動(dòng)圖診斷。這表明嵌入向量能夠很好地捕獲單詞的語義。

深度 | CMU 邢波教授團(tuán)隊(duì)再出新成果：利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)出院用藥

表4.過濾器的可視化。窗口大小為3及窗口大小為4的過濾器產(chǎn)生的最大特征值短語。

通過卷積層，每個(gè)過濾器都能夠識(shí)別特定的語義。例如，過濾器1-4分別是靜脈曲張、腎臟疾病、實(shí)驗(yàn)室檢查和冠狀動(dòng)脈疾病。過濾器5-8分別是呼吸問題、心肌病、動(dòng)脈移植和心力衰竭。有趣的是，不具有任何共同詞語但語義相關(guān)的詞存在于相同過濾器下。例如，在過濾器2中，“腎性高血壓”，“黑色大便”，“血液透析過程”，這三個(gè)詞沒有共同的詞語，但它們的語義密切相關(guān)?！昂诒恪笔墙K末期腎病的常見癥狀，“血液透析”是腎病的常見治療手段。過濾器8展示了使用不同窗口大小過濾器的必要性。雖然這幾個(gè)詞語都與“充血性心力衰竭”(CHF)有關(guān)，但它們?cè)诘谝粋€(gè)單詞的不同揭示了不同的語義。分別是CHF的轉(zhuǎn)歸，病史，病因，嚴(yán)重性和存在。如果我們只使用窗口大小為3的過濾器，那只能獲得“充血性心力衰竭”這一個(gè)語義。但是使用窗口大小為4的過濾器可以捕獲更多粒度的語義。

深度 | CMU 邢波教授團(tuán)隊(duì)再出新成果：利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)出院用藥

在密集層中可以獲得整個(gè)文本的語義。如圖3所示，通過向量接近的程度給出出院藥物的相關(guān)注釋。例如，在第一個(gè)小圖中，很清晰地看到兩組標(biāo)記物，這兩組標(biāo)記物分別對(duì)應(yīng)“美托洛爾”和“無美托洛爾”。其他圖也可以看到類似現(xiàn)象，這表明通過向量接近的程度來預(yù)測(cè)患者出院所服藥物是非常有用的。另外，通過這些圖，我們可以得到一些臨床知識(shí)。“美托洛爾”和“呋塞米”的小樣本圖中，紅色標(biāo)記物與黑色標(biāo)記物有很大的重疊，這表明這兩種藥物可以配伍?！鞍甭鹊仄健焙汀鞍⑻媛鍫枴钡男颖緢D可以看出，紅色標(biāo)記物與黑色標(biāo)記物的重疊程度很小，說明這兩種藥物很少配伍。

CNN模型勝過其他基本模型的另一個(gè)主要原因是它能夠捕獲藥物之間的相關(guān)性。CNN模型得出的相關(guān)性排名與PMI的排名非常一致。除賴諾普利以外的所有藥物，CNN模型根據(jù)相關(guān)性得到的最相關(guān)藥物與根據(jù)PMI發(fā)現(xiàn)的藥物相同。這表明CNN模型能夠有效地捕捉藥物之間的相關(guān)性。

我們可以看到CNN模型可以有效改善阿替洛爾、地爾硫卓等使用頻率較低藥物的F1值。美托洛爾和呋塞米等使用頻率高的藥物，CNN模型與其他模型的F1值差不多。因此，CNN模型能夠有效提高使用頻率較低藥物的F1值的宏平均。但是對(duì)于使用藥物頻率高的藥物，CNN模型對(duì)于其F1值的微平均沒有顯著改善。藥物的預(yù)測(cè)取決于兩個(gè)因素：

（i）藥物與入院信息之間的相關(guān)性;

（ii）藥物與其他藥物之間的相關(guān)性。

對(duì)于使用頻率較低藥物藥物來說，藥物與其他藥物之間的相關(guān)性便非常重要。 CNN擁有有效捕捉藥物相關(guān)性的機(jī)制，因此更加適用于預(yù)測(cè)使用頻率較低藥物。

MLP在5種藥物中的F1值最低，而且平均F1值也低。原因是MLP模型只使用藥物作為輸入，應(yīng)該輸入更多的信息，如過去病史、主訴等等。這表明出院藥物的預(yù)測(cè)與入院藥物的預(yù)測(cè)顯著不同，必須有效地利用其他類型的信息做出準(zhǔn)確的預(yù)測(cè)。對(duì)于所有模型來說，使用頻率較高的藥物一般F值比較高，因?yàn)檩^大的數(shù)據(jù)庫(kù)有益于發(fā)揮機(jī)器學(xué)習(xí)的預(yù)測(cè)性能。

局限性

雖然CNN的性能比其他強(qiáng)大的基準(zhǔn)模型更好，但我們討論了它的一些局限性。

首先，CNN在頻繁和不頻繁的藥物類別上的表現(xiàn)差距仍然很大，盡管與基線相比已經(jīng)有所改善。例如，CNN在兩種最常見的藥物上的F1評(píng)分分別是0.79和0.70，這比那些不常見的藥物（阿替洛爾和hctz）要好得多。在未來的工作中，我們計(jì)劃想出辦法來彌補(bǔ)這個(gè)缺口。

我們方法的另一個(gè)局限是，它純粹是由數(shù)據(jù)驅(qū)動(dòng)的，不包含人類的知識(shí)。在臨床實(shí)踐中，醫(yī)生參考專業(yè)協(xié)會(huì)的指導(dǎo)方針來開藥。這樣的指導(dǎo)方針可以納入CNN模型，以進(jìn)一步提高預(yù)測(cè)的準(zhǔn)確性，我們計(jì)劃在未來進(jìn)行探索。

再次，在我們目前的方法中，只有醫(yī)療信息被用來預(yù)測(cè)出院藥物。非臨床因素，如保險(xiǎn)類型，藥物費(fèi)用，影響藥物處方，也應(yīng)該納入預(yù)測(cè)模型。

最后，MIMIC-III中的注意事項(xiàng)非常嘈雜，我們目前的預(yù)處理步驟不能完全處理這些噪音。例如，用于識(shí)別不同類型的準(zhǔn)入信息的標(biāo)題字符串并不是詳盡無遺的，這導(dǎo)致了大量的信息丟失。下一步，我們將手動(dòng)處理這些“角落里”的案例，并將它們納入訓(xùn)練集。

結(jié)論

我們發(fā)現(xiàn)，只有使用入院時(shí)可用的信息才能準(zhǔn)確預(yù)測(cè)出院藥物。這樣的預(yù)測(cè)可以為醫(yī)生提供有價(jià)值的信息來制定治療計(jì)劃。在8種藥物中，CNN模型達(dá)到0.63的（微觀平均）精確度，召回率為0.70。

就宏觀平均F1分?jǐn)?shù)而言，CNN模型勝過20％以上的最佳基線模型。性能增益歸功于CNN的兩種能力，而這兩種能力并不屬于基線方法。首先，CNN能夠?qū)W習(xí)文本的語義表示。我們對(duì)單個(gè)模型組件進(jìn)行詳細(xì)的可視化，包括單詞嵌入、卷積過濾器和密集層。

這些可視化表明，CNN模型能夠從原始文本中提取不同粒度的語義。其次，CNN能夠通過共享潛在因素的機(jī)制來捕捉藥物之間的相關(guān)性。這種能力是CNN比基線表現(xiàn)更好的另一個(gè)主要原因是被捕獲的相關(guān)療法缺乏訓(xùn)練樣本，特別是在不常見的藥物治療中。

盡管我們解決方案的靈感是從一個(gè)特定的任務(wù)中得來的，但它也可能成為其他臨床預(yù)測(cè)任務(wù)的通用方案。例如，通過將目標(biāo)標(biāo)簽從藥物轉(zhuǎn)移到疾病，CNN就可以被用于輔助診斷。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

李雨晨

新智駕主編

專注蔚小理等造車新勢(shì)力的原創(chuàng)報(bào)道 |微信：Gru1993

發(fā)私信

當(dāng)月熱門文章