0
本文作者: 李雨晨 | 2017-11-17 10:06 |
深度學(xué)習(xí)著名學(xué)者吳恩達和他在斯坦福大學(xué)的團隊一直在醫(yī)療方面做著努力。雷鋒網(wǎng)了解到,此前,吳恩達團隊研發(fā)出一種深度學(xué)習(xí)算法,可以診斷14種類型的心律失常。近日,該團隊又出新成果,他們提出了一種名為 CheXNet 的新技術(shù)。研究人員表示:新技術(shù)已經(jīng)在識別胸透照片中肺炎等疾病上的準確率上超越人類專業(yè)醫(yī)師。
研究人員稱,開發(fā)的這種算法從胸透照片里檢測肺炎,且水平超越專業(yè)放射科醫(yī)生。算法被稱為 CheXNet,它是一個 121 層的卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)在目前最大的開放式胸透照片數(shù)據(jù)集“ChestX-ray14”上進行訓(xùn)練。ChestX-ray14 數(shù)據(jù)集包含 14 種疾病的 10 萬張前視圖 X-ray 圖像。
背景
據(jù)雷鋒網(wǎng)了解,僅在美國,每年就有超過 100 萬成年人因為肺炎住院,5 萬人因為該病而死亡(CDC, 2017)。目前,胸部 X 光檢查是診斷肺炎的最佳方法(WHO, 2001),這種方法在臨床護理和流行病學(xué)研究中發(fā)揮著重要作用。然而,通過 X 光片診斷肺炎是一個具有挑戰(zhàn)性的任務(wù),需要放射科醫(yī)師具備專家級的判斷能力。在吳恩達團隊的最新成果中,計算機科學(xué)院和醫(yī)學(xué)院的研究人員共同提出了一種新的機器學(xué)習(xí)模型,可以讓計算機通過胸透照片自動診斷肺炎。
圖一:ChexNet 是一個 121 層的卷積神經(jīng)網(wǎng)絡(luò),輸入胸透圖片,輸出患病概率。在這個例子中,CheXnet 準確地探測到了肺炎,同時定位了圖片中最有可能患病的位置。
CheXNet 可以輸出肺炎存在可能性的熱區(qū)圖。研究人員在最近發(fā)布的 ChestX-ray14 數(shù)據(jù)集(Wang et al., 2017)上訓(xùn)練了 CheXNet。該數(shù)據(jù)集包含 112,120 張各自標注最多有 14 種不同胸部疾?。òǚ窝祝┑恼嫘赝笀D像。研究人員使用密集連接(Huang et al., 2016)與批歸一化(Ioffe & Szegedy, 2015)來優(yōu)化這一深度神經(jīng)網(wǎng)絡(luò)。
圖 2. CheXNet 在使用胸透圖像識別肺炎任務(wù)上的表現(xiàn)超過放射科醫(yī)師的平均水平。在測試中,CheXNet 與四名人類放射科醫(yī)師在敏感度(衡量正確識別陽性的能力)以及特異性(衡量正確識別陰性的能力)上進行比較。放射科醫(yī)生的個人表現(xiàn)以橙色點標記,平均值以綠色點標記。CheXNet 輸出從胸透照片上檢測出的患肺炎概率,藍色曲線是分類閾值形成的。所有醫(yī)師的敏感度-特異性點均低于藍色曲線。
對放射科醫(yī)師來說,要在胸片上發(fā)現(xiàn)肺炎是很困難的。在胸透圖像中,肺炎的特征通常是模糊的,容易和許多其他的良性異常相混淆。這些差異導(dǎo)致放射科醫(yī)師在診斷肺炎時存在相當(dāng)大的差異。為了評估放射科醫(yī)師的表現(xiàn),斯坦福大學(xué)的研究人員找來了四名專業(yè)放射科醫(yī)師,使用 ChestX-ray14 子集的 420 張圖片對他們進行了測試。在這 420 張圖片里,診斷正確與否的標準為其他大多數(shù)放射科醫(yī)生的投票結(jié)果,與此同時,CheXNet 模型也以同樣的標準進行了測試。
為了比較CheXNet與之前使用ChestX - ray14的模型的能力,研究人員對比了新模型與其他模型在 ChestX-ray14 上對于十四種疾病的診斷準確率,結(jié)果發(fā)現(xiàn)新模型的表現(xiàn)在所有方面均超過了此前的結(jié)果。以放射科專家的水平從胸透圖像中自動檢測出疾病,不僅在臨床流程中有巨大的好處,而且對于那些無法享受到專家資源的人群來說,都是非常寶貴的。
問題表述
肺炎檢測工作其實是一個二元分類問題,其中輸入的是正向正面胸部X光圖像X,輸出則是一個分別指示肺炎存在或不存在的二元標簽t ∈{0, 1}。對于訓(xùn)練集合中的一個單個標簽,研究人員優(yōu)化了雙向叉熵損失
L(X, t) = ?t log p(T = 1|X) ? (1 ? t) log p(T = 0|X)
p(T = i|X) 是網(wǎng)絡(luò)分配給標簽 I 的概率。
模型架構(gòu)和訓(xùn)練
CheXNet 是一個121層的密集卷積神經(jīng)網(wǎng)絡(luò)(DenseNet)(Huang et al., 2016),是基于ChestX-ray 14數(shù)據(jù)集合來進行訓(xùn)練的。DenseNet通過神經(jīng)網(wǎng)絡(luò)來優(yōu)化信息流和梯度,使得非常深入的神經(jīng)網(wǎng)絡(luò)優(yōu)化工作變得更加易于處理。團隊將最終的全連接圖層替換成為單輸出圖像,之后再應(yīng)用非線性Sigmoid函數(shù)(常見的S形函數(shù))輸出包含肺炎發(fā)生概率的圖像。
神經(jīng)網(wǎng)絡(luò)的權(quán)重是被隨機初始化的,并且利用Adam標準參數(shù)(β1 = 0.9 and β2 = 0.999)進行端到端訓(xùn)練 (Kingma & Ba, 2014)。研究者使用了規(guī)格為16的迷你批處理文件訓(xùn)練該模型,并且過度取樣了少數(shù)(正)類(Buda et al., 2017)。團隊還使用了一個0.01初始學(xué)習(xí)率,每進行十次驗證就會衰退一個要素,在一個時期之后進入損失平穩(wěn)期,再選擇最低驗證損失的那個模型。
訓(xùn)練
據(jù)了解,研究人員使用了ChestX-ray14 數(shù)據(jù)集,該數(shù)據(jù)集合是由Wang et al. (2017)發(fā)布的,其中包含了30805名患者的112120張前胸X光圖片。Wang et al. (2017) 采用了放射醫(yī)學(xué)中的自動提取方法,用最多14個不同的胸腔病理學(xué)標簽來標注每張X光圖像。他們將有肺炎標記的X-光圖像標記為正向示例,然后把其他標簽的圖像標記為肺炎檢測任務(wù)的負向示例。團隊將整個數(shù)據(jù)集合做了隨機拆分,80%的數(shù)據(jù)用于訓(xùn)練,20%的數(shù)據(jù)用于驗證。
在將胸透圖像導(dǎo)入進神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)之前,研究人員把圖像大小縮小到224*224,然后基于ImageNet訓(xùn)練集合中的圖像均值和標準偏差進行了歸一化。此外,還通過隨機水平調(diào)整來增強訓(xùn)練數(shù)據(jù)。
測試
研究人員收集了420張前胸X光圖片作為測試數(shù)據(jù)集合,這些數(shù)據(jù)是斯坦福大學(xué)四位獲得放射科執(zhí)業(yè)資格的醫(yī)師提供的,他們也都被要求按照Wang et al.(2017)約定的14種病理學(xué)基準對圖像進行了標注。
這四名放射科醫(yī)師分別有四年、七年、二十五年和二十八年的從業(yè)經(jīng)驗,其中有一位放射科醫(yī)師還是一名次級??蒲芯可⑶沂艿竭^專業(yè)胸腔放射科醫(yī)師的培訓(xùn)。不過,所有測試的放射科醫(yī)師都不能獲取任何患者信息或是有關(guān)病理知識的數(shù)據(jù)。標簽將會被輸入到一個標準化數(shù)據(jù)錄入程序內(nèi)。
表 1. CheXNet 在 ChestX-ray14 數(shù)據(jù)集中 14 種病變的檢測結(jié)果與另外兩種模型的對比。在檢測腫塊、結(jié)節(jié)、肺炎、氣胸和肺氣腫時,CheXNet 的表現(xiàn)超越了此前業(yè)內(nèi)最佳水平至少 0.05。
研究人員評估了肺炎檢測任務(wù)測試集合上放射科醫(yī)師的表現(xiàn)?;叵胍幌?,在test420中每一個圖像都有來自那四名執(zhí)業(yè)放射科醫(yī)生的真實標簽。研究者使用大多數(shù)投票為基礎(chǔ)來對其他三名放射科醫(yī)師的表現(xiàn)分別進行了評估。同樣,他們也讓四名放射科醫(yī)師中的三個進行了大多數(shù)投票,來評估CheXNet的表現(xiàn),并且重復(fù)做了四次,這樣可以全面覆蓋三組醫(yī)師(每組三人)。
在受試者工作特征(ROC)曲線上對比了CheXNet和發(fā)射科醫(yī)師的表現(xiàn),該曲線將模型敏感性與1-特異性進行了比較。圖2展示了ROC曲線模型,以及四名放射科醫(yī)師及其平均操作數(shù):每個獨立發(fā)射科醫(yī)師的表現(xiàn)都用橙色標記表示,平均值則是用綠色表示。CheXNet輸出了胸腔X-光中監(jiān)測出肺炎的概率,并且通過改變分類邊界闕值來生成ROC曲線。結(jié)果顯示,CheXNet能夠與放射科醫(yī)師一樣,甚至可以超出他們的水平檢測出肺炎。
事實上,研究者還設(shè)置了兩個限制條件。首先,CheXNet模型和放射科醫(yī)師都不允許使用之前曾檢查過的患者數(shù)據(jù),或是其他患者病史數(shù)據(jù)——因為這已經(jīng)被證明會降低放射科醫(yī)師的表現(xiàn)(Berbaum et al., 1985; Potchen et al., 1979)。其次,在診斷時,僅向放射科醫(yī)師和CheXNet模型提供正面X-光照片,但是如果想要提升15%的診斷準確率,至少還需要患者側(cè)面的X-光圖像數(shù)據(jù)(Raoof et al., 2012)。因此,在這兩個限制條件下,其實對人類放射科醫(yī)師的表現(xiàn)評估是比較保守的。
最近,深度學(xué)習(xí)和大型數(shù)據(jù)集的發(fā)展使得算法的性能在各種醫(yī)學(xué)影像測試中超過醫(yī)學(xué)專家,包括糖尿病視網(wǎng)膜病變檢測(Gulshan et al .,2016),皮膚癌分類(Esteva et al .,2017),心律失常的檢測(Rajpurkar et al .,2017),和出血識別(Grewal et al .,2017)。
圖 3. 使用 Class Activation Maps,ChexNet 定位了它識別出的病變,高亮區(qū)域是分析病癥需要重點觀察的位置。
胸部影像的自動化診斷得到了越來越多的關(guān)注,包括肺結(jié)核分類(Lakhani & sun daram,2017)和肺結(jié)節(jié)檢測(Huang et al .,2017)。Islam et al.(2017)利用公開可用的 OpenI 數(shù)據(jù)集(Demner - fushman et al .,2015)研究了不同的卷積結(jié)構(gòu)對不同異常檢測的表現(xiàn)。Wang et al .(2017)發(fā)布了ChestX- ray-14,比之前的數(shù)據(jù)集大了一個數(shù)量級,同時在ImageNet上還對不同的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行了預(yù)先訓(xùn)練。最近,Yao et al.(2017)利用標簽間的統(tǒng)計相關(guān)性做出了更準確的預(yù)測,超過了Wang et al .(2017)14種里的13種。
雷鋒網(wǎng)了解到,肺炎在患者發(fā)病率和死亡率中占很大一部分比例。而早期診斷和治療對預(yù)防包括死亡在內(nèi)的并發(fā)癥至關(guān)重要。胸透檢查每年大約有20億次,是最常用的成像檢查工具,用于檢查、診斷和管理包括肺炎在內(nèi)的各種疾病。然而,世界衛(wèi)生組織估計,即使有放射設(shè)備,全球三分之二的人口也會因為缺乏優(yōu)質(zhì)的放射科醫(yī)生,而導(dǎo)致可治療疾病的死亡率上升。
研究人員表示,機器自動化水平的不斷提高,希望這項技術(shù)可以提高醫(yī)療保健水平,讓缺乏優(yōu)質(zhì)放射科醫(yī)生資源的地區(qū)也能夠享受到專家級的醫(yī)療水平。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。