0
本文作者: 李雨晨 | 2020-01-11 09:48 |
2020年的第一天,谷歌就在醫(yī)療領(lǐng)域曝出了一個大新聞:谷歌健康部門聯(lián)手DeepMind在頂尖學(xué)術(shù)期刊《Nature》上發(fā)布人工智能乳腺癌檢測系統(tǒng)。
這個系統(tǒng)的核心亮點是,與之前的模型相比,該模型有效減少了乳腺癌被錯誤識別或遺漏的情況,將乳腺癌檢測的假陽性率降低了5.7%,假陰性率也降低了9.4%。
作者稱,該系統(tǒng)檢測乳腺癌的能力超過專業(yè)放射科醫(yī)生,或有助提高乳腺癌篩查的準確性和效率。
但是過了一天之后,深度學(xué)習(xí)“三巨頭”之一的LeCun就對這項成果開炮。雷鋒網(wǎng)對此事也進行了報道:《剛過一天就被拆臺?LeCun公開質(zhì)疑谷歌《Nature》的乳腺癌AI研究成果》
他表示,谷歌這篇論文的結(jié)果,紐約大學(xué)的團隊在2019年10月就已經(jīng)做過了,谷歌應(yīng)當(dāng)引用紐約大學(xué)的研究,因為這個研究效果還更好。
效果有多好?谷歌論文AI系統(tǒng)中的AUC是0.889(UK)和0.8107(US),紐約大學(xué)的AUC達到了0.895。
另外一位學(xué)者Hugh Harvey也為LeCun打call。他表示,谷歌的研究中包含了6名放射科醫(yī)生,而NYU的研究則用了14名。
圍繞這一次小小的學(xué)術(shù)“風(fēng)波”,雷鋒網(wǎng)AI掘金志學(xué)術(shù)組對紐約大學(xué)的這篇論文進行了編譯和編輯,看看這篇“先人一步”的論文有何可取之處?
以下為論文詳細內(nèi)容,關(guān)注AI掘金志公眾號,在對話框回復(fù)關(guān)鍵詞“紐約大學(xué)”,即可獲取原文PDF。
我們提出了一個用于乳腺癌篩查檢查分類的深度卷積神經(jīng)網(wǎng)絡(luò),基于超過200000個乳腺檢查(超過1000000個圖像)上進行訓(xùn)練和評估。對人群進行篩查檢測時,我們的網(wǎng)絡(luò)在預(yù)測乳腺癌存在方面的AUC達到0.895。
我們把高準確率歸因于以下技術(shù)進步:
一、網(wǎng)絡(luò)創(chuàng)新性地分為兩個不同階段的架構(gòu)和訓(xùn)練過程,我們在使用高容量patch-level網(wǎng)絡(luò)從pixel-level標(biāo)簽學(xué)習(xí)的同時,設(shè)置另一個網(wǎng)絡(luò)從整體上學(xué)習(xí)乳房級標(biāo)簽。
二、基于ResNet的自定義網(wǎng)絡(luò),用作我們模型的構(gòu)建塊,其深度和寬度方面的平衡針對高分辨率醫(yī)學(xué)圖像進行了優(yōu)化。
三、在BI-RADS分類上對網(wǎng)絡(luò)進行預(yù)訓(xùn)練,這是一項標(biāo)簽噪音較大的相關(guān)任務(wù)。
四、在許多可能的選擇中以最佳方式組合多個輸入視圖。為了驗證我們的模型,我們組織14位放射科醫(yī)師進行了閱片,每位醫(yī)師查看720份乳腺鉬靶篩查圖像。結(jié)果表明,我們的模型與有經(jīng)驗的放射科醫(yī)生的判斷結(jié)果一樣準確。
此外,將放射科醫(yī)生對惡性腫瘤的判斷結(jié)果和我們神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果平均起來的混合模型更加準確。我們將模型在https://github.com/nyukat/breast_cancer_classifier上公開發(fā)布。
介紹
乳腺癌是美國女性第二大癌癥相關(guān)死亡原因。2014年,美國進行了3900多萬次篩查和乳腺鉬靶診斷檢查。據(jù)估計,在2015有232000名婦女被診斷為乳腺癌,約有40000人死于乳腺癌。
盡管乳腺鉬靶是唯一一種可以降低乳腺癌死亡率的影像學(xué)檢查方法,但大家一直在討論該篩查的潛在危害,包括假陽性和假陽性導(dǎo)致的活檢。10-15%的女性在做了未確定的乳房X光檢查后被要求再次接受檢查和/或超聲波檢查以進一步明確。經(jīng)過額外的影像檢查后,許多女性被確定為良性,只有10-20%被推薦接受針活檢。其中,只有20-40%的人診斷出癌癥。
顯然,我們還需要讓常規(guī)乳腺癌篩查更加準確,并減少對女性身體的傷害。
盡管多中心研究表明,傳統(tǒng)計算機輔助診斷程序并不能提高診斷效果,但放射科醫(yī)生還是會使用它來幫助圖像判讀。深度學(xué)習(xí)的發(fā)展,特別是深卷積神經(jīng)網(wǎng)絡(luò)(CNN)為創(chuàng)建新一代類似CAD的工具提供了可能性。
本文的目標(biāo)是研發(fā)神經(jīng)網(wǎng)絡(luò)以幫助放射科醫(yī)生判讀乳腺癌篩查圖像。
(i) 我們提出了一種新的兩階段神經(jīng)網(wǎng)絡(luò),將全局和局部信息結(jié)合起來,并采用適當(dāng)?shù)挠?xùn)練方法。這使得我們可以使用一個非常高容量的patch-level網(wǎng)絡(luò)來學(xué)習(xí)pixel-level標(biāo)簽,同時使用另一個網(wǎng)絡(luò)來從整體上學(xué)習(xí)乳房級標(biāo)簽。通過這種策略,我們的模型不僅實現(xiàn)了與人類相當(dāng)?shù)母偁幊煽儯瑫r產(chǎn)生可解釋的熱圖,顯示可疑發(fā)現(xiàn)的位置。此外,我們還證明了像素級標(biāo)簽的實用性,即使在我們有很多圖像級標(biāo)簽的情況下也是如此。
(ii)我們證明了利用超過1000000張高分辨率乳腺X線攝影圖像(這是醫(yī)學(xué)成像中的一個非常大的數(shù)據(jù)集,不僅僅是用于乳腺癌篩查)來訓(xùn)練和評估該網(wǎng)絡(luò)的可行性。這對于未來的研究設(shè)計以及展示這種方法的概念和價值都具有重要價值。
(iii)我們提出了專門為醫(yī)學(xué)成像設(shè)計的ResNet的新變體,用作我們網(wǎng)絡(luò)的構(gòu)建塊,它在深度和寬度上做了平衡,允許模型處理非常大的圖像,同時保持合理的內(nèi)存消耗。
(iv)我們評估了使用具有更高噪聲的相關(guān)任務(wù)( BI-RADS分類)對網(wǎng)絡(luò)進行預(yù)訓(xùn)練的效用,并發(fā)現(xiàn)它是管道中一個非常重要的部分,顯著提高了我們模型的性能。這在大多數(shù)數(shù)據(jù)集都很小的醫(yī)學(xué)影像研究中特別重要。
(v) 我們評估了在單一的神經(jīng)網(wǎng)絡(luò)中結(jié)合來自不同乳腺攝影視圖的多種方法。我們未發(fā)現(xiàn)以前有過這樣的分析,盡管醫(yī)學(xué)成像任務(wù)通常有多個輸入。
數(shù)據(jù)
我們的回顧性研究得到了機構(gòu)審查委員會的批準,符合《醫(yī)療保險可攜帶性和責(zé)任法案》。這個數(shù)據(jù)集是我們早期工作中使用的數(shù)據(jù)集的更大、更仔細的版本。
數(shù)據(jù)集包括來自141473名患者的229426份數(shù)字乳腺攝影篩查(1001093張圖像)。每次檢查至少包含4張圖像,與乳房X光攝影中使用的4個標(biāo)準視圖相對應(yīng):R-CC、L-CC、R-MLO和L-MLO。數(shù)據(jù)集中的圖像來自四種類型掃描器:Mammomat Inspiration(22.81%)、Mammomat Novation DR (12.65%)、Lorad Selenia(40.92%)和Selenia Dimensions (23.62%),圖1顯示了一些檢查示例。
我們依賴活檢的病理報告,來標(biāo)記患者的每個乳房是否有惡性或良性發(fā)現(xiàn)。我們有5832個檢查在進行乳腺X片篩查的120天內(nèi)至少完成一次活檢。其中活檢證實985例(8.4%)為惡性,5556例(47.6%)為良性,234例(2.0%)乳腺同時有良惡性征象。
對于所有與活檢相匹配的檢查,我們要求一組放射科醫(yī)生回顧性地指出活檢病灶在像素級別的位置(提供相應(yīng)的病理報告)。
我們發(fā)現(xiàn)大約32.8%的檢查是隱匿性的,也就是說,活檢的病灶在乳腺鉬靶攝影中是不可見的,使用其他成像方式識別(超聲或MRI)被識別。詳見表一。
腫瘤分類深度CNN網(wǎng)絡(luò)
一些乳腺同時包含惡性和良性病灶,我們使用多任務(wù)分類模型將乳腺癌篩查分類。也就是說,對于每一個乳腺,我們分配兩個二元標(biāo)簽:乳房中有/沒有惡性發(fā)現(xiàn)(表示為yR,m和yL,m),乳房中有/沒有良性發(fā)現(xiàn)(表示為yR,b和yL,b)。左右乳腺加起來,每個檢查共有4個標(biāo)簽。我們的目標(biāo)是生成四個對應(yīng)于每個標(biāo)簽的預(yù)測(用?yR,m,?yL,m,?yR,b和?yL,b表示)。
雖然我們主要對預(yù)測惡性病灶的存在與否感興趣,但預(yù)測良性病灶的存在與否對于輔助調(diào)整模型學(xué)習(xí)任務(wù)起著重要的作用。我們將四個高分辨率圖像,對應(yīng)于四個標(biāo)準乳腺鉬靶攝影視圖作為輸入(由xR-CC、xL-CC、xR-MLO和xL-MLO表示)。
對于CC視圖,我們將每個圖像裁剪為固定大小的2677×1942像素,對于MLO視圖,裁剪為2974×1748像素。有關(guān)示意圖,請參見圖3。
我們受Geras等人先前工作的啟發(fā),對圖5所示的四種不同結(jié)構(gòu)的多視圖CNN進行了訓(xùn)練。所有這些網(wǎng)絡(luò)都由兩個核心模塊組成:(i)四個特定于視圖的列,每個列基于ResNet體系結(jié)構(gòu),該結(jié)構(gòu)為每個乳腺攝影視圖輸出固定維度的隱藏層向量表示;(ii)兩個全連接層,將計算出的隱藏層向量映射到輸出預(yù)測。這些模型在如何聚合來自所有視圖的中間層以生成最終預(yù)測的方式有所不同。
我們考慮了以下4種方式。
1) ‘view-wise’模型(圖5(a))分別將L-CC和R-CC、L-MLO和R-MLO連接起來。它對CC和MLO視圖進行單獨的預(yù)測,最后將相應(yīng)的預(yù)測取平均值。
1) ‘image-wise’模型(圖5(b))獨立地對四個視圖中的每一個進行預(yù)測。相應(yīng)的預(yù)測最后取平均值。
2) ‘side-wise’模型(圖5(c))首先連接L-CC和L-MLO,以及R-CC和R-MLO,然后分別對每側(cè)乳腺進行預(yù)測。
3) ‘joint’模型(圖5(d))連接所有四個視圖,共同預(yù)測兩個乳房的惡性和良性概率。
在所有模型中,我們使用四個基于ResNet的22層網(wǎng)絡(luò)(ResNet-22)作為中間層,計算每個視圖的256維隱藏層向量。與標(biāo)準ResNets相比,該網(wǎng)絡(luò)具有不同的深度和寬度比例,可用于分辨率非常高的圖像。
我們發(fā)現(xiàn)“view”模型在驗證集上預(yù)測惡性/非惡性是最精確的。除非另有說明,否則我們接下來說的都是該模型的結(jié)果。
A.單個ResNet-22
ResNet-22的完整架構(gòu)如圖4所示。L-CC和R-CC ResNets、L-MLO和R-MLO ResNets共享權(quán)重。我們在輸入模型之前翻轉(zhuǎn)了L-CC和L-MLO圖像,因此所有乳房圖像都是右向的,允許共享的ResNet權(quán)重在相同方向的圖像上操作。每個ResNet的中間輸出是H×W×256維張量,其中H和W從原始輸入大小下采樣,CC視圖H=42,W=31,MLO視圖的H=47,W=28。我們在空間維度上對向量進行平均,以獲得每個視圖的256維隱藏向量。
作為參考,我們在表2中顯示了ResNet-22的每一層后中間向量的維度。將標(biāo)準Resnets應(yīng)用于乳房X光攝影的主要原因是需要處理分辨率非常高的圖像,而不需要在GPU限制下進行下采樣來擬合前向過程及梯度計算。
B. 輔助patch-level 分類模型及熱圖
圖像的高分辨率和GPU的有限內(nèi)存,限制了我們在使用全分辨率圖像作為輸入時在模型中使用相對較淺的resnet。為了進一步利用乳腺X線照片中細粒度的細節(jié),我們訓(xùn)練了一個輔助模型來對256×256像素的乳腺X線圖片進行分類,預(yù)測在給定的patch中是否存在惡性和良性的病灶。
這些patch的標(biāo)簽是由臨床醫(yī)生手動勾畫的。我們將此模型稱為patch-level模型,與上面一節(jié)中描述的對整個乳房圖像進行操作的breast-level模型不同。
我們將該輔助網(wǎng)絡(luò)以滑動窗口方式掃描全分辨率乳房X片圖像,以創(chuàng)建每張圖像的兩張熱圖(圖6為一個示例),一張代表每個像素惡性病變概率,另一張代表每個像素良性病變概率??偣?,我們獲得了八個附加圖像:Xm R-CC、Xb R-CC、Xm L-CC、Xb L-CC、Xm R-MLO、Xb R-MLO、Xm L-MLO、Xb L-MLO。這些補丁分類熱圖可以用作乳腺級別模型的附加輸入通道,以提供補充的細粒度信息。
B. BI-RADS分類預(yù)訓(xùn)練
由于我們數(shù)據(jù)集中有活檢的檢查相對較少,我們應(yīng)用遷移學(xué)習(xí)來提高模型的穩(wěn)健性和性能。遷移學(xué)習(xí)重用在另一個任務(wù)上預(yù)先訓(xùn)練的模型的一部分作為訓(xùn)練目標(biāo)模型的起點。
對于我們的模型,我們從BI-RADS分類任務(wù)的預(yù)訓(xùn)練網(wǎng)絡(luò)中遷移學(xué)習(xí)。我們考慮的三個BI-RADS類是:類別0(“不正?!保?,類別1(“正?!保┖皖悇e2(“良性”)。一些研究解釋了用于提取這些標(biāo)簽的算法。盡管這些標(biāo)簽比活檢結(jié)果噪聲更多(是臨床醫(yī)生根據(jù)乳房X光片進行的評估,而不是通過活檢獲得信息),但與訓(xùn)練集中經(jīng)活檢證實的4844次檢查相比,我們有99528多個BI-RADS標(biāo)簽的訓(xùn)練示例。
神經(jīng)網(wǎng)絡(luò)已經(jīng)被證明,即使是在使用噪聲標(biāo)簽進行訓(xùn)練時,也能夠達到合理的性能水平。我們使用這個特點將用BI-RADS標(biāo)簽學(xué)習(xí)到的信息遷移到癌癥分類模型。我們的實驗表明,BI-RADS分類預(yù)訓(xùn)練網(wǎng)絡(luò)對我們模型性能有顯著的貢獻(見第V-E節(jié))。BI-RADS預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。
在所有的實驗中,我們使用訓(xùn)練集來調(diào)整我們的模型參數(shù),使用驗證集來優(yōu)化模型和訓(xùn)練過程的超參數(shù)。除非另有說明,否則均是篩選人群的計算結(jié)果。為了進一步改進我們的結(jié)果,我們采用了模型集成技術(shù),對幾個不同模型的預(yù)測進行平均,以產(chǎn)生集成的總體預(yù)測。
在我們的實驗中,我們針對每個模型訓(xùn)練了五個副本,在全連接層中對權(quán)重進行了不同的隨機初始化,而剩余的權(quán)重則使用BI-RADS分類中預(yù)先訓(xùn)練的模型的權(quán)重進行初始化。
A. 測試人群
在下面的實驗中,我們在幾個不同群體上評估我們的模型,以測試不同的假設(shè):(i)篩查人群,包括來自測試集的所有檢查,不進行亞抽樣;(ii)活檢亞群,這是篩查人群的子集,僅包括接受活檢的乳腺篩查人群的檢查;(iii)閱片研究亞群,包括活檢亞群和未發(fā)現(xiàn)任何病灶的篩查人群隨機抽樣的子集。
B. 評價指標(biāo)
我們主要根據(jù)AUC(ROC曲線下的面積)評估我們的模型對乳腺惡性/非惡性和良性/非良性分類任務(wù)的性能。閱片研究模型和閱片者對圖像的分類成績是根據(jù)AUC和PRAUC來評估的,這兩個是評估放射科醫(yī)生成績的常用指標(biāo),ROC和PRAUC代表預(yù)測模型不同方面的性能。
C. 篩查人群
本節(jié)為篩選人群的結(jié)果,不同模型的結(jié)果如表3所示??傮w而言,四個模型的AUC都較高且基本持平。‘view-wise’image-and-heatmaps集成模型在結(jié)構(gòu)上與預(yù)訓(xùn)練階段使用的BI-RADS模型最為相似,在預(yù)測惡性/非惡性方面表現(xiàn)最佳,在篩查人群的AUC為0.895,活檢人群的AUC為0.850。
然而在良性/非良性預(yù)測方面,其他一些模型確實優(yōu)于‘view-wise’集成模型。僅有圖像輸入的四種模型表現(xiàn)大致相當(dāng),低于image-and-heatmaps模型。在惡性/非惡性分類中,image-and-heatmaps模型比良性/非良性分類有更強的改進。
我們還發(fā)現(xiàn),ensembling在所有模型中都是有益的,這使得AUC的小而穩(wěn)定的提升。
image-and-heatmaps模型的四個變體模型集成后,在篩查人群中對良性/非良性預(yù)測任務(wù)的AUC為0.778,惡性/非惡性預(yù)測的AUC為0.899。盡管這種性能優(yōu)于任何單獨的模型,但在實踐中運行這樣一個由20個獨立模型組成的大型集成體將非常昂貴。
D. 活檢亞群
我們在表3的右半部分顯示了模型在活檢人群中的評估結(jié)果。我們的測試集有401個乳腺,其中339個有良性發(fā)現(xiàn),45個有惡性發(fā)現(xiàn),17個兩者均有。活檢亞群與總體篩查人群不同,總體篩查人群主要是健康個體,他們每年都要進行常規(guī)篩查,而沒有其他的影像學(xué)或活檢。與篩查人群的結(jié)果相比,所有模型在活檢人群的AUC明顯較低。
在活檢亞群中,我們觀察到image-only模型與image-and-heatmaps 模型之間的一致性差異。image-and-heatmaps集成模型在惡性/非惡性分類上表現(xiàn)最好,AUC達到0.850,在良性/非良性分類上表現(xiàn)同樣最好,AUC達到0.696。與篩查人群相比,活檢亞群獲得的AUC明顯較低,這可以解釋為,需要進一步影像學(xué)檢查和活檢的乳腺圖像對于放射科醫(yī)生和我們的模型均具有挑戰(zhàn)性。
E. BI-RADS預(yù)訓(xùn)練的重要性
我們通過將我們的模型與未使用BI-RADS預(yù)訓(xùn)練模型的權(quán)重而訓(xùn)練的癌癥分類模型的性能相比較,來評價BI-RADS預(yù)訓(xùn)練的益處,結(jié)果見表三(用*標(biāo)記)。
為了將我們的image-and-heatmaps集成模型(以下簡稱模型)的性能與放射科醫(yī)生進行比較,我們對14名醫(yī)師進行了一項閱片研究,其中有12名具有不同經(jīng)驗水平的放射科醫(yī)生(2至25年),一名住院醫(yī)生和一名醫(yī)科學(xué)生,分別從測試集(1480個乳腺)中閱讀740份檢查:368份從活檢亞群中隨機選擇的檢查,372份從與活檢不匹配的檢查中隨機選擇的檢查。醫(yī)師被要求以0%-100%的比例為每個乳房提供惡性腫瘤的概率估計。
由于一些乳腺含有多個可疑的發(fā)現(xiàn),醫(yī)師被要求對他們認為最可疑的病灶進行評估。我們模型的AUC為0.876,PRAUC為0.318。醫(yī)師的AUC從0.705到0.860不等(平均值:0.778,標(biāo)準值:0.0435),PRAUCs從0.244到0.453不等(平均值:0.364,標(biāo)準差:0.0496)。圖8(a)和圖8(c)示出了單個ROC和precision-recall 曲線及其平均值。
我們還評估了人機混合模型的準確性,其預(yù)測是基于放射科醫(yī)生和模型預(yù)測的線性組合?;旌夏P推骄鵄UC為0.891(標(biāo)準差:0.0109),平均PRAUC為0.431(標(biāo)準差:0.0332)(參見圖8(b),圖8(d))。
這些結(jié)果表明,我們的模型可以作為一個工具來幫助放射科醫(yī)生閱讀乳腺癌篩查檢查,并且與有經(jīng)驗的乳腺放射科醫(yī)生相比,它提供了任務(wù)不同方面的信息。在補充材料的I-G-1節(jié)中可以找到一個定性分析,比較模型和放射科醫(yī)生對特定檢查的預(yù)測結(jié)果。
結(jié)論和討論
通過利用一個帶有breast-level和 pixel-level標(biāo)簽的大型訓(xùn)練集,我們構(gòu)建了一個能夠準確分類乳腺癌鉬靶檢查的神經(jīng)網(wǎng)絡(luò)。我們將這一成功歸因于patch-level 模型中封裝的大量計算,該模型被應(yīng)用于輸入圖像,以形成熱圖作為breast-level 模型的附加輸入通道。使用當(dāng)前可用的硬件完全以端到端的方式訓(xùn)練此模型是不可能的。
雖然我們的結(jié)果令人滿意,但我們實驗中使用的測試集相對較小,結(jié)果需要進一步的臨床驗證。
此外,盡管我們的模型在閱片研究特定任務(wù)上的性能比放射科醫(yī)生的強,但是放射科醫(yī)生執(zhí)行的任務(wù)不僅僅于此。通常情況下,乳房X光攝影只是診斷流程中的第一步,放射科醫(yī)生結(jié)合其他影像科檢查后,才能做出最終的決定。
然而,在我們的研究中神經(jīng)網(wǎng)絡(luò)和放射科醫(yī)生的混合模型分別優(yōu)于這兩個模型,這表明使用這種模型可以提高放射科醫(yī)生對乳腺癌檢測的敏感性。
另一方面,我們的模型設(shè)計相對簡單,有希望進一步研究更復(fù)雜和精確的模型。除了測試該模型在臨床試驗中閱讀乳房鉬靶的效用外,下一個明確的目標(biāo)是預(yù)測乳腺癌的發(fā)展——甚至在放射科醫(yī)師可以看到病灶之前。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。