0
本文作者: 李雨晨 | 2017-12-21 10:27 |
雷鋒網(wǎng)消息,醫(yī)學(xué)影像是人工智能重要的發(fā)展方向之一,業(yè)界爭相入局的同時也吸引了很多知名學(xué)者參與其中,并已出現(xiàn)了很多引人注目的成果。一年以來,國內(nèi)外很多團(tuán)隊(duì)都聲稱自己利用AI技術(shù)在疾病診斷的正確率超越人類,斯坦福大學(xué)吳恩達(dá)等人提出的 CheXNet 算法便是其中之一。此前,雷鋒網(wǎng)對該團(tuán)隊(duì)研究成果進(jìn)行過相關(guān)報(bào)道:《吳恩達(dá)團(tuán)隊(duì)發(fā)布最新醫(yī)學(xué)影像成果,用 CNN 算法識別肺炎》。團(tuán)隊(duì)曾表示,該算法在識別胸透照片中肺炎等疾病上的準(zhǔn)確率上超越了人類專業(yè)醫(yī)師。
然而,另一群學(xué)者對目前的一些研究成果產(chǎn)生了懷疑。本文作者 Luke Oakden-Rayner 就是其中之一,他是阿德萊德大學(xué)的放射科在讀博士。他認(rèn)為,目前的 ChestXray14 數(shù)據(jù)集不適用于訓(xùn)練醫(yī)學(xué)人工智能系統(tǒng)進(jìn)行診斷工作。(ChestX-ray14 是目前最大的開放式胸透照片數(shù)據(jù)集,包含 14 種疾病的 10 萬張前視圖 X-ray 圖像)
為了證明自己的觀點(diǎn),Luke Oakden-Rayner博士將在本文中討論了以下幾個問題:標(biāo)簽的準(zhǔn)確度;標(biāo)簽的醫(yī)學(xué)意義;標(biāo)簽對于圖像分析的重要性。
雷鋒網(wǎng)對Luke Oakden-Rayner博士的文章進(jìn)行了不改變原意的選譯
ChestXray14 數(shù)據(jù)集來自于論文《ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases》,自首次發(fā)布以來,該數(shù)據(jù)集的論文和支持文檔已經(jīng)更新過多次。
在我看來,該論文需要花更多的時間解釋數(shù)據(jù)集本身,因?yàn)樵摂?shù)據(jù)集的大量使用者是計(jì)算機(jī)科學(xué)研究人員,在缺乏臨床知識的情況下,這種需求就顯得尤為重要了。然而,這篇論文主要介紹的是文本挖掘和計(jì)算機(jī)視覺任務(wù),其中有一個圖表展示了數(shù)據(jù)集中標(biāo)簽的準(zhǔn)確性。
其中展示的原始結(jié)果(上半部分)是在公開的 OpenI 數(shù)據(jù)集上進(jìn)行測試的,不僅包括報(bào)告,也有人工打上的完整標(biāo)簽。而列表中下面的部分是 ChestX-ray14 自己的數(shù)據(jù)。研究人員隨機(jī)選擇了 900 份報(bào)告,并由兩位注釋者進(jìn)行標(biāo)注,他們共同分類了其中的 14 種疾病。據(jù)我所知,這些注釋者并沒有直接檢查圖像。
數(shù)據(jù)體量的限制會讓誤差變大(如果一個類別中的樣例數(shù)量為 10-30,只有一個錯誤,那么 95% 置信區(qū)間的陽性預(yù)測值會在 75%-88%)。但如果允許一些偏差值,每個標(biāo)簽看起來準(zhǔn)確度都在 85-99%,至少準(zhǔn)確反映了報(bào)告結(jié)果。
但不幸的是,似乎標(biāo)簽無法準(zhǔn)確地反映病況。NIH 團(tuán)隊(duì)沒有表明他們看過這些圖像,他們通過測試標(biāo)簽是否匹配報(bào)告文本來判斷圖像標(biāo)注過程的優(yōu)劣。我認(rèn)為這種分離導(dǎo)致了我所提出的標(biāo)簽質(zhì)量問題。
有很多方式可以在不需要圖像的情況下構(gòu)建圖像標(biāo)簽。如 ICD 編碼,或者從報(bào)告或其他免費(fèi)文本中提取標(biāo)簽;還可以使用增補(bǔ)數(shù)據(jù)(follow-up data)。在深度學(xué)習(xí)中,我們查看訓(xùn)練曲線、檢驗(yàn)梯度、嘗試在沒有正則化的情況下訓(xùn)練來測試是否產(chǎn)生過擬合。查看這些圖像是放射學(xué)的完整性檢查——查看圖像,確保它們和期望的一樣。
我通常 10 分鐘看完 200 張圖像以完成“完整性檢查”的初級階段。
接下來要說的是一堆基于數(shù)據(jù)集標(biāo)簽的圖像。它們是隨機(jī)選取包含 18 張圖像的序列集。
我的標(biāo)簽并不完美,其他放射科醫(yī)生可能對其中的一些標(biāo)簽有疑惑。但是必須明確一點(diǎn),我的標(biāo)簽和論文/附錄中的結(jié)果有極大的不同。
我通常喜歡硬數(shù)據(jù),因此我盡力量化標(biāo)簽準(zhǔn)確率。事實(shí)上我發(fā)現(xiàn)其中的很多標(biāo)簽都很難定義,因此下表中未列出。我查看了每個類別中的 130 多張圖像,根據(jù)我的視覺判斷計(jì)算原始標(biāo)簽的準(zhǔn)確率。這個數(shù)據(jù)量比較適合使用,因?yàn)?5%的置信區(qū)間可能再擴(kuò)大/縮小5%,所以我的誤差率可能達(dá)到 20% 左右。
我的視覺分析 vs. 論文中的文本挖掘結(jié)果
我再次懷疑我的標(biāo)簽到底對不對,尤其是和胸部放射科醫(yī)生的判斷結(jié)果相比,但是如上表所示,差別也太大了。我認(rèn)為上表中的數(shù)據(jù)證明這些標(biāo)簽無法匹配圖像中顯示的疾病。
也有辦法解釋這種現(xiàn)象。比如最初幫助解釋圖像的放射科醫(yī)生具備圖像以外的信息。他們具備臨床經(jīng)驗(yàn)、之前的診療結(jié)果等。這些信息非常有用,尤其是在區(qū)分類似疾病的時候。
如果人類專家無法僅從圖像中做出診斷,那么 AI 系統(tǒng)很可能也無法診斷。AI 可能能夠找出一些人類忽略的細(xì)微證據(jù),但是憑借這些就可以產(chǎn)生性能上的巨大差異并不合理。總體來看,我們需要標(biāo)簽和圖像包含同樣的信息。
第二部分:標(biāo)注在醫(yī)學(xué)上意味著什么?
標(biāo)注實(shí)際上代表什么?它們能夠反映臨床實(shí)踐嗎?我認(rèn)為答案是否定的。
我認(rèn)為最難解析的標(biāo)簽是固結(jié)/滲透/肺不張/肺炎集聚等。這些醫(yī)學(xué)影像還存在其它問題,與任務(wù)的臨床價值有關(guān),例如滲出(Effusion)、氣胸(Pneumothorax)、纖維化。例如,氣胸在 X 光影像上非常微小,經(jīng)常會被人忽略掉,或者纖維化的標(biāo)注準(zhǔn)確率非常低。實(shí)際上還有多種其它非圖像臨床問題,例如:
肺炎、肺氣腫和大多數(shù)纖維化都是臨床診斷問題而不是醫(yī)療影像問題。
X 射線會漏掉多達(dá) 50% 的囊腫,因此我們可能會懷疑報(bào)告所采用的囊腫標(biāo)注。
沒有人關(guān)心間斷性疝氣,所以它們只是有時候進(jìn)行診斷。
找到那些優(yōu)秀的數(shù)據(jù)集或正確的標(biāo)簽來學(xué)習(xí)高效的醫(yī)療任務(wù)是十分困難的。同樣,我們還是需要專家查看這些影像來進(jìn)行醫(yī)療診斷。
放射學(xué)的深度學(xué)習(xí)應(yīng)用有一個大問題,如果不查看圖像,后果將非常嚴(yán)重。如果這些標(biāo)簽很不準(zhǔn)確,并且標(biāo)簽的意義也不可靠,那么建立在這個數(shù)據(jù)集上的模型是如何達(dá)到不錯結(jié)果的呢?模型學(xué)習(xí)的到底是什么?
實(shí)際上,我們在尋找可以學(xué)習(xí)正確地在測試集上輸出真實(shí)結(jié)果的模型,即使所謂的真實(shí)結(jié)果在視覺上毫無意義。
來自 CheXNet 的結(jié)果:使用深度學(xué)習(xí)模型(Rajpurkar and Irvin et al.)在胸透圖上進(jìn)行放射專家級的肺炎檢測,在測試集上獲得了不錯的性能。
隨機(jī)噪聲可以作為不錯的正則化項(xiàng),甚至還可以在某些設(shè)置中提升性能(這種技術(shù)被稱為標(biāo)簽平滑或軟標(biāo)簽)。結(jié)構(gòu)化噪聲不一樣,它添加了完全不同的信號,而模型將嘗試學(xué)習(xí)這些信號。
在一個包含壞標(biāo)簽的訓(xùn)練集中,神經(jīng)網(wǎng)絡(luò)將把這些標(biāo)簽看成同等有效的肺炎樣本。如果模型學(xué)習(xí)了這些標(biāo)簽,例如,「毛茸茸」是肺炎的一個信號,然后模型將應(yīng)用這個信號到胸透圖中,輸出無法預(yù)測的結(jié)果。
模型將使用部分從狗類圖像中學(xué)習(xí)的特征,并應(yīng)用到胸透圖中,盡管這和問題本身無關(guān)。
如果你的目標(biāo)是性能最優(yōu)化,那么結(jié)構(gòu)化噪聲總會帶來負(fù)面影響。噪聲甚至不需要很明顯(其中的關(guān)系是非線性的),而偏差標(biāo)簽將降低模型的準(zhǔn)確率。
Rolnich 等人《Deep learning is robust to massive label noise》的結(jié)果表明,結(jié)構(gòu)化噪聲破壞了標(biāo)簽,并使得性能下降。當(dāng)噪聲與實(shí)際數(shù)據(jù)來源相同時,這個問題可能更麻煩,因?yàn)槟P蜁煜肼暸c類別。這可以類推到 ChestXray14 數(shù)據(jù)集中,它們的標(biāo)簽同樣遭到了破壞。
所以,這些標(biāo)簽會損害模型的性能。那么為什么在 ChestXray14 上訓(xùn)練的模型有非常好的性能?難道是這些模型可以補(bǔ)償數(shù)據(jù)噪聲而變得魯棒性嗎?
我并不這樣認(rèn)為,我們需要關(guān)注更多的方面。其實(shí)在為數(shù)據(jù)集構(gòu)建一組新標(biāo)簽的過程中,我通過創(chuàng)建一個“opacity”類和一個“no finding”類來簡化涉及的任務(wù)。我用原來的標(biāo)簽設(shè)置了新創(chuàng)建的標(biāo)簽,“opacity”是肺不張、肺炎、固結(jié)和滲透標(biāo)簽的組合,然后在上面訓(xùn)練一個模型。
我只需要采用一個在 ImageNet 預(yù)訓(xùn)練的 ResNet,并在新的數(shù)據(jù)集中訓(xùn)練后部分的網(wǎng)絡(luò)。我并沒有調(diào)整超參數(shù),只是在一個合理的時間里訓(xùn)練模型,最后模型的性能還是比較優(yōu)秀的。
盡管 AUC 是 0.7,但與標(biāo)簽錯誤率一致,我們的分類性能非常糟糕。該模型無法忽略錯誤的標(biāo)簽,輸出合理的預(yù)測,它對標(biāo)簽噪聲不具備魯棒性。最重要的是,AUC 值沒有反映診斷性能,這是一個很大的問題。
這一 AI 系統(tǒng)學(xué)習(xí)可靠地輸出無意義的預(yù)測。它學(xué)習(xí)圖像特征的方式使“opacity”的案例變得幾乎沒有模糊性,而“no opacity”的案例被判斷為嚴(yán)重不正常的肺。
這就是問題,因?yàn)槌悄憧戳藞D像,不然就會以為結(jié)果很棒。每個團(tuán)隊(duì)的模型性能都越來越好,AUC 分越來越高,看起來它們似乎正在“解決”一項(xiàng)嚴(yán)肅的醫(yī)療任務(wù)。
我認(rèn)為其有多個原因;醫(yī)療圖像很大又復(fù)雜,擁有很多普遍元素。但是,自動挖掘標(biāo)簽的方法沒有引入不準(zhǔn)確的隨機(jī)噪聲。文本挖掘的編程本質(zhì)會導(dǎo)致持續(xù)、意料之外的數(shù)據(jù)依賴或分層。
同樣,斯坦福大學(xué)皮膚科的 Novoa 博士最近也在媒體上討論過這個問題:
當(dāng)皮膚科醫(yī)生查看一種可能是腫瘤的病變時,他們會借助一把尺子——就是你在小學(xué)時用的那種——來準(zhǔn)確測量它的大小。皮膚科醫(yī)生這樣做是為了查看病灶。因此,在一組活檢圖像中,如果圖像中有尺子,算法更可能將其判斷為惡性腫瘤,因?yàn)槌咦拥拇嬖谂c病癥癌變的可能性相關(guān)。不幸的是,Novoa 強(qiáng)調(diào),該算法不知道為什么這種相關(guān)性是有道理的,所以很容易誤解為一把隨機(jī)的尺子是診斷癌癥的根據(jù)。
深度學(xué)習(xí)非常強(qiáng)大,如果給它輸入帶有偏見標(biāo)簽的復(fù)雜圖像,它可以學(xué)習(xí)對這些類別進(jìn)行分類,盡管它們毫無意義。你可以完美擬合訓(xùn)練集中的隨機(jī)標(biāo)簽,但這一結(jié)果僅僅表明深層網(wǎng)絡(luò)足夠強(qiáng)大,能夠記憶訓(xùn)練數(shù)據(jù)。他們沒有展示測試數(shù)據(jù)的泛化,相反,他們展示了噪音損害的性能。
我確實(shí)在 ChestXray14 數(shù)據(jù)中通過隨機(jī)標(biāo)簽做了一個快速測試(另一個完整性檢查),發(fā)現(xiàn)與 Zhang et al. 的相同結(jié)果;并且該模型沒有泛化到測試集。
結(jié)構(gòu)化噪聲不僅存在于訓(xùn)練數(shù)據(jù)中。整個測試數(shù)據(jù)中的標(biāo)簽誤差也是一致的。這意味著如果模型學(xué)習(xí)做出不良的醫(yī)療預(yù)測,那也許它可能會獲得更佳的測試表現(xiàn)。這種情況可能僅針對通過自動“數(shù)據(jù)挖掘”方法生成的標(biāo)簽,但是我也發(fā)現(xiàn)了人工標(biāo)簽導(dǎo)致放射科數(shù)據(jù)分層的多種方式。
放射學(xué)報(bào)告不是客觀的、事實(shí)上的圖像描述。放射學(xué)報(bào)告的目的是為他們的推薦人(通常是另一位醫(yī)生)提供有用的、可操作的信息。在某些方面,放射科醫(yī)師猜測推薦人想要的是什么信息,并且剔除那些不相關(guān)信息。
這意味著根據(jù)臨床情況、過往歷史以及放射科醫(yī)師是誰,相同圖像的兩份報(bào)告可以被貼上不同的“標(biāo)簽”。影響放射學(xué)報(bào)告的因素有很多,所有因素都會給放射學(xué)報(bào)告帶來結(jié)構(gòu)性噪音。每個小案例都可能有獨(dú)特的可學(xué)習(xí)的圖像特征。
還有很多其他視覺元素可將患者分成幾組,包括圖像質(zhì)量(根據(jù)患者是門診病人、住院病人、重癥監(jiān)護(hù)等而不同)、導(dǎo)入裝置如起搏器或心電圖導(dǎo)聯(lián)的存在、身體習(xí)性等等。這些因素都不是“診斷性的”,但它們很可能與標(biāo)簽有不同程度的相關(guān)性,深層網(wǎng)絡(luò)要找的很可能就是這樣的東西。
醫(yī)學(xué)研究人員長期以來一直在處理臨床數(shù)據(jù)的分層管理。像年齡、性別、收入、飲食這些因素都會導(dǎo)致“隱藏”分層。我們還需要粗略地知道整個群組的視覺外觀分布是相似的,這意味著你需要查看圖像。
以上的問題并不意味著深度學(xué)習(xí)對于醫(yī)學(xué)影像是毫無價值的。深度學(xué)習(xí)最重要的一點(diǎn)是它奏效。雖然我們現(xiàn)在還不明白為什么,但是如果深層網(wǎng)絡(luò)擁有很好的標(biāo)簽和足夠的數(shù)據(jù),它將優(yōu)先為這些類別學(xué)習(xí)有用的特征,而不是無意義的瑣碎特征。
與人類視覺評估相比,ChestXray14 數(shù)據(jù)集中的標(biāo)簽不準(zhǔn)確、不清楚,并且經(jīng)常描述醫(yī)學(xué)上的次要發(fā)現(xiàn)。
這些標(biāo)簽問題在數(shù)據(jù)之中是“內(nèi)部一致的”,這意味著模型可以展示“良好的測試集性能”,同時仍然產(chǎn)生不具有醫(yī)學(xué)意義的預(yù)測。
以上問題表明,目前定義的數(shù)據(jù)集不適合訓(xùn)練醫(yī)療系統(tǒng),對數(shù)據(jù)集的研究不能在沒有附加正當(dāng)理由的情況下生成有效的醫(yī)療聲明。
查看圖像是圖像分析的基本的“完整性檢查”。如果你構(gòu)建數(shù)據(jù)集時,沒有能夠理解你數(shù)據(jù)的人在查看圖像,那么期望數(shù)據(jù)集奏效將讓你失望。
醫(yī)學(xué)圖像數(shù)據(jù)充滿分層元素;有用的特征幾乎可以學(xué)到任何東西。查看你的模型是否每一步都照常運(yùn)行。只要標(biāo)簽足夠好,深度學(xué)習(xí)就可以在這個數(shù)據(jù)集中工作。
原文鏈接:https://lukeoakdenrayner.wordpress.com/2017/12/18/the-chestxray14-dataset-problems
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。