0
本文作者: 李雨晨 | 2017-11-30 12:41 |
雷鋒網消息,近日,由卡內基梅隆大學機器學習系副主任邢波教授創(chuàng)立的 Petuum 公司近期發(fā)表了幾篇論文,介紹了如何使用機器學習自動生成醫(yī)學影像報告,從而更好地輔助醫(yī)生做治療與診斷。
醫(yī)學影像在臨床實踐中被廣泛應用于診斷和治療。專業(yè)醫(yī)師閱讀醫(yī)學影響并撰寫文字報告來描述自己的發(fā)現(xiàn)。對于沒有經驗的醫(yī)生來說,撰寫報告很可能會出錯,對于人口眾多的國家的醫(yī)生來說,這樣的工作又耗時又枯燥。為了解決這些問題,邢波教授的團隊研究了醫(yī)學影像報告的自動生成,作為人類醫(yī)生更準確高效地生成報告的輔助工具。
為了應對這些挑戰(zhàn),邢波的團隊建立了一個多任務學習框架,共同執(zhí)行標簽的預測和段落的生成;提出一個共同注意機制(co-attention mechanism),將包含異常的區(qū)域標注出來;利用一個層次LSTM模型來產生長的段落。
放射學和病理學的醫(yī)學圖像被廣泛用于醫(yī)院和診所,例如肺炎、氣胸、間質性肺病、心力衰竭、骨折等等。他們通過撰寫文字報告(圖1)來描述在影像學檢查中所檢查的每個身體部位的發(fā)現(xiàn),特別是每個部位是否被發(fā)現(xiàn)是正常的,異常的或潛在的異常。
圖 1. 一個包含三部分信息的胸部 X 光報告示例。在 impression 部分,放射專家結合 Findings、病人臨床歷史及影像學研究的指導做出診斷。Findings 部分列出了影像學檢查中所檢測的身體各部分放射學觀察結果。Tags 部分給出了表示 Findings 核心信息的關鍵詞。這些關鍵詞使用醫(yī)學文本索引器(MTI)進行標識。
對于經驗較少的放射科醫(yī)師和病理科醫(yī)師,特別是那些在醫(yī)療保健條件落后的醫(yī)生,寫醫(yī)學影像報告是一件困難的事情。要正確讀取胸部X線圖像,他們需要以下的幾項技能:
對胸部正常解剖結構和胸部疾病的基本生理學的全面了解
通過固定模式分析射線照片的技能
評估隨時間變化的能力
臨床表現(xiàn)和病史知識
與其他診斷結果(實驗室結果、心電圖、呼吸功能檢查)相關的知識
但是,對于有經驗的放射科醫(yī)師和病理學家來說,撰寫影像報告又過于繁瑣和費時。在中國這樣人口眾多的國家里,放射科醫(yī)生每天可能需要閱讀數百張放射圖像。將每幅圖像的分析結果輸入計算機大約需要5-10分鐘,這占用了他們大部分的工作時間。
邢波的團隊認為,自動生成醫(yī)學影像報告是一件有意義而且有必要的事情,但同時,這項任務也面臨幾個挑戰(zhàn)。
首先,一份完整的診斷報告由多種不同信息形式的內部報告組成,如圖1所示,胸部X射線的報告包含 Impression描述,通常是一句話;Findings 是一段描述;Tags 是一列關鍵詞。用一個統(tǒng)一的框架生成這樣的不同信息,對技術提出的要求很高。我們通過構建一個多任務框架來解決這個問題,該框架將標簽的預測作為一個多標簽分類任務來處理,并將長描述(例如生成 Impression 和 Findings)的生成視為文本生成任務。在這個框架中,兩個任務共享相同的用于學習視覺特征的CNN并且共同執(zhí)行。
其次,一個影像報告通常更多地集中于描述異常的結果,因為它們能直接指出疾病并指導治療。但如何定位圖片中的病變區(qū)域并附上正確的描述非常困難。我們通過引入共同注意機制(co-attention mechanism)來解決這個問題,同時參與圖像和預測到的標簽,并探討視覺和語義信息的協(xié)同效應。
最后,成像報告中的描述通常很長,包含多個句子甚至多個段落。生成長文本是非常重要的,我們沒有采用單層LSTM(這種LSTM不能模擬長序列),而是利用報告的組成性質,采用分層LSTM來生成長文本。結合共同注意機制,層次型LSTM首先生成高級主題,然后根據主題生成詳細的描述。
數據集方面,研究人員使用的是印第安納大學胸部X射線組(IU X射線),這是一組與相應的診斷報告對應的胸部X射線圖像集。該數據集包含7470對圖像和報告。每個報告包括以下部分:impression, findings, tags, comparison and indication 。邢波團隊將impression和findings中的內容視為要生成的目標,并將MTI生成的標記作為報告的標記。
為醫(yī)學影像添加文本報告
為了將文本報告添加到醫(yī)學影像上,需要幾個步驟。在我們的設置中,添加到醫(yī)學影像上的文本是完全結構化的或半結構化的(例如標簽,屬性,模板),而不是自然文本。通過建立傳遞系統(tǒng)來預測醫(yī)學影像的特征性,其中一些特征性通過文本標簽顯示。給定一個醫(yī)學圖像,首先運用局部圖像分析法進行局部分析,然后提取每個局部圖像的視覺特征,最后建立一個分類器,將視覺特征按照預定義的類別分類。
Shin和其他研究人員,建立了運用CNN-RNN框架的系統(tǒng),可以為胸部X射線影像添加文本標簽。他們使用CNN(卷積神經網絡)從影像中檢測疾病,并使用RNN(循環(huán)神經網絡)來描述檢測到的疾病的詳細信息,例如:發(fā)病位置,病變程度及受影響的器官等。Zhang及其研究團隊的最新研究報告顯示,他們可以提供生成醫(yī)療報告。他們的目標是生成30-59字的病理報告。然而,他們生成的病理報告是半結構化的,語言不夠流暢自然。通過將少量標準報告重新編寫生成最后的病理報告,報告內容限于5個預定義的主題。
我們研究的最終目標是:生成的病理報告可以替代醫(yī)生在自然情況下撰寫的病理報告。這些病理報告很長,涵蓋了很多方面,相比之前研究給影像添加標簽和半結構化段落來說,難度系數更大。
圖像說明與深度學習
圖像說明技術可以為指定圖像自動生成文字描述。最近研究的圖像文本模型大多是基于CNN-RNN框架。Vinyals及其研究團隊將從CNN的最后隱藏層提取的圖像特征提供給LSTM(長短期記憶網絡)以生成文本。Fang 及其研究團隊首先使用CNN來檢測圖像中的異常,然后將這些檢測到的異常通過語言模型生成一個完整的句子。Karpathy及其研究團隊提出使用多模式遞歸神經網絡將視覺和語義特征二者達到一致,然后生成對于圖像的描述。
最近,注意機制(attention mechanisms)已被證明對于添加圖像文本是有用的。Xu及其研究團隊將空間視覺注意機制引入CNN中間層提取的圖像特征中。You及其研究團隊提出了針對給定圖像標簽的語義注意機制。為了更好地利用視覺特征并生成語義標簽,研究團隊提出了共同注意機制。
我們的目標不僅僅是為圖像生成一個說明。Johnson及其研究團隊正在研究密集型文本,要求模型可以生成對于每個檢測圖像區(qū)域的文字描述。Krause,Liang及其研究團隊通過分層LSTM為圖像生成段落說明。我們的研究方法也是采用分層次的LSTM來生成段落標題,而與Krause及其研究團隊不同的是,我們使用一個共同關注網絡來生成主題。
圖 2. 整個模型的結構與過程。其中 MLC 代表多標簽分類網絡,語義特征是預測標簽的詞向量。粗體標記的「calcified granuloma」和「granuloma」是共同注意網絡關注的標簽。
我們使用以下文本生成評估手段(BLEU 、METEOR 、ROUGE 和 CIDER)度量段落生成(表 1 上半部分)和單語句生成(表 1 下半部分)的結果。
如表1的上半部分所示,對于段落生成來講,使用單個 LSTM 解碼器的模型的表現(xiàn)明顯要差于使用層級 LSTM 解碼器的模型。表1中的Ours-No-Attention和CNN-RNN 之間的唯一區(qū)別在于,Ours-No- Attention采用層級LSTM解碼器,而CNN-RNN 僅采用單層LSTM。這兩個模型之間的比較直接證明了層級LSTM的有效性。
這個結果并不令人驚訝,眾所周知,單層LSTM不能有效地模擬長序列。此外,單獨使用語義注意(Ours-Semantic-Only)或單獨使用視覺注意(Ours-Visual-Only)來生成主題向量似乎幫助不大。潛在的原因可能是視覺注意力只能捕捉圖像分區(qū)域的視覺信息,而不能正確描述。雖然語義注意只知道潛在的異常,但不能通過查看圖像來確認其發(fā)現(xiàn)。最后,我們的完整模型(Ours-CoAttention)在所有的評估指標上都取得了最好的結果,說明了提出的共同注意機制的有效性。
對于單句生成的結果(如表1下半部分所示),我們模型的控制變量版(Ours-Semantic-Only和Ours-Visual-Only)與其他版本相比,要優(yōu)于所有的基線模型,這表明了所提出的共同注意機制的有效性。
段落生成
三個模型生成影像病理報告的示例見圖3,分別為Ours-CoAttention模型,Ours-No-Attention模型和Soft Attention模型。值得注意的是,下劃線的句子是對異常情況的描述。首先,我們可以觀察到三個模型生成的報告所包含的句子比真實報告多。其次,三個模型生成的報告和真實報告大多數的語句都是對于正常區(qū)域的描述,而只有幾句話是關于異常情況的。這個觀察可以解釋為什么 Ours-No-Attention模型在一定程度上不能達到非常好的水平。
圖 3. 協(xié)同注意力 、無注意力、軟注意力模型生成的段落圖示。劃線句子是檢測到異常情況的描述。第二個圖是胸部側面 x 光圖像。前兩個例子的結果是與真實報告相一致的,第三個出現(xiàn)了部分失敗,最底下的圖像完全失敗。這些圖像來自測試數據集
當我們深入了解生成文本的內容時,發(fā)現(xiàn)不同句子具有不同的主題,這是令人驚訝的。第一個句子通常是對圖像的整體描述,而以下的句子分別描述圖像的其他區(qū)域,例如:肺臟、心臟等。另外值得注意的是,Soft Attention模型和Ours-No-Attention模型只能檢測圖像中的異常情況,往往檢測到的異常情況還是錯誤的。但是,Ours-CoAttention模型在前三幅圖像中均能夠正確描述圖像中異常情況。結果表明,與Ours-CoAttention 模型及Ours-No-Attention模型相比,層次型LSTM可以更好地生成病理報告。
在第三張X射線圖中,Ours-CoAttention模型成功檢測到右下葉肺部有異常。然而,它沒有準確地描述這種異常。相比于其他X射線圖來說,第三張X射線圖比較暗,這可能就是Ours-CoAttention模型描述錯誤的潛在原因,我們的模型對這個變化非常敏感。Ours-CoAttention模型對于第四張X射線圖的描述是一個失敗案例。雖然模型錯誤地判斷了圖像中的主要異常,但是它確實找到了一些不尋常的區(qū)域。比如:左下葉肺部異常。此外,發(fā)現(xiàn)模型給出的報告中有“這可能表明”的字眼,說明模型試圖推斷所患疾病,這是十分令人驚訝的。
為了更好地理解模型檢測疾病或潛在疾病的能力,我們在表2中,給出了三大模型正態(tài)性和異常性的概率。我們認為句子包含“否”、“正?!薄ⅰ扒宄?、“穩(wěn)定”作為句子描述正常。很顯然,Ours-CoAttention模型在正態(tài)性和異常性的概率上最接近真實情況。
表3中的結果表明,Ours-CoAttention和VGG-19 網絡對于標簽預測的執(zhí)行非常相似。盡管多任務學習沒有改進,但我們認為,這個模型是一個端到端的模型,避免了管理復雜的流水線模式。
圖4顯示了共同注意的可視化。圖4所示的第一個特性是 Sentence LSTM 能夠關注圖像的不同區(qū)域和語句的不同標簽,并在不同的時間步驟生成不同的主題。第二個特性是視覺注意力可以指引模型關注圖像的相關區(qū)域。例如,第一個例子的第三個句子是關于“有氧”的,視覺注意力集中在心臟附近的區(qū)域。類似的行為也可以被發(fā)現(xiàn)的語義注意:對于第一個例子中的最后一句話,我們的模型正確地集中在作為句子的主題“退化變化”。
此外,第二個例子中的第一句話的內容與語義注意力的集中矛盾是令人驚訝的。單一關注機制不太可能發(fā)生。這種矛盾意味著共同關注機制具有一定的容錯性,因此共同注意可能比單一關注更為強大。
最后,最后一個例子的第一句話是由于對標簽不正確的注意而導致的錯誤描述。我們相信通過建立一個更好的標簽預測模塊可以減少不正確的注意力。
圖 4. 協(xié)同注意力在三個示例上的可視化。每個示例由四部分組成:(1)圖像和視覺注意力;(2)真實標簽,預測標簽以及預測標簽上的語義注意力;(3)生成的描述;(4)真實描述。對于語義注意力而言,注意力分數最高的三個標簽被突出顯示。加下劃線的標簽是在真實標簽中出現(xiàn)的標簽。
圖4還提供了標簽預測的一些定性結果。結果表明,除了與圖像相關的標簽之外,該模型還產生許多不相關的標簽。盡管共同注意機制可以過濾掉很多干擾標簽,但不相關的標簽仍然會誤導模型,產生很多誤報。我們相信一個更好的標簽預測模塊將有助于建模來關注正確的標簽,從而幫助提高生成文本的質量。
雷鋒網了解到,近年來,人工智能,尤其是深度學習的成熟使得市場上出現(xiàn)了很多AI輔助診斷產品。人類基因組測序技術的革新、生物醫(yī)學分析技術的進步、以及大數據分析工具的出現(xiàn),為病人提供更精準、高效、安全的診斷及治療。雖然,人工智能+影像領域也是參與企業(yè)最多,產品最豐富、涉及疾病種類最多的疾病診斷領域。,但是AI也能夠參與疾病的篩查和預測、寫結構化的病歷、在基層擔任全科醫(yī)生助手的角色,AI在減少醫(yī)生工作時間、提高診斷治療效率方面起到非常大的作用。
邢波的研究團隊認為,他們工作的主要貢獻是:提出了一個多任務學習框架,可以同時預測標簽和生成文本描述;引入一個用于定位異常區(qū)域的共同注意機制,并生成相應的描述;建立一個分層的LSTM來產生長句和段落;進行大量的定性和定量的實驗,以顯示實驗方法的有效性。
雷鋒網認為,邢波教授團隊的研究成果不是第一家,相信也不會是最后一家。未來,隨著產品迭代的不斷升級,算法層面的不斷打磨,醫(yī)學影像結構化報告的生成方面的研究,將陸續(xù)有其他玩家進入。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。