0
本文作者: 李雨晨 | 2017-11-30 12:41 |
雷鋒網(wǎng)消息,近日,由卡內(nèi)基梅隆大學(xué)機器學(xué)習(xí)系副主任邢波教授創(chuàng)立的 Petuum 公司近期發(fā)表了幾篇論文,介紹了如何使用機器學(xué)習(xí)自動生成醫(yī)學(xué)影像報告,從而更好地輔助醫(yī)生做治療與診斷。
醫(yī)學(xué)影像在臨床實踐中被廣泛應(yīng)用于診斷和治療。專業(yè)醫(yī)師閱讀醫(yī)學(xué)影響并撰寫文字報告來描述自己的發(fā)現(xiàn)。對于沒有經(jīng)驗的醫(yī)生來說,撰寫報告很可能會出錯,對于人口眾多的國家的醫(yī)生來說,這樣的工作又耗時又枯燥。為了解決這些問題,邢波教授的團隊研究了醫(yī)學(xué)影像報告的自動生成,作為人類醫(yī)生更準(zhǔn)確高效地生成報告的輔助工具。
為了應(yīng)對這些挑戰(zhàn),邢波的團隊建立了一個多任務(wù)學(xué)習(xí)框架,共同執(zhí)行標(biāo)簽的預(yù)測和段落的生成;提出一個共同注意機制(co-attention mechanism),將包含異常的區(qū)域標(biāo)注出來;利用一個層次LSTM模型來產(chǎn)生長的段落。
放射學(xué)和病理學(xué)的醫(yī)學(xué)圖像被廣泛用于醫(yī)院和診所,例如肺炎、氣胸、間質(zhì)性肺病、心力衰竭、骨折等等。他們通過撰寫文字報告(圖1)來描述在影像學(xué)檢查中所檢查的每個身體部位的發(fā)現(xiàn),特別是每個部位是否被發(fā)現(xiàn)是正常的,異常的或潛在的異常。
圖 1. 一個包含三部分信息的胸部 X 光報告示例。在 impression 部分,放射專家結(jié)合 Findings、病人臨床歷史及影像學(xué)研究的指導(dǎo)做出診斷。Findings 部分列出了影像學(xué)檢查中所檢測的身體各部分放射學(xué)觀察結(jié)果。Tags 部分給出了表示 Findings 核心信息的關(guān)鍵詞。這些關(guān)鍵詞使用醫(yī)學(xué)文本索引器(MTI)進行標(biāo)識。
對于經(jīng)驗較少的放射科醫(yī)師和病理科醫(yī)師,特別是那些在醫(yī)療保健條件落后的醫(yī)生,寫醫(yī)學(xué)影像報告是一件困難的事情。要正確讀取胸部X線圖像,他們需要以下的幾項技能:
對胸部正常解剖結(jié)構(gòu)和胸部疾病的基本生理學(xué)的全面了解
通過固定模式分析射線照片的技能
評估隨時間變化的能力
臨床表現(xiàn)和病史知識
與其他診斷結(jié)果(實驗室結(jié)果、心電圖、呼吸功能檢查)相關(guān)的知識
但是,對于有經(jīng)驗的放射科醫(yī)師和病理學(xué)家來說,撰寫影像報告又過于繁瑣和費時。在中國這樣人口眾多的國家里,放射科醫(yī)生每天可能需要閱讀數(shù)百張放射圖像。將每幅圖像的分析結(jié)果輸入計算機大約需要5-10分鐘,這占用了他們大部分的工作時間。
邢波的團隊認(rèn)為,自動生成醫(yī)學(xué)影像報告是一件有意義而且有必要的事情,但同時,這項任務(wù)也面臨幾個挑戰(zhàn)。
首先,一份完整的診斷報告由多種不同信息形式的內(nèi)部報告組成,如圖1所示,胸部X射線的報告包含 Impression描述,通常是一句話;Findings 是一段描述;Tags 是一列關(guān)鍵詞。用一個統(tǒng)一的框架生成這樣的不同信息,對技術(shù)提出的要求很高。我們通過構(gòu)建一個多任務(wù)框架來解決這個問題,該框架將標(biāo)簽的預(yù)測作為一個多標(biāo)簽分類任務(wù)來處理,并將長描述(例如生成 Impression 和 Findings)的生成視為文本生成任務(wù)。在這個框架中,兩個任務(wù)共享相同的用于學(xué)習(xí)視覺特征的CNN并且共同執(zhí)行。
其次,一個影像報告通常更多地集中于描述異常的結(jié)果,因為它們能直接指出疾病并指導(dǎo)治療。但如何定位圖片中的病變區(qū)域并附上正確的描述非常困難。我們通過引入共同注意機制(co-attention mechanism)來解決這個問題,同時參與圖像和預(yù)測到的標(biāo)簽,并探討視覺和語義信息的協(xié)同效應(yīng)。
最后,成像報告中的描述通常很長,包含多個句子甚至多個段落。生成長文本是非常重要的,我們沒有采用單層LSTM(這種LSTM不能模擬長序列),而是利用報告的組成性質(zhì),采用分層LSTM來生成長文本。結(jié)合共同注意機制,層次型LSTM首先生成高級主題,然后根據(jù)主題生成詳細(xì)的描述。
數(shù)據(jù)集方面,研究人員使用的是印第安納大學(xué)胸部X射線組(IU X射線),這是一組與相應(yīng)的診斷報告對應(yīng)的胸部X射線圖像集。該數(shù)據(jù)集包含7470對圖像和報告。每個報告包括以下部分:impression, findings, tags, comparison and indication 。邢波團隊將impression和findings中的內(nèi)容視為要生成的目標(biāo),并將MTI生成的標(biāo)記作為報告的標(biāo)記。
為醫(yī)學(xué)影像添加文本報告
為了將文本報告添加到醫(yī)學(xué)影像上,需要幾個步驟。在我們的設(shè)置中,添加到醫(yī)學(xué)影像上的文本是完全結(jié)構(gòu)化的或半結(jié)構(gòu)化的(例如標(biāo)簽,屬性,模板),而不是自然文本。通過建立傳遞系統(tǒng)來預(yù)測醫(yī)學(xué)影像的特征性,其中一些特征性通過文本標(biāo)簽顯示。給定一個醫(yī)學(xué)圖像,首先運用局部圖像分析法進行局部分析,然后提取每個局部圖像的視覺特征,最后建立一個分類器,將視覺特征按照預(yù)定義的類別分類。
Shin和其他研究人員,建立了運用CNN-RNN框架的系統(tǒng),可以為胸部X射線影像添加文本標(biāo)簽。他們使用CNN(卷積神經(jīng)網(wǎng)絡(luò))從影像中檢測疾病,并使用RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))來描述檢測到的疾病的詳細(xì)信息,例如:發(fā)病位置,病變程度及受影響的器官等。Zhang及其研究團隊的最新研究報告顯示,他們可以提供生成醫(yī)療報告。他們的目標(biāo)是生成30-59字的病理報告。然而,他們生成的病理報告是半結(jié)構(gòu)化的,語言不夠流暢自然。通過將少量標(biāo)準(zhǔn)報告重新編寫生成最后的病理報告,報告內(nèi)容限于5個預(yù)定義的主題。
我們研究的最終目標(biāo)是:生成的病理報告可以替代醫(yī)生在自然情況下撰寫的病理報告。這些病理報告很長,涵蓋了很多方面,相比之前研究給影像添加標(biāo)簽和半結(jié)構(gòu)化段落來說,難度系數(shù)更大。
圖像說明與深度學(xué)習(xí)
圖像說明技術(shù)可以為指定圖像自動生成文字描述。最近研究的圖像文本模型大多是基于CNN-RNN框架。Vinyals及其研究團隊將從CNN的最后隱藏層提取的圖像特征提供給LSTM(長短期記憶網(wǎng)絡(luò))以生成文本。Fang 及其研究團隊首先使用CNN來檢測圖像中的異常,然后將這些檢測到的異常通過語言模型生成一個完整的句子。Karpathy及其研究團隊提出使用多模式遞歸神經(jīng)網(wǎng)絡(luò)將視覺和語義特征二者達(dá)到一致,然后生成對于圖像的描述。
最近,注意機制(attention mechanisms)已被證明對于添加圖像文本是有用的。Xu及其研究團隊將空間視覺注意機制引入CNN中間層提取的圖像特征中。You及其研究團隊提出了針對給定圖像標(biāo)簽的語義注意機制。為了更好地利用視覺特征并生成語義標(biāo)簽,研究團隊提出了共同注意機制。
我們的目標(biāo)不僅僅是為圖像生成一個說明。Johnson及其研究團隊正在研究密集型文本,要求模型可以生成對于每個檢測圖像區(qū)域的文字描述。Krause,Liang及其研究團隊通過分層LSTM為圖像生成段落說明。我們的研究方法也是采用分層次的LSTM來生成段落標(biāo)題,而與Krause及其研究團隊不同的是,我們使用一個共同關(guān)注網(wǎng)絡(luò)來生成主題。
圖 2. 整個模型的結(jié)構(gòu)與過程。其中 MLC 代表多標(biāo)簽分類網(wǎng)絡(luò),語義特征是預(yù)測標(biāo)簽的詞向量。粗體標(biāo)記的「calcified granuloma」和「granuloma」是共同注意網(wǎng)絡(luò)關(guān)注的標(biāo)簽。
我們使用以下文本生成評估手段(BLEU 、METEOR 、ROUGE 和 CIDER)度量段落生成(表 1 上半部分)和單語句生成(表 1 下半部分)的結(jié)果。
如表1的上半部分所示,對于段落生成來講,使用單個 LSTM 解碼器的模型的表現(xiàn)明顯要差于使用層級 LSTM 解碼器的模型。表1中的Ours-No-Attention和CNN-RNN 之間的唯一區(qū)別在于,Ours-No- Attention采用層級LSTM解碼器,而CNN-RNN 僅采用單層LSTM。這兩個模型之間的比較直接證明了層級LSTM的有效性。
這個結(jié)果并不令人驚訝,眾所周知,單層LSTM不能有效地模擬長序列。此外,單獨使用語義注意(Ours-Semantic-Only)或單獨使用視覺注意(Ours-Visual-Only)來生成主題向量似乎幫助不大。潛在的原因可能是視覺注意力只能捕捉圖像分區(qū)域的視覺信息,而不能正確描述。雖然語義注意只知道潛在的異常,但不能通過查看圖像來確認(rèn)其發(fā)現(xiàn)。最后,我們的完整模型(Ours-CoAttention)在所有的評估指標(biāo)上都取得了最好的結(jié)果,說明了提出的共同注意機制的有效性。
對于單句生成的結(jié)果(如表1下半部分所示),我們模型的控制變量版(Ours-Semantic-Only和Ours-Visual-Only)與其他版本相比,要優(yōu)于所有的基線模型,這表明了所提出的共同注意機制的有效性。
段落生成
三個模型生成影像病理報告的示例見圖3,分別為Ours-CoAttention模型,Ours-No-Attention模型和Soft Attention模型。值得注意的是,下劃線的句子是對異常情況的描述。首先,我們可以觀察到三個模型生成的報告所包含的句子比真實報告多。其次,三個模型生成的報告和真實報告大多數(shù)的語句都是對于正常區(qū)域的描述,而只有幾句話是關(guān)于異常情況的。這個觀察可以解釋為什么 Ours-No-Attention模型在一定程度上不能達(dá)到非常好的水平。
圖 3. 協(xié)同注意力 、無注意力、軟注意力模型生成的段落圖示。劃線句子是檢測到異常情況的描述。第二個圖是胸部側(cè)面 x 光圖像。前兩個例子的結(jié)果是與真實報告相一致的,第三個出現(xiàn)了部分失敗,最底下的圖像完全失敗。這些圖像來自測試數(shù)據(jù)集
當(dāng)我們深入了解生成文本的內(nèi)容時,發(fā)現(xiàn)不同句子具有不同的主題,這是令人驚訝的。第一個句子通常是對圖像的整體描述,而以下的句子分別描述圖像的其他區(qū)域,例如:肺臟、心臟等。另外值得注意的是,Soft Attention模型和Ours-No-Attention模型只能檢測圖像中的異常情況,往往檢測到的異常情況還是錯誤的。但是,Ours-CoAttention模型在前三幅圖像中均能夠正確描述圖像中異常情況。結(jié)果表明,與Ours-CoAttention 模型及Ours-No-Attention模型相比,層次型LSTM可以更好地生成病理報告。
在第三張X射線圖中,Ours-CoAttention模型成功檢測到右下葉肺部有異常。然而,它沒有準(zhǔn)確地描述這種異常。相比于其他X射線圖來說,第三張X射線圖比較暗,這可能就是Ours-CoAttention模型描述錯誤的潛在原因,我們的模型對這個變化非常敏感。Ours-CoAttention模型對于第四張X射線圖的描述是一個失敗案例。雖然模型錯誤地判斷了圖像中的主要異常,但是它確實找到了一些不尋常的區(qū)域。比如:左下葉肺部異常。此外,發(fā)現(xiàn)模型給出的報告中有“這可能表明”的字眼,說明模型試圖推斷所患疾病,這是十分令人驚訝的。
為了更好地理解模型檢測疾病或潛在疾病的能力,我們在表2中,給出了三大模型正態(tài)性和異常性的概率。我們認(rèn)為句子包含“否”、“正?!?、“清除”、“穩(wěn)定”作為句子描述正常。很顯然,Ours-CoAttention模型在正態(tài)性和異常性的概率上最接近真實情況。
表3中的結(jié)果表明,Ours-CoAttention和VGG-19 網(wǎng)絡(luò)對于標(biāo)簽預(yù)測的執(zhí)行非常相似。盡管多任務(wù)學(xué)習(xí)沒有改進,但我們認(rèn)為,這個模型是一個端到端的模型,避免了管理復(fù)雜的流水線模式。
圖4顯示了共同注意的可視化。圖4所示的第一個特性是 Sentence LSTM 能夠關(guān)注圖像的不同區(qū)域和語句的不同標(biāo)簽,并在不同的時間步驟生成不同的主題。第二個特性是視覺注意力可以指引模型關(guān)注圖像的相關(guān)區(qū)域。例如,第一個例子的第三個句子是關(guān)于“有氧”的,視覺注意力集中在心臟附近的區(qū)域。類似的行為也可以被發(fā)現(xiàn)的語義注意:對于第一個例子中的最后一句話,我們的模型正確地集中在作為句子的主題“退化變化”。
此外,第二個例子中的第一句話的內(nèi)容與語義注意力的集中矛盾是令人驚訝的。單一關(guān)注機制不太可能發(fā)生。這種矛盾意味著共同關(guān)注機制具有一定的容錯性,因此共同注意可能比單一關(guān)注更為強大。
最后,最后一個例子的第一句話是由于對標(biāo)簽不正確的注意而導(dǎo)致的錯誤描述。我們相信通過建立一個更好的標(biāo)簽預(yù)測模塊可以減少不正確的注意力。
圖 4. 協(xié)同注意力在三個示例上的可視化。每個示例由四部分組成:(1)圖像和視覺注意力;(2)真實標(biāo)簽,預(yù)測標(biāo)簽以及預(yù)測標(biāo)簽上的語義注意力;(3)生成的描述;(4)真實描述。對于語義注意力而言,注意力分?jǐn)?shù)最高的三個標(biāo)簽被突出顯示。加下劃線的標(biāo)簽是在真實標(biāo)簽中出現(xiàn)的標(biāo)簽。
圖4還提供了標(biāo)簽預(yù)測的一些定性結(jié)果。結(jié)果表明,除了與圖像相關(guān)的標(biāo)簽之外,該模型還產(chǎn)生許多不相關(guān)的標(biāo)簽。盡管共同注意機制可以過濾掉很多干擾標(biāo)簽,但不相關(guān)的標(biāo)簽仍然會誤導(dǎo)模型,產(chǎn)生很多誤報。我們相信一個更好的標(biāo)簽預(yù)測模塊將有助于建模來關(guān)注正確的標(biāo)簽,從而幫助提高生成文本的質(zhì)量。
雷鋒網(wǎng)了解到,近年來,人工智能,尤其是深度學(xué)習(xí)的成熟使得市場上出現(xiàn)了很多AI輔助診斷產(chǎn)品。人類基因組測序技術(shù)的革新、生物醫(yī)學(xué)分析技術(shù)的進步、以及大數(shù)據(jù)分析工具的出現(xiàn),為病人提供更精準(zhǔn)、高效、安全的診斷及治療。雖然,人工智能+影像領(lǐng)域也是參與企業(yè)最多,產(chǎn)品最豐富、涉及疾病種類最多的疾病診斷領(lǐng)域。,但是AI也能夠參與疾病的篩查和預(yù)測、寫結(jié)構(gòu)化的病歷、在基層擔(dān)任全科醫(yī)生助手的角色,AI在減少醫(yī)生工作時間、提高診斷治療效率方面起到非常大的作用。
邢波的研究團隊認(rèn)為,他們工作的主要貢獻是:提出了一個多任務(wù)學(xué)習(xí)框架,可以同時預(yù)測標(biāo)簽和生成文本描述;引入一個用于定位異常區(qū)域的共同注意機制,并生成相應(yīng)的描述;建立一個分層的LSTM來產(chǎn)生長句和段落;進行大量的定性和定量的實驗,以顯示實驗方法的有效性。
雷鋒網(wǎng)認(rèn)為,邢波教授團隊的研究成果不是第一家,相信也不會是最后一家。未來,隨著產(chǎn)品迭代的不斷升級,算法層面的不斷打磨,醫(yī)學(xué)影像結(jié)構(gòu)化報告的生成方面的研究,將陸續(xù)有其他玩家進入。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。