深度 | CMU 邢波教授團(tuán)隊(duì)最新成果：利用 AI 自動(dòng)生成醫(yī)學(xué)影像報(bào)告

本文作者：李雨晨

2017-11-30 12:41

導(dǎo)語(yǔ)：雷鋒網(wǎng)消息，近日，由卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系副主任邢波教授創(chuàng)立的 Petuum 公司近期發(fā)表了幾篇論文，介紹了如何使用機(jī)器學(xué)習(xí)自動(dòng)生產(chǎn)醫(yī)療圖像報(bào)告，從而更好地輔

雷鋒網(wǎng)消息，近日，由卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系副主任邢波教授創(chuàng)立的 Petuum 公司近期發(fā)表了幾篇論文，介紹了如何使用機(jī)器學(xué)習(xí)自動(dòng)生成醫(yī)學(xué)影像報(bào)告，從而更好地輔助醫(yī)生做治療與診斷。

醫(yī)學(xué)影像在臨床實(shí)踐中被廣泛應(yīng)用于診斷和治療。專業(yè)醫(yī)師閱讀醫(yī)學(xué)影響并撰寫文字報(bào)告來描述自己的發(fā)現(xiàn)。對(duì)于沒有經(jīng)驗(yàn)的醫(yī)生來說，撰寫報(bào)告很可能會(huì)出錯(cuò)，對(duì)于人口眾多的國(guó)家的醫(yī)生來說，這樣的工作又耗時(shí)又枯燥。為了解決這些問題，邢波教授的團(tuán)隊(duì)研究了醫(yī)學(xué)影像報(bào)告的自動(dòng)生成，作為人類醫(yī)生更準(zhǔn)確高效地生成報(bào)告的輔助工具。

為了應(yīng)對(duì)這些挑戰(zhàn)，邢波的團(tuán)隊(duì)建立了一個(gè)多任務(wù)學(xué)習(xí)框架，共同執(zhí)行標(biāo)簽的預(yù)測(cè)和段落的生成；提出一個(gè)共同注意機(jī)制（co-attention mechanism），將包含異常的區(qū)域標(biāo)注出來；利用一個(gè)層次LSTM模型來產(chǎn)生長(zhǎng)的段落。

醫(yī)生不愿撰寫“醫(yī)學(xué)影像報(bào)告”

放射學(xué)和病理學(xué)的醫(yī)學(xué)圖像被廣泛用于醫(yī)院和診所，例如肺炎、氣胸、間質(zhì)性肺病、心力衰竭、骨折等等。他們通過撰寫文字報(bào)告（圖1）來描述在影像學(xué)檢查中所檢查的每個(gè)身體部位的發(fā)現(xiàn)，特別是每個(gè)部位是否被發(fā)現(xiàn)是正常的，異常的或潛在的異常。

深度 | CMU 邢波教授團(tuán)隊(duì)最新成果：利用 AI 自動(dòng)生成醫(yī)學(xué)影像報(bào)告

圖 1. 一個(gè)包含三部分信息的胸部 X 光報(bào)告示例。在 impression 部分，放射專家結(jié)合 Findings、病人臨床歷史及影像學(xué)研究的指導(dǎo)做出診斷。Findings 部分列出了影像學(xué)檢查中所檢測(cè)的身體各部分放射學(xué)觀察結(jié)果。Tags 部分給出了表示 Findings 核心信息的關(guān)鍵詞。這些關(guān)鍵詞使用醫(yī)學(xué)文本索引器（MTI）進(jìn)行標(biāo)識(shí)。

對(duì)于經(jīng)驗(yàn)較少的放射科醫(yī)師和病理科醫(yī)師，特別是那些在醫(yī)療保健條件落后的醫(yī)生，寫醫(yī)學(xué)影像報(bào)告是一件困難的事情。要正確讀取胸部X線圖像，他們需要以下的幾項(xiàng)技能：

對(duì)胸部正常解剖結(jié)構(gòu)和胸部疾病的基本生理學(xué)的全面了解
通過固定模式分析射線照片的技能
評(píng)估隨時(shí)間變化的能力
臨床表現(xiàn)和病史知識(shí)
與其他診斷結(jié)果（實(shí)驗(yàn)室結(jié)果、心電圖、呼吸功能檢查）相關(guān)的知識(shí)

但是，對(duì)于有經(jīng)驗(yàn)的放射科醫(yī)師和病理學(xué)家來說，撰寫影像報(bào)告又過于繁瑣和費(fèi)時(shí)。在中國(guó)這樣人口眾多的國(guó)家里，放射科醫(yī)生每天可能需要閱讀數(shù)百?gòu)埛派鋱D像。將每幅圖像的分析結(jié)果輸入計(jì)算機(jī)大約需要5-10分鐘，這占用了他們大部分的工作時(shí)間。

邢波的團(tuán)隊(duì)認(rèn)為，自動(dòng)生成醫(yī)學(xué)影像報(bào)告是一件有意義而且有必要的事情，但同時(shí)，這項(xiàng)任務(wù)也面臨幾個(gè)挑戰(zhàn)。

首先，一份完整的診斷報(bào)告由多種不同信息形式的內(nèi)部報(bào)告組成，如圖1所示，胸部X射線的報(bào)告包含 Impression描述，通常是一句話；Findings 是一段描述；Tags 是一列關(guān)鍵詞。用一個(gè)統(tǒng)一的框架生成這樣的不同信息，對(duì)技術(shù)提出的要求很高。我們通過構(gòu)建一個(gè)多任務(wù)框架來解決這個(gè)問題，該框架將標(biāo)簽的預(yù)測(cè)作為一個(gè)多標(biāo)簽分類任務(wù)來處理，并將長(zhǎng)描述（例如生成 Impression 和 Findings）的生成視為文本生成任務(wù)。在這個(gè)框架中，兩個(gè)任務(wù)共享相同的用于學(xué)習(xí)視覺特征的CNN并且共同執(zhí)行。

其次，一個(gè)影像報(bào)告通常更多地集中于描述異常的結(jié)果，因?yàn)樗鼈兡苤苯又赋黾膊〔⒅笇?dǎo)治療。但如何定位圖片中的病變區(qū)域并附上正確的描述非常困難。我們通過引入共同注意機(jī)制（co-attention mechanism）來解決這個(gè)問題，同時(shí)參與圖像和預(yù)測(cè)到的標(biāo)簽，并探討視覺和語(yǔ)義信息的協(xié)同效應(yīng)。

最后，成像報(bào)告中的描述通常很長(zhǎng)，包含多個(gè)句子甚至多個(gè)段落。生成長(zhǎng)文本是非常重要的，我們沒有采用單層LSTM（這種LSTM不能模擬長(zhǎng)序列），而是利用報(bào)告的組成性質(zhì)，采用分層LSTM來生成長(zhǎng)文本。結(jié)合共同注意機(jī)制，層次型LSTM首先生成高級(jí)主題，然后根據(jù)主題生成詳細(xì)的描述。

數(shù)據(jù)集方面，研究人員使用的是印第安納大學(xué)胸部X射線組（IU X射線），這是一組與相應(yīng)的診斷報(bào)告對(duì)應(yīng)的胸部X射線圖像集。該數(shù)據(jù)集包含7470對(duì)圖像和報(bào)告。每個(gè)報(bào)告包括以下部分：impression, findings, tags, comparison and indication 。邢波團(tuán)隊(duì)將impression和findings中的內(nèi)容視為要生成的目標(biāo)，并將MTI生成的標(biāo)記作為報(bào)告的標(biāo)記。

定量結(jié)果

我們使用以下文本生成評(píng)估手段（BLEU 、METEOR 、ROUGE 和 CIDER）度量段落生成（表 1 上半部分）和單語(yǔ)句生成（表 1 下半部分）的結(jié)果。

如表1的上半部分所示，對(duì)于段落生成來講，使用單個(gè) LSTM 解碼器的模型的表現(xiàn)明顯要差于使用層級(jí) LSTM 解碼器的模型。表1中的Ours-No-Attention和CNN-RNN 之間的唯一區(qū)別在于，Ours-No- Attention采用層級(jí)LSTM解碼器，而CNN-RNN 僅采用單層LSTM。這兩個(gè)模型之間的比較直接證明了層級(jí)LSTM的有效性。

深度 | CMU 邢波教授團(tuán)隊(duì)最新成果：利用 AI 自動(dòng)生成醫(yī)學(xué)影像報(bào)告

這個(gè)結(jié)果并不令人驚訝，眾所周知，單層LSTM不能有效地模擬長(zhǎng)序列。此外，單獨(dú)使用語(yǔ)義注意（Ours-Semantic-Only）或單獨(dú)使用視覺注意（Ours-Visual-Only）來生成主題向量似乎幫助不大。潛在的原因可能是視覺注意力只能捕捉圖像分區(qū)域的視覺信息，而不能正確描述。雖然語(yǔ)義注意只知道潛在的異常，但不能通過查看圖像來確認(rèn)其發(fā)現(xiàn)。最后，我們的完整模型（Ours-CoAttention）在所有的評(píng)估指標(biāo)上都取得了最好的結(jié)果，說明了提出的共同注意機(jī)制的有效性。

對(duì)于單句生成的結(jié)果（如表1下半部分所示），我們模型的控制變量版（Ours-Semantic-Only和Ours-Visual-Only）與其他版本相比，要優(yōu)于所有的基線模型，這表明了所提出的共同注意機(jī)制的有效性。

定性結(jié)果

段落生成

三個(gè)模型生成影像病理報(bào)告的示例見圖3，分別為Ours-CoAttention模型，Ours-No-Attention模型和Soft Attention模型。值得注意的是，下劃線的句子是對(duì)異常情況的描述。首先，我們可以觀察到三個(gè)模型生成的報(bào)告所包含的句子比真實(shí)報(bào)告多。其次，三個(gè)模型生成的報(bào)告和真實(shí)報(bào)告大多數(shù)的語(yǔ)句都是對(duì)于正常區(qū)域的描述，而只有幾句話是關(guān)于異常情況的。這個(gè)觀察可以解釋為什么 Ours-No-Attention模型在一定程度上不能達(dá)到非常好的水平。

深度 | CMU 邢波教授團(tuán)隊(duì)最新成果：利用 AI 自動(dòng)生成醫(yī)學(xué)影像報(bào)告

圖 3. 協(xié)同注意力、無注意力、軟注意力模型生成的段落圖示。劃線句子是檢測(cè)到異常情況的描述。第二個(gè)圖是胸部側(cè)面 x 光圖像。前兩個(gè)例子的結(jié)果是與真實(shí)報(bào)告相一致的，第三個(gè)出現(xiàn)了部分失敗，最底下的圖像完全失敗。這些圖像來自測(cè)試數(shù)據(jù)集

當(dāng)我們深入了解生成文本的內(nèi)容時(shí)，發(fā)現(xiàn)不同句子具有不同的主題，這是令人驚訝的。第一個(gè)句子通常是對(duì)圖像的整體描述，而以下的句子分別描述圖像的其他區(qū)域，例如：肺臟、心臟等。另外值得注意的是，Soft Attention模型和Ours-No-Attention模型只能檢測(cè)圖像中的異常情況，往往檢測(cè)到的異常情況還是錯(cuò)誤的。但是，Ours-CoAttention模型在前三幅圖像中均能夠正確描述圖像中異常情況。結(jié)果表明，與Ours-CoAttention 模型及Ours-No-Attention模型相比，層次型LSTM可以更好地生成病理報(bào)告。

在第三張X射線圖中，Ours-CoAttention模型成功檢測(cè)到右下葉肺部有異常。然而，它沒有準(zhǔn)確地描述這種異常。相比于其他X射線圖來說，第三張X射線圖比較暗，這可能就是Ours-CoAttention模型描述錯(cuò)誤的潛在原因，我們的模型對(duì)這個(gè)變化非常敏感。Ours-CoAttention模型對(duì)于第四張X射線圖的描述是一個(gè)失敗案例。雖然模型錯(cuò)誤地判斷了圖像中的主要異常，但是它確實(shí)找到了一些不尋常的區(qū)域。比如：左下葉肺部異常。此外，發(fā)現(xiàn)模型給出的報(bào)告中有“這可能表明”的字眼，說明模型試圖推斷所患疾病，這是十分令人驚訝的。

為了更好地理解模型檢測(cè)疾病或潛在疾病的能力，我們?cè)诒?中，給出了三大模型正態(tài)性和異常性的概率。我們認(rèn)為句子包含“否”、“正?！?、“清除”、“穩(wěn)定”作為句子描述正常。很顯然，Ours-CoAttention模型在正態(tài)性和異常性的概率上最接近真實(shí)情況。

深度 | CMU 邢波教授團(tuán)隊(duì)最新成果：利用 AI 自動(dòng)生成醫(yī)學(xué)影像報(bào)告

表3中的結(jié)果表明，Ours-CoAttention和VGG-19 網(wǎng)絡(luò)對(duì)于標(biāo)簽預(yù)測(cè)的執(zhí)行非常相似。盡管多任務(wù)學(xué)習(xí)沒有改進(jìn)，但我們認(rèn)為，這個(gè)模型是一個(gè)端到端的模型，避免了管理復(fù)雜的流水線模式。

圖4顯示了共同注意的可視化。圖4所示的第一個(gè)特性是 Sentence LSTM 能夠關(guān)注圖像的不同區(qū)域和語(yǔ)句的不同標(biāo)簽，并在不同的時(shí)間步驟生成不同的主題。第二個(gè)特性是視覺注意力可以指引模型關(guān)注圖像的相關(guān)區(qū)域。例如，第一個(gè)例子的第三個(gè)句子是關(guān)于“有氧”的，視覺注意力集中在心臟附近的區(qū)域。類似的行為也可以被發(fā)現(xiàn)的語(yǔ)義注意：對(duì)于第一個(gè)例子中的最后一句話，我們的模型正確地集中在作為句子的主題“退化變化”。

此外，第二個(gè)例子中的第一句話的內(nèi)容與語(yǔ)義注意力的集中矛盾是令人驚訝的。單一關(guān)注機(jī)制不太可能發(fā)生。這種矛盾意味著共同關(guān)注機(jī)制具有一定的容錯(cuò)性，因此共同注意可能比單一關(guān)注更為強(qiáng)大。

最后，最后一個(gè)例子的第一句話是由于對(duì)標(biāo)簽不正確的注意而導(dǎo)致的錯(cuò)誤描述。我們相信通過建立一個(gè)更好的標(biāo)簽預(yù)測(cè)模塊可以減少不正確的注意力。

深度 | CMU 邢波教授團(tuán)隊(duì)最新成果：利用 AI 自動(dòng)生成醫(yī)學(xué)影像報(bào)告

圖 4. 協(xié)同注意力在三個(gè)示例上的可視化。每個(gè)示例由四部分組成：（1）圖像和視覺注意力；（2）真實(shí)標(biāo)簽，預(yù)測(cè)標(biāo)簽以及預(yù)測(cè)標(biāo)簽上的語(yǔ)義注意力；（3）生成的描述；（4）真實(shí)描述。對(duì)于語(yǔ)義注意力而言，注意力分?jǐn)?shù)最高的三個(gè)標(biāo)簽被突出顯示。加下劃線的標(biāo)簽是在真實(shí)標(biāo)簽中出現(xiàn)的標(biāo)簽。

圖4還提供了標(biāo)簽預(yù)測(cè)的一些定性結(jié)果。結(jié)果表明，除了與圖像相關(guān)的標(biāo)簽之外，該模型還產(chǎn)生許多不相關(guān)的標(biāo)簽。盡管共同注意機(jī)制可以過濾掉很多干擾標(biāo)簽，但不相關(guān)的標(biāo)簽仍然會(huì)誤導(dǎo)模型，產(chǎn)生很多誤報(bào)。我們相信一個(gè)更好的標(biāo)簽預(yù)測(cè)模塊將有助于建模來關(guān)注正確的標(biāo)簽，從而幫助提高生成文本的質(zhì)量。

結(jié)語(yǔ)

雷鋒網(wǎng)了解到，近年來，人工智能，尤其是深度學(xué)習(xí)的成熟使得市場(chǎng)上出現(xiàn)了很多AI輔助診斷產(chǎn)品。人類基因組測(cè)序技術(shù)的革新、生物醫(yī)學(xué)分析技術(shù)的進(jìn)步、以及大數(shù)據(jù)分析工具的出現(xiàn)，為病人提供更精準(zhǔn)、高效、安全的診斷及治療。雖然，人工智能+影像領(lǐng)域也是參與企業(yè)最多，產(chǎn)品最豐富、涉及疾病種類最多的疾病診斷領(lǐng)域。，但是AI也能夠參與疾病的篩查和預(yù)測(cè)、寫結(jié)構(gòu)化的病歷、在基層擔(dān)任全科醫(yī)生助手的角色，AI在減少醫(yī)生工作時(shí)間、提高診斷治療效率方面起到非常大的作用。

邢波的研究團(tuán)隊(duì)認(rèn)為，他們工作的主要貢獻(xiàn)是：提出了一個(gè)多任務(wù)學(xué)習(xí)框架，可以同時(shí)預(yù)測(cè)標(biāo)簽和生成文本描述；引入一個(gè)用于定位異常區(qū)域的共同注意機(jī)制，并生成相應(yīng)的描述；建立一個(gè)分層的LSTM來產(chǎn)生長(zhǎng)句和段落；進(jìn)行大量的定性和定量的實(shí)驗(yàn)，以顯示實(shí)驗(yàn)方法的有效性。

雷鋒網(wǎng)認(rèn)為，邢波教授團(tuán)隊(duì)的研究成果不是第一家，相信也不會(huì)是最后一家。未來，隨著產(chǎn)品迭代的不斷升級(jí)，算法層面的不斷打磨，醫(yī)學(xué)影像結(jié)構(gòu)化報(bào)告的生成方面的研究，將陸續(xù)有其他玩家進(jìn)入。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

7人收藏

相關(guān)文章