0
本文作者: 李雨晨 | 2017-11-30 12:41 |
雷鋒網(wǎng)消息,近日,由卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系副主任邢波教授創(chuàng)立的 Petuum 公司近期發(fā)表了幾篇論文,介紹了如何使用機(jī)器學(xué)習(xí)自動(dòng)生成醫(yī)學(xué)影像報(bào)告,從而更好地輔助醫(yī)生做治療與診斷。
醫(yī)學(xué)影像在臨床實(shí)踐中被廣泛應(yīng)用于診斷和治療。專業(yè)醫(yī)師閱讀醫(yī)學(xué)影響并撰寫文字報(bào)告來描述自己的發(fā)現(xiàn)。對(duì)于沒有經(jīng)驗(yàn)的醫(yī)生來說,撰寫報(bào)告很可能會(huì)出錯(cuò),對(duì)于人口眾多的國家的醫(yī)生來說,這樣的工作又耗時(shí)又枯燥。為了解決這些問題,邢波教授的團(tuán)隊(duì)研究了醫(yī)學(xué)影像報(bào)告的自動(dòng)生成,作為人類醫(yī)生更準(zhǔn)確高效地生成報(bào)告的輔助工具。
為了應(yīng)對(duì)這些挑戰(zhàn),邢波的團(tuán)隊(duì)建立了一個(gè)多任務(wù)學(xué)習(xí)框架,共同執(zhí)行標(biāo)簽的預(yù)測(cè)和段落的生成;提出一個(gè)共同注意機(jī)制(co-attention mechanism),將包含異常的區(qū)域標(biāo)注出來;利用一個(gè)層次LSTM模型來產(chǎn)生長的段落。
放射學(xué)和病理學(xué)的醫(yī)學(xué)圖像被廣泛用于醫(yī)院和診所,例如肺炎、氣胸、間質(zhì)性肺病、心力衰竭、骨折等等。他們通過撰寫文字報(bào)告(圖1)來描述在影像學(xué)檢查中所檢查的每個(gè)身體部位的發(fā)現(xiàn),特別是每個(gè)部位是否被發(fā)現(xiàn)是正常的,異常的或潛在的異常。
圖 1. 一個(gè)包含三部分信息的胸部 X 光報(bào)告示例。在 impression 部分,放射專家結(jié)合 Findings、病人臨床歷史及影像學(xué)研究的指導(dǎo)做出診斷。Findings 部分列出了影像學(xué)檢查中所檢測(cè)的身體各部分放射學(xué)觀察結(jié)果。Tags 部分給出了表示 Findings 核心信息的關(guān)鍵詞。這些關(guān)鍵詞使用醫(yī)學(xué)文本索引器(MTI)進(jìn)行標(biāo)識(shí)。
對(duì)于經(jīng)驗(yàn)較少的放射科醫(yī)師和病理科醫(yī)師,特別是那些在醫(yī)療保健條件落后的醫(yī)生,寫醫(yī)學(xué)影像報(bào)告是一件困難的事情。要正確讀取胸部X線圖像,他們需要以下的幾項(xiàng)技能:
對(duì)胸部正常解剖結(jié)構(gòu)和胸部疾病的基本生理學(xué)的全面了解
通過固定模式分析射線照片的技能
評(píng)估隨時(shí)間變化的能力
臨床表現(xiàn)和病史知識(shí)
與其他診斷結(jié)果(實(shí)驗(yàn)室結(jié)果、心電圖、呼吸功能檢查)相關(guān)的知識(shí)
但是,對(duì)于有經(jīng)驗(yàn)的放射科醫(yī)師和病理學(xué)家來說,撰寫影像報(bào)告又過于繁瑣和費(fèi)時(shí)。在中國這樣人口眾多的國家里,放射科醫(yī)生每天可能需要閱讀數(shù)百張放射圖像。將每幅圖像的分析結(jié)果輸入計(jì)算機(jī)大約需要5-10分鐘,這占用了他們大部分的工作時(shí)間。
邢波的團(tuán)隊(duì)認(rèn)為,自動(dòng)生成醫(yī)學(xué)影像報(bào)告是一件有意義而且有必要的事情,但同時(shí),這項(xiàng)任務(wù)也面臨幾個(gè)挑戰(zhàn)。
首先,一份完整的診斷報(bào)告由多種不同信息形式的內(nèi)部報(bào)告組成,如圖1所示,胸部X射線的報(bào)告包含 Impression描述,通常是一句話;Findings 是一段描述;Tags 是一列關(guān)鍵詞。用一個(gè)統(tǒng)一的框架生成這樣的不同信息,對(duì)技術(shù)提出的要求很高。我們通過構(gòu)建一個(gè)多任務(wù)框架來解決這個(gè)問題,該框架將標(biāo)簽的預(yù)測(cè)作為一個(gè)多標(biāo)簽分類任務(wù)來處理,并將長描述(例如生成 Impression 和 Findings)的生成視為文本生成任務(wù)。在這個(gè)框架中,兩個(gè)任務(wù)共享相同的用于學(xué)習(xí)視覺特征的CNN并且共同執(zhí)行。
其次,一個(gè)影像報(bào)告通常更多地集中于描述異常的結(jié)果,因?yàn)樗鼈兡苤苯又赋黾膊〔⒅笇?dǎo)治療。但如何定位圖片中的病變區(qū)域并附上正確的描述非常困難。我們通過引入共同注意機(jī)制(co-attention mechanism)來解決這個(gè)問題,同時(shí)參與圖像和預(yù)測(cè)到的標(biāo)簽,并探討視覺和語義信息的協(xié)同效應(yīng)。
最后,成像報(bào)告中的描述通常很長,包含多個(gè)句子甚至多個(gè)段落。生成長文本是非常重要的,我們沒有采用單層LSTM(這種LSTM不能模擬長序列),而是利用報(bào)告的組成性質(zhì),采用分層LSTM來生成長文本。結(jié)合共同注意機(jī)制,層次型LSTM首先生成高級(jí)主題,然后根據(jù)主題生成詳細(xì)的描述。
數(shù)據(jù)集方面,研究人員使用的是印第安納大學(xué)胸部X射線組(IU X射線),這是一組與相應(yīng)的診斷報(bào)告對(duì)應(yīng)的胸部X射線圖像集。該數(shù)據(jù)集包含7470對(duì)圖像和報(bào)告。每個(gè)報(bào)告包括以下部分:impression, findings, tags, comparison and indication 。邢波團(tuán)隊(duì)將impression和findings中的內(nèi)容視為要生成的目標(biāo),并將MTI生成的標(biāo)記作為報(bào)告的標(biāo)記。
為醫(yī)學(xué)影像添加文本報(bào)告
為了將文本報(bào)告添加到醫(yī)學(xué)影像上,需要幾個(gè)步驟。在我們的設(shè)置中,添加到醫(yī)學(xué)影像上的文本是完全結(jié)構(gòu)化的或半結(jié)構(gòu)化的(例如標(biāo)簽,屬性,模板),而不是自然文本。通過建立傳遞系統(tǒng)來預(yù)測(cè)醫(yī)學(xué)影像的特征性,其中一些特征性通過文本標(biāo)簽顯示。給定一個(gè)醫(yī)學(xué)圖像,首先運(yùn)用局部圖像分析法進(jìn)行局部分析,然后提取每個(gè)局部圖像的視覺特征,最后建立一個(gè)分類器,將視覺特征按照預(yù)定義的類別分類。
Shin和其他研究人員,建立了運(yùn)用CNN-RNN框架的系統(tǒng),可以為胸部X射線影像添加文本標(biāo)簽。他們使用CNN(卷積神經(jīng)網(wǎng)絡(luò))從影像中檢測(cè)疾病,并使用RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))來描述檢測(cè)到的疾病的詳細(xì)信息,例如:發(fā)病位置,病變程度及受影響的器官等。Zhang及其研究團(tuán)隊(duì)的最新研究報(bào)告顯示,他們可以提供生成醫(yī)療報(bào)告。他們的目標(biāo)是生成30-59字的病理報(bào)告。然而,他們生成的病理報(bào)告是半結(jié)構(gòu)化的,語言不夠流暢自然。通過將少量標(biāo)準(zhǔn)報(bào)告重新編寫生成最后的病理報(bào)告,報(bào)告內(nèi)容限于5個(gè)預(yù)定義的主題。
我們研究的最終目標(biāo)是:生成的病理報(bào)告可以替代醫(yī)生在自然情況下撰寫的病理報(bào)告。這些病理報(bào)告很長,涵蓋了很多方面,相比之前研究給影像添加標(biāo)簽和半結(jié)構(gòu)化段落來說,難度系數(shù)更大。
圖像說明與深度學(xué)習(xí)
圖像說明技術(shù)可以為指定圖像自動(dòng)生成文字描述。最近研究的圖像文本模型大多是基于CNN-RNN框架。Vinyals及其研究團(tuán)隊(duì)將從CNN的最后隱藏層提取的圖像特征提供給LSTM(長短期記憶網(wǎng)絡(luò))以生成文本。Fang 及其研究團(tuán)隊(duì)首先使用CNN來檢測(cè)圖像中的異常,然后將這些檢測(cè)到的異常通過語言模型生成一個(gè)完整的句子。Karpathy及其研究團(tuán)隊(duì)提出使用多模式遞歸神經(jīng)網(wǎng)絡(luò)將視覺和語義特征二者達(dá)到一致,然后生成對(duì)于圖像的描述。
最近,注意機(jī)制(attention mechanisms)已被證明對(duì)于添加圖像文本是有用的。Xu及其研究團(tuán)隊(duì)將空間視覺注意機(jī)制引入CNN中間層提取的圖像特征中。You及其研究團(tuán)隊(duì)提出了針對(duì)給定圖像標(biāo)簽的語義注意機(jī)制。為了更好地利用視覺特征并生成語義標(biāo)簽,研究團(tuán)隊(duì)提出了共同注意機(jī)制。
我們的目標(biāo)不僅僅是為圖像生成一個(gè)說明。Johnson及其研究團(tuán)隊(duì)正在研究密集型文本,要求模型可以生成對(duì)于每個(gè)檢測(cè)圖像區(qū)域的文字描述。Krause,Liang及其研究團(tuán)隊(duì)通過分層LSTM為圖像生成段落說明。我們的研究方法也是采用分層次的LSTM來生成段落標(biāo)題,而與Krause及其研究團(tuán)隊(duì)不同的是,我們使用一個(gè)共同關(guān)注網(wǎng)絡(luò)來生成主題。
圖 2. 整個(gè)模型的結(jié)構(gòu)與過程。其中 MLC 代表多標(biāo)簽分類網(wǎng)絡(luò),語義特征是預(yù)測(cè)標(biāo)簽的詞向量。粗體標(biāo)記的「calcified granuloma」和「granuloma」是共同注意網(wǎng)絡(luò)關(guān)注的標(biāo)簽。
我們使用以下文本生成評(píng)估手段(BLEU 、METEOR 、ROUGE 和 CIDER)度量段落生成(表 1 上半部分)和單語句生成(表 1 下半部分)的結(jié)果。
如表1的上半部分所示,對(duì)于段落生成來講,使用單個(gè) LSTM 解碼器的模型的表現(xiàn)明顯要差于使用層級(jí) LSTM 解碼器的模型。表1中的Ours-No-Attention和CNN-RNN 之間的唯一區(qū)別在于,Ours-No- Attention采用層級(jí)LSTM解碼器,而CNN-RNN 僅采用單層LSTM。這兩個(gè)模型之間的比較直接證明了層級(jí)LSTM的有效性。
這個(gè)結(jié)果并不令人驚訝,眾所周知,單層LSTM不能有效地模擬長序列。此外,單獨(dú)使用語義注意(Ours-Semantic-Only)或單獨(dú)使用視覺注意(Ours-Visual-Only)來生成主題向量似乎幫助不大。潛在的原因可能是視覺注意力只能捕捉圖像分區(qū)域的視覺信息,而不能正確描述。雖然語義注意只知道潛在的異常,但不能通過查看圖像來確認(rèn)其發(fā)現(xiàn)。最后,我們的完整模型(Ours-CoAttention)在所有的評(píng)估指標(biāo)上都取得了最好的結(jié)果,說明了提出的共同注意機(jī)制的有效性。
對(duì)于單句生成的結(jié)果(如表1下半部分所示),我們模型的控制變量版(Ours-Semantic-Only和Ours-Visual-Only)與其他版本相比,要優(yōu)于所有的基線模型,這表明了所提出的共同注意機(jī)制的有效性。
段落生成
三個(gè)模型生成影像病理報(bào)告的示例見圖3,分別為Ours-CoAttention模型,Ours-No-Attention模型和Soft Attention模型。值得注意的是,下劃線的句子是對(duì)異常情況的描述。首先,我們可以觀察到三個(gè)模型生成的報(bào)告所包含的句子比真實(shí)報(bào)告多。其次,三個(gè)模型生成的報(bào)告和真實(shí)報(bào)告大多數(shù)的語句都是對(duì)于正常區(qū)域的描述,而只有幾句話是關(guān)于異常情況的。這個(gè)觀察可以解釋為什么 Ours-No-Attention模型在一定程度上不能達(dá)到非常好的水平。
圖 3. 協(xié)同注意力 、無注意力、軟注意力模型生成的段落圖示。劃線句子是檢測(cè)到異常情況的描述。第二個(gè)圖是胸部側(cè)面 x 光圖像。前兩個(gè)例子的結(jié)果是與真實(shí)報(bào)告相一致的,第三個(gè)出現(xiàn)了部分失敗,最底下的圖像完全失敗。這些圖像來自測(cè)試數(shù)據(jù)集
當(dāng)我們深入了解生成文本的內(nèi)容時(shí),發(fā)現(xiàn)不同句子具有不同的主題,這是令人驚訝的。第一個(gè)句子通常是對(duì)圖像的整體描述,而以下的句子分別描述圖像的其他區(qū)域,例如:肺臟、心臟等。另外值得注意的是,Soft Attention模型和Ours-No-Attention模型只能檢測(cè)圖像中的異常情況,往往檢測(cè)到的異常情況還是錯(cuò)誤的。但是,Ours-CoAttention模型在前三幅圖像中均能夠正確描述圖像中異常情況。結(jié)果表明,與Ours-CoAttention 模型及Ours-No-Attention模型相比,層次型LSTM可以更好地生成病理報(bào)告。
在第三張X射線圖中,Ours-CoAttention模型成功檢測(cè)到右下葉肺部有異常。然而,它沒有準(zhǔn)確地描述這種異常。相比于其他X射線圖來說,第三張X射線圖比較暗,這可能就是Ours-CoAttention模型描述錯(cuò)誤的潛在原因,我們的模型對(duì)這個(gè)變化非常敏感。Ours-CoAttention模型對(duì)于第四張X射線圖的描述是一個(gè)失敗案例。雖然模型錯(cuò)誤地判斷了圖像中的主要異常,但是它確實(shí)找到了一些不尋常的區(qū)域。比如:左下葉肺部異常。此外,發(fā)現(xiàn)模型給出的報(bào)告中有“這可能表明”的字眼,說明模型試圖推斷所患疾病,這是十分令人驚訝的。
為了更好地理解模型檢測(cè)疾病或潛在疾病的能力,我們?cè)诒?中,給出了三大模型正態(tài)性和異常性的概率。我們認(rèn)為句子包含“否”、“正?!薄ⅰ扒宄?、“穩(wěn)定”作為句子描述正常。很顯然,Ours-CoAttention模型在正態(tài)性和異常性的概率上最接近真實(shí)情況。
表3中的結(jié)果表明,Ours-CoAttention和VGG-19 網(wǎng)絡(luò)對(duì)于標(biāo)簽預(yù)測(cè)的執(zhí)行非常相似。盡管多任務(wù)學(xué)習(xí)沒有改進(jìn),但我們認(rèn)為,這個(gè)模型是一個(gè)端到端的模型,避免了管理復(fù)雜的流水線模式。
圖4顯示了共同注意的可視化。圖4所示的第一個(gè)特性是 Sentence LSTM 能夠關(guān)注圖像的不同區(qū)域和語句的不同標(biāo)簽,并在不同的時(shí)間步驟生成不同的主題。第二個(gè)特性是視覺注意力可以指引模型關(guān)注圖像的相關(guān)區(qū)域。例如,第一個(gè)例子的第三個(gè)句子是關(guān)于“有氧”的,視覺注意力集中在心臟附近的區(qū)域。類似的行為也可以被發(fā)現(xiàn)的語義注意:對(duì)于第一個(gè)例子中的最后一句話,我們的模型正確地集中在作為句子的主題“退化變化”。
此外,第二個(gè)例子中的第一句話的內(nèi)容與語義注意力的集中矛盾是令人驚訝的。單一關(guān)注機(jī)制不太可能發(fā)生。這種矛盾意味著共同關(guān)注機(jī)制具有一定的容錯(cuò)性,因此共同注意可能比單一關(guān)注更為強(qiáng)大。
最后,最后一個(gè)例子的第一句話是由于對(duì)標(biāo)簽不正確的注意而導(dǎo)致的錯(cuò)誤描述。我們相信通過建立一個(gè)更好的標(biāo)簽預(yù)測(cè)模塊可以減少不正確的注意力。
圖 4. 協(xié)同注意力在三個(gè)示例上的可視化。每個(gè)示例由四部分組成:(1)圖像和視覺注意力;(2)真實(shí)標(biāo)簽,預(yù)測(cè)標(biāo)簽以及預(yù)測(cè)標(biāo)簽上的語義注意力;(3)生成的描述;(4)真實(shí)描述。對(duì)于語義注意力而言,注意力分?jǐn)?shù)最高的三個(gè)標(biāo)簽被突出顯示。加下劃線的標(biāo)簽是在真實(shí)標(biāo)簽中出現(xiàn)的標(biāo)簽。
圖4還提供了標(biāo)簽預(yù)測(cè)的一些定性結(jié)果。結(jié)果表明,除了與圖像相關(guān)的標(biāo)簽之外,該模型還產(chǎn)生許多不相關(guān)的標(biāo)簽。盡管共同注意機(jī)制可以過濾掉很多干擾標(biāo)簽,但不相關(guān)的標(biāo)簽仍然會(huì)誤導(dǎo)模型,產(chǎn)生很多誤報(bào)。我們相信一個(gè)更好的標(biāo)簽預(yù)測(cè)模塊將有助于建模來關(guān)注正確的標(biāo)簽,從而幫助提高生成文本的質(zhì)量。
雷鋒網(wǎng)了解到,近年來,人工智能,尤其是深度學(xué)習(xí)的成熟使得市場(chǎng)上出現(xiàn)了很多AI輔助診斷產(chǎn)品。人類基因組測(cè)序技術(shù)的革新、生物醫(yī)學(xué)分析技術(shù)的進(jìn)步、以及大數(shù)據(jù)分析工具的出現(xiàn),為病人提供更精準(zhǔn)、高效、安全的診斷及治療。雖然,人工智能+影像領(lǐng)域也是參與企業(yè)最多,產(chǎn)品最豐富、涉及疾病種類最多的疾病診斷領(lǐng)域。,但是AI也能夠參與疾病的篩查和預(yù)測(cè)、寫結(jié)構(gòu)化的病歷、在基層擔(dān)任全科醫(yī)生助手的角色,AI在減少醫(yī)生工作時(shí)間、提高診斷治療效率方面起到非常大的作用。
邢波的研究團(tuán)隊(duì)認(rèn)為,他們工作的主要貢獻(xiàn)是:提出了一個(gè)多任務(wù)學(xué)習(xí)框架,可以同時(shí)預(yù)測(cè)標(biāo)簽和生成文本描述;引入一個(gè)用于定位異常區(qū)域的共同注意機(jī)制,并生成相應(yīng)的描述;建立一個(gè)分層的LSTM來產(chǎn)生長句和段落;進(jìn)行大量的定性和定量的實(shí)驗(yàn),以顯示實(shí)驗(yàn)方法的有效性。
雷鋒網(wǎng)認(rèn)為,邢波教授團(tuán)隊(duì)的研究成果不是第一家,相信也不會(huì)是最后一家。未來,隨著產(chǎn)品迭代的不斷升級(jí),算法層面的不斷打磨,醫(yī)學(xué)影像結(jié)構(gòu)化報(bào)告的生成方面的研究,將陸續(xù)有其他玩家進(jìn)入。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。