丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
醫(yī)療科技 正文
發(fā)私信給李雨晨
發(fā)送

1

思路清奇!南京鼓樓醫(yī)院醫(yī)療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準(zhǔn)確率近于100%

本文作者: 李雨晨 2019-06-20 10:21
導(dǎo)語:這是一個優(yōu)化醫(yī)學(xué)流程的獨特視角。

思路清奇!南京鼓樓醫(yī)院醫(yī)療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準(zhǔn)確率近于100%

過去幾年,AI在醫(yī)學(xué)影像方面取得了諸多成果。在影像學(xué)科的臨床工作流程中,肺部病變的良、惡性鑒別診斷,已經(jīng)成為AI創(chuàng)業(yè)公司爭先恐后涌入的賽道。但是,多數(shù)創(chuàng)業(yè)公司基本上是停留在后端的疾病診斷層面,在此之前的圖像采集、圖像呈現(xiàn)階段,其實都有文章可做。

雷鋒網(wǎng)了解到,近日,南京鼓樓醫(yī)院醫(yī)學(xué)影像科張冰團隊,在柳葉刀子刊EBiomedicine發(fā)表了一則AI醫(yī)療的新成果,直面影像科醫(yī)生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發(fā),提出了一種基于深度學(xué)習(xí)的智能成像排版系統(tǒng)(IILS),系統(tǒng)包括AI肺結(jié)節(jié)檢測和分類和自適應(yīng)排版工具,用于結(jié)節(jié)識別的成像報告標(biāo)準(zhǔn)化和工作流程優(yōu)化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當(dāng)肺結(jié)節(jié)的直徑小于1 cm時,相應(yīng)報告不能與排版結(jié)果100%匹配。 

據(jù)雷鋒網(wǎng)了解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數(shù)據(jù),可以適應(yīng)全自動或者半自動的影像學(xué)圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細(xì)內(nèi)容,由雷鋒網(wǎng)AI掘金志學(xué)術(shù)組編譯。關(guān)注AI掘金志公眾號,在對話框回復(fù)關(guān)鍵詞“南京鼓樓”,即可獲取原文PDF。

1、引言

臨床任務(wù)的一個典型例子是,分類并生成與肺結(jié)節(jié)的診斷密切相關(guān)的胸部CT圖像的布局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標(biāo)準(zhǔn)化缺乏:由于沒有標(biāo)準(zhǔn)化、科學(xué)驗證的方法評估結(jié)節(jié),試驗放射科醫(yī)師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結(jié)節(jié):如果干激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應(yīng)的結(jié)節(jié)(圖2),這是一個常見問題。

3、缺少關(guān)鍵圖像:在從CT掃描儀獲取圖像之后,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫(yī)生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關(guān)鍵信息的復(fù)雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經(jīng)常出現(xiàn)在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫(yī)院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅(qū)動器傳輸。然而,許多現(xiàn)代計算機沒有配備CD驅(qū)動器或醫(yī)院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫(yī)院都要進行掃描成像。

5、 缺乏對臨床醫(yī)生和患者需求的考慮(圖2):作為放射科醫(yī)師,幫助他人更容易閱讀和理解成像結(jié)果的機會尚未得到充分利用。因此,迫切需要具有關(guān)鍵圖像的電子報告和可視化結(jié)構(gòu)化報告來解決這些問題。

當(dāng)前,AI的應(yīng)用似乎忽略了兩個事實。首先,高質(zhì)量的標(biāo)準(zhǔn)化圖像是人工智能開發(fā)的基礎(chǔ),其次,AI可以接管簡單和重復(fù)的工作。

在這項研究中,我們尋求開發(fā)基于人工智能技術(shù)和自適應(yīng)布局工具融合的智能成像排版系統(tǒng)(IILS),以建立日常工作的新流程,并為放射科醫(yī)生和臨床醫(yī)生提供標(biāo)準(zhǔn)化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結(jié)節(jié)診斷效率的比較; ii)IILS可以優(yōu)化臨床工作流程的程度;iii)IILS的交叉制造適用性(cross-manufacture applicability)。

總之,我們認(rèn)為AI技術(shù)可以通過串聯(lián)連接集成到放射學(xué)工作流中,而不是基于簡單的并行關(guān)系來遵循傳統(tǒng)的工作流程。

思路清奇!南京鼓樓醫(yī)院醫(yī)療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準(zhǔn)確率近于100%

圖2.當(dāng)前的手工選片過程和日常工作中的相關(guān)問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應(yīng)報告不能與排版結(jié)果100%匹配,特別是當(dāng)肺結(jié)節(jié)的直徑小于1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm范圍內(nèi)的肺組織。因此,當(dāng)醫(yī)生獲得最終的圖像時會遇到以下問題:缺乏成像報告標(biāo)準(zhǔn)化、缺失結(jié)節(jié)、缺乏關(guān)鍵圖像以及缺乏對臨床醫(yī)生和患者需求的考慮。

思路清奇!南京鼓樓醫(yī)院醫(yī)療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準(zhǔn)確率近于100%

圖3. IILS的組成以及如何將其整合到當(dāng)前的成像過程中。新的IILS包括以下部分:一個是AI肺結(jié)節(jié)檢測和分類,另一個是自適應(yīng)排版工具,包括我們團隊發(fā)明的自動排版和可視化結(jié)構(gòu)化報告生成。為了確保圖像質(zhì)量和結(jié)果,我們有一位放射科醫(yī)生,他通常負(fù)責(zé)編寫報告,仔細(xì)檢查自動生成的結(jié)構(gòu)化報告和圖像排版結(jié)果。成像部門日常工作的整個過程包括以下關(guān)鍵步驟:i)獲?。簭牟煌R床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫(yī)師的圖像診斷,預(yù)測和評估。新型智能系統(tǒng)的應(yīng)用通過串聯(lián)而非并聯(lián)連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓(xùn)練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗?zāi)P秃晚椖考?xì)節(jié)

思路清奇!南京鼓樓醫(yī)院醫(yī)療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準(zhǔn)確率近于100%

圖4:數(shù)據(jù)流圖顯示了我們檢測結(jié)節(jié)和分類良性或惡性病例的方法。本研究采用的數(shù)據(jù)是從2016年10月到2018年11月,從五個主要的不同CT制造商處獲得的11205名患者、共3527048張胸部CT掃描圖像。

訓(xùn)練過程分為兩部分,分別由兩個訓(xùn)練隊列組成。通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)獲得兩個模型,通過5折交叉驗證進行性能評估,然后合并形成IILS的第一層,即用于檢測結(jié)節(jié)和分類病例的篩選部分。我們將最終的兩個模型部署到包含1965個病例的獨立隊列中,通過六位臨床專家對結(jié)節(jié)數(shù)量的一致性分析,以顯示我們IILS的可信度。

八名有3到25年胸部CT經(jīng)驗的專家作為檢查員參加了會議。為了在臨床專家的背景下評估我們的卷積神經(jīng)網(wǎng)絡(luò),我們使用1965名患者的獨立測試集來比較我們的網(wǎng)絡(luò)決策和人類專家的決策。隨機選擇作為受試者的1965名患者進行讀者間和讀者間再現(xiàn)性研究。

所有肺結(jié)節(jié)的數(shù)量的確定、良性和惡性結(jié)節(jié)的判斷由六位專家檢查兩次,間隔為1個月,以最小化記憶偏差。所有決策均由六位專家做出,用于讀者間的再現(xiàn)性分析。加權(quán)誤差評分用于反映假陰性結(jié)果(未做出決定)比假陽性結(jié)果更有害。使用這些加權(quán)懲罰點、計算模型和每個人類專家的錯誤率。

即使患者有較大的病變,我們也僅包括小于30 mm的結(jié)節(jié),其大小相當(dāng)于約30 mm的平均直徑,因為肺結(jié)節(jié)的定義是直徑小于3cm的病變。我們納入了疑似轉(zhuǎn)移的結(jié)節(jié)以及可能具有良性組織學(xué)特征的結(jié)節(jié)。然而,排除了粟粒性結(jié)核、間質(zhì)病變、結(jié)節(jié)病和重癥肺炎。

以下參數(shù)用于評估結(jié)節(jié)特征和圖像質(zhì)量對觀察者一致性的影響:總結(jié)節(jié)大?。ㄗ畲笾睆?,毫米)、結(jié)節(jié)類型、良性或惡性以及肺實質(zhì)內(nèi)結(jié)節(jié)的密度。從數(shù)據(jù)庫中提取參數(shù)結(jié)節(jié)大小、良性或惡性和類型。結(jié)節(jié)的密度由沒有參與閱讀過程的專家(H.Y 和H.W)測量。將兩個約1cm的感興趣區(qū)域放置在結(jié)節(jié)中的兩個均勻區(qū)域中,并且兩次測量中平均的Hounsfield units標(biāo)準(zhǔn)偏差是密度的度量。

2.3 病人分類

訓(xùn)練過程中的用例隨機分為訓(xùn)練集80%和驗證集20%(圖4)。訓(xùn)練集用于訓(xùn)練算法,驗證集用于模型選擇,測試集用于評估最終選擇的模型。在確定百分比分割時,目標(biāo)是為算法保留足夠的數(shù)據(jù)以進行訓(xùn)練,但是具有足夠的驗證和測試用例以保持模型準(zhǔn)確性的合理置信區(qū)間。 該數(shù)據(jù)集代表了在參與診所提供和接受治療的最常見的實性、鈣化或磨玻璃結(jié)節(jié)患者。

2.4 圖像標(biāo)注

在訓(xùn)練之前,每個圖像都經(jīng)過分層分級系統(tǒng),該系統(tǒng)由多級訓(xùn)練有素的評分者組成,他們具有逐級遞增的專業(yè)知識,可用于圖像標(biāo)簽的驗證和校正。導(dǎo)入數(shù)據(jù)庫的每個圖像都與患者最近診斷的標(biāo)簽相匹配。第一級評分員包括具有呼吸系統(tǒng)和成像基礎(chǔ)知識的成員。這一級評分員進行了初步的質(zhì)量控制,并排除了包含嚴(yán)重偽影或顯著降低圖像分辨率的胸部CT圖像。第二級評分員由兩位專家組成,他們對通過第一級的每張圖像進行獨立評分。記錄胸部CT圖像上是否存在實性,鈣化或磨玻璃結(jié)節(jié)和其他可見的病變。最后,第二層由兩名高級呼吸和成像專家組成,每位專家擁有超過15年的臨床呼吸和成像經(jīng)驗,獨立驗證每張圖像的真實標(biāo)簽。所有圖像的驗證子集由兩名專家分別評分,不一致的臨床標(biāo)簽由由高級專家仲裁,以解釋評分中的人為錯誤。

2.5 軟件支持

軟件系統(tǒng)的開發(fā)在Linux Ubuntu 18.04環(huán)境下進行。Pycharm 和 VS Code用作開發(fā)的IDE。Chrome調(diào)試器用于測試和調(diào)試UI / UX。 軟件的實現(xiàn)細(xì)節(jié)是保密的,以下部分主要描述了實現(xiàn)的設(shè)計和邏輯。

思路清奇!南京鼓樓醫(yī)院醫(yī)療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準(zhǔn)確率近于100%

圖5:排版示例加上可視化結(jié)構(gòu)報告以及與傳統(tǒng)排版和報告的比較。

(a)使用IILS選擇后的新圖像排版。新的排版圖像被分為三個部分(兩個紅框的區(qū)域,代表關(guān)鍵圖像所在的區(qū)域)。顯然,與(c)相比沒有無效圖像(標(biāo)有橙色下劃線)。排版第一部分開頭的五個小框依次顯示:1)肺窗條件下結(jié)節(jié)的最大橫截面切片的圖像(WW:1500; WL:-500),2)具有長徑和短徑測量數(shù)據(jù)的圖像,3)縱隔窗口條件下的結(jié)節(jié)圖像(WW:350,WL:50),4)結(jié)節(jié)的冠狀圖像重建,5)結(jié)節(jié)的矢狀圖像重建。第二部分是在縱隔窗口條件下每層間隔的一組圖像。最后一部分是一組薄層肺組織圖像,大約分為六層。另一個便利是,片子上任一單元格中的每個圖像都可以通過其切片ID進行跟蹤,并通過雙擊它來重定向到圖像集中的原始位置。還自動生成與片子相關(guān)的可視化結(jié)構(gòu)報告。有關(guān)詳細(xì)信息,請參見視頻2。

(b):如果患者沒有肺結(jié)節(jié),IILS給出的排版和報告將與傳統(tǒng)系統(tǒng)給出的相似。

(c):使用傳統(tǒng)的手工排版形式,表格分為兩部分。 前部包括縱隔組織圖像,后部是肺組織圖像。 傳統(tǒng)排版格式的主要問題是缺少關(guān)鍵圖像,各種無效圖像(一些帶橙色下劃線的圖像),以及缺少鏈接功能。 相關(guān)報告填充了文本,沒有生成結(jié)構(gòu)化報告。

2.6 自動排版

通過將固定輸出過程分成以下子任務(wù)來執(zhí)行自動排版:1,驗證; 2,輸出。在驗證任務(wù)中,我們的程序首先處理最重要的結(jié)節(jié),生成五個放大的輸出圖像,聚焦在結(jié)節(jié)上,同時突出顯示矩形,標(biāo)明肺窗形式的結(jié)節(jié)位置,長徑測量,縱隔窗 和兩個方向透視。 五個輸出圖像放置在第一行,然后是30個縱隔窗口圖像,其余的為肺窗口。 具體而言,第一部分五個網(wǎng)格是單個結(jié)節(jié)的自動排版,具有最高的惡性概率風(fēng)險,這可由AI預(yù)測。 五張圖片也可以由放射科醫(yī)師驗證和覆蓋。 自適應(yīng)排版工具的輸出包括兩個電子排片和一個由四組圖像組成的結(jié)構(gòu)化報告。

與傳統(tǒng)報告的比較,IILS提供了以下信息:i)基本信息顯示:患者信息,檢查信息,放射科醫(yī)師信息等。ii)結(jié)果(來自AI預(yù)測和放射科醫(yī)師的雙重確認(rèn)):標(biāo)準(zhǔn)化描述肺結(jié)節(jié)圖像,包括結(jié)節(jié)位置,形態(tài)和密度,圖像信息的層數(shù),結(jié)節(jié)長徑,體積,平均CT值,以及結(jié)節(jié)的惡性概率。此外,我們?yōu)榉派淇漆t(yī)師預(yù)留了足夠的空間,可以為其他病變編寫定期報告。 iii)診斷感想:由放射科醫(yī)師撰寫的診斷建議。肺部全部范圍的適應(yīng)性是主要關(guān)注點,其意味著五個圖像是否附在第一組,即 一組顯示結(jié)節(jié)的五種形式圖像具有最高的AI預(yù)測得分為惡性,符合我們的預(yù)設(shè)的將受到高度重視。驗證后,可以將排片導(dǎo)出為可打印格式,以便為放射科醫(yī)師和患者提供可視化信息,同時自動生成結(jié)構(gòu)報告。

我們還推斷一個好的排版系統(tǒng)主要包括以下三個主要內(nèi)容:1)任何可靠,客觀的測量數(shù)據(jù)的所有關(guān)鍵圖像; 2)顯示腫瘤特征的一系列圖像,包括形狀,數(shù)量,密度,大小,增強,多角度觀察和后續(xù)比較; 3)胸部縱隔窗和肺窗圖像連續(xù)顯示(圖5a-b)。 此外,我們手工顯示當(dāng)前排版形式的圖片,這在日常工作中作為比較非常普遍(圖5c)。

2.7 結(jié)構(gòu)化報告

結(jié)構(gòu)化報告生成程序旨在完成常見CT掃描場景中的完整工作流程(補充圖S2)。與傳統(tǒng)報告的比較,我們計劃為放射科醫(yī)師和患者提供圖像和結(jié)果的可視化。該計劃主要通過以下三個步驟進行:1,收集資源;2,渲染圖像;3,輸出。我們現(xiàn)在將詳細(xì)描述每個步驟。為了收集資源,我們需要在我們的程序中加載多個資源,包括DICOM圖像集、AI預(yù)測結(jié)節(jié)、患者/醫(yī)院信息,以及捕獲放射科醫(yī)師的結(jié)果和診斷感想。收集必要的資源后,我們繼續(xù)進行渲染部分。該程序?qū)⑹紫雀鶕?jù)其重要性對結(jié)節(jié)進行排序(由AI定義,但可以由操作員覆蓋),然后在相應(yīng)的圖像上使用矩形框渲染每個結(jié)節(jié)。該程序還放大了圖像并設(shè)置其中心,重點放在結(jié)節(jié)本身。渲染和轉(zhuǎn)換后,將觸發(fā)特殊事件偵聽器以通知程序捕獲渲染數(shù)據(jù)。最后,程序生成預(yù)定義的可打印輸出。

2.8 定量和統(tǒng)計分析

ROC曲線繪制了真陽性率(TPR,靈敏度)與假陽性率(1- 特異度)的關(guān)系曲線。通過將正確標(biāo)記的惡性結(jié)節(jié)的總數(shù)和正確標(biāo)記的良性結(jié)節(jié)的總數(shù)分別除以測試圖像的結(jié)節(jié)總數(shù)來確定靈敏度和特異度。連續(xù)變量被描述為平均值±標(biāo)準(zhǔn)誤差(SEM),并且分類變量被表示為諸如良性/惡性(B / M)的特征。將傳統(tǒng)圖像排版組與智能系統(tǒng)組和正常對照組之間的臨床特征通過Mann-Whitney U檢驗,卡方檢驗或Fisher精確檢驗進行比較。使用雙樣本Mann-Whitney U檢驗比較傳統(tǒng)排版組與智能布局組和正常對照組之間的差異。Kappa統(tǒng)計用于衡量兩個評估者之間的一致性程度,即AI和人類專家。kappa值至少為0.75表示良好的一致性。 然而,我們認(rèn)為較大的kappa值,例如0.90,是優(yōu)選的。雙尾P值<0.05被認(rèn)為具有統(tǒng)計學(xué)意義。

3、結(jié)果

3.1患者和圖像特征

具有四種不同結(jié)節(jié)大小的病例及其特征和演變表明隨訪的重要性(圖6a)。表1總結(jié)了用于訓(xùn)練、驗證和獨立測試數(shù)據(jù)集的患者和結(jié)節(jié)的特征。根據(jù)文獻,結(jié)節(jié)類型分為實性結(jié)節(jié)、鈣化結(jié)節(jié)和磨砂玻璃結(jié)節(jié)。工作流程圖的總體實驗設(shè)計如圖6b所示。

思路清奇!南京鼓樓醫(yī)院醫(yī)療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準(zhǔn)確率近于100%

圖6:應(yīng)用人工智能技術(shù)對不同大小肺結(jié)節(jié)的檢測過程進行了演示,并給出了整個實驗設(shè)計的流程圖。

3.2 模型設(shè)計和性能評估

IILS系統(tǒng)的核心設(shè)計是深度學(xué)習(xí)模型,該模型分為兩個部分,F(xiàn)aster RCNN和ResNet。Faster RCNN主要負(fù)責(zé)肺結(jié)節(jié)的檢測和定位。Faster RCNN 還有助于將肺結(jié)節(jié)分為以下幾類:0-3 mm、3-6mm、6-0mm、10-30mm肺結(jié)節(jié),實性結(jié)節(jié)、鈣化結(jié)節(jié)和磨砂玻璃結(jié)節(jié)(GGNs)。第二部分是ResNet,主要負(fù)責(zé)肺結(jié)節(jié)良惡性的分類。在第一部分中,關(guān)于特征提取,我們使用了ResNet-50 中的層conv4_x作為輸出。在我們的嘗試中,ResNet-50中的層conv4_x在檢測中表現(xiàn)出最佳性能。在區(qū)域建議網(wǎng)絡(luò)(RPN)中,采用二元交叉熵作為分類損失函數(shù),選取smooth L1損失函數(shù)作為回歸損失函數(shù)。模型的訓(xùn)練過程完善,曲線均達到收斂。該模型的訓(xùn)練過程是完美的,所有曲線均達到收斂。RPN的訓(xùn)練過程如圖7a-b所示,所有曲線收斂為零。這也表明我們的模型能夠很好地區(qū)分前景和背景,并提供了一個精確的前景邊界框。圖7c曲線也收斂到零,該曲線的收斂性表明,該模型能夠很好地區(qū)分7類肺結(jié)節(jié)。第二部分,我們用ResNet對結(jié)節(jié)良惡性進行了分類。為了獲得更準(zhǔn)確的模型并避免梯度分散等問題,我們選擇了ResNet。在IILS系統(tǒng)中,ResNet顯現(xiàn)出了優(yōu)異的分類性能。曲線的收斂代表了我們分類工作的成功;在模型精度方面,訓(xùn)練和驗證曲線均接近100%(訓(xùn)練過程為100%,驗證過程為97%)。在損失函數(shù)部分,曲線也顯示該模型在良惡性結(jié)節(jié)的分類上表現(xiàn)良好。

思路清奇!南京鼓樓醫(yī)院醫(yī)療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準(zhǔn)確率近于100%

圖7:檢測結(jié)節(jié)的訓(xùn)練過程的性能。

3.3 IILS與人類專家對結(jié)節(jié)診斷效率的比較

我們評估了我們的模型檢測和分類最常見的肺結(jié)節(jié)。該模型檢測并分類具有不同等級良性和惡性腫瘤結(jié)節(jié)的圖像作為“原發(fā)性結(jié)節(jié)”。這些情況需要相對緊急的轉(zhuǎn)診到相關(guān)的呼吸內(nèi)科醫(yī)生或胸外科醫(yī)生那里進行最終治療。該系統(tǒng)將具有良性肺或假陽性結(jié)節(jié)的圖像分類,其具有成為惡性腫瘤的可能性低,“僅在可視化結(jié)構(gòu)化報告中顯示”。在臨床工作中非常常見的微觀結(jié)節(jié)不適用于惡性腫瘤;因此,轉(zhuǎn)診給相關(guān)專家進行治療的緊迫性較小。

在這里,我們試圖解釋人工智能與人類專家相比在檢測肺結(jié)節(jié)方面的優(yōu)勢。在本研究中,我們采用了一種簡單直觀的方法,即對檢測到的結(jié)節(jié)與金標(biāo)準(zhǔn)篩選到的結(jié)節(jié)的一致性程度進行評估。以病理金標(biāo)準(zhǔn)為參照,分別采用Kappa一致性系數(shù)和Mann-Whitney U檢驗進行一致性分析。引人注目的是,除了AI之外,在所有成對比較中存在差異(AI為p=0.138,其他比較為p<0.001)。與人類專家相比,AI也可以與金標(biāo)準(zhǔn)檢測到的肺結(jié)節(jié)顯著一致,AI由于其最高的一致性系數(shù)而脫穎而出(AI kappa=0.94,其他比較p<0.001)。我們進一步比較了不同尺寸范圍內(nèi)檢測到的結(jié)節(jié)的一致性,并證明無論結(jié)核大小范圍如何,AI都顯示出超出人類專家的金標(biāo)準(zhǔn)更有利的一致性。

思路清奇!南京鼓樓醫(yī)院醫(yī)療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準(zhǔn)確率近于100%

圖10:應(yīng)用于五個不同制造商的成像設(shè)備時,AI在肺結(jié)節(jié)診斷一致性方面的表現(xiàn)。

3.4 IILS的交叉-設(shè)備適用性

既然AI已被證實在檢測結(jié)節(jié)方面優(yōu)于人類專家,無論大小如何,有必要從另一個角度來判斷AI的適用性?;旧?,AI的診斷取決于現(xiàn)有制造商生產(chǎn)的圖像;因此,評估不同制造商的圖像輸出對AI檢測到的結(jié)節(jié)的影響是合理的。為了在參考黃金標(biāo)準(zhǔn)的條件下探索AI對不同成像制造商的適應(yīng)性,通過Mann-Whitney U檢驗和kappa一致性分析,進一步評價AI與金標(biāo)準(zhǔn)診斷不同廠家不同大小結(jié)節(jié)的一致性??傮w而言,AI在五家制造商上配置良好,與黃金標(biāo)準(zhǔn)相比沒有差異(通用為p=0.576,飛利浦為p=0.472,西門子為p=0.988,東芝為p=0.376,聯(lián)影(UI)為p=0.343)。此外,實現(xiàn)了高一致性,kappa系數(shù)為0.87到0.99之間(圖10)。

思路清奇!南京鼓樓醫(yī)院醫(yī)療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準(zhǔn)確率近于100%

圖11 評估AI在識別良性或惡性病變中的表現(xiàn)

3.5 通過獨立數(shù)據(jù)驗證IILS在診斷方面優(yōu)于人類專家的表現(xiàn)

使用284例病理結(jié)果患者的獨立數(shù)據(jù)進行比較,使用相同的數(shù)據(jù)集比較惡性肺結(jié)節(jié)和良性結(jié)節(jié),以確定模型性能的準(zhǔn)確性。我們推斷,我們最初的預(yù)測模型完全適用于臨床,因為其ROC下面積對于惡性肺結(jié)節(jié)相對于良性肺結(jié)節(jié)高達90.6%(圖11a)。在0.5的評分截斷下,124例預(yù)測為真陽性,1479例為真陰性。約有38例被標(biāo)記為假陽性,181例為假陰性。敏感性76.5%,特異性89.1%(圖11b)。在另一組284例病理金標(biāo)準(zhǔn)患者中,模型和人類專家的預(yù)測性能在曲線上進行了比較,得出結(jié)論:人工智能在敏感性和特異性方面優(yōu)于其他6名專家。此外,與人類專家相比,人工智能顯示出最高的準(zhǔn)確性;正確預(yù)測248例(87.3%,預(yù)測為真陽性或真陰性的人數(shù)除以284),錯誤預(yù)測最少,36例(12.7%)。

3.6 自動自適應(yīng)布局工具的設(shè)計與評估

根據(jù)2018年NCCN指南的要求,我們與六位專家(三位放射科醫(yī)生和三位臨床醫(yī)生)進行了討論后,就良好的圖像布局形式達成了最終共識。為了模擬醫(yī)學(xué)成像部門胸部CT掃描后的日常工作結(jié)果,我們設(shè)計了一種自動自適應(yīng)布局工具,可以生成“自動膠片布局和肺結(jié)節(jié)結(jié)構(gòu)報告”,以連接到CNN網(wǎng)絡(luò)的輸出。自動自適應(yīng)布局工具可以導(dǎo)出關(guān)鍵肺結(jié)節(jié)圖像(具有增加的惡性風(fēng)險的結(jié)節(jié))的膠片布局并生成結(jié)構(gòu)化報告。兩種膠片布局都以固定格式使用(一部膠片上有5×8網(wǎng)格)。將180名患者的胸部CT圖像混合并連續(xù)輸入到IILS,以模擬來自不同制造商的圖像在日常工作中進入工作站的情況。評估了自適應(yīng)布局工具的特性以及是否可以成功布局。這180名患者的圖像總數(shù)為60660,包括縱隔12240例窗口圖像和48420張肺窗圖像。使用5點量表方法來最終判斷電子膠片的布局。

思路清奇!南京鼓樓醫(yī)院醫(yī)療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準(zhǔn)確率近于100%

表2:用于評估布局一致性和準(zhǔn)確性的五點量表。

思路清奇!南京鼓樓醫(yī)院醫(yī)療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準(zhǔn)確率近于100%

圖12 五家制造商的IILS部署量化。

3.7 五點量表評估高質(zhì)量的IILS

我們利用五點量表(表2)來評估IILS的質(zhì)量。在所有類型的制造商中,只有少數(shù)幾個分?jǐn)?shù)無法達到第四等級(圖12a)。正常布局情況下沒有發(fā)現(xiàn)遺漏,然而,與正常對照組相比(p=0.04)(圖12b),患者在第四區(qū)的幾個病例中出現(xiàn)了漏診。我們還比較了從每個量表得分中得出的總分,總的來說,西門子在使用IILS時效果最好??偡诛@示,與結(jié)節(jié)患者相比,IILS更適合無結(jié)節(jié)者(p=0.04)(圖12d)。

3.8 IILS與傳統(tǒng)工作站相比的優(yōu)點:更少的時間,沒有無效的圖像和零遺漏

考慮到需要點擊時間,五個主要廠商設(shè)備布局的平均點擊次數(shù)為14.45±0.34次。其中GE平均點擊量為14.37±0.89次,飛利浦為14.70±0.86次,西門子為14.57±0.87次,東芝為15.77±0.95次,UI為13.67±0.79次,IILS為2次(p<0.04)(圖13a)。在使用傳統(tǒng)工作站時,無論是患者還是無結(jié)節(jié)正常人,都需要比IILS更多的點擊量。IILS和傳統(tǒng)制造商在患者和正常人的圖像布局沒有顯著差異。通過不同廠家工作站的250例患者(每個廠家50例)的布局圖像,每個廠家50例患者所需時間分別為8分鐘(GE)、7.42分鐘(飛利浦)、8.87分鐘(西門子)、8.17分鐘(東芝)和8.63分鐘(UI)。傳統(tǒng)CT工作站的平均布局時間為16.87秒/患者。相比之下,IILS需要大約6.92秒/患者。與使用其他制造商工作站的患者和無結(jié)節(jié)相比,使用IILS的時間顯著減少。正如我們所料,IILS在患者和正常病例中比傳統(tǒng)工作站更有效。有趣的是,IILS在無結(jié)節(jié)病例上花費的時間更少,而傳統(tǒng)工作站需要更長的時間。

另外,對于兩種布局,我們比較了來自兩個不同布局系統(tǒng)的無效圖像。我們隨機收集了來自三個制造商工作站的50個布局結(jié)果,總共150個結(jié)果。在傳統(tǒng)的人工布局下,GE、Philips、UI患者的無效圖像分別為8.10±0·42、6.92±0·39、6.15±0·41,IILS患者為0。我們評估了膠片每個網(wǎng)格中的肺區(qū)域是否適合每個尺寸。所有的專家都主觀地認(rèn)為存在著顯著的差異。我們進一步研究兩種布置方法和工作流程是否會導(dǎo)致肺結(jié)節(jié)檢測的遺漏。兩名放射科醫(yī)生被要求指出兩個胸部CT片和不同平臺上報告的結(jié)節(jié)的位置。根據(jù)報告的描述,我們共發(fā)現(xiàn)318個不匹配的結(jié)節(jié),46.8%的患者未發(fā)現(xiàn)結(jié)節(jié),約為0.97/例。此外,327例患者中63例漏診為GGN。

3.9 IILS完全可重現(xiàn),防止人類測量的不穩(wěn)定性

我們從幾個方面比較了如何正確顯示結(jié)節(jié)的結(jié)果。由于金標(biāo)準(zhǔn)的缺乏,我們評估了哪種標(biāo)準(zhǔn)更穩(wěn)定或重現(xiàn)性更好。在這方面,總共選擇了8個肺結(jié)節(jié),即4個不同尺寸的2個結(jié)節(jié)(尺寸<3mm,3-6mm,6-10mm,10-3cm)。隨后,兩名放射學(xué)家被要求通過工作站,在不同時期10次反復(fù)測量這8個結(jié)節(jié)的大小和密度;IILS 的測量結(jié)果是100%可重復(fù)的,在多次測量中表現(xiàn)出完全的一致性,而由專家評估的測量則顯示出不同程度的波動。

3.10 人機耦合操作需要適應(yīng)過程

我們模擬了放射科醫(yī)師的正常工作場景,其中要求兩名放射科醫(yī)師在兩小時內(nèi)對284名患者中的盡可能多的患者做出判斷,使用傳統(tǒng)診斷或基于AI判斷的重新診斷,間隔時間為一個月。在使用AI判斷作為先驗信息后,在消耗時間、效率和絕對不匹配的結(jié)節(jié)方面有了顯著的改善(p<0.05)。具體來說,基于人工智能已有的判斷,兩位專家不僅減少了同一幅圖像的診斷時間,而且提高了單位時間內(nèi)的診斷效率。檢測誤差也明顯減小。使用AI后,兩位專家的檢測靈敏度都得到了提高,但專家2的特異性從99.2%下降到60%。

思路清奇!南京鼓樓醫(yī)院醫(yī)療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準(zhǔn)確率近于100%

表3:用于評定不同類型圖像布局組合的五點標(biāo)度。

3.11 專家和患者的滿意度都顯示出IILS的友好性

六位對原先結(jié)果不知情的專家評估了傳統(tǒng)系統(tǒng)和IILS的結(jié)果。我們建立了一個5點評分機制,用于評估由兩種不同布局系統(tǒng)生成的布局電子膠片和報告(表3)。專家對IILS進行了明顯更好的評價,所有5點中的3到4點高于傳統(tǒng)方法(p=7.674e-23)。相比之下,患者評分更加極端,表明報告的友好性非常重要(p=8.164e-25)。

3.12 IILS在LUNA16和LIDC/IDRI基準(zhǔn)上的性能評價

IILS的性能在兩個基準(zhǔn)數(shù)據(jù)庫上進行了評估,即LUNA16和LIDC/IDRI。Luna16(https://luna16.grand-challenge.org/)共888次CT掃描,最終得分為0.696(排名18)。我們在LIDC / IDRI 數(shù)據(jù)庫上進一步測試了我們的IILS ( https://wiki.CurraseIfgIsActuv.NET/DISPLAY/PARIS/LIDC-IDRI )有1018次CT 掃描,其包含更多的切片厚度類型并且更類似于真實的臨床環(huán)境。對于大于3mm的結(jié)節(jié),模型的召回率為88.75%,每例掃描的假陽性率為5.22。

4、討論

在本研究中,通過創(chuàng)建和部署深度神經(jīng)網(wǎng)絡(luò)算法,在有限的人類干涉下,我們的IILS模型展示了胸部CT圖像分析的競爭性性能。此外,機器學(xué)習(xí)技術(shù)用于圖像分析的功效可能超出了胸部CT圖像的范圍—原則上,通過AI和布局學(xué)習(xí)的技術(shù)可能潛在地用于多個學(xué)科的各種醫(yī)學(xué)圖像。

IILS的一個主要特點是幾乎實時地檢測肺部結(jié)節(jié)。這種實時性能是由于系統(tǒng)中的Faster RCNN模型。IILS的性能在很大程度上取決于通過訓(xùn)練模型檢測和分類結(jié)節(jié)的準(zhǔn)確性。雖然與金標(biāo)準(zhǔn)達成了很高的一致性,將AI應(yīng)用于UI在檢測小結(jié)節(jié)方面仍存在顯著差異,這可能是由于參加模型訓(xùn)練的樣本量?。ńY(jié)節(jié)數(shù)量,n=1119)造成的。

經(jīng)證實,在檢出結(jié)節(jié)數(shù)量和判斷良惡性方面,IILS優(yōu)于6名專家。根據(jù)目前構(gòu)建的模型,獲得的ROC曲線下面積達90.6%,具有一定的臨床應(yīng)用價值。經(jīng)過嚴(yán)格的統(tǒng)計檢驗,在結(jié)節(jié)檢出量和良惡性判斷方面,IILS優(yōu)于6名人類專家。補充表S6顯示了一些相關(guān)工作和比較結(jié)果。相比之下,實驗數(shù)據(jù)和CNN結(jié)構(gòu)的結(jié)果都取得了一定的進展,使我們對IILS的模型性能穩(wěn)定、可靠和高效充滿了希望。

IILS旨在用于日常實際工作中準(zhǔn)確檢測和分類結(jié)節(jié),并標(biāo)準(zhǔn)化胸部CT圖像和報告。這種布局的優(yōu)點是簡化了醫(yī)生仔細(xì)翻看圖像,找到有關(guān)鍵圖像的肺結(jié)節(jié)的過程。為優(yōu)化IILS,我們評估了其在布局部件中的性能。憑借AI接近100%的成功率,整個多平面重建程序設(shè)計可以自動完成。多平面重建對臨床醫(yī)生從多個角度觀察肺結(jié)節(jié),做出最終診斷,評估和跟蹤肺結(jié)節(jié)至關(guān)重要。

IILS與傳統(tǒng)布局系統(tǒng)之間存在十四個差異。其中,內(nèi)容分為三個部分。第一部分側(cè)重于使運營商受益。IILS可能有機會降低成本,包括提高CT利用效率,替代低成本資源甚至取代某些業(yè)務(wù)。第二部分包括第四至第十一點的內(nèi)容,這些差異主要集中在最終產(chǎn)出的差異,兩種電子膠片加上兩種不同系統(tǒng)產(chǎn)生的一種相應(yīng)的報告。盡管IILS制作的電子膠片布局是從傳統(tǒng)方式的兩個部分演變?yōu)槿齻€部分,其中前五個小網(wǎng)格僅用于顯示在不同呈現(xiàn)形式下具有最高惡性風(fēng)險的一個結(jié)節(jié),這將有助于IILS比傳統(tǒng)方法更經(jīng)常地獲得有效圖像,從而提高了效率。

此外,還出現(xiàn)了一個有趣的現(xiàn)象。驗證在我們的自適應(yīng)工具的表現(xiàn)中,我們從臨床醫(yī)學(xué)報告的結(jié)果中隨機選擇了來自對照組的327例病例,這些病例報道沒有肺結(jié)節(jié)。然而,在重新測試的過程中,我們發(fā)現(xiàn)在153例(46.8%)中實際錯過了318個結(jié)節(jié)。錯過的結(jié)節(jié)主要集中在3-6毫米而不是<3毫米的,主要類型的缺失結(jié)節(jié)是鈣化結(jié)節(jié)而不是磨砂玻璃結(jié)節(jié)。這個問題的可能原因是,在傳統(tǒng)的母語中,鈣化結(jié)節(jié)可能被“舊病變”所取代,而“磨玻璃結(jié)節(jié)”則沒有同義詞。

第六點為多維結(jié)節(jié);根據(jù)基線和隨訪CT的結(jié)節(jié)直徑和時間間隔的差異可以觀察和估計結(jié)節(jié)的大小在這兩種掃描之間,腫瘤呈均勻的三維生長。然而,由于繁重的體力勞動,無法對關(guān)鍵的肺結(jié)節(jié)進行三維重建。因此,我們增加了一種自動多維觀察方法,以最大限度地減少誤診率。

第三部分包括第十二至第十四點的內(nèi)容,比較了IILS和傳統(tǒng)工作站對所有醫(yī)生和病人的影響。我們的研究結(jié)果表明,所有醫(yī)生和患者對IILS的輸出感到滿意。然而,在以經(jīng)驗為導(dǎo)向的閱讀習(xí)慣方面,人工智能在人類專家中的有效性仍然存在差異。在我們的研究中,一名資深放射科醫(yī)生(專家1)似乎對人工智能預(yù)測肺結(jié)節(jié)的信心較低,即使IILS做出了判斷,也會仔細(xì)遵循閱讀習(xí)慣瀏覽圖像。應(yīng)用人工智能前后,在效率、消耗時間、結(jié)節(jié)絕對不匹配等方面均有顯著差異。有趣的是,在敏感性和特異性方面沒有發(fā)現(xiàn)明顯的改善。相比之下,初級放射科醫(yī)生(專家2)似乎在很大程度上信任人工智能。我們推測,人機耦合操作可能仍然需要一個適應(yīng)過程。

雖然結(jié)果很有希望,但我們的研究有一些局限性。在這項試驗研究中,脊柱側(cè)凸患者、原發(fā)性或繼發(fā)性胸部畸形患者和接受胸外科手術(shù)的患者的圖像不包括在訓(xùn)練和測試集中。因此,需要進一步的臨床收集和測試來評估各種形式的胸腔的臨床準(zhǔn)確性。由于胸廓畸形的發(fā)生率相對較低,這種影響不會影響我們的總體結(jié)論。臨床試驗研究在兩年內(nèi)進行,IILS正常運作六個月。但是,需要對新系統(tǒng)進行進一步評估,以評估長期準(zhǔn)確性和穩(wěn)定性。

此外,IILS僅限于解決成人肺結(jié)節(jié)的CT圖像問題,而不是嬰兒,由于嬰兒很少出現(xiàn)肺結(jié)節(jié)。在各種環(huán)境條件下還需要進行更多測試,例如,在極冷、炎熱、干燥和潮濕的環(huán)境中進行測試。還需要測試具有一些噪聲的圖像以評估系統(tǒng)的穩(wěn)健性。事實上,圖像不完整的患者被納入系統(tǒng),最終導(dǎo)致異常。因此,在處理特殊圖像,例如不完整圖像,空白圖像或不正確圖像時,當(dāng)前系統(tǒng)仍有改進的空間,可以引入諸如完整性掃描和灰度確認(rèn)之類的算法。另外,目前,IILS只能在胸部進行。未來的工作可能包括將設(shè)備應(yīng)用于身體其他部位的圖像。

總之,IILS的性能優(yōu)于傳統(tǒng)系統(tǒng),并提供了一種比現(xiàn)有技術(shù)更經(jīng)濟、設(shè)計更合適的替代方法,以優(yōu)化肺部結(jié)節(jié)的CT布局,節(jié)省費用和提高效率。由于基于自動AI的標(biāo)準(zhǔn)化電子膠片和可視化結(jié)構(gòu)化報告生成,可能會在日常工作流程中建立一個新的標(biāo)準(zhǔn)和一個新的放射學(xué)工作流程,并且不需要一些相關(guān)的操作員。

為了提供一個可以引用的基準(zhǔn),我們在兩個基準(zhǔn)數(shù)據(jù)庫上評估了我們的IILS的性能。正如預(yù)期的那樣,我們得到了相對較高水平的假陽性,特別是LUNA16,因為在預(yù)測中,小尺寸的結(jié)節(jié)被視為假陽性。我們認(rèn)為,設(shè)計的最優(yōu)診斷模型通常是針對特定群體的,因為我們采用的所有訓(xùn)練圖像都來自中國,而LUNA16數(shù)據(jù)庫收集的數(shù)據(jù)集僅從美國中收集,且沒有任何<3mm結(jié)節(jié)的標(biāo)簽。

綜合而言,IILS提供了一種簡單、準(zhǔn)確的方法來檢測、分類和布局肺結(jié)節(jié)的CT圖像,以提高對中國人群的診斷。因此,IILS為人工智能的臨床應(yīng)用打開了新的窗口,可能是改善全球醫(yī)療質(zhì)量不平衡的有效途徑。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說