0
本文作者: 李雨晨 | 2019-03-15 18:45 |
雷鋒網(wǎng)消息,近年來,人工智能在醫(yī)學中的應用令人興奮,但當前的一個問題是人工智能算法缺乏適當?shù)呐R床驗證。近日,韓國泰安郡衛(wèi)生中心的Dong Wook Kim和蔚山大學醫(yī)學院放射學研究中心的Hye Young Jang、Kyung Won Kim、Youngbin Shin以及Seong Ho Park(通訊作者)等幾位醫(yī)學博士發(fā)表了一篇論文,來評估AI算法性能研究實驗的設計特征,這些AI算法基于醫(yī)學影像來提供診斷決策。
研究團隊通過檢索PubMed MEDLINE和Embase數(shù)據(jù)庫,以確定2018年1月1日至2018年8月17日期間發(fā)表的原始研究論文, 評估所選擇的文章有以下幾個條件:
1、該研究是否使用外部驗證而不是內(nèi)部驗證,并且在外部驗證的情況下,是否收集驗證數(shù)據(jù)
2、是否使用診斷隊列設計而不是診斷病例對照設計
3、是否來自多個機構
4、是否以前瞻性的方式
這些是在現(xiàn)實世界中用于臨床驗證AI性能的基本方法學特征。
確定了符合上述標準的研究后,研究團隊將出版期刊分為醫(yī)學期刊和非醫(yī)學期刊。 然后,比較醫(yī)學和非醫(yī)學期刊之間的結果。在516項符合條件的已發(fā)表研究中,只有6%(31項研究)進行了外部驗證。31項研究均未采用所有三種實驗設計條件:診斷隊列設計,包含多個機構,以及用于外部驗證的前瞻性數(shù)據(jù)收集。醫(yī)學和非醫(yī)學期刊之間沒有顯著差異。
研究團隊得出的結論是:幾乎所有在研究期間發(fā)表的醫(yī)學影像AI算法性能的評估實驗,都是為驗證技術概念的可行性而設計,沒有對AI算法在實際臨床環(huán)境下的性能進行嚴格驗證。
引言
由于深度學習技術的進步,人工智能(AI)在醫(yī)學中的應用引起了很多關注。值得注意的是,人們對使用AI進行各種醫(yī)學影像的診斷分析非常感興趣,主要是通過卷積神經(jīng)網(wǎng)絡,一種被稱為“計算機視覺”的深度學習技術。與任何其他醫(yī)療設備或技術一樣,通過充分設計的研究確?;颊叩睦婧桶踩?,同時避免任何無意的危害,在臨床實踐中采用AI算法進行全面臨床驗證的重要性不容小覷。
值得注意的是,在本研究中使用術語“驗證”來表示確認,就像在醫(yī)學領域中使用的那樣,而不是在機器學習領域中用作技術術語“算法調(diào)整”的意思。
AI技術的臨床驗證可以在不同的水平上進行:診斷性能,對患者結果的影響以及考慮 cost-benefit 和 cost-effectiveness 的社會效能(societal efficacy)。正確評估使用深度學習分析醫(yī)學圖像的高維AI算法的真實臨床性能需要適當設計的外部驗證。建議外部驗證使用重新招募的患者或提供訓練數(shù)據(jù)的機構以外的其他機構收集的足夠大小的數(shù)據(jù)集,以充分代表AI所應用的現(xiàn)實臨床環(huán)境中的目標患者表現(xiàn)譜(即患者人口統(tǒng)計學和疾病狀態(tài)的所有相關變化)。
此外,使用來自多個外部機構的數(shù)據(jù)對驗證非常重要,以驗證算法的泛化能力,應對各種醫(yī)院系統(tǒng)的預期變異性。復雜的數(shù)學/統(tǒng)計AI模型,例如分析醫(yī)學影像的深度學習算法,需要大量的數(shù)據(jù)用于算法訓練;制作和注釋這種量綱的醫(yī)學影像數(shù)據(jù)資源尤其緊張和困難。因此,開發(fā)此類AI算法的個體可能依賴于任何可用的數(shù)據(jù)(方法上稱為便利病例 - 對照數(shù)據(jù) convenience case-control data),盡管這些可能易于發(fā)生選擇偏倚和人為疾病流行(artificial disease prevalence),并且可能不能很好地代表實際臨床設置。由于AI算法的性能很大程度上取決于其訓練數(shù)據(jù),因此存在真正的風險,即AI算法在實際操作中可能表現(xiàn)不佳,并且在一個機構訓練的算法在應用于另一個機構的數(shù)據(jù)時提供不準確的結論。
盡管人工智能在醫(yī)學中的應用令人興奮,但人工智能算法缺乏適當?shù)呐R床驗證似乎是當前的一個問題,這種現(xiàn)象被稱為“數(shù)字例外論”(digital exceptionalism)。例如,計算機科學家通常會在“測試”數(shù)據(jù)集上評估AI算法的性能;然而,這些通常是原始數(shù)據(jù)集的隨機子樣本,因此,不可能對臨床表現(xiàn)進行充分的外部驗證。據(jù)我們所知,顯示這一顯著問題確切程度的具體數(shù)據(jù)很少。
本研究旨在評估最近發(fā)表的研究的實驗設計,這些研究報告了分析醫(yī)學影像的AI算法的性能,并確定研究設計是否適合于驗證AI算法在實際臨床中的表現(xiàn)。本研究中提到的研究實驗設計對于驗證AI的真實臨床表現(xiàn)至關重要,但對于驗證概念技術可行性研究而言則過多。由于并非每項關于使用AI進行醫(yī)學診斷的研究都是為了驗證實際的臨床表現(xiàn),本研究的目的并不是直截了當?shù)嘏袛嘁寻l(fā)表研究的方法學適用性。
材料和方法
文獻檢索與篩選
我們對PubMed MEDLINE和Embase數(shù)據(jù)庫進行了全面搜索,以確定調(diào)查AI算法性能的原始研究文章,該算法通過分析醫(yī)學影像來提供診斷決策(例如診斷或發(fā)現(xiàn)特定疾病,又或者是提供信息以根據(jù)特定疾病將患者分類為亞組疾病狀態(tài)、亞型、嚴重程度、階段、治療反應、預后和風險)。我們使用以下搜索查詢: (“artificial intelligence” OR “machine learning” OR “deep learning” OR “convolutional neural network”) 和 (diagnosis OR diagnostic OR diagnosing) 和 (accuracy OR performance OR “receiver operating” OR ROC OR AUC)。我們將檢索時間限制為2018年,以獲得及時的結果(文獻檢索更新至2018年8月17日)。印刷出版物和電子出版物都包括在內(nèi)。
在刪除兩個數(shù)據(jù)庫之間的重疊之后,由兩名獨立評審員篩選文章的資格。在一次會議上重新評估了任何程度模糊或在兩位審稿人之間產(chǎn)生意見分歧的文章,并邀請了第三位審稿人來達成一致。案例報告、評論文章、社論、信件、評論和會議摘要/程序被排除在外。我們的檢索僅限于人類類別和英語語言的研究。
我們將醫(yī)學圖像定義為放射圖像和其他醫(yī)學圖像(例如,內(nèi)窺鏡圖像,病理圖像和皮膚圖像),并且沒有考慮任何在時間上繪制一維數(shù)據(jù)的線條圖,例如,心電圖和A超。研究調(diào)查了結合醫(yī)學圖像和其他類型臨床數(shù)據(jù)的AI算法。沒有考慮除直接診斷決策之外的圖像相關任務的AI算法,例如圖像分割,定量測量和圖像采集/重建的增強。
數(shù)據(jù)提取
兩位評審員通過以下標準評估了符合條件的文章的全文:
1、該研究是否使用外部驗證而不是內(nèi)部驗證,并且在外部驗證的情況下,是否收集驗證數(shù)據(jù)
2、是否使用診斷隊列設計而不是診斷病例對照設計
3、是否來自多個機構
4、是否以前瞻性的方式
這些是在實際操作中推薦用于AI性能臨床驗證的基本方法學特征。這些問題中得到更多“是”的答案,則算法性能的實際應用越普遍。如果一項研究以多種方式驗證其AI性能,那么如果至少有一項分析使用了這些設計條件,則該研究對上述每個問題都會為“是”。我們寬泛地定義了“外部”,包括訓練數(shù)據(jù)和驗證數(shù)據(jù)來自不同機構,以及從同一機構但在不同時間收集訓練和驗證數(shù)據(jù)的情況,即使后者在嚴格意義上不被視為外部驗證。
對于在同一機構收集訓練和驗證數(shù)據(jù)集的研究,如果驗證數(shù)據(jù)集的臨床設置和患者資格標準與訓練數(shù)據(jù)集分開指定,則驗證數(shù)據(jù)僅被視為外部數(shù)據(jù)。這是為了確保驗證數(shù)據(jù)不僅僅是原始大數(shù)據(jù)集的分割子樣本,因為這會產(chǎn)生一種內(nèi)部驗證。診斷性隊列設計指該研究首先定義臨床環(huán)境和患者資格標準,然后連續(xù)或隨機招募患者以進行特定診斷程序,例如AI算法應用。相反,診斷病例對照設計將分別收集疾病陽性和疾病陰性受試者。診斷病例對照設計容易出現(xiàn)疾病譜偏倚,這可能導致對診斷性能的夸大估計和非自然流行,從而產(chǎn)生診斷性能的不確定性。
另外,我們注意到每篇文章的主題領域(例如,放射學,病理學和眼科學)并將出版期刊分類為醫(yī)學或非醫(yī)學期刊組。這些期刊主要根據(jù)期刊引用報告(JCR)2017版本類別進行分類。對于未包括在JCR數(shù)據(jù)庫中的期刊,如果期刊的范圍/目標包括任何醫(yī)學領域或主編是醫(yī)生,我們會提及期刊網(wǎng)站并將其歸類為醫(yī)學。對于任何程度模糊或在兩位獨立評審員之間產(chǎn)生意見分歧的文章都在包括第三位評審員在內(nèi)的共識會議上重新評估。
結果測量和統(tǒng)計分析
我們計算了進行外部驗證的研究百分比。對于報告外部驗證結果的研究,確定了涉及診斷隊列的實驗設計,包含多個機構以及外部驗證的前瞻性數(shù)據(jù)收集的研究比例。使用Fisher精確檢驗對醫(yī)學和非醫(yī)學期刊的結果進行了比較。 p <0.05被認為是顯著的。
結果
在去除PubMed MEDLINE和Embase之間的重疊后最初收集的2748篇文章中,最終有516篇文章符合條件(圖1,表1)。
表2列出了具有每種實驗設計的文章的比例,包括醫(yī)學和非醫(yī)學期刊的分類。 只有6%(516個中的31個)進行了外部驗證。 所有外部驗證研究均未采用所有三種實驗設計,即診斷隊列設計,包含多個機構和前瞻性數(shù)據(jù)收集。 醫(yī)學和非醫(yī)學期刊之間沒有顯著差異(表2)。
討論
我們的研究結果顯示,最近發(fā)表的研究報告了用于醫(yī)學影像診斷分析的AI算法的性能,但沒有嚴格驗證AI算法臨床性能的設計特征,這證實了主要期刊最近提出的擔憂。我們的研究沒有考慮人工智能研究的各種詳細的方法學質(zhì)量測量,而只是評估了主要的宏觀研究。因此,AI算法臨床驗證的不足程度可能更為顯著。
然而,應該指出的是,這些結果并不一定意味著已發(fā)表的研究各種方法設計不充分。本研究中使用的四個標準是旨在評估AI算法在實際臨床表現(xiàn)的基本要求。對于僅僅研究技術可行性的研究來說,這些要求將是過度的。讀者和研究者都應該區(qū)分概念驗證技術可行性研究和驗證AI臨床表現(xiàn)的研究,并且應該避免錯誤地考慮不符合上述標準的研究結果作為臨床驗證的合理證據(jù)。
最近發(fā)表了一些相關的方法指南。我們懷疑在本研究中分析的大多數(shù)研究可能是在這些方法指南可用之前構思或執(zhí)行的。因此,旨在評估醫(yī)學AI算法的臨床性能研究的實驗設計可能在未來得到改善。
在我們的研究中沒有直接解決但值得一提的另一個問題是:關于先驗分析計劃的透明度以及在驗證AI算法的臨床性能的研究中的所有結果的完整公布。
由于人工智能算法的表現(xiàn)可能因機構不同而有差別,一些研究人員或贊助商可能會傾向于選擇性地報告有利的結果,這會導致漏報不利的結果。前瞻性登記研究包括先驗分析計劃,類似于干預臨床試驗的登記(例如,在https://clinicaltrials.gov),將有助于提高這些研究的透明度。已經(jīng)提出了診斷測試準確性研究的前瞻性登記,其中包括用于驗證AI性能的研究。學術期刊采用這一政策有助于提高驗證AI算法臨床表現(xiàn)的研究報告的透明度。
我們目前的研究有一些局限性。
首先,研究數(shù)據(jù)的時效性很重要,因為人工智能是一個快速發(fā)展的領域,許多新研究正在發(fā)表,我們研究結果的有效期可能很短。但是我們希望很快醫(yī)學AI臨床表現(xiàn)的研究設計取得實質(zhì)性進展。盡管如此迅速的變化,我們的研究仍然是有意義的基線,可以進行比較以確定未來是否有任何改進,因為這里分析的大多數(shù)已發(fā)表的研究可能早于最近發(fā)布的相關方法指南。
其次,雖然本研究僅評估了AI診斷性能的研究報告,但AI的臨床驗證延伸到評估AI對患者預后的影響。然而,據(jù)我們所知,關于AI應用如何影響患者預后的研究很少,并且系統(tǒng)地審查已發(fā)表的研究是不可行的。
文章由雷鋒網(wǎng)AI掘金志學術組編譯,點擊可查看原文雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。