丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
醫(yī)療科技 正文
發(fā)私信給李雨晨
發(fā)送

0

韓國科研團(tuán)隊(duì):超90%的醫(yī)學(xué)影像AI論文未在臨床環(huán)境進(jìn)行嚴(yán)格驗(yàn)證

本文作者: 李雨晨 2019-03-15 18:45
導(dǎo)語:幾乎所有在研究期間發(fā)表的醫(yī)學(xué)影像AI算法性能的評估實(shí)驗(yàn),都是為驗(yàn)證技術(shù)概念的可行性而設(shè)計(jì),沒有對AI算法在實(shí)際臨床環(huán)境下的性能進(jìn)行嚴(yán)格驗(yàn)證。

雷鋒網(wǎng)消息,近年來,人工智能在醫(yī)學(xué)中的應(yīng)用令人興奮,但當(dāng)前的一個(gè)問題是人工智能算法缺乏適當(dāng)?shù)呐R床驗(yàn)證。近日,韓國泰安郡衛(wèi)生中心的Dong Wook Kim和蔚山大學(xué)醫(yī)學(xué)院放射學(xué)研究中心的Hye Young Jang、Kyung Won Kim、Youngbin Shin以及Seong Ho Park(通訊作者)等幾位醫(yī)學(xué)博士發(fā)表了一篇論文,來評估AI算法性能研究實(shí)驗(yàn)的設(shè)計(jì)特征,這些AI算法基于醫(yī)學(xué)影像來提供診斷決策。

研究團(tuán)隊(duì)通過檢索PubMed MEDLINE和Embase數(shù)據(jù)庫,以確定2018年1月1日至2018年8月17日期間發(fā)表的原始研究論文, 評估所選擇的文章有以下幾個(gè)條件:

1、該研究是否使用外部驗(yàn)證而不是內(nèi)部驗(yàn)證,并且在外部驗(yàn)證的情況下,是否收集驗(yàn)證數(shù)據(jù)

2、是否使用診斷隊(duì)列設(shè)計(jì)而不是診斷病例對照設(shè)計(jì)

3、是否來自多個(gè)機(jī)構(gòu)

4、是否以前瞻性的方式

這些是在現(xiàn)實(shí)世界中用于臨床驗(yàn)證AI性能的基本方法學(xué)特征。

確定了符合上述標(biāo)準(zhǔn)的研究后,研究團(tuán)隊(duì)將出版期刊分為醫(yī)學(xué)期刊和非醫(yī)學(xué)期刊。 然后,比較醫(yī)學(xué)和非醫(yī)學(xué)期刊之間的結(jié)果。在516項(xiàng)符合條件的已發(fā)表研究中,只有6%(31項(xiàng)研究)進(jìn)行了外部驗(yàn)證。31項(xiàng)研究均未采用所有三種實(shí)驗(yàn)設(shè)計(jì)條件:診斷隊(duì)列設(shè)計(jì),包含多個(gè)機(jī)構(gòu),以及用于外部驗(yàn)證的前瞻性數(shù)據(jù)收集。醫(yī)學(xué)和非醫(yī)學(xué)期刊之間沒有顯著差異。

研究團(tuán)隊(duì)得出的結(jié)論是:幾乎所有在研究期間發(fā)表的醫(yī)學(xué)影像AI算法性能的評估實(shí)驗(yàn),都是為驗(yàn)證技術(shù)概念的可行性而設(shè)計(jì),沒有對AI算法在實(shí)際臨床環(huán)境下的性能進(jìn)行嚴(yán)格驗(yàn)證。

引言

由于深度學(xué)習(xí)技術(shù)的進(jìn)步,人工智能(AI)在醫(yī)學(xué)中的應(yīng)用引起了很多關(guān)注。值得注意的是,人們對使用AI進(jìn)行各種醫(yī)學(xué)影像的診斷分析非常感興趣,主要是通過卷積神經(jīng)網(wǎng)絡(luò),一種被稱為“計(jì)算機(jī)視覺”的深度學(xué)習(xí)技術(shù)。與任何其他醫(yī)療設(shè)備或技術(shù)一樣,通過充分設(shè)計(jì)的研究確保患者的利益和安全,同時(shí)避免任何無意的危害,在臨床實(shí)踐中采用AI算法進(jìn)行全面臨床驗(yàn)證的重要性不容小覷。

值得注意的是,在本研究中使用術(shù)語“驗(yàn)證”來表示確認(rèn),就像在醫(yī)學(xué)領(lǐng)域中使用的那樣,而不是在機(jī)器學(xué)習(xí)領(lǐng)域中用作技術(shù)術(shù)語“算法調(diào)整”的意思。

AI技術(shù)的臨床驗(yàn)證可以在不同的水平上進(jìn)行:診斷性能,對患者結(jié)果的影響以及考慮 cost-benefit 和 cost-effectiveness 的社會(huì)效能(societal efficacy)。正確評估使用深度學(xué)習(xí)分析醫(yī)學(xué)圖像的高維AI算法的真實(shí)臨床性能需要適當(dāng)設(shè)計(jì)的外部驗(yàn)證。建議外部驗(yàn)證使用重新招募的患者或提供訓(xùn)練數(shù)據(jù)的機(jī)構(gòu)以外的其他機(jī)構(gòu)收集的足夠大小的數(shù)據(jù)集,以充分代表AI所應(yīng)用的現(xiàn)實(shí)臨床環(huán)境中的目標(biāo)患者表現(xiàn)譜(即患者人口統(tǒng)計(jì)學(xué)和疾病狀態(tài)的所有相關(guān)變化)。

此外,使用來自多個(gè)外部機(jī)構(gòu)的數(shù)據(jù)對驗(yàn)證非常重要,以驗(yàn)證算法的泛化能力,應(yīng)對各種醫(yī)院系統(tǒng)的預(yù)期變異性。復(fù)雜的數(shù)學(xué)/統(tǒng)計(jì)AI模型,例如分析醫(yī)學(xué)影像的深度學(xué)習(xí)算法,需要大量的數(shù)據(jù)用于算法訓(xùn)練;制作和注釋這種量綱的醫(yī)學(xué)影像數(shù)據(jù)資源尤其緊張和困難。因此,開發(fā)此類AI算法的個(gè)體可能依賴于任何可用的數(shù)據(jù)(方法上稱為便利病例 - 對照數(shù)據(jù) convenience case-control data),盡管這些可能易于發(fā)生選擇偏倚和人為疾病流行(artificial disease prevalence),并且可能不能很好地代表實(shí)際臨床設(shè)置。由于AI算法的性能很大程度上取決于其訓(xùn)練數(shù)據(jù),因此存在真正的風(fēng)險(xiǎn),即AI算法在實(shí)際操作中可能表現(xiàn)不佳,并且在一個(gè)機(jī)構(gòu)訓(xùn)練的算法在應(yīng)用于另一個(gè)機(jī)構(gòu)的數(shù)據(jù)時(shí)提供不準(zhǔn)確的結(jié)論。

盡管人工智能在醫(yī)學(xué)中的應(yīng)用令人興奮,但人工智能算法缺乏適當(dāng)?shù)呐R床驗(yàn)證似乎是當(dāng)前的一個(gè)問題,這種現(xiàn)象被稱為“數(shù)字例外論”(digital exceptionalism)。例如,計(jì)算機(jī)科學(xué)家通常會(huì)在“測試”數(shù)據(jù)集上評估AI算法的性能;然而,這些通常是原始數(shù)據(jù)集的隨機(jī)子樣本,因此,不可能對臨床表現(xiàn)進(jìn)行充分的外部驗(yàn)證。據(jù)我們所知,顯示這一顯著問題確切程度的具體數(shù)據(jù)很少。

本研究旨在評估最近發(fā)表的研究的實(shí)驗(yàn)設(shè)計(jì),這些研究報(bào)告了分析醫(yī)學(xué)影像的AI算法的性能,并確定研究設(shè)計(jì)是否適合于驗(yàn)證AI算法在實(shí)際臨床中的表現(xiàn)。本研究中提到的研究實(shí)驗(yàn)設(shè)計(jì)對于驗(yàn)證AI的真實(shí)臨床表現(xiàn)至關(guān)重要,但對于驗(yàn)證概念技術(shù)可行性研究而言則過多。由于并非每項(xiàng)關(guān)于使用AI進(jìn)行醫(yī)學(xué)診斷的研究都是為了驗(yàn)證實(shí)際的臨床表現(xiàn),本研究的目的并不是直截了當(dāng)?shù)嘏袛嘁寻l(fā)表研究的方法學(xué)適用性。

材料和方法

文獻(xiàn)檢索與篩選

我們對PubMed MEDLINE和Embase數(shù)據(jù)庫進(jìn)行了全面搜索,以確定調(diào)查AI算法性能的原始研究文章,該算法通過分析醫(yī)學(xué)影像來提供診斷決策(例如診斷或發(fā)現(xiàn)特定疾病,又或者是提供信息以根據(jù)特定疾病將患者分類為亞組疾病狀態(tài)、亞型、嚴(yán)重程度、階段、治療反應(yīng)、預(yù)后和風(fēng)險(xiǎn))。我們使用以下搜索查詢: (“artificial intelligence” OR “machine learning” OR “deep learning” OR “convolutional neural network”) 和 (diagnosis OR diagnostic OR diagnosing) 和 (accuracy OR performance OR “receiver operating” OR ROC OR AUC)。我們將檢索時(shí)間限制為2018年,以獲得及時(shí)的結(jié)果(文獻(xiàn)檢索更新至2018年8月17日)。印刷出版物和電子出版物都包括在內(nèi)。

在刪除兩個(gè)數(shù)據(jù)庫之間的重疊之后,由兩名獨(dú)立評審員篩選文章的資格。在一次會(huì)議上重新評估了任何程度模糊或在兩位審稿人之間產(chǎn)生意見分歧的文章,并邀請了第三位審稿人來達(dá)成一致。案例報(bào)告、評論文章、社論、信件、評論和會(huì)議摘要/程序被排除在外。我們的檢索僅限于人類類別和英語語言的研究。

我們將醫(yī)學(xué)圖像定義為放射圖像和其他醫(yī)學(xué)圖像(例如,內(nèi)窺鏡圖像,病理圖像和皮膚圖像),并且沒有考慮任何在時(shí)間上繪制一維數(shù)據(jù)的線條圖,例如,心電圖和A超。研究調(diào)查了結(jié)合醫(yī)學(xué)圖像和其他類型臨床數(shù)據(jù)的AI算法。沒有考慮除直接診斷決策之外的圖像相關(guān)任務(wù)的AI算法,例如圖像分割,定量測量和圖像采集/重建的增強(qiáng)。

數(shù)據(jù)提取

兩位評審員通過以下標(biāo)準(zhǔn)評估了符合條件的文章的全文:

1、該研究是否使用外部驗(yàn)證而不是內(nèi)部驗(yàn)證,并且在外部驗(yàn)證的情況下,是否收集驗(yàn)證數(shù)據(jù)

2、是否使用診斷隊(duì)列設(shè)計(jì)而不是診斷病例對照設(shè)計(jì)

3、是否來自多個(gè)機(jī)構(gòu)

4、是否以前瞻性的方式

這些是在實(shí)際操作中推薦用于AI性能臨床驗(yàn)證的基本方法學(xué)特征。這些問題中得到更多“是”的答案,則算法性能的實(shí)際應(yīng)用越普遍。如果一項(xiàng)研究以多種方式驗(yàn)證其AI性能,那么如果至少有一項(xiàng)分析使用了這些設(shè)計(jì)條件,則該研究對上述每個(gè)問題都會(huì)為“是”。我們寬泛地定義了“外部”,包括訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)來自不同機(jī)構(gòu),以及從同一機(jī)構(gòu)但在不同時(shí)間收集訓(xùn)練和驗(yàn)證數(shù)據(jù)的情況,即使后者在嚴(yán)格意義上不被視為外部驗(yàn)證。

對于在同一機(jī)構(gòu)收集訓(xùn)練和驗(yàn)證數(shù)據(jù)集的研究,如果驗(yàn)證數(shù)據(jù)集的臨床設(shè)置和患者資格標(biāo)準(zhǔn)與訓(xùn)練數(shù)據(jù)集分開指定,則驗(yàn)證數(shù)據(jù)僅被視為外部數(shù)據(jù)。這是為了確保驗(yàn)證數(shù)據(jù)不僅僅是原始大數(shù)據(jù)集的分割子樣本,因?yàn)檫@會(huì)產(chǎn)生一種內(nèi)部驗(yàn)證。診斷性隊(duì)列設(shè)計(jì)指該研究首先定義臨床環(huán)境和患者資格標(biāo)準(zhǔn),然后連續(xù)或隨機(jī)招募患者以進(jìn)行特定診斷程序,例如AI算法應(yīng)用。相反,診斷病例對照設(shè)計(jì)將分別收集疾病陽性和疾病陰性受試者。診斷病例對照設(shè)計(jì)容易出現(xiàn)疾病譜偏倚,這可能導(dǎo)致對診斷性能的夸大估計(jì)和非自然流行,從而產(chǎn)生診斷性能的不確定性。

另外,我們注意到每篇文章的主題領(lǐng)域(例如,放射學(xué),病理學(xué)和眼科學(xué))并將出版期刊分類為醫(yī)學(xué)或非醫(yī)學(xué)期刊組。這些期刊主要根據(jù)期刊引用報(bào)告(JCR)2017版本類別進(jìn)行分類。對于未包括在JCR數(shù)據(jù)庫中的期刊,如果期刊的范圍/目標(biāo)包括任何醫(yī)學(xué)領(lǐng)域或主編是醫(yī)生,我們會(huì)提及期刊網(wǎng)站并將其歸類為醫(yī)學(xué)。對于任何程度模糊或在兩位獨(dú)立評審員之間產(chǎn)生意見分歧的文章都在包括第三位評審員在內(nèi)的共識會(huì)議上重新評估。

結(jié)果測量和統(tǒng)計(jì)分析

我們計(jì)算了進(jìn)行外部驗(yàn)證的研究百分比。對于報(bào)告外部驗(yàn)證結(jié)果的研究,確定了涉及診斷隊(duì)列的實(shí)驗(yàn)設(shè)計(jì),包含多個(gè)機(jī)構(gòu)以及外部驗(yàn)證的前瞻性數(shù)據(jù)收集的研究比例。使用Fisher精確檢驗(yàn)對醫(yī)學(xué)和非醫(yī)學(xué)期刊的結(jié)果進(jìn)行了比較。 p <0.05被認(rèn)為是顯著的。

結(jié)果

在去除PubMed MEDLINE和Embase之間的重疊后最初收集的2748篇文章中,最終有516篇文章符合條件(圖1,表1)。

韓國科研團(tuán)隊(duì):超90%的醫(yī)學(xué)影像AI論文未在臨床環(huán)境進(jìn)行嚴(yán)格驗(yàn)證

表2列出了具有每種實(shí)驗(yàn)設(shè)計(jì)的文章的比例,包括醫(yī)學(xué)和非醫(yī)學(xué)期刊的分類。 只有6%(516個(gè)中的31個(gè))進(jìn)行了外部驗(yàn)證。 所有外部驗(yàn)證研究均未采用所有三種實(shí)驗(yàn)設(shè)計(jì),即診斷隊(duì)列設(shè)計(jì),包含多個(gè)機(jī)構(gòu)和前瞻性數(shù)據(jù)收集。 醫(yī)學(xué)和非醫(yī)學(xué)期刊之間沒有顯著差異(表2)。

韓國科研團(tuán)隊(duì):超90%的醫(yī)學(xué)影像AI論文未在臨床環(huán)境進(jìn)行嚴(yán)格驗(yàn)證

討論

我們的研究結(jié)果顯示,最近發(fā)表的研究報(bào)告了用于醫(yī)學(xué)影像診斷分析的AI算法的性能,但沒有嚴(yán)格驗(yàn)證AI算法臨床性能的設(shè)計(jì)特征,這證實(shí)了主要期刊最近提出的擔(dān)憂。我們的研究沒有考慮人工智能研究的各種詳細(xì)的方法學(xué)質(zhì)量測量,而只是評估了主要的宏觀研究。因此,AI算法臨床驗(yàn)證的不足程度可能更為顯著。

然而,應(yīng)該指出的是,這些結(jié)果并不一定意味著已發(fā)表的研究各種方法設(shè)計(jì)不充分。本研究中使用的四個(gè)標(biāo)準(zhǔn)是旨在評估AI算法在實(shí)際臨床表現(xiàn)的基本要求。對于僅僅研究技術(shù)可行性的研究來說,這些要求將是過度的。讀者和研究者都應(yīng)該區(qū)分概念驗(yàn)證技術(shù)可行性研究和驗(yàn)證AI臨床表現(xiàn)的研究,并且應(yīng)該避免錯(cuò)誤地考慮不符合上述標(biāo)準(zhǔn)的研究結(jié)果作為臨床驗(yàn)證的合理證據(jù)。

最近發(fā)表了一些相關(guān)的方法指南。我們懷疑在本研究中分析的大多數(shù)研究可能是在這些方法指南可用之前構(gòu)思或執(zhí)行的。因此,旨在評估醫(yī)學(xué)AI算法的臨床性能研究的實(shí)驗(yàn)設(shè)計(jì)可能在未來得到改善。

在我們的研究中沒有直接解決但值得一提的另一個(gè)問題是:關(guān)于先驗(yàn)分析計(jì)劃的透明度以及在驗(yàn)證AI算法的臨床性能的研究中的所有結(jié)果的完整公布。

由于人工智能算法的表現(xiàn)可能因機(jī)構(gòu)不同而有差別,一些研究人員或贊助商可能會(huì)傾向于選擇性地報(bào)告有利的結(jié)果,這會(huì)導(dǎo)致漏報(bào)不利的結(jié)果。前瞻性登記研究包括先驗(yàn)分析計(jì)劃,類似于干預(yù)臨床試驗(yàn)的登記(例如,在https://clinicaltrials.gov),將有助于提高這些研究的透明度。已經(jīng)提出了診斷測試準(zhǔn)確性研究的前瞻性登記,其中包括用于驗(yàn)證AI性能的研究。學(xué)術(shù)期刊采用這一政策有助于提高驗(yàn)證AI算法臨床表現(xiàn)的研究報(bào)告的透明度。

我們目前的研究有一些局限性。

首先,研究數(shù)據(jù)的時(shí)效性很重要,因?yàn)槿斯ぶ悄苁且粋€(gè)快速發(fā)展的領(lǐng)域,許多新研究正在發(fā)表,我們研究結(jié)果的有效期可能很短。但是我們希望很快醫(yī)學(xué)AI臨床表現(xiàn)的研究設(shè)計(jì)取得實(shí)質(zhì)性進(jìn)展。盡管如此迅速的變化,我們的研究仍然是有意義的基線,可以進(jìn)行比較以確定未來是否有任何改進(jìn),因?yàn)檫@里分析的大多數(shù)已發(fā)表的研究可能早于最近發(fā)布的相關(guān)方法指南。

其次,雖然本研究僅評估了AI診斷性能的研究報(bào)告,但AI的臨床驗(yàn)證延伸到評估AI對患者預(yù)后的影響。然而,據(jù)我們所知,關(guān)于AI應(yīng)用如何影響患者預(yù)后的研究很少,并且系統(tǒng)地審查已發(fā)表的研究是不可行的。

文章由雷鋒網(wǎng)AI掘金志學(xué)術(shù)組編譯,點(diǎn)擊可查看原文雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

醫(yī)療&金融頻道主編

專注醫(yī)療健康與金融科技的數(shù)智化原創(chuàng)報(bào)道 |微信:Gru1993
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說