0
本文作者: 我在思考中 | 2021-12-20 11:43 |
編譯 | 王曄
文中探討了高維臨床影像數(shù)據(jù)所面臨的特有挑戰(zhàn),并強(qiáng)調(diào)了開發(fā)機(jī)器學(xué)習(xí)系統(tǒng)所涉及的一些技術(shù)和倫理方面的考慮,更好地體現(xiàn)了影像模式的高維性質(zhì)。此外,他們認(rèn)為嘗試解決可解釋性、不確定性和偏見的方法應(yīng)被視為所有臨床機(jī)器學(xué)習(xí)系統(tǒng)的核心組成部分。
原文鏈接:https://www.nature.com/articles/s42256-021-00399-8
2018年,美國國家衛(wèi)生研究院確定將人工智能納入醫(yī)學(xué)成像未來發(fā)展的重點(diǎn)領(lǐng)域,并且為圖像采集、算法、數(shù)據(jù)標(biāo)準(zhǔn)化和可轉(zhuǎn)化的臨床決策支持系統(tǒng)的研究制定了基礎(chǔ)路線。
報(bào)告中提到,盡管數(shù)據(jù)的可用性、對新型計(jì)算架構(gòu)的需求和可解釋的人工智能算法等在過去幾年已經(jīng)取得了巨大的進(jìn)展,但目前仍然是一個(gè)關(guān)鍵性問題。
此外,在早期的開發(fā)過程中,還必須考慮到數(shù)據(jù)共享的轉(zhuǎn)化目標(biāo)、為監(jiān)管部門批準(zhǔn)而進(jìn)行的性能驗(yàn)證、可推廣性以及減輕無意的偏見等問題。
算力的提高、深度學(xué)習(xí)架構(gòu)和專家標(biāo)記數(shù)據(jù)集的進(jìn)步刺激了醫(yī)學(xué)影像人工智能(AI)系統(tǒng)的發(fā)展。
然而,應(yīng)用人工智能系統(tǒng)來協(xié)助完成臨床任務(wù)是非常具有挑戰(zhàn)性的。機(jī)器學(xué)習(xí)算法的目的是減少臨床推斷所需的時(shí)間。但在臨床中進(jìn)行應(yīng)用,有可能無意中會延誤患者的治療。當(dāng)離開可控制的實(shí)驗(yàn)室環(huán)境時(shí),人工智能系統(tǒng)的終端用戶必須能夠控制輸入質(zhì)量,并且能夠解決網(wǎng)絡(luò)延遲等問題,設(shè)計(jì)出將這些系統(tǒng)整合到既定臨床實(shí)踐中的方法。
早期對可轉(zhuǎn)換的臨床機(jī)器學(xué)習(xí)的嘗試表明,設(shè)計(jì)的系統(tǒng)要在既定的臨床工作流程中正常工作,就必須要在算法開發(fā)之初就做出大量的整合努力。因?yàn)樵谖磥聿渴鹪撓到y(tǒng)時(shí),迭代的機(jī)會非常有限。
隨著開源機(jī)器學(xué)習(xí)軟件庫的日益增多和計(jì)算機(jī)性能的不斷進(jìn)步,研究人員越來越容易開發(fā)出復(fù)雜的針對特定臨床問題的人工智能系統(tǒng)。除了檢測疾病診斷的特征外,下一代人工智能系統(tǒng)必須考慮訓(xùn)練數(shù)據(jù)的系統(tǒng)偏見,更為直觀地提醒終端用戶預(yù)測中固有的不確定性,并允許用戶能夠探索和解釋預(yù)測的機(jī)制。
該觀點(diǎn)以這些關(guān)鍵的優(yōu)先領(lǐng)域?yàn)榛A(chǔ),以加速醫(yī)學(xué)領(lǐng)域的基礎(chǔ)人工智能研究。我們概述了數(shù)據(jù)集的細(xì)微差別和高維醫(yī)學(xué)成像機(jī)器學(xué)習(xí)的具體架構(gòu)注意事項(xiàng),同時(shí)討論了這些系統(tǒng)的可解釋性、不確定性和偏差。在此過程中,我們?yōu)橛信d趣解決構(gòu)建臨床可翻譯 AI 系統(tǒng),所帶來的一些問題和挑戰(zhàn)的研究人員提供了一個(gè)模板。
我們預(yù)計(jì),在可預(yù)見的未來,可用的高質(zhì)量 "AI-ready "注釋的醫(yī)學(xué)數(shù)據(jù)集將仍然不能滿足需求?;剡^頭來分配臨床事實(shí)標(biāo)簽需要臨床專家投入大量的時(shí)間,而且將多機(jī)構(gòu)的數(shù)據(jù)匯總起來公開發(fā)布也存在很大的障礙。除了需要以在硬放射學(xué)真實(shí)標(biāo)簽上訓(xùn)練的模型為特征的“診斷人工智能”之外,還需要根據(jù)潛在的更復(fù)雜的臨床綜合結(jié)果目標(biāo)訓(xùn)練的 "疾病預(yù)測人工智能 "。具有標(biāo)準(zhǔn)化的圖像采集協(xié)議和臨床基本事實(shí)裁決的前瞻性數(shù)據(jù)收集,是構(gòu)建具有配對臨床結(jié)果的大規(guī)模多中心成像數(shù)據(jù)集的必要步驟。
大規(guī)模的多中心成像數(shù)據(jù)集會產(chǎn)生許多隱私和責(zé)任問題,這些問題與文件中嵌入的潛在敏感數(shù)據(jù)有關(guān)。醫(yī)學(xué)數(shù)字成像和通信(DICOM)標(biāo)準(zhǔn)普遍被用來捕獲、存儲和提供醫(yī)學(xué)圖像的工作流程管理。成像文件(以.dcm文件或嵌套文件夾結(jié)構(gòu)的形式存儲)包含像素?cái)?shù)據(jù)和相關(guān)元數(shù)據(jù)。眾多的開源和專有工具可以幫助對 DICOM 文件進(jìn)行去識別化。后端醫(yī)院信息學(xué)框架,如Google Healthcare API,是一種清除可能包含敏感信息的元數(shù)據(jù)域的方法,也通過 "安全列表 "支持DICOM去標(biāo)識化。
在面向用戶方面,MIRC 臨床試驗(yàn)處理器匿名器是一種流行的替代方法,盡管它需要使用某些遺留軟件。有據(jù)可查的Python軟件包(如pydicom)也可用于在使用或轉(zhuǎn)給合作機(jī)構(gòu)之前處理DICOM文件。然后可以提取成像數(shù)據(jù)并以各種機(jī)器可讀格式存儲。這些數(shù)據(jù)集可以迅速變得龐大且笨拙,雖然數(shù)據(jù)存儲格式的細(xì)節(jié)超出了本觀點(diǎn)的討論范圍,但醫(yī)學(xué)成像 AI 的一個(gè)關(guān)鍵考慮因素是圖像分辨率的保留。
自動去識別方法或腳本經(jīng)常被提及的一個(gè)缺點(diǎn)是受保護(hù)的健康信息有可能被 "刻錄 "在影像文件中。盡管有DICOM標(biāo)準(zhǔn),但制造商的不同,使得難以通過 MIRC 臨床試驗(yàn)處理器等工具來生成簡單的規(guī)則,以屏蔽可能位于受保護(hù)健康信息的區(qū)域。我們建議使用一個(gè)簡單的機(jī)器學(xué)習(xí)系統(tǒng)來屏蔽 "燒錄 "的受保護(hù)健康信息。
以超聲心動圖為例,有一個(gè)預(yù)定義的掃描區(qū)域,在那里可以看到心臟。其他潛在的選擇是基于機(jī)器學(xué)習(xí)的光學(xué)字符識別工具,以識別和屏蔽有印刷文本的區(qū)域。DICOM標(biāo)簽本身可用于提取掃描級信息和特定模式的標(biāo)簽。例如,在超聲心動圖和心臟磁共振成像 (MRI) 的情況下,可以輕松地從 DICOM 元數(shù)據(jù)中提取重要的掃描級別信息,例如采集幀速率和日期或 MRI 序列 (T1/T2)。
圖1:基于云的協(xié)作式注釋工作流程?;谠频墓ぞ呖捎糜谏蓪<易⑨寯?shù)據(jù)集,并通過安全連接與臨床專家進(jìn)行評估。圖為MD.ai的一個(gè)實(shí)施方案,其中臨床專家進(jìn)行各種 2D 檢測以測評心臟功能。
對于涉及人工智能系統(tǒng)與臨床醫(yī)生進(jìn)行正面基準(zhǔn)測試的研究工作,或在臨床注釋者的幫助下策劃大型數(shù)據(jù)集,我們建議以DICOM格式存儲掃描的副本。這樣就可以通過可擴(kuò)展和易于使用的云端注釋工具進(jìn)行部署。目前有幾種解決方案用于分配掃描數(shù)據(jù)供臨床專家評估。要求的范圍可能從簡單的掃描級標(biāo)簽到詳細(xì)的特定領(lǐng)域的解剖學(xué)分割掩碼。在我們的機(jī)構(gòu),我們部署了MD.ai (New York, New York),這是一個(gè)基于云的注釋系統(tǒng),可原生處理存儲在機(jī)構(gòu)批準(zhǔn)的云存儲提供商(谷歌云存儲或亞馬遜 AWS)上的 DICOM 文件。替代品提供類似的功能,如ePadLite(Stanford, California),它可以免費(fèi)使用?;谠频淖⑨尫椒ǖ牧硪粋€(gè)優(yōu)勢是,掃描可以保持原始的分辨率和質(zhì)量,實(shí)時(shí)協(xié)作模擬 "基于團(tuán)隊(duì) "的臨床決策,注釋和標(biāo)簽可以很容易地導(dǎo)出用于下游分析。最重要的是,其中許多工具都可以用任何網(wǎng)絡(luò)瀏覽器遠(yuǎn)程訪問,并且極易操作,極大地提高了用戶體驗(yàn)并減輕了臨床合作者的技術(shù)負(fù)擔(dān)。
最后,較新的機(jī)器學(xué)習(xí)訓(xùn)練范式,如聯(lián)邦學(xué)習(xí),可能有助于規(guī)避許多與數(shù)據(jù)共享相關(guān)的障礙。Kaissis等人審查了聯(lián)邦學(xué)習(xí)的原則、安全風(fēng)險(xiǎn)和實(shí)施挑戰(zhàn)。這種方法的主要特點(diǎn)是在每個(gè)機(jī)構(gòu)都訓(xùn)練本地算法副本,唯一共享的信息是神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中學(xué)習(xí)到的特征。在預(yù)定的時(shí)間間隔內(nèi),從每個(gè)機(jī)構(gòu)的算法中學(xué)到的信息(訓(xùn)練的權(quán)重)被集中起來并重新分配,高效地從一個(gè)大型的多中心數(shù)據(jù)集中學(xué)習(xí),而不需要傳輸或分享任何醫(yī)學(xué)成像數(shù)據(jù)。這有助于快速訓(xùn)練算法,從胸部計(jì)算機(jī)斷層掃描中檢測COVID-19的特征。
盡管在醫(yī)學(xué)成像領(lǐng)域已經(jīng)有了聯(lián)合學(xué)習(xí)的成功示范,但在將這些方法用于常規(guī)臨床使用時(shí),仍然存在大量技術(shù)挑戰(zhàn)。特別是在高維成像機(jī)器學(xué)習(xí)系統(tǒng)的背景下,從多個(gè)參與中心傳輸和更新訓(xùn)練的權(quán)重而引入的網(wǎng)絡(luò)延遲,成為訓(xùn)練更大神經(jīng)網(wǎng)絡(luò)的基本速率限制步驟。研究人員還必須確保訓(xùn)練后的權(quán)重在參與機(jī)構(gòu)之間的傳輸是安全和加密的,這進(jìn)一步增加了網(wǎng)絡(luò)延遲。此外,在設(shè)計(jì)研究時(shí),如果不能訪問源數(shù)據(jù),策劃數(shù)據(jù)集的質(zhì)量和一致性可能極具挑戰(zhàn)性。許多概念上類似的聯(lián)合學(xué)習(xí)框架仍然假定對源數(shù)據(jù)有一定程度的訪問。
現(xiàn)代臨床機(jī)器學(xué)習(xí)中使用的神經(jīng)網(wǎng)絡(luò)架構(gòu),主要來自于那些針對大型照片或視頻識別任務(wù)28進(jìn)行優(yōu)化的架構(gòu)。即使在細(xì)粒度分類的其他挑戰(zhàn)性任務(wù)中,這些架構(gòu)也非常穩(wěn)健,其中類具有微妙的類內(nèi)差異(狗的品種),而不是具有高類間差異的明顯不同對象(飛機(jī)與狗)。通過對大型數(shù)據(jù)集(例如ImageNet)進(jìn)行充分的預(yù)訓(xùn)練,這些 "現(xiàn)成 "架構(gòu)的性能優(yōu)于為其量身定做的細(xì)粒度分類器。其中許多架構(gòu)可用于流行的機(jī)器學(xué)習(xí)框架,如TensorFlow和Pytorch。最重要的是,這些框架通常為各種不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)提供ImageNet預(yù)訓(xùn)練權(quán)重,使研究人員能夠迅速將它們重新用于專門的醫(yī)學(xué)成像任務(wù)。
不幸的是,絕大多數(shù)的臨床成像方式都不是簡單的靜態(tài) "圖像"。例如,超聲心動圖是一種心臟的二維(2D)超聲影像。這些 "視頻 "可以從多個(gè)不同的視角拍攝,從而可以對心臟進(jìn)行更全面的評估。CT和MRI掃描可以被認(rèn)為是一堆二維圖像,必須按圖像順序進(jìn)行分析,否則醫(yī)生有可能錯(cuò)過器官之間沿某一軸線的有價(jià)值的關(guān)系。
因此,這些 "成像 "模式更類似于視頻。將其作為圖像拆開分析,可能會導(dǎo)致空間或時(shí)間背景的丟失。例如,將視頻每一幀作為獨(dú)立的圖像進(jìn)行分析處理,會導(dǎo)致每一幀視頻之間時(shí)間信息的丟失。在利用超聲心動圖、CT和MRI掃描的各種任務(wù)中,基于視頻的神經(jīng)網(wǎng)絡(luò)算法比其 2D 算法有相當(dāng)大的改進(jìn),但集成多個(gè)不同的視圖平面帶來了額外的維度,很難將其納入當(dāng)前框架。
與廣泛的基于圖像的預(yù)訓(xùn)練網(wǎng)絡(luò)庫不同,對視頻算法的支持仍然有限。對部署新架構(gòu)感興趣的研究人員可能需要自己在大型公開的視頻數(shù)據(jù)集(如Kinetics和UCF101(中佛羅里達(dá)大學(xué)101--動作識別數(shù)據(jù)集))上執(zhí)行預(yù)訓(xùn)練步驟。此外,視頻網(wǎng)絡(luò)的訓(xùn)練計(jì)算成本可能要高幾個(gè)數(shù)量級。雖然使用大型自然景物數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練是開發(fā)臨床成像機(jī)器學(xué)習(xí)系統(tǒng)的一個(gè)公認(rèn)的策略,但不能保證性能的提升。關(guān)于預(yù)訓(xùn)練的性能改進(jìn)的報(bào)告很常見,特別是在使用較小的數(shù)據(jù)集時(shí),但隨著訓(xùn)練數(shù)據(jù)集的增加,其優(yōu)勢會逐漸減少。
在2018年美國國家衛(wèi)生研究院的路線圖中,缺乏特定于醫(yī)學(xué)成像的架構(gòu)被認(rèn)為是一項(xiàng)關(guān)鍵挑戰(zhàn)。我們進(jìn)一步延伸,提出訓(xùn)練這些架構(gòu)的方法,對這些系統(tǒng)將轉(zhuǎn)化為現(xiàn)實(shí)方面發(fā)揮著重要作用。我們認(rèn)為,下一代的高維醫(yī)學(xué)成像AI 將需要對更豐富、更有背景意義的目標(biāo)進(jìn)行訓(xùn)練,而不是簡單的分類標(biāo)簽。
如今,大多數(shù)醫(yī)學(xué)成像 AI 系統(tǒng)專注于從正常背景下診斷少數(shù)疾病。典型的方法是在訓(xùn)練這些算法時(shí)分配一個(gè)數(shù)字標(biāo)簽(疾?。?;正常:0)。這與臨床受訓(xùn)人員學(xué)習(xí)從成像掃描中診斷不同的疾病的方式有很大不同。為了提供更多的 "醫(yī)學(xué)知識",而不是簡單地對自然圖像或視頻進(jìn)行預(yù)訓(xùn)練,Taleb等人提出了一系列使用大型無標(biāo)簽醫(yī)學(xué)成像數(shù)據(jù)集的新型自我監(jiān)督預(yù)訓(xùn)練技術(shù),旨在協(xié)助開發(fā)基于3D醫(yī)學(xué)成像的人工智能系統(tǒng)。
神經(jīng)網(wǎng)絡(luò)首先通過執(zhí)行一組 "代理任務(wù) "來學(xué)習(xí) "描述 "作為輸入的成像掃描。例如,通過讓網(wǎng)絡(luò)像拼圖一樣 "重新組合 "輸入的掃描數(shù)據(jù),它們可以被訓(xùn)練成 "理解 "在各種病理和生理狀態(tài)下哪些解剖結(jié)構(gòu)是相互一致的。將成像掃描的數(shù)據(jù)與放射學(xué)報(bào)告配對是另一個(gè)有趣的策略,基于胸部X射線的人工智能系統(tǒng)取得了相當(dāng)大的成功。
本著提供更細(xì)微的臨床背景并將更多的 "知識 "嵌入神經(jīng)網(wǎng)絡(luò)的精神,報(bào)告中的文本通過最先進(jìn)的自然語言機(jī)器學(xué)習(xí)算法進(jìn)行處理,隨后訓(xùn)練視覺網(wǎng)絡(luò),以更好地理解讓各種疾病 "不同"的原因。然而,最重要的是,他們表明使用這種方法可以將特定下游分類任務(wù)的標(biāo)記數(shù)據(jù)量減少多達(dá)兩個(gè)數(shù)量級。因此,未標(biāo)記的成像研究,無論是單獨(dú)的還是結(jié)合成對的文本報(bào)告,都可以作為有效預(yù)訓(xùn)練的基礎(chǔ)。隨后,對較小的高質(zhì)量基礎(chǔ)實(shí)況數(shù)據(jù)樣本進(jìn)行微調(diào),以完成特定的監(jiān)督學(xué)習(xí)任務(wù)。
盡管這些步驟有助于調(diào)整現(xiàn)有的神經(jīng)網(wǎng)絡(luò)架構(gòu),使其適用于醫(yī)學(xué)成像,但為特定任務(wù)設(shè)計(jì)新的架構(gòu)需要專業(yè)知識。模型架構(gòu)類似于大腦,而訓(xùn)練后的權(quán)重(訓(xùn)練中優(yōu)化的數(shù)學(xué)函數(shù))類似于思維。進(jìn)化搜索算法的進(jìn)展利用機(jī)器學(xué)習(xí)方法來發(fā)現(xiàn)為特定任務(wù)定制的新架構(gòu),從而產(chǎn)生比人類構(gòu)建的架構(gòu)更高效和更高性能的架構(gòu)。這些都為成像模式特定架構(gòu)的發(fā)展提供了一個(gè)獨(dú)特的契機(jī)。
訓(xùn)練深度學(xué)習(xí)算法依靠圖形處理單元(GPU)來執(zhí)行大規(guī)模的并行矩陣乘法運(yùn)算。云計(jì)算 "隨用隨付 "的GPU資源和具有高內(nèi)存容量的消費(fèi)級GPU的可用性,都有助于降低對開發(fā)醫(yī)學(xué)成像機(jī)器學(xué)習(xí)系統(tǒng)感興趣的研究人員的準(zhǔn)入門檻。盡管有了這些進(jìn)展,但在大型視頻數(shù)據(jù)集上訓(xùn)練復(fù)雜的現(xiàn)代網(wǎng)絡(luò)架構(gòu)需要多個(gè)GPU連續(xù)運(yùn)行數(shù)周。
臨床研究小組應(yīng)該注意,雖然在相對便宜的計(jì)算機(jī)上訓(xùn)練單一模型可能是可行的,但要找到最佳性能的正確設(shè)置組合,幾乎總是需要使用專門的硬件和計(jì)算集群來在合理的時(shí)間范圍內(nèi)返回結(jié)果。強(qiáng)大的抽象層(例如,Pytorch Lightning)還允許研究小組建立內(nèi)部標(biāo)準(zhǔn),以模塊化的形式構(gòu)建其代碼。采用這樣的模塊化方法,神經(jīng)網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)集可以很容易地被替換,有助于快速將過去為臨床成像模式設(shè)計(jì)的系統(tǒng)重新用于新的用例。這種方法也有助于通過以新的方式集成子組件來擴(kuò)展這些系統(tǒng)的功能。
隨著醫(yī)療人工智能系統(tǒng)從 "診斷 "轉(zhuǎn)向更多的 "預(yù)后 "應(yīng)用,時(shí)間到事件的預(yù)測(而不是簡單的二進(jìn)制預(yù)測)將在臨床環(huán)境中發(fā)現(xiàn)更多的相關(guān)性。時(shí)間-事件分析的特點(diǎn)是能夠預(yù)測作為時(shí)間函數(shù)的事件概率,而二分類器只能提供一個(gè)預(yù)定時(shí)間的預(yù)測。與二元分類器不同的是,時(shí)間-事件分析考慮到了數(shù)據(jù)的刪減,以考慮到那些失去隨訪或在觀察時(shí)間范圍內(nèi)沒有經(jīng)歷相關(guān)事件的人。生存分析在臨床研究中很常見,也是制定循證實(shí)踐指南的核心。
用基于圖像和視頻的機(jī)器學(xué)習(xí)來擴(kuò)展傳統(tǒng)的生存模型,可以對組織切片或醫(yī)學(xué)成像掃描中的特征的預(yù)后價(jià)值提供強(qiáng)有力的洞察力。例如,將Cox比例損失函數(shù)的擴(kuò)展整合到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)架構(gòu)中,使得僅從組織病理學(xué)切片中預(yù)測癌癥結(jié)果成為可能。我們不主張使用此類視覺網(wǎng)絡(luò)來規(guī)定如何進(jìn)行護(hù)理,而是主張將其用作標(biāo)記臨床醫(yī)生遺漏晚期惡性腫瘤特征的病例的方法。
納入時(shí)間-事件分析在臨床上將越來越重要,因?yàn)樵诩膊〔环€(wěn)定或早期階段具有的可檢測特征,在一定時(shí)間后可能會迅速發(fā)展。
例如,可診斷為黃斑變性的視網(wǎng)膜特征往往需要數(shù)年時(shí)間才能表現(xiàn)出來。具有初期疾病特征的患者可能會被標(biāo)記為“正常”,這讓神經(jīng)網(wǎng)絡(luò)試圖預(yù)測未來發(fā)生黃斑變性并發(fā)癥的風(fēng)險(xiǎn)。納入生存和審查的概念可能有助于訓(xùn)練系統(tǒng)更好地將正常人與那些輕度、中度和正在快速發(fā)展中的疾病個(gè)體分開。同樣,訓(xùn)練視覺網(wǎng)絡(luò)進(jìn)行時(shí)間-事件分析可能會在用于肺癌篩查,有助于根據(jù)預(yù)期的侵略性擴(kuò)散潛力進(jìn)行風(fēng)險(xiǎn)分層。這種轉(zhuǎn)化工作的關(guān)鍵是要有強(qiáng)大的、經(jīng)過充分驗(yàn)證的Cox回歸的深度學(xué)習(xí)擴(kuò)展。在過去的幾年里,已經(jīng)描述了大量Cox模型的深度學(xué)習(xí)實(shí)現(xiàn)。Kvamme等人提出了一系列的Cox模型的比例和非比例擴(kuò)展,過去還描述了更多的生存方法的實(shí)現(xiàn),如DeepSurv和DeepHit46(圖2)。
圖 2:量化機(jī)器學(xué)習(xí)輸出中的不確定性。
正如 Sensoy 等人所描述的那樣,即使在不正確的情況下,使用標(biāo)準(zhǔn)方法訓(xùn)練的機(jī)器學(xué)習(xí)模型也可以非常自信。左圖:當(dāng)一個(gè)數(shù)字被旋轉(zhuǎn)180°時(shí),系統(tǒng)自信地分配了一個(gè)從 "1 "到 "7 "的標(biāo)簽。右圖:然而,用考慮分類不確定性的方法,系統(tǒng)會分配一個(gè)不確定性分?jǐn)?shù),可以幫助提醒臨床醫(yī)生潛在的錯(cuò)誤預(yù)測。
然而,從可操作的角度來看,時(shí)間-事件預(yù)測可能存在問題。在肺癌篩查的假設(shè)示例中,胸部計(jì)算機(jī)斷層掃描中的可疑結(jié)節(jié)可能會產(chǎn)生一個(gè)預(yù)測,即在有或沒有適當(dāng)?shù)闹委煾深A(yù)的情況下的中位生存率。對臨床醫(yī)生來說,了解機(jī)器學(xué)習(xí)系統(tǒng)對個(gè)體病人的預(yù)測的有多大的把握可能是很有意思的。當(dāng)對一項(xiàng)任務(wù)沒有把握時(shí),人類往往會謹(jǐn)慎行事。機(jī)器學(xué)習(xí)系統(tǒng)也反映了這一點(diǎn),其中輸出是 0 到 1 范圍內(nèi)的“類別概率”或“正確的可能性”。然而,目前文獻(xiàn)中描述的大多數(shù)醫(yī)學(xué)影像機(jī)器學(xué)習(xí)系統(tǒng),當(dāng)提供給模型的輸入數(shù)據(jù)超出分布范圍時(shí),缺乏說 "我不知道 "的隱含能力。例如,即使輸入圖像是貓的圖像,訓(xùn)練用于從計(jì)算機(jī)斷層掃描(例如)預(yù)測肺炎的分類器在設(shè)計(jì)上也被強(qiáng)制提供輸出(肺炎或非肺炎)。
在他們關(guān)于深度學(xué)習(xí)中的不確定性量化的論文中,Sensoy等人用一系列的損失函數(shù)來解決這些問題,這些損失函數(shù)分配了一個(gè) "不確定性分?jǐn)?shù)",以此來避免錯(cuò)誤的、但有把握的預(yù)測。在項(xiàng)目的轉(zhuǎn)化階段,當(dāng)人工智能系統(tǒng)被部署在與人類用戶一起工作的環(huán)境中時(shí),不確定性量化的好處就出現(xiàn)了。信心度量是AlphaFold2的一個(gè)關(guān)鍵因素,該蛋白質(zhì)折疊機(jī)器學(xué)習(xí)系統(tǒng)在第14屆蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估(CASP14)挑戰(zhàn)中取得了無與倫比的準(zhǔn)確性,給DeepMind研究團(tuán)隊(duì)提供了一種方法來衡量他們應(yīng)該對正在生成的預(yù)測給予多大的信任。許多不確定性量化方法的實(shí)現(xiàn)都是在許可的情況下進(jìn)行的,并且與常用的機(jī)器學(xué)習(xí)框架兼容。納入不確定性量化可能有助于提高高風(fēng)險(xiǎn)的醫(yī)學(xué)成像機(jī)器學(xué)習(xí)系統(tǒng)的可解釋性和可靠性,并減少自動化偏差的可能性。
除了量化某些機(jī)器學(xué)習(xí)系統(tǒng)的預(yù)測效果外,對于構(gòu)建這些系統(tǒng)的工程師和使用它們的臨床醫(yī)生來說,他們更感興趣的是了解這些機(jī)器學(xué)習(xí)系統(tǒng)是如何得出結(jié)論的。顯著性圖和類激活圖實(shí)際上仍然是解釋機(jī)器學(xué)習(xí)算法如何進(jìn)行預(yù)測的標(biāo)準(zhǔn)。
Adebayo等人最近的研究表明,僅僅依靠顯著性圖的視覺外觀可能會產(chǎn)生誤導(dǎo),即使乍一看它們與背景相關(guān)。在一系列廣泛的測試中,他們發(fā)現(xiàn),許多流行的生成事后顯著性圖的方法并沒有從模型權(quán)重中獲得真正的意義,而是與 "邊緣檢測器"(簡單映射像素強(qiáng)度之間的尖銳過渡區(qū)域的算法)沒有區(qū)別。此外,即使這些可視化方法奏效,除了機(jī)器學(xué)習(xí)算法正在尋找的 "位置 "之外,也幾乎無法破譯。在很多示例中,無論是正確還是錯(cuò)誤的顯著性圖看起來幾乎是一樣的。當(dāng) "患病 "狀態(tài)和 "正常 "狀態(tài)之間的差異需要關(guān)注圖像或視頻的同一區(qū)域時(shí),這些缺點(diǎn)就更加明顯了。
圖3:事后模型解釋的誤導(dǎo)性。
a, Adebayo等人用MNIST數(shù)據(jù)集的真實(shí)標(biāo)簽訓(xùn)練的模型(上)和隨機(jī)噪聲訓(xùn)練的模型(下)進(jìn)行的實(shí)驗(yàn)。當(dāng)通過大多數(shù)可視化方法進(jìn)行評估時(shí),在隨機(jī)噪聲上訓(xùn)練的模型仍然產(chǎn)生圓形形狀。b,超聲心動圖視圖平面的檢測:錯(cuò)誤的分類(左上)和正確的分類(右上)都產(chǎn)生類似的顯著性圖(下)。
臨床醫(yī)生應(yīng)該注意,僅靠熱圖不足以解釋 AI 系統(tǒng)的功能。在嘗試用如上圖所示的可視化方法來識別故障模式時(shí),必須謹(jǐn)慎。一個(gè)更精細(xì)的方法可能涉及到連續(xù)遮擋測試,即在有意掩蓋臨床醫(yī)生用來進(jìn)行診斷或預(yù)測的區(qū)域后,評估圖像的性能。這個(gè)想法非常直觀:在已知對診斷某種疾病很重要的區(qū)域被遮蔽的圖像上運(yùn)行算法,例如,在試圖診斷心力衰竭時(shí)遮蔽左心室,應(yīng)該可以看到性能的急劇下降。
這有助于確認(rèn)人工智能系統(tǒng)正在關(guān)注相關(guān)領(lǐng)域。特別是在高維醫(yī)學(xué)成像研究的背景下,激活圖可能為視頻類成像研究的某些時(shí)間階段的相對重要性提供獨(dú)特的見解。例如,某些疾病可能在心臟收縮時(shí)表現(xiàn)出病理特征,而對于其他疾病可能需要人們關(guān)注心臟放松時(shí)的情況。通常這樣的實(shí)驗(yàn)可能表明,機(jī)器學(xué)習(xí)系統(tǒng)從臨床醫(yī)生傳統(tǒng)上不會使用的圖像區(qū)域中識別出潛在的信息特征。除了收集關(guān)于這些機(jī)器學(xué)習(xí)系統(tǒng)如何產(chǎn)生其輸出的信息外,嚴(yán)格的可視化實(shí)驗(yàn)可能提供一個(gè)獨(dú)特的機(jī)會,可以從被評估的機(jī)器學(xué)習(xí)系統(tǒng)中學(xué)習(xí)生物學(xué)的見解。
另一方面,激活與臨床上已知的重要區(qū)域的偏差可能預(yù)示著網(wǎng)絡(luò)正在學(xué)習(xí)非特異性的特征,使它們不太可能很好地歸納到其他數(shù)據(jù)集。
機(jī)器學(xué)習(xí)系統(tǒng)學(xué)習(xí)的特征可能取決于架構(gòu)的設(shè)計(jì)。更重要的是,機(jī)器學(xué)習(xí)系統(tǒng)會根據(jù)提供給它的訓(xùn)練數(shù)據(jù)和目標(biāo)來學(xué)習(xí)和延續(xù)系統(tǒng)性的不平等。隨著醫(yī)療保健人工智能系統(tǒng)不斷向未來的疾病預(yù)測發(fā)展,必須更加謹(jǐn)慎地考慮到這些群體在獲得醫(yī)療保健和結(jié)果方面的巨大差異。
在最近的評論中,Chen等人深入概述了從問題選擇到部署后階段的潛在偏差來源。在這里,我們重點(diǎn)討論機(jī)器學(xué)習(xí)系統(tǒng)開發(fā)早期的潛在解決方案。一些人主張用一些方法來解釋現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)的其他 "黑箱 "預(yù)測,而其他人則主張一開始就限制使用更可解釋的模型。除了在訓(xùn)練整個(gè) AI 系統(tǒng)時(shí)結(jié)合結(jié)構(gòu)化數(shù)據(jù)的輸入之外,中間方法還涉及使用黑盒模型訓(xùn)練醫(yī)學(xué)成像神經(jīng)網(wǎng)絡(luò)。
這可以通過建立 "融合網(wǎng)絡(luò) "來實(shí)現(xiàn),其中表格數(shù)據(jù)被合并到基于圖像或視頻的神經(jīng)網(wǎng)絡(luò)中,或其他具有相同基本目標(biāo)的更先進(jìn)的方法(生成組合數(shù)據(jù)的低維表示的自動編碼器)。即使沒有將人口統(tǒng)計(jì)學(xué)輸入納入高維視覺網(wǎng)絡(luò),研究小組通過比較不同性別、種族、地域和收入群體的表現(xiàn)來審核他們的模型也很重要。
機(jī)器學(xué)習(xí)系統(tǒng)可能會無意中學(xué)會進(jìn)一步延續(xù)和歧視少數(shù)民族和有色人種,因此在模型開發(fā)過程的早期了解這種偏見是至關(guān)重要的。對機(jī)器學(xué)習(xí)系統(tǒng)的信任對于更廣泛的采用至關(guān)重要,正如探索特定的特征或變量如何以及為什么會導(dǎo)致預(yù)測一樣,通過結(jié)合顯著性圖和估計(jì)特征重要性的模型無關(guān)的方法。
另一種方法是在訓(xùn)練邏輯中限制機(jī)器學(xué)習(xí)算法,確保發(fā)生優(yōu)化步驟以控制感興趣的人口統(tǒng)計(jì)學(xué)變量。這類似于多變量回歸模型,其中感興趣的風(fēng)險(xiǎn)因素的影響可以獨(dú)立于基線人口統(tǒng)計(jì)學(xué)變量來研究。從技術(shù)角度看,這將涉及到在訓(xùn)練循環(huán)中插入一個(gè)額外的懲罰性損失,并牢記與稍低的模型性能的潛在權(quán)衡。例如,F(xiàn)airlearn 是用于評估傳統(tǒng)機(jī)器學(xué)習(xí)模型公平性的流行工具包,并且已經(jīng)開發(fā)了基于 Fairlearn 算法 (FairTorch) 的約束優(yōu)化,這是在訓(xùn)練過程中整合偏差調(diào)整的有希望的探索性嘗試。有許多開源工具包可以幫助研究人員確定不同變量和輸入流(圖像預(yù)測,以及諸如性別和種族等變量)的相對重要性。這些技術(shù)可能允許開發(fā)更公平的機(jī)器學(xué)習(xí)系統(tǒng),甚至可以發(fā)現(xiàn)沒有預(yù)料到的隱藏偏見。
盡管計(jì)算架構(gòu)和獲取高質(zhì)量數(shù)據(jù)是構(gòu)建良好模型的關(guān)鍵,但為高維成像模式開發(fā)可轉(zhuǎn)換的機(jī)器學(xué)習(xí)系統(tǒng)方面還需要努力,以更好地代表數(shù)據(jù)的 "視頻 "性質(zhì)。此外還需要在模型開發(fā)的早期階段建立有助于解決偏見、不確定性和可解釋性的功能。對醫(yī)學(xué)成像和人工智能的質(zhì)疑是有益的,而且在大多數(shù)情況下具有一定道理。
我們希望,通過建立允許研究人員評估臨床表現(xiàn)、醫(yī)院工作流程中的整合、與臨床醫(yī)生的互動以及社會人口傷害的下游風(fēng)險(xiǎn)的功能,可以在改善人工智能的交付方面邁出有意義的步伐。我們希望研究人員會發(fā)現(xiàn)這個(gè)觀點(diǎn)很有用,因?yàn)樗攀隽嗽谂R床部署方面等待他們的潛在挑戰(zhàn),并且在解決其中一些問題時(shí)可以發(fā)揮指導(dǎo)性意義。
2021-12-10
2021-12-09
2021-12-12
2021-12-12
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。