0
本文作者: 劉海濤 | 2020-06-12 09:46 |
近期,雷鋒網(wǎng)醫(yī)健AI掘金志邀請體素科技首席醫(yī)療官兼產(chǎn)品負(fù)責(zé)人王子龍,做客雷鋒網(wǎng)公開課,以“醫(yī)療場景下的影像人工智能產(chǎn)品實(shí)踐”為題,對體素科技從單一肺結(jié)節(jié)產(chǎn)品邁向全病種的諸多挑戰(zhàn)進(jìn)行了解讀。
后續(xù)將有更多課程上線,添加微信公眾號 醫(yī)健AI掘金志 回復(fù)聽課,或收看本節(jié)課程視頻回放
體素科技王子龍表示:“體素AI產(chǎn)品的特點(diǎn)就在于,以全病種為核心目標(biāo)進(jìn)行研發(fā)。相比于單病種,全場景產(chǎn)品在研發(fā)中除了要應(yīng)對病種的增多,還存在數(shù)據(jù)小樣本、異常檢出、臨床驗(yàn)證復(fù)雜等諸多挑戰(zhàn)。”
以病種數(shù)據(jù)小樣本為例,一方面因?yàn)榇嬖诖罅抗铝?、新發(fā)的特殊病種,另一方面醫(yī)療數(shù)據(jù)中優(yōu)質(zhì)標(biāo)記資源相對較少,導(dǎo)致病種數(shù)據(jù)無法滿足訓(xùn)練要求。
為此,體素選擇通過Model Genesis的方式進(jìn)行自監(jiān)督、遷移學(xué)習(xí),按照數(shù)據(jù)內(nèi)部表征特點(diǎn),遷移到其他部分?jǐn)?shù)據(jù),使病種在小樣本情況下同樣滿足訓(xùn)練要求。
以下為王子龍分享的全文內(nèi)容,雷鋒網(wǎng)做了不改變原意的編輯。
我是體素科技王子龍,今天分享的題目是“醫(yī)療場景的影像人工智能產(chǎn)品實(shí)踐——全場景的全病種醫(yī)學(xué)影像閱讀者”。
體素科技的特點(diǎn)就在于,致力于全病種的醫(yī)學(xué)影像相關(guān)人工智能產(chǎn)品。大家對于單病種醫(yī)療影像人工智能已經(jīng)不陌生,而且很多企業(yè)在單病種產(chǎn)品上都做了比較充分的探索。
但是像肺結(jié)節(jié)這樣的單病種產(chǎn)品,僅做結(jié)節(jié)輔助檢出,雖然針對單一病種達(dá)到了比較好的效果,有一定使用價值,但遠(yuǎn)不能臨床滿足的需求。
臨床檢查中肺結(jié)節(jié)僅僅是需要處理的諸多場景狀況中的一種,現(xiàn)實(shí)中也不可能有任何一個醫(yī)生表示”我只看肺結(jié)節(jié),如果想看別的毛病,先充一個VIP會員再說?!?/p>
醫(yī)療場景層面上,影像包含各種各樣的來源。其中有專業(yè)人員,專業(yè)設(shè)備采集的比如CT。也有專業(yè)人員,通過一般設(shè)備采集的情況。
像皮膚科醫(yī)生就可能會在伍德燈下,直接用手機(jī)或相機(jī),觀察和記錄皮膚的變化。也存在一般人用普通設(shè)備采集的圖像,比如患者自己用手機(jī)拍攝的圖像。
在各種場景中,都存在夠跟專業(yè)人士分享檢查的圖像,發(fā)現(xiàn)異常檢出并解決問題的需求。
基于這些思考,體素科技通過全場景的方法,滿足更廣闊的需求。通過全病種覆蓋的方式,也能滿足更完整的環(huán)節(jié),最大效率減少其他工作量。
其中體素科技的胸部CT產(chǎn)品就是以全病種為目標(biāo)研發(fā),致力成為低劑量CT篩查第一閱讀者,通過識別常見病灶,檢出正常和異常圖像,生成醫(yī)療自然語言報告。
為了滿足這個過程,首先就需要盡可能歸納所以常見病灶。但是這談何容易,當(dāng)初提出這個戰(zhàn)略的時候,有人曾經(jīng)問我,這個世界上有多少種疾病?
如果按照國際疾病分類第十次修訂本來看,有幾萬個疾病編碼,事無巨細(xì),從床上跌落受傷都有單獨(dú)的編碼。但實(shí)際應(yīng)用中這個編碼也依然無法滿足全部使用需要,需要使用一些拓展的編碼,把不標(biāo)準(zhǔn)部分變得更詳細(xì)。
面對數(shù)量龐大的病灶,顯然也不可能按照逐一方法,對所有疾病進(jìn)行訓(xùn)練。 體素按照病灶的特點(diǎn),利用計算機(jī)視覺進(jìn)行整合。例如按照局部性病灶、透明度變異、密度增高、密度減低、條索、線性、網(wǎng)格狀等形態(tài)整合分類。
病灶歸類以后,接下來就需要按照歸類,選擇訓(xùn)練方法。
一種類型,如肺結(jié)節(jié)、肺大皰等,這部分病灶往往具有特定的形態(tài),雖然在大小上可能存在一定差異,但是同類病灶的形狀特征都比較類似,也比較適合檢測的手段實(shí)現(xiàn)。
而另一類像磨玻璃滲出影、胸腔積液、肺不張這樣不同成因和特征的病灶,往往沒有固定的形態(tài),有些邊界 也不清晰,每個病灶之間形態(tài)可能千差萬別,就比較適合分割方法,之后從病灶的角度再歸類。
而僅僅通過歸類手段還不夠,體素在病灶標(biāo)注和學(xué)習(xí)過程中,采用了多級流水線的方式標(biāo)注和訓(xùn)練,結(jié)合強(qiáng)監(jiān)督和弱監(jiān)督信息。
具體先在序列整體上進(jìn)行標(biāo)注,之后再按照每一層層標(biāo)注,更進(jìn)一步標(biāo)注每一層級上的檢測框和分割掩模。整體是逐級遞進(jìn)的過程,監(jiān)督強(qiáng)度逐級增強(qiáng),信息量逐層增加。體素希望通過多級流水線的方式,既滿足層級的標(biāo)注、還可以結(jié)合弱監(jiān)督的手段,綜合節(jié)約成本。
實(shí)現(xiàn)醫(yī)療圖像領(lǐng)域全病種的目標(biāo),還需要整合多個來源的信息內(nèi)容,因此醫(yī)療相比其他人工智能應(yīng)用領(lǐng)域,任務(wù)工作流相對比較復(fù)雜。
以肺結(jié)節(jié)為例,既需要通過肺葉分割,了解肺部所在位置,還要通過檢測、分割將結(jié)節(jié)具體位置進(jìn)行勾勒,最后還要做性質(zhì)和屬性檢測,整個流程的前后依賴度非常高,就需要設(shè)計一套系統(tǒng)的工作流架構(gòu)。
僅僅通過這些手段,還不能應(yīng)對全場景全病種的AI產(chǎn)品研發(fā)中的各種挑戰(zhàn)。在不同工作流程,不同用戶群體,不同模態(tài)數(shù)據(jù)下都有新的技術(shù)要求。尤其是全病種研發(fā)所面臨的主要問題之一是小樣本病種的異常檢出。對于小樣本數(shù)據(jù),往往代表這類疾病本身非常少見,從而導(dǎo)致樣本來源相對比較匱乏。
這個圖是對十幾萬份篩查場景下自然分布的報告結(jié)論的分析,大家可以看到,這是一個非常經(jīng)典的長尾曲線的實(shí)際案例。常見病種病灶出現(xiàn)在左側(cè)區(qū)域,但同時還存在大量不同種類的低頻次的病灶、病種和組合,這些低頻次狀況的數(shù)量總和又不能忽視。這部分疾病和疾病的組合的存在帶來了小樣本。
例如,圖上是一例子卡特金納綜合征的影像,特點(diǎn)就是心臟左右是反的,心長在了右邊,這種案例雖然比較罕見,頻率大約在幾萬分之一。但是大一點(diǎn)的醫(yī)院可能每年都會碰到幾個,這種情況純按照數(shù)據(jù)驅(qū)動的方式完成訓(xùn)練,就變得十分困難。
此外,小樣本的情況還源于標(biāo)注成本的高昂,醫(yī)學(xué)圖像標(biāo)記本身非常困難。許多公司和研究所通過整體歸類一下獲得十萬、百萬的數(shù)據(jù),但是后續(xù)的標(biāo)記成本會非常高。被充分標(biāo)記的樣本經(jīng)常是數(shù)量稀少的。
所以,即使擁有巨量的醫(yī)療數(shù)據(jù),但實(shí)際情況中具有優(yōu)質(zhì)標(biāo)記的數(shù)據(jù)樣本依然比較小,體素選擇了通過Model Genesis的方式進(jìn)行自監(jiān)督,遷移學(xué)習(xí)的嘗試。
自監(jiān)督是利用無標(biāo)注的數(shù)據(jù),進(jìn)行學(xué)習(xí)。其監(jiān)督的信號來自于數(shù)據(jù)本身,通過學(xué)習(xí)數(shù)據(jù)內(nèi)部的表征特點(diǎn),學(xué)習(xí)遷移到其他部分提供幫助。
在原始數(shù)據(jù)中,通過處理隱藏掉其中一部分,再通過深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練出可以恢復(fù)被隱藏或者破壞的數(shù)據(jù)網(wǎng)絡(luò)。在這個網(wǎng)絡(luò)中就掌握一定量原始數(shù)據(jù)結(jié)構(gòu)特征。
之后將訓(xùn)練的神經(jīng)網(wǎng)絡(luò),遷移到特定任務(wù)當(dāng)中,就可以得到比從頭訓(xùn)練或者其他模型遷移更好的效果。
這是一個實(shí)際案例舉例,通過亮度、局部像素的調(diào)整和內(nèi)外部遮蓋的方式破壞原始圖像,之后訓(xùn)練得出神經(jīng)網(wǎng)絡(luò)的編碼器和解碼器。
從被破壞的數(shù)據(jù)恢復(fù)原始圖片,之后將恢復(fù)后的圖片和原數(shù)據(jù)圖片進(jìn)行比較和學(xué)習(xí),學(xué)到原始數(shù)據(jù)的表征特點(diǎn)。
實(shí)驗(yàn)中發(fā)現(xiàn)對于肺結(jié)節(jié)的分類、結(jié)節(jié)分割、肺栓塞分類等任務(wù),自監(jiān)督預(yù)訓(xùn)練效果要高于直接訓(xùn)練的情況,進(jìn)而改善診斷少標(biāo)記樣本的學(xué)習(xí)能力。
異常檢出也是一個亟待更好解決的難題。在現(xiàn)實(shí)中,每一名醫(yī)生都是先學(xué)解剖學(xué)、生理學(xué),從正常結(jié)構(gòu)和功能開始學(xué)習(xí),再去接觸各種疾病帶來的異常變化。這和柏拉圖的觀點(diǎn)非常一致,“存在一個標(biāo)準(zhǔn)化的形式,個體都是這種形式的摹本。”
醫(yī)療數(shù)據(jù)中,80%病例都是正常數(shù)據(jù),但這部分?jǐn)?shù)據(jù)同樣會消耗醫(yī)生大量精力,異常數(shù)據(jù)的分布也非常廣泛且分散,包含各種各樣的疾病。
另外還可能會出現(xiàn)未知的數(shù)據(jù)類型,因?yàn)槊恳荒甓伎赡軙粩喟l(fā)現(xiàn)新的疾病,這類疾病無法通過強(qiáng)監(jiān)督的方式訓(xùn)練,也無法通過純數(shù)據(jù)驅(qū)動的方式解決遇到的問題。
為了解決這些問題,體素科技進(jìn)而探索異常檢測的技術(shù)方案。一種常見的異常檢測方案是單類學(xué)習(xí),僅在正常類別的個體上訓(xùn)練自編碼器,輸出的結(jié)果和原始圖像進(jìn)行對比,通過差異發(fā)現(xiàn)異常。
例如有其他研究團(tuán)隊(duì)發(fā)表于ISBI 2019的成果就曾嘗試將這種方法用于胸片異常檢測,在正常圖像上訓(xùn)練,讓重建圖像更趨向于正常的原圖,縮小重建圖像和輸入圖像之間的差異。
通過這種方式,他們設(shè)計了如下實(shí)驗(yàn),對所有正常圖像進(jìn)行編碼訓(xùn)練,分別用編碼器的方式對測試集里面正常和異常數(shù)據(jù)進(jìn)行恢復(fù),因?yàn)楸旧砭蛯W(xué)過正常圖像,所以最終恢復(fù)出來的圖像和原本圖像相似度比較高。
存在異常的圖像,因?yàn)楹茈y對異常部分和區(qū)域進(jìn)行結(jié)構(gòu)恢復(fù),圖像和原始圖像重建誤差也相對較大,所以按照正常的圖片作為訓(xùn)練集,就可以判斷異常的效果。
但是將這種方法在現(xiàn)實(shí)場景中使用,會存在很多的困難。例如例如眼底彩照,因?yàn)槭亲杂诓煌庹赵O(shè)備,即使沒有明顯疾病,圖像之間的差異也相對較大。
與此同時,嚴(yán)重疾病和正常的圖片的視覺差異也可能很小。像糖尿病視網(wǎng)膜病變中的增殖期表現(xiàn),新生血管等病變實(shí)際的面積并不大。這些都會影響單類學(xué)習(xí)的效果。
因此,寄希望于同時使用正常和異常數(shù)據(jù)進(jìn)行訓(xùn)練,對輸入的圖像按照以下目標(biāo)設(shè)置損失函數(shù):重建生成的圖片類似真正的圖片,重建的圖片與輸入圖片類似,重建的正常圖片與正常圖片更類似。
按照這種方式,引入了度量學(xué)習(xí)思路,可以使正常和異常圖像之間構(gòu)成聯(lián)系。
通過實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),這種方法可以定位到腦部病灶位置,相比于其他單類學(xué)習(xí)方法,也能夠得到更高額的準(zhǔn)確率,還可以更好的定位異常區(qū)域。當(dāng)然,在正常和異常領(lǐng)域,仍然還有許多挑戰(zhàn)需要克服。
除此以外,為了實(shí)現(xiàn)多病種的目標(biāo),其他技術(shù)挑戰(zhàn)還有很多,例如多任務(wù)的合并與知識蒸餾。隨著10、20個病種的增加,怎樣合理的把任務(wù)合并,在有限計算資源之內(nèi)完成多病灶檢測和識別會就比較重要。
單一模態(tài)信息量非常有限,還需要多模態(tài)信息的進(jìn)一步融合。融合病灶和疾病之間的相關(guān)性,往往還要包含一部分相關(guān)和因果關(guān)系,把病灶間相關(guān)性的圖網(wǎng)絡(luò)和圖片信息可以進(jìn)一步融合提高效果。
體素基于已有的技術(shù)性探索,已經(jīng)實(shí)現(xiàn)胸部CT多病種產(chǎn)品的研發(fā),識別胸部和腹部CT中肺、肝、膽、腎等多種器官上的病灶。
像肺內(nèi)的肺大皰、鈣化灶、磨玻璃等多種病變,像肝膽的脂肪肝、肝囊腫、腎囊腫、膽結(jié)石、腎結(jié)石等肺外常見病灶,都能做到逐一智能篩查和圈化,并對其中部分病灶進(jìn)行量化分析。
在10萬份體檢場景報告的驗(yàn)證中,體素的產(chǎn)品已經(jīng)能夠覆蓋92.6%的常見病灶和它排列組合。而選擇體檢作為驗(yàn)證的原因,就是因?yàn)槠洳》N種類相對確定。在門診、住院和急診場景中,面對的會是完全不同的疾病譜與疾病分布。
為了讓算法和產(chǎn)品在實(shí)際場景中使用起來,不僅僅需要在GPU上神經(jīng)網(wǎng)絡(luò)訓(xùn)練和驗(yàn)證,在真實(shí)健康診療環(huán)境中的證據(jù)收集也十分重要。
體素對于醫(yī)療人工智能輔助診斷的實(shí)驗(yàn)驗(yàn)證,也有自己的思考和設(shè)計。設(shè)計了基于回顧隊(duì)列自身對照的盲法診斷實(shí)驗(yàn),對之前輔助診斷結(jié)果進(jìn)行臨床實(shí)驗(yàn)驗(yàn)證。
回顧性連續(xù)采集一部分患者影像數(shù)據(jù),進(jìn)行脫敏和設(shè)盲。將傳統(tǒng)醫(yī)生二級閱片結(jié)果和算法結(jié)果在盲選狀態(tài)下混合,之后統(tǒng)一交給第三方專家審核和校驗(yàn),將算法輸出結(jié)果和醫(yī)生二級閱片下的結(jié)果比較,這個過程中可以充分考量實(shí)際工作中AI和人之間的水平差異。
在臨床實(shí)驗(yàn)設(shè)計過程中,也面臨很多的挑戰(zhàn),因?yàn)榧词辜{入非常多的病種,也面臨很多設(shè)計外的疾病干擾。
全病種AI產(chǎn)品面對正常異常檢出實(shí)驗(yàn)的目標(biāo)設(shè)計也存在困難,因?yàn)槟壳岸鄶?shù)臨床實(shí)驗(yàn)的目標(biāo)都指向單一的病種和目標(biāo),此外實(shí)際數(shù)據(jù)分析過程中,閱讀者之間差異也十分巨大。
所以即使肺部CT滿足了輔助診療的場景,還依然存在多種需求沒有被滿足。包括檢前、檢中、檢后的個人需求,將自己影像數(shù)據(jù)分享給其他人,就需要為個人建立影像云篩查健康檔案,甚至為了更好管理自己的 情況,可能還需要進(jìn)一步的健康管理。
下一步,體素科技也希望通過人工智能增強(qiáng)醫(yī)療健康管理的質(zhì)量和可及性,改善診療完整健康狀態(tài)。
這是體素科技首席醫(yī)學(xué)指導(dǎo)Eric Topol教授在 nature medicine發(fā)表的文章,里面就總結(jié)和整合了目前人工智能的應(yīng)用形式,AI如何在工作中和人做有機(jī)的結(jié)合。
可以看到,從出生,到成長之后使用的可穿戴智能硬件,后面發(fā)生疾病所需要的檢查篩查、診斷鑒別、住院等等過程中,都存在廣闊的應(yīng)用場景。
全場景下,AI也可以滿足更廣闊的需求,面向醫(yī)生、面向醫(yī)療系統(tǒng)、面向病人和家用等,都存在多種產(chǎn)品形態(tài),每一種形態(tài)都是為了實(shí)現(xiàn)和滿足大家的需求。
體素科技希望以全病種的方式,將傳統(tǒng)CAD或者單病種人工智能輔助產(chǎn)品,擴(kuò)展向?yàn)槎鄠€資源打造新的服務(wù)模式和需求。
以胸部體檢篩查為例,一旦能夠滿足多病種人工智能篩查手段,分揀出正常和異常案例,再自動化生成大部分報告,不僅可以提升醫(yī)生工作效率,還可以同時使難以實(shí)現(xiàn)篩查的方式,成為每個人直接可以享受到的醫(yī)療資源,已經(jīng)有充足的數(shù)據(jù)證明,對高危人群進(jìn)行IDCT篩查可以降低20%的肺癌相關(guān)死亡率。
但現(xiàn)在CT篩查并沒有達(dá)到應(yīng)有的普及率和覆蓋程度。體素科技研發(fā)的全場景產(chǎn)品,期望可以在病人、醫(yī)生的各方分別實(shí)現(xiàn)產(chǎn)品的價值。
篩查不僅限于胸部CT、還有眼科、皮膚科通過手機(jī)影像的篩查、兒童視力障礙的篩查等情況。
體素的全場景,不至于影像
這是眼底彩照的多病種篩查案例,雖然在同一模態(tài),多病種的方式可以歸并和檢出更多病灶目標(biāo),目前識別的眼底疾病已經(jīng)達(dá)到40種,除此之外,還可以對里面的結(jié)構(gòu)進(jìn)行測量,并對常見和未知病灶進(jìn)行展示。
在世界人工智能大會“卓醫(yī)”挑戰(zhàn)賽上,體素科技在12種病灶的檢出結(jié)果均獲得技術(shù)上的領(lǐng)先。
體素的眼科AI產(chǎn)品已經(jīng)服務(wù)接近300家MMC中心,為9萬多名患者提供眼底智能篩查服務(wù),未來將通過助力基層篩查的方式,提高慢病患者篩查的依從性,實(shí)現(xiàn)更好的慢病管理和愈后。
此外,體素科技還和眼底相機(jī)企業(yè)合作研發(fā)了人工智能眼底一體機(jī),簡化篩查流程,實(shí)現(xiàn)全自動拍照和上傳,擴(kuò)展全場景理念。
這是體素“膚知匯”產(chǎn)品,基于手機(jī)圖片對皮膚疾病做篩查和分診,在難以取得皮膚科專業(yè)醫(yī)生結(jié)果之前,可以通過自我拍照的方式對皮膚狀況進(jìn)行了解。疫情期間,小程序服務(wù)了數(shù)百人次的自我檢查,此外還通過遠(yuǎn)程醫(yī)療為醫(yī)生提供了轉(zhuǎn)歸參考結(jié)果。
兒童視力篩查項(xiàng)目,也是基于視頻的手機(jī)篩查小程序,通過采集兒童觀察動畫的面部和眼睛運(yùn)動狀態(tài)。通過對視頻的算法分析對常見兒童視力障礙進(jìn)行早期的被動篩查,從中發(fā)現(xiàn)瞇眼、斜視等常見早期視力障礙。這個項(xiàng)目成果,也和合作單位合作發(fā)表在了Nature的子刊的封面上。
任天堂前社長巖田聰曾經(jīng)的演說中有一句話非常觸動我,“On my business card, I am a corporate president. In my mind, I am a game developer. But in my heart, I am a gamer”。
這句話應(yīng)該非常適合絕大多數(shù)跨界到醫(yī)療AI的同僚,大家在名片上可能寫的是是研究員、算法工程師、市場經(jīng)理,但是在自己的心中,仍然保持一個醫(yī)生的心。
每個人心中的致力方向,都是希望把醫(yī)療提升到更好的一個層面,讓更多人可以更方便的享受醫(yī)療服務(wù),盡管已經(jīng)在多病種、其他疾病上付出諸多努力,但是也同樣深知這條道路的前方,還有這更遠(yuǎn)、更深的未知領(lǐng)域,需要大家一齊去努力和探索。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。