1
本文作者: 李雨晨 | 2019-07-31 15:18 | 專題:CCF-GAIR 2019 |
編者按:近日,2019第四屆全球人工智能與機(jī)器人峰會(CCF-GAIR 2019)于深圳正式召開。峰會由中國計(jì)算機(jī)學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,深圳市人工智能與機(jī)器人研究院協(xié)辦,得到了深圳市政府的大力指導(dǎo),是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流博覽盛會,旨在打造國內(nèi)人工智能領(lǐng)域極具實(shí)力的跨界交流合作平臺。
在AI醫(yī)療專場上,香港大學(xué)統(tǒng)計(jì)與精算科學(xué)系主任、ASA Fellow 尹國圣教授發(fā)表了主題為《Statistics and AI in Medicine》的演講。
尹教授的研究方向是臨床試驗(yàn)設(shè)計(jì)、生存分析、貝葉斯統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)。目前他在國際頂級期刊上已發(fā)表論文約150篇。
他表示,目前,AI在放射學(xué)診斷設(shè)備端,如X光、CT、MRI圖像上應(yīng)用最為廣泛。利用這些圖像的準(zhǔn)確診斷有助于加快治療進(jìn)程,提高疾病治愈的可能性。另外,NLP在電子病歷中的應(yīng)用也是一個(gè)值得探索的方向:“醫(yī)學(xué)電子病歷有著海量的數(shù)據(jù),怎么樣利用這些數(shù)據(jù),給病人全方面的診斷,這也是非常有意義的一件事情。”
此外,與傳統(tǒng)的生存模型相比,深度學(xué)習(xí)還可以更準(zhǔn)確地預(yù)測患者的生存率。當(dāng)然,這只是機(jī)器學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域的開端,許多應(yīng)用前景廣闊,但還需要在隨機(jī)臨床試驗(yàn)中進(jìn)一步驗(yàn)證。
尹教授論述了幾個(gè)深度學(xué)習(xí)模型在疾病預(yù)測中的案例。他強(qiáng)調(diào),如果一個(gè)AUC為0.99的算法沒有被證明可以改善臨床結(jié)果,那么它的價(jià)值將會大打折扣。
當(dāng)然,從統(tǒng)計(jì)學(xué)的角度,尹教授也給我們分享了自己的心得。他介紹,醫(yī)學(xué)上的失誤是導(dǎo)致死亡的第三大因素,第一名是心臟??;第二名是癌癥;第三名是誤診。
人為錯(cuò)誤有時(shí)是不可避免的。雖然我們不能消除人為錯(cuò)誤,但我們可以更好地度量問題,以設(shè)計(jì)更安全的系統(tǒng),減少其發(fā)生的頻率和可能性。讓錯(cuò)誤在發(fā)生時(shí),盡可能地減小影響。
他說,100多年來,統(tǒng)計(jì)學(xué)在醫(yī)學(xué)研究中一直扮演著極為重要的角色。對藥物進(jìn)行假設(shè)檢驗(yàn),利用隨機(jī)臨床試驗(yàn)進(jìn)行治療效果的比較、使用ROC曲線評價(jià)疾病診斷系統(tǒng)或算法等等,而人工智能正在成為臨床醫(yī)生做決定時(shí)的一種補(bǔ)充。
以下為尹國圣教授的現(xiàn)場演講內(nèi)容,雷鋒網(wǎng)作了不改變原意的編輯及整理:
尹國圣:大家好!很高興有這個(gè)機(jī)會跟大家分享一下,我從統(tǒng)計(jì)學(xué)的角度看AI在醫(yī)學(xué)上的應(yīng)用。
前面幾位演講嘉賓講述了很多不同的案例。大家都知道AI在醫(yī)學(xué)影像上的應(yīng)用是最多的,比如說放射影像、病理影像。病理影像比放射影像的數(shù)量少很多,因?yàn)殡娮踊牟±碛跋癯杀竞芨摺?/p>
另外,電子病歷數(shù)據(jù)也是AI應(yīng)該得到應(yīng)用的重點(diǎn)。通常我們需要用NLP的方法去提取一些特征,然后把這些特征放到統(tǒng)計(jì)學(xué)的模型里。
還有另一大類AI的應(yīng)用是Prediction。我會給一些例子,如何用全方位的數(shù)據(jù)預(yù)測病人的生存時(shí)間,進(jìn)行更精準(zhǔn)的病人生存預(yù)測。
總體來說,從統(tǒng)計(jì)學(xué)的角度,AI在醫(yī)學(xué)上的應(yīng)用還在比較初期的階段,我會給大家介紹一些具體的案例,為什么我認(rèn)為它在黎明的階段。
大家都知道這是Deep Neural Network(DNN)。
從統(tǒng)計(jì)學(xué)的角度講,DNN缺乏可解釋性。統(tǒng)計(jì)在醫(yī)學(xué)上的應(yīng)用已經(jīng)超過上百年的歷史,為什么Deep Neural Network剛興起,就在醫(yī)學(xué)領(lǐng)域變得越來越重要。
從我的角度來看,DNN是統(tǒng)計(jì)模型,它是一個(gè)統(tǒng)計(jì)學(xué)的非參模型,可以擬合的數(shù)據(jù)非常復(fù)雜。
首先我介紹幾種應(yīng)用。
比如說膝關(guān)節(jié)的MRI圖像是三維的,有橫向、縱向、俯視切面,怎么樣通過CNN進(jìn)行三維診斷,最后分析出不同的病理情況。
另外一個(gè)應(yīng)用是眼科。
大家知道隨著糖尿病病人年紀(jì)增大,眼部的視力會越來越差,甚至導(dǎo)致失明。在《JAMA》的這篇文章里,研究人員通過視網(wǎng)膜的圖像,有54名醫(yī)學(xué)眼科專家進(jìn)行標(biāo)注,通過不同的數(shù)據(jù)集進(jìn)行驗(yàn)證。
但是這篇文章,最后說“Further research is necessary to determine the feasibility of applying this algorithm in the clinical setting”。
就是說,如果看到《Science》、《CELL》這些頂級雜志的成果,我們會發(fā)現(xiàn)他們做了很多的比較。比較以后,研究還需要進(jìn)一步的Validation,而不可以在臨床環(huán)境中直接進(jìn)行應(yīng)用。
當(dāng)然,整個(gè)研究的比較結(jié)果,通常都是算法打敗了人類,因?yàn)槿绻惴ú荒艽驍∪祟悾晒隙ㄊ遣荒馨l(fā)表的。
這是ROC曲線,黑色線離左上角越近越好,曲線下的面積是AUC。黑色的線代表了算法診斷的結(jié)果。你可以看到,算法的結(jié)果已經(jīng)非常接近專家的水平,甚至有時(shí)候會超過專家。
這是另外一項(xiàng)于2017年發(fā)表在《Nature》上關(guān)于皮膚癌的研究,利用AI進(jìn)行皮膚癌和其他皮膚病變的診斷。
這個(gè)研究首先是在ImageNet上訓(xùn)練模型,因?yàn)獒t(yī)學(xué)的數(shù)據(jù)比較少,我們可以通過其他海量圖像的數(shù)據(jù)進(jìn)行訓(xùn)練,然后再利用遷移學(xué)習(xí)的方法進(jìn)一步訓(xùn)練,這是非常常用的方法,可以對兩千多種皮膚疾病進(jìn)行分類。
這是皮膚科醫(yī)生和AI在ROC曲線上的比較結(jié)果。藍(lán)色的線是AI的結(jié)果,紅色的點(diǎn)是皮膚科專家的結(jié)果。你可以看到,通過AI的診斷結(jié)果基本上可以達(dá)到甚至超過皮膚專家的診斷結(jié)果。
另外一個(gè)研究是關(guān)于乳腺癌的淋巴結(jié)轉(zhuǎn)移。
這個(gè)案例的樣本量很小,只有200多個(gè)病人。一組有淋巴結(jié)轉(zhuǎn)移,另一組沒有淋巴結(jié)轉(zhuǎn)移。通過AI的方法來進(jìn)行讀片,最后有11名有時(shí)間限制的病理學(xué)家和一名無時(shí)間限制的病理學(xué)家對同一組相應(yīng)的玻片進(jìn)行了評估。
因?yàn)?,病理學(xué)專家驗(yàn)證是有時(shí)間限制的。還有一種是沒有時(shí)間限制,需要模擬真正臨床環(huán)境中病理專家閱片的場景。因?yàn)锳I讀片子比病理專家讀片子的速度快很多,如果給病理專家足夠多的時(shí)間,是不是可以超過 AI?
這是其中一個(gè)比賽的項(xiàng)目:CAMELYON16,這是病理學(xué)家和AI比較的圖。像剛才演講嘉賓講的,病理學(xué)圖像比放射圖像的數(shù)量少得多,因?yàn)椴±韺W(xué)圖像非常昂貴,需要把玻片轉(zhuǎn)換成數(shù)字化的圖像。
一個(gè)很重要的結(jié)論是,目前,很多研究都不是prospective study(前瞻性研究)——觀察一組受試者隨時(shí)間的推移,某些不同的特定因素是如何影響研究結(jié)果,這才是真正有意義的隨機(jī)臨床試驗(yàn)下的研究。
我們?nèi)绾握fcausal inference, A cause B?現(xiàn)在右邊列出的研究大多是追溯型的研究,我們看到這些數(shù)據(jù)追溯之前發(fā)生什么樣的事情,這樣的研究你都不可以得到確切的causal結(jié)論。所以,如果希望監(jiān)管部門批準(zhǔn)研發(fā)結(jié)果,你需要進(jìn)行前瞻性的研究。
AI讓人覺得非常興奮,大部分研究的AUC都能達(dá)到90%,甚至99%。但是AI不是一味地追求AUC是多少,而是要表現(xiàn)出臨床的價(jià)值。
從醫(yī)生的角度來講,AI是否能真正幫助醫(yī)生,節(jié)省他們的診斷時(shí)間,幫他們治療病人,這種臨床意義下的AI才是最有意義的。
IDx的一項(xiàng)研究是關(guān)于900個(gè)糖尿病病人眼部失明的案例,這是真正臨床意義上的試驗(yàn),隨著時(shí)間跟進(jìn)型的案例。
由IDx公司開發(fā)的專有系統(tǒng)(結(jié)合算法的成像設(shè)備)和臨床專家對圖像進(jìn)行評估,該系統(tǒng)可通過視網(wǎng)膜的光學(xué)相干斷層掃描(OCT)圖像進(jìn)行診斷。
系統(tǒng)算法在疾病診斷中對819例患者的敏感性為87%,特異性為91%。最后,F(xiàn)DA也是批準(zhǔn)了IDx的人工智能產(chǎn)品。
另外一個(gè)我想說的話題是,醫(yī)學(xué)失誤是導(dǎo)致死亡的第三大因素,第一名是心臟病、第二名是癌癥。為什么醫(yī)學(xué)失誤會帶來這么多的問題?
發(fā)表于《美國醫(yī)學(xué)協(xié)會雜志》、《柳葉刀》和《新英格蘭醫(yī)學(xué)雜志》三家主要醫(yī)學(xué)期刊的3000多項(xiàng)隨機(jī)對照試驗(yàn)分析顯示,有將近400個(gè)medical reversal。
人類的誤診是一個(gè)不可避免的事情,即使是一個(gè)最頂級的醫(yī)生也會犯錯(cuò)誤。但是我們怎么減少人的誤診帶來的死亡。AI能不能帶來幫助呢?
我們可以有三種不同的方式:make errors more visible(使錯(cuò)誤在發(fā)生時(shí)更明顯)、having remedies at hand(有急救措施)、take human limitations into account(考慮人類的局限性)
這是FDA發(fā)布的公告,F(xiàn)DA批準(zhǔn)很多醫(yī)療器材。比如說,心臟病人的心跳頻率如何保持正常?或是心臟搭橋手術(shù)。
AI作為SaMD醫(yī)療設(shè)備,如何通過FDA的認(rèn)證?
首先,F(xiàn)DA需要AI能夠幫助醫(yī)生進(jìn)行正確的診斷,可以對患者的病情進(jìn)行準(zhǔn)確的判斷,這種情況下,SaMD才有可能得到批準(zhǔn)。
而且,非常有意思的是,AI算法可以通過不斷地收集數(shù)據(jù)進(jìn)行學(xué)習(xí)而改善,變得越來越精準(zhǔn)。
但是當(dāng)前FDA不允許這樣,它希望在評價(jià)算法的時(shí)候,算法不應(yīng)再改變,如果更改了就需要重新進(jìn)行審批。
右邊的圖表是最近FDA批準(zhǔn)的一些AI產(chǎn)品。
比如說IDx在2018年4月份獲批。所以,我們要通過深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)上進(jìn)行訓(xùn)練,然后進(jìn)行臨床試驗(yàn)驗(yàn)證,最后才能得到FDA的批準(zhǔn)。
FDA批準(zhǔn)AI產(chǎn)品的頻率越來越快,這是從2017年的1月份一直到2018年9月份的匯總。
這是2018年發(fā)表在《CELL》上的一篇文章。通過ImageNet做出模型之后,再利用遷移學(xué)習(xí),將AI應(yīng)用到醫(yī)學(xué)領(lǐng)域。我們看到,ROC彩色的點(diǎn)是AI和人類專家的比較。這篇文章用到了633名病人,但是只使用病人的OCT圖像。
這個(gè)研究非常有探討空間。上圖中,藍(lán)色的線是Validation Data的準(zhǔn)確率,橙色的線是Training Data的準(zhǔn)確率。Validation Data的表現(xiàn)要優(yōu)于Training Data的表現(xiàn)。
但是,從統(tǒng)計(jì)學(xué)的角度來講,Training的結(jié)果通常會好過Validation的結(jié)果,因?yàn)椴粩嘤脭?shù)據(jù)訓(xùn)練模型,最后會發(fā)生過擬合的現(xiàn)象。
但是這篇文章最后結(jié)論為,Validation的結(jié)果打敗了Training的結(jié)果,我對這篇文章的結(jié)論持懷疑態(tài)度。
這是另外一個(gè)案例,目前沒有任何藥物可以治療老年癡呆癥,所有藥廠都在研發(fā)治療老年癡呆癥的藥。但是,所有三期臨床實(shí)驗(yàn)都失敗,現(xiàn)在有五種藥只能延緩疾病的惡化,不能完全治療老年癡呆癥。
老年癡呆癥是慢性神經(jīng)退化性疾病,對于我們未來的健康是非常大的挑戰(zhàn),不亞于癌癥。
我們?nèi)绾瓮ㄟ^醫(yī)學(xué)影像去幫助醫(yī)生進(jìn)行早期的預(yù)測和診斷,老年癡呆癥病人的大腦比正常人的體積要小。
這是三維的圖像,我們可以通過二維的CNN去進(jìn)行訓(xùn)練,最后來判斷病人是不是患有老年癡呆癥。
當(dāng)然,我們也可以通過3D-Convolution neural Network,這樣數(shù)據(jù)量比二維情況大很多。
另外一個(gè)研究是關(guān)于脊椎骨折,是香港大學(xué)醫(yī)學(xué)院的一個(gè)案例。
20%的男人和33%的女人在一生中會經(jīng)歷骨折。老年人骨折以后,身體狀況下降非???,骨折以后要躺在病床上幾個(gè)月,也不能運(yùn)動。雖然骨折不會直接導(dǎo)致死亡,但是會間接增大死亡的概率。
如何通過骨骼的圖像,判斷老年人骨折的概率是不是過高。如果概率很高,我們可以在骨折之前注入一種膠,增強(qiáng)骨骼的結(jié)構(gòu),避免脊椎發(fā)生骨折。
如果我們想得到更精準(zhǔn)的診斷結(jié)果,CT圖像的精準(zhǔn)度可能不夠。我們可以通過Res-Net,通過CT圖像,去進(jìn)行super resolution,最后判斷骨折的概率是多大。
剛剛我列舉的都是AI在醫(yī)學(xué)影像上的應(yīng)用。
其實(shí),電子病歷也擁有海量的數(shù)據(jù),我們怎么樣能把這些數(shù)據(jù)應(yīng)用起來,給病人提供全方面的診斷,這也是非常有意義的一件事情。
電子病歷數(shù)據(jù)通常會有一些Medical error,有一些醫(yī)學(xué)詞匯是縮寫或者寫錯(cuò)了,我們?nèi)绾伟堰@些數(shù)據(jù)放在一起用?
我們可以運(yùn)用一個(gè)NLP系統(tǒng)幫助病人做疾病分類,通過NLP的方式可以做一個(gè)全自動的數(shù)據(jù)庫DataBase,去幫助醫(yī)生進(jìn)行診斷。
其實(shí)在DNN之前,已經(jīng)有很多傳統(tǒng)方法進(jìn)行過類似的研究。
比如說,這是IBM Watson Patient Record NLP。
以前大家都是用AdaBoost和Random Forests,這些都是機(jī)器學(xué)習(xí)的傳統(tǒng)技術(shù),現(xiàn)在可以用NLP或是LSTM的方法,幫助更精準(zhǔn)地做一些NLP的應(yīng)用。
放射學(xué)報(bào)告是文字性數(shù)據(jù),但是文字性數(shù)據(jù)不能直接用,要進(jìn)行數(shù)據(jù)化,最后做sentence detection等,用金標(biāo)準(zhǔn)的方法進(jìn)行evaluation,這種方法也變得越來越普遍。比如說CT的報(bào)告,MRI的報(bào)告,每一個(gè)圖像都跟隨一個(gè)報(bào)告。
現(xiàn)在我們很多都是用圖像做診斷,可以把NLP的方法用在放射學(xué)報(bào)告里,得到全方位的醫(yī)學(xué)診斷。
第三類AI應(yīng)用是可以通過LSTM或是CNN去進(jìn)行預(yù)測。
這是成都空氣污染的預(yù)測,可以看到PM2.5、PM10還有濕度、氣壓、二氧化硫、二氧化碳等等,9個(gè)Station收集的數(shù)據(jù)相關(guān)性非常強(qiáng)。
圖中列出第4個(gè)和第5個(gè)station收集的一氧化碳和PM2.5的數(shù)據(jù),兩者的相關(guān)性非常強(qiáng),這里面包含時(shí)間序列的相關(guān)性和地域相關(guān)性,我們?nèi)绾伟训赜蛳嚓P(guān)性和時(shí)間序列的數(shù)據(jù)用統(tǒng)計(jì)的方法結(jié)合在一起。
我一開始介紹的survival analysis(生存分析)已經(jīng)有70多年的歷史。
這是一個(gè)傳統(tǒng)的survival analysis中的Cox Model。現(xiàn)在大家都不用這種線性模型,而是把一個(gè)神經(jīng)網(wǎng)絡(luò)放在模型中。
神經(jīng)網(wǎng)絡(luò)是非參數(shù)的方法。也就是說,如果我們把線性的回歸模型用神經(jīng)網(wǎng)絡(luò)的方式套嵌到模型里,會得到更精準(zhǔn)的預(yù)測。
這是一個(gè)在competing risk情況下,DeepHit包含兩個(gè)cause-specific sub-networks。
competing risk是什么意思呢?病人死亡只是一件事,但是可能有很多不同的疾病導(dǎo)致死亡,比如說心臟病或是癌癥,哪個(gè)疾病先導(dǎo)致死亡。
大家在神經(jīng)網(wǎng)絡(luò)上做病人分類,其實(shí)就是做0和1或是不同的種類。Survival analysis是針對另外一種數(shù)據(jù),不是0或1,它是一種time-to-event 數(shù)據(jù)。也就是說,跟蹤病人直到某一件事情發(fā)生,這件事通常是死亡。我們能檢測藥物是否可以延長病人的生存時(shí)間。
deepsur是另外一個(gè)生存分析模型。
這是發(fā)表在《Nature Medicine》上的一篇文章,關(guān)于survival Convolutional neural Network,把病理的圖像通過convolutional neural做出一些特征,把所有的特征輸入到Cox model里,然后通過Cox model去做病人的生存分析。
在緊急救護(hù)的病人里,我們通常做一些插管,什么時(shí)候進(jìn)行插管也是非常重要的。
我們可以通過LSTM作為特征的輸入,因?yàn)橛行┨卣魇请S時(shí)間變化的。病人在救護(hù)室會測量脈搏、心跳,這些都是和時(shí)間有關(guān)系。通常意義下,我們都是做一個(gè)回歸模型,如果用LSTM,可以得到更精準(zhǔn)的預(yù)測。
我們可以看到,關(guān)于生存分析,有了一些革命性的改變。
我們做了一些比較,LSTM的結(jié)果是表現(xiàn)最好的。
這是剛剛出版的一本書《Deep Medicine》。統(tǒng)計(jì)學(xué)在醫(yī)學(xué)上的應(yīng)用已經(jīng)有一百多年的歷史,所有的臨床試驗(yàn)、所有的藥物研發(fā)都需要統(tǒng)計(jì)學(xué)的介入與指導(dǎo)。比如說怎樣做ROC Curve、怎么計(jì)算P-value 、type l error,醫(yī)學(xué)試驗(yàn)需要多少病人才能得到臨床意義上的驗(yàn)證?
AI作為一種新的方式,可以幫助醫(yī)生進(jìn)行精準(zhǔn)的治療。AI最大的意義是能把醫(yī)生的時(shí)間解放出來,把很多重復(fù)性的工作讓AI來做,這樣醫(yī)生可以有更多的時(shí)間幫助病人解決更多的問題。
我來自香港大學(xué),香港大學(xué)今年9月份招第一批AI的本科專業(yè)學(xué)生,我們只招15名本科生,包括香港和大陸的學(xué)生。
謝謝,我的演講就到這里。雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章