1
本文作者: 張馳 | 2016-12-02 11:55 | 專(zhuān)題:雷峰網(wǎng)公開(kāi)課 |
圖像識(shí)別技術(shù)已經(jīng)可以認(rèn)出人臉,也能用于自動(dòng)駕駛中,那它用于醫(yī)學(xué)影像,識(shí)別病變中又如何呢?在《國(guó)內(nèi)人工智能+醫(yī)學(xué)影像公司大盤(pán)點(diǎn)》一文中,雷鋒網(wǎng)介紹了國(guó)內(nèi)將深度學(xué)習(xí)等人工智能技術(shù)用于醫(yī)學(xué)影像的眾多公司,它可以削減讀片時(shí)間,降低誤診的概率,推薦治療方案,協(xié)助醫(yī)生診斷。
本期硬創(chuàng)公開(kāi)課,雷鋒網(wǎng)請(qǐng)到其中一家公司DeepCare的創(chuàng)始人兼CTO丁鵬博士,為我們講講人工智能應(yīng)用于醫(yī)學(xué)影像的那些事兒。
丁鵬,DeepCare創(chuàng)始人兼CTO,博士畢業(yè)于美國(guó)達(dá)特茅斯學(xué)院(Dartmouth College),從事算法研發(fā)工作8年;在計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)技術(shù)方面有長(zhǎng)時(shí)間的科研經(jīng)歷,且有工業(yè)級(jí)算法開(kāi)發(fā)經(jīng)驗(yàn);對(duì)人工智能技術(shù)產(chǎn)業(yè)化有深刻的見(jiàn)解,在如何將人工智能技術(shù)與醫(yī)學(xué)影像結(jié)合,開(kāi)發(fā)商業(yè)產(chǎn)品方面,也是國(guó)內(nèi)首屈一指的專(zhuān)家。
以下內(nèi)容來(lái)自丁鵬在雷鋒網(wǎng)硬創(chuàng)公開(kāi)課的分享:
雷鋒網(wǎng):可以簡(jiǎn)單介紹一下DeepCare所關(guān)注的領(lǐng)域嗎?
我們主要的方向是醫(yī)學(xué)影像。醫(yī)學(xué)影像是一個(gè)很大的方向,從細(xì)胞病理學(xué)到組織病理學(xué)到影像科,都屬于這一范圍。我們經(jīng)過(guò)調(diào)研,確定做的是病理方向。原因是,病理醫(yī)生是“醫(yī)生中的醫(yī)生”,地位非常重要,是確定有沒(méi)有重大疾?。ㄈ绨┌Y)的最后一道防線(xiàn),而國(guó)內(nèi)的病理醫(yī)生又是奇缺的,存在很大的供需矛盾。
我們的定位是,為病理醫(yī)生提供服務(wù),提升他們的工作效率,幫助他們看片。一個(gè)方面是“查”,一個(gè)方面是“判”。查主要是指針對(duì)病理科的搜索、數(shù)據(jù)管理系統(tǒng)等,如以圖搜圖。二是判,指幫助病理醫(yī)生看片子。目前主要是做乳腺和肺癌。
雷鋒網(wǎng):總體上看,把計(jì)算機(jī)視覺(jué)等人工智能技術(shù)用在醫(yī)療上,在國(guó)內(nèi)目前的發(fā)展,處于什么樣的階段?
對(duì)于這個(gè)問(wèn)題,要先看看深度學(xué)習(xí)等新技術(shù),用在傳統(tǒng)行業(yè)上(比如醫(yī)生看?。┑囊饬x有哪些。無(wú)論在發(fā)達(dá)國(guó)家還是發(fā)展中國(guó)家,優(yōu)質(zhì)醫(yī)療資源的供需始終是一對(duì)矛盾,因?yàn)榫薮蟮娜丝趬毫Γ@個(gè)問(wèn)題在中國(guó)尤為突出。這也是為什么在協(xié)和醫(yī)院門(mén)口是看到那么多外地人到北京看病,又掛不上專(zhuān)家號(hào)只能買(mǎi)黃牛票。
另一方面來(lái)說(shuō),醫(yī)學(xué)影像是醫(yī)生看病,及決策的最大的信息入口。而醫(yī)生理解這些影像的本質(zhì),即是醫(yī)生大腦經(jīng)過(guò)長(zhǎng)期的過(guò)程被大量數(shù)據(jù)訓(xùn)練出來(lái)的結(jié)果。一個(gè)客觀事實(shí)是,高中低年資的醫(yī)生在看同一張片子時(shí)候,得出的結(jié)論會(huì)有天壤之別,這也是為什么我們要去協(xié)和找“老大夫”看病的事實(shí)依據(jù)。
這是因?yàn)榭床〉男Ч蛷尼t(yī)的年限高度相關(guān),而從醫(yī)的時(shí)間長(zhǎng)短不同意味著所接受的信息量不同。那么如果一臺(tái)機(jī)器學(xué)習(xí)了比人類(lèi)醫(yī)生多得多的案例或者圖片,會(huì)不會(huì)超越人類(lèi)呢?答案一定是肯定得。這也是應(yīng)用深度學(xué)習(xí)技術(shù)訓(xùn)練計(jì)算機(jī)“看懂”醫(yī)學(xué)影像的意義所在。
對(duì)于發(fā)展?fàn)顩r,我看來(lái),無(wú)論在中國(guó)還是美國(guó),在算法和數(shù)據(jù)上看,這一領(lǐng)域的發(fā)展都是在早期。它已經(jīng)走出了實(shí)驗(yàn)室,但離商業(yè)化還有很長(zhǎng)的路要走。
算法開(kāi)發(fā)上,通用物體檢測(cè)識(shí)別的算法又一個(gè)巨大的人群在做,但是在醫(yī)學(xué)影像領(lǐng)域由于數(shù)據(jù)的可獲得性差很多,所以研究的人和前者相比并不是特別多。但是越來(lái)越多的學(xué)者和研究機(jī)構(gòu)看好這個(gè)方向,開(kāi)始加大投入進(jìn)來(lái)。
高質(zhì)量的標(biāo)注數(shù)據(jù)方面,在這個(gè)方面中國(guó)與美國(guó)相比很有可能會(huì)“彎道超車(chē)”,因?yàn)槲覀兌贾涝诿绹?guó)拿醫(yī)療數(shù)據(jù)是個(gè)非常困難的事情,無(wú)論是科研還是商用;但是在中國(guó)因?yàn)轶w制的原因和政府對(duì)于技術(shù)創(chuàng)新的重視,會(huì)讓這個(gè)問(wèn)題變得更容易一些。
雷鋒網(wǎng):根據(jù)你們的經(jīng)驗(yàn)將人工智能用于醫(yī)療,會(huì)面臨哪些主要困難和阻礙?
人工智能或者說(shuō)深度學(xué)習(xí)相對(duì)來(lái)說(shuō)是一個(gè)新技術(shù),一個(gè)新的技術(shù)與老的行業(yè)相結(jié)合的時(shí)候往往會(huì)誕生出新的方向。目前的人工智能技術(shù)無(wú)論與哪一個(gè)行業(yè)結(jié)合,都必須聚焦到一個(gè)“場(chǎng)景”上來(lái),比如說(shuō)“醫(yī)生讀片”就是一個(gè)場(chǎng)景。在這個(gè)場(chǎng)景上應(yīng)用新技術(shù),特別是對(duì)于二三線(xiàn)城市中受訓(xùn)練較少的醫(yī)生,不僅會(huì)提高醫(yī)生判定的準(zhǔn)確性,更會(huì)提高醫(yī)生的工作效率,換句話(huà)說(shuō),釋放了醫(yī)生的生產(chǎn)力。
要完成這個(gè)事情,需要有兩個(gè)必要條件。第一,適應(yīng)于具體問(wèn)題的算法;第二,高質(zhì)量的標(biāo)注數(shù)據(jù)。算法開(kāi)發(fā)是一個(gè)難點(diǎn),但相對(duì)比較容易搞定。高質(zhì)量的小批量標(biāo)注數(shù)據(jù)我們也已經(jīng)獲得,但是如何進(jìn)行大批量數(shù)據(jù)的標(biāo)注,以及標(biāo)注質(zhì)量控制確實(shí)是一個(gè)比較困難的問(wèn)題。這涉及到最核心的資源,即高質(zhì)量醫(yī)生的時(shí)間與效率。除了時(shí)間,更重要的是如何做質(zhì)量管控,比如同樣一張圖,標(biāo)準(zhǔn)及答案是什么,誰(shuí)定義答案,由幾個(gè)醫(yī)生來(lái)標(biāo)注,標(biāo)注的是幾個(gè)階段,是盲標(biāo)還是非盲標(biāo)。這些都是要考慮的。
這個(gè)問(wèn)題業(yè)界目前還沒(méi)有給出一個(gè)清晰標(biāo)準(zhǔn)的答案,正在積極探索。
雷鋒網(wǎng):在技術(shù)選擇上,醫(yī)學(xué)影像與其它圖像識(shí)別是否會(huì)存在差異?
這是必然的。自然世界里的圖像與人體內(nèi)的圖像有著天然的巨大差異,因此針對(duì)于不同問(wèn)題我們使用的算法也是不一樣的,絕對(duì)不可能一刀切。我之前做過(guò)一種醫(yī)學(xué)影像,它的病變的位置(做的是分割問(wèn)題)有從十幾個(gè)像素到幾千個(gè)像素,為了檢測(cè)小的病變點(diǎn),如果downsampling次數(shù)太多,可能無(wú)法deconvelotion回來(lái)。
雷鋒網(wǎng):主要會(huì)用到哪些技術(shù)和算法呢?
在CV上有三個(gè)最基本問(wèn)題:分類(lèi),檢測(cè)和分割。我們處理的問(wèn)題中也用的這三種方法,在病理上主要是做細(xì)胞層面上的,比如分類(lèi),細(xì)胞的分割,在細(xì)胞病理學(xué)上的檢測(cè)工作等。
雷鋒網(wǎng):深度學(xué)習(xí)等技術(shù)是否適合所有類(lèi)別的醫(yī)學(xué)影像,是否有些更為合適?
將深度學(xué)習(xí)技術(shù)應(yīng)用在計(jì)算機(jī)圖像上的時(shí)候,有一個(gè)衡量問(wèn)題難易程度的“標(biāo)準(zhǔn)”,即這個(gè)問(wèn)題(圖像)讓人來(lái)理解的話(huà)是否可以做到。從我的經(jīng)驗(yàn)來(lái)看,一個(gè)人普通人(比如我自己)經(jīng)過(guò)簡(jiǎn)單的訓(xùn)練(比如一個(gè)小時(shí)左右)之后就可以在化驗(yàn)血液的圖片中找到紅細(xì)胞、白細(xì)胞等等;但是我需要經(jīng)過(guò)很多次高強(qiáng)度的訓(xùn)練之后,才有可能在肺部組織病理切片中看出,哪里是癌細(xì)胞以及它們對(duì)應(yīng)的亞型是什么。
從這個(gè)角度來(lái)看,我們做的理解組織病理切片的問(wèn)題,應(yīng)該是屬于醫(yī)學(xué)影像中非常難的問(wèn)題之一。對(duì)醫(yī)生難,因此對(duì)機(jī)器也不容易,但正是它的困難才帶來(lái)了無(wú)與倫比的價(jià)值,所以病理科醫(yī)生在被稱(chēng)為“醫(yī)生中的醫(yī)生”。病理科相當(dāng)于,如果判斷一個(gè)人是否有癌癥,影像科所得的影像都不能據(jù)此下最后的結(jié)論,而病理醫(yī)生可以下結(jié)論。
有幾個(gè)數(shù)字,國(guó)內(nèi)病理科醫(yī)生在冊(cè)的有1萬(wàn)多人,但經(jīng)過(guò)我們的訪(fǎng)談,認(rèn)為國(guó)內(nèi)需要大約6、7萬(wàn)的人才能滿(mǎn)足需求。但病理醫(yī)生的培養(yǎng)周期特別長(zhǎng),北京某著名醫(yī)生的病理科主任曾跟我說(shuō)過(guò),他們醫(yī)院45歲以下的病理科醫(yī)生會(huì)診時(shí)沒(méi)有發(fā)言權(quán)。因?yàn)榧?xì)胞本身的差異非常大,醫(yī)生也就要經(jīng)過(guò)大量的訓(xùn)練才行。
由于體制的原因,病理科醫(yī)生不直接面對(duì)患者,收入水平較低。幾家特甲醫(yī)院也需要花大價(jià)錢(qián)尋找病理醫(yī)生。這種供需矛盾也帶來(lái)了巨大的機(jī)會(huì),這不僅是商業(yè)上的,也是有社會(huì)意義的。
雷鋒網(wǎng):數(shù)據(jù)對(duì)人工智能來(lái)說(shuō)很重要,那醫(yī)學(xué)影像的數(shù)據(jù)來(lái)源及獲取渠道有哪些?
數(shù)據(jù)的來(lái)源的主體還是醫(yī)院,不過(guò)目前越來(lái)越多的第三方病理中心也是我們獲取數(shù)據(jù)的渠道之一。
雷鋒網(wǎng):數(shù)據(jù)建設(shè)是一個(gè)難點(diǎn)嗎?標(biāo)注上是否會(huì)有更多困難?
數(shù)據(jù)標(biāo)注甚至比數(shù)據(jù)獲取更重要。之前我們做過(guò)一個(gè)非常有意義的研究,找來(lái)了40張乳腺癌的病理切片,分別讓中國(guó)的高年資和中低年資的醫(yī)生標(biāo)注,并和美國(guó)醫(yī)生標(biāo)注的“真值”做比較,結(jié)果是我們看到了恐怖的差異:在這40張片子上,高級(jí)醫(yī)生和普通醫(yī)生的水平差距在30個(gè)百分點(diǎn)。這個(gè)實(shí)驗(yàn)充分說(shuō)明了找到領(lǐng)域內(nèi)最厲害的醫(yī)生進(jìn)行標(biāo)注是多么的至關(guān)重要。
雷鋒網(wǎng):圖像識(shí)別是否可以同時(shí)識(shí)別出多個(gè)部位的疾?。窟@里的難點(diǎn)又在哪?
醫(yī)學(xué)影像是醫(yī)生看病一個(gè)最大的信息入口。一張病理切片大概是1-3個(gè)G不等,比一個(gè)高清電影還大,其中蘊(yùn)含的信息也是海量的。因此可以說(shuō),從一種重大疾病(比如癌癥)的篩查,到隨診,再到最后的判定,醫(yī)學(xué)影像都在其中起到最重要的作用。
對(duì)于識(shí)別多個(gè)部位的疾病,現(xiàn)在是可以查出多種疾病來(lái)的,同時(shí),針對(duì)某一種病做到知名醫(yī)生的水平仍舊不容易??床∈且粋€(gè)過(guò)程,目前來(lái)看,算法的開(kāi)發(fā)還是針對(duì)某一種器官,某一種病。如上所述,整個(gè)行業(yè)是在早期階段,目前的做法是個(gè)個(gè)擊破,比如肺部的病變就有很多種,現(xiàn)在的做法是分開(kāi)進(jìn)行。合并也是有方法的,比如有檢測(cè)多種病的算法,挨個(gè)都試試,看效果如何。
但目前來(lái)說(shuō),能做好一種病的分析就很不容易。比如肺小結(jié)節(jié)在CT中的檢測(cè),8mm以上的結(jié)節(jié)已經(jīng)有團(tuán)隊(duì)可以做到99%的檢測(cè)水平,但5mm左右的檢測(cè)仍非常難。所以,在評(píng)測(cè)這些算法時(shí),也要有一個(gè)公正的方法。
雷鋒網(wǎng):醫(yī)學(xué)影像與病例病史等資料的整合,從而做出綜合的智能分析,現(xiàn)在處于怎么樣的階段了?
在我看來(lái),病例方面關(guān)于文本的處理是走在影像的前面。目前我了解,這兩個(gè)方面仍在獨(dú)立進(jìn)行,都不容易做好?;氐綌?shù)據(jù)源上來(lái),在病例本身上,不同醫(yī)院,甚至一家醫(yī)院不同科室的醫(yī)生,寫(xiě)病例的方式也不一樣,它不是一個(gè)結(jié)構(gòu)化的數(shù)據(jù)來(lái)源。
醫(yī)生寫(xiě)病例時(shí),是一種總結(jié)的方式,而不是一種連續(xù)的方式。比如,醫(yī)生與病人交流時(shí),它像一個(gè)分類(lèi)器一樣,問(wèn)一個(gè)問(wèn)題,然后得到病人的回答,然后再往下問(wèn),如果能抽象出來(lái),就像一個(gè)樹(shù)狀分類(lèi)器。但病例只寫(xiě)了一個(gè)分類(lèi)器的結(jié)果,其中判斷的過(guò)程并沒(méi)有在病例中體現(xiàn)出來(lái)。
如果能讓病例信息更全面,更結(jié)構(gòu)化,這種信息才能真正利用起來(lái)。這也是我們選影像切入的原因,因?yàn)橛跋袷歉Y(jié)構(gòu)化的信息,以病理科為例,95%的判斷仍是影像中細(xì)胞本身的判斷??傮w來(lái)說(shuō),影像與病例這種多模態(tài)的信息的融合是一個(gè)方向,但兩者都是在早期階段。
雷鋒網(wǎng):圖像識(shí)別類(lèi)公司一般有提供API,或自己做硬件,以及做整套方案等區(qū)分,在醫(yī)學(xué)影像上,會(huì)更適合哪一類(lèi)嗎?你們的選擇是怎么樣的?
這是一個(gè)產(chǎn)品形態(tài)問(wèn)題。我覺(jué)得無(wú)論是云端產(chǎn)品,還是前端硬件的方式都是可以的,主要看客戶(hù)(比如醫(yī)院)的需求,以及自身的網(wǎng)絡(luò)限制,需要具體問(wèn)題具體分析。
第三方影像中心有很多,他們的做法是將數(shù)據(jù)連到云端。但病理可能是另外一種情況,一張圖可能是1-3GB,這樣會(huì)受到醫(yī)院帶寬的限制,這種情況下可能是一種前端產(chǎn)品。以血液檢測(cè)科為例,有國(guó)外的機(jī)器自身帶有智能分析算法,做到了前端,最后需要的是醫(yī)生確認(rèn)。
商業(yè)路徑選擇要根據(jù)不同影像的特點(diǎn)來(lái)選擇產(chǎn)品形態(tài)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。