0
本文作者: 劉偉 | 2017-12-28 19:37 |
雷鋒網(wǎng)AI掘金志《未來(lái)醫(yī)療大講堂——醫(yī)學(xué)影像專(zhuān)題》第四期總結(jié)文:一個(gè)只給醫(yī)療AI從業(yè)者、影像科醫(yī)生、名校師生、CFDA工作人員看的系列課程。
注:90分鐘的視頻信息量巨大,文章僅為冰山一角,強(qiáng)烈建議觀看完整版視頻(含57頁(yè)P(yáng)PT),請(qǐng)點(diǎn)擊鏈接:http://www.mooc.ai/open/course/384
一、數(shù)據(jù)篇(17頁(yè)P(yáng)PT)
1.醫(yī)學(xué)影像數(shù)據(jù)資產(chǎn)盤(pán)點(diǎn)
2.標(biāo)注工具——脫敏:大框架、小技巧
3.標(biāo)注工具第一類(lèi)——PC+文件夾處理
4.標(biāo)注工具第二類(lèi)——專(zhuān)用IT系統(tǒng)和工具:客戶端系統(tǒng)與網(wǎng)站系統(tǒng)
5.第三方標(biāo)注工具LabelImg
6.自建工具
7.標(biāo)注工具開(kāi)發(fā)心得
8.標(biāo)注工具第三類(lèi)——專(zhuān)用工具+AI輔助標(biāo)注
二、算法篇(31頁(yè)P(yáng)PT)
1.關(guān)于數(shù)據(jù)分割比例
2.遷移學(xué)習(xí)
3.框架選型:Pytorch、Caffe、TensorFlow、MXnet
4.目標(biāo)檢測(cè)用于面部皮膚疾病分析
數(shù)據(jù)脫敏及預(yù)處理、皮膚疾病檢測(cè)
5.目標(biāo)檢測(cè)用于宮頸基液細(xì)胞分析
基于深度學(xué)習(xí)+GBDT的Two Stage模型
multi CPU+multi GPU宮頸病理三分類(lèi)系統(tǒng)
6.3D目標(biāo)檢測(cè)用于肺結(jié)節(jié)CT分析:
數(shù)據(jù)處理、肺結(jié)節(jié)預(yù)測(cè)框架、Faster RCNN框架、Online hard Example mining、Loss 函數(shù)、框架選擇、我們的模型框架、FROC效果提升、模型網(wǎng)絡(luò)結(jié)構(gòu)(150層+,Unet+Resnet)、分類(lèi)器與融合
三、算力篇(9頁(yè)P(yáng)PT)
1.架構(gòu)選型決策:品牌 VS DIY
Intel CPU+Nvidia GPU
Power CPU+Nvidia GPU
Intel CPU
Intel +ASIC
Intel +FPGA
2、選型決策:云VS自建
亞馬遜云、美團(tuán)云、阿里云
3.算力優(yōu)化:CPU GPU 寬帶優(yōu)化、CUDA
吳博從數(shù)據(jù)、算法和算力三個(gè)層面,詳細(xì)介紹了自己在AI醫(yī)學(xué)影像落地方面的實(shí)戰(zhàn)經(jīng)驗(yàn)和心得。
他指出,醫(yī)療數(shù)據(jù)的價(jià)值評(píng)估與鉆石類(lèi)似,可以從數(shù)據(jù)質(zhì)量、同分布來(lái)源的影像數(shù)據(jù)尺寸和數(shù)據(jù)標(biāo)注程度這三大維度來(lái)考核。沒(méi)有經(jīng)過(guò)標(biāo)注的數(shù)據(jù)就像未經(jīng)加工的原石,無(wú)法體現(xiàn)其價(jià)值,因此數(shù)據(jù)標(biāo)注是AI醫(yī)學(xué)影像落地過(guò)程中至關(guān)重要的一環(huán)。
吳博對(duì)數(shù)據(jù)標(biāo)注工具進(jìn)行了分類(lèi),并分享了自己在開(kāi)發(fā)數(shù)據(jù)標(biāo)注工具方面的心得。他指出,通過(guò)自建工具能夠更好地滿足項(xiàng)目推進(jìn)過(guò)程中的用戶管理、權(quán)限管理、多人協(xié)作審核,以及模型迭代標(biāo)注調(diào)整等需求。
數(shù)據(jù)層面,企業(yè)能做的決策不多,只能“看菜吃飯”,但在算力層面,企業(yè)有很多的選擇,比如選擇什么樣的框架,選擇品牌設(shè)備還是DIY設(shè)備,選擇云服務(wù)還是自建機(jī)房等。在課程的最后部分,吳博詳細(xì)介紹了許多選型決策和算力優(yōu)化方面的技巧。
吳博,宜遠(yuǎn)智能CEO
學(xué)術(shù)背景:吳博先后在清華大學(xué)、香港浸會(huì)大學(xué)求學(xué),并在英國(guó)利茲大學(xué)完成博士后,師從計(jì)算機(jī)視覺(jué)專(zhuān)家唐遠(yuǎn)炎教授等人。與此同時(shí),他也在ICML/ACL等頂級(jí)會(huì)議發(fā)表多篇人工智能論文。
工業(yè)界經(jīng)驗(yàn):2017年創(chuàng)立醫(yī)療AI公司:宜遠(yuǎn)智能,該公司集結(jié)了20多名人工智能博士以及眾多海內(nèi)外醫(yī)學(xué)顧問(wèn),為醫(yī)療健康領(lǐng)域提供AI增強(qiáng)解決方案,并與多家知名醫(yī)院達(dá)成合作,并推出成型產(chǎn)品。
創(chuàng)立宜遠(yuǎn)智能之前,吳博曾在愛(ài)立信大數(shù)據(jù)研究院任職。還主導(dǎo)過(guò)百億級(jí)虛擬品電商、數(shù)字貨幣系統(tǒng)的業(yè)務(wù)及數(shù)據(jù)架構(gòu)建設(shè)與運(yùn)營(yíng)。
2017年成果:吳博領(lǐng)導(dǎo)的宜遠(yuǎn)智能團(tuán)隊(duì)在醫(yī)學(xué)影像領(lǐng)域,取得以下成績(jī):
1.阿里天池醫(yī)療AI大賽GPU環(huán)節(jié)國(guó)內(nèi)最佳;開(kāi)源系統(tǒng)榮獲大賽人氣獎(jiǎng)。
2.面部皮膚診斷分析API、SDK已經(jīng)進(jìn)入商業(yè)化,并在2017年世界互聯(lián)網(wǎng)大會(huì)展出。
3.宮頸基液細(xì)胞學(xué)診斷AI在權(quán)威評(píng)測(cè)中,超出醫(yī)生水平。
以下圖文為雷鋒網(wǎng)AI掘金志節(jié)選的吳博課程部分內(nèi)容:
醫(yī)療人工智能建立在海量數(shù)據(jù)的基礎(chǔ)之上,但優(yōu)質(zhì)的醫(yī)療數(shù)據(jù)十分稀缺,其價(jià)值隨之凸顯。如何準(zhǔn)確評(píng)估數(shù)據(jù)的價(jià)值,是醫(yī)生和投資人非常關(guān)心的話題,對(duì)此業(yè)內(nèi)尚未形成共識(shí)。
吳博認(rèn)為,醫(yī)療數(shù)據(jù)可以類(lèi)比為鉆石。鉆石的價(jià)值評(píng)估對(duì)應(yīng)著顏色、凈度、切工和克拉這四個(gè)維度,醫(yī)療數(shù)據(jù)也可如此類(lèi)比。
顏色越純、凈度越高的鉆石,價(jià)值也就越高。對(duì)于醫(yī)學(xué)影像數(shù)據(jù)來(lái)說(shuō),它的價(jià)值也取決于其干凈、規(guī)范、清晰和標(biāo)準(zhǔn)化的程度。如果是從膠片、PACS系統(tǒng)和診斷報(bào)告中翻拍而來(lái)的數(shù)據(jù),必然會(huì)包含一些雜質(zhì),其價(jià)值將大打折扣。吳博指出,高質(zhì)量的數(shù)據(jù)需要是Raw Data,比如mhd格式的DICOM影像和openslide病理圖像。
鉆石單顆克拉數(shù)越高,價(jià)值也就越大。吳博認(rèn)為,鉆石的克拉數(shù)可類(lèi)比同分布來(lái)源的影像數(shù)據(jù)尺寸。所謂同分布來(lái)源的影像數(shù)據(jù),對(duì)CT來(lái)說(shuō)就是來(lái)自同一設(shè)備的,參數(shù)和曝光強(qiáng)度都相同的影像數(shù)據(jù);對(duì)病理圖像來(lái)說(shuō),則指采用同一染色方法和色度、同一掃描儀及倍數(shù),以及相同存儲(chǔ)格式的影像數(shù)據(jù)。
雖然AI企業(yè)的最終目標(biāo)是開(kāi)發(fā)出一套通用性強(qiáng)的算法,能通吃各種數(shù)據(jù);但作為數(shù)據(jù)資產(chǎn)方,同分布同來(lái)源的影像數(shù)據(jù)規(guī)模越大,其價(jià)值就越高。
有些醫(yī)院雖然擁有大量數(shù)據(jù),但它們來(lái)自不同的科室,格式也不盡相同,這種數(shù)據(jù)的價(jià)值是要打一些折扣的。
鉆石成為商品前需要經(jīng)過(guò)切割等加工,醫(yī)療數(shù)據(jù)同樣要經(jīng)過(guò)標(biāo)注等處理才能釋放其價(jià)值。鉆石的切割工藝分為許多個(gè)層級(jí),醫(yī)療影像數(shù)據(jù)的標(biāo)注亦是如此。從基礎(chǔ)的類(lèi)別標(biāo)注到類(lèi)別+病灶方框標(biāo)注,再到類(lèi)別+像素級(jí)勾畫(huà),標(biāo)注的精細(xì)度逐級(jí)提升,數(shù)據(jù)的價(jià)值亦水漲船高。
工欲善其事,必先利其器。要想對(duì)醫(yī)療影像數(shù)據(jù)進(jìn)行精細(xì)化的標(biāo)注,首先得有好的標(biāo)注工具。
吳博將標(biāo)注工具劃分成了三大類(lèi)別,他將最基礎(chǔ)的一類(lèi)稱(chēng)作“pc+文件夾處理”,即讓醫(yī)生在pc和工作站上對(duì)數(shù)據(jù)進(jìn)行分揀。對(duì)于醫(yī)生來(lái)說(shuō),專(zhuān)業(yè)的數(shù)據(jù)標(biāo)注軟件有一定的學(xué)習(xí)成本,原始的分揀處理減少了學(xué)習(xí)成本,而且往往行之有效,還具有不受網(wǎng)絡(luò)影響、安全性較高等優(yōu)點(diǎn)。不足之處則在于,對(duì)后期的數(shù)據(jù)清洗要求更高,而且過(guò)程繁雜,十分消耗人工物力。
更高階的有專(zhuān)用IT系統(tǒng)和工具,包含第三方工具和自建工具。以MIT 的 Pascal VOC 標(biāo)準(zhǔn)標(biāo)注工具 labelImg為代表的第三方工具雖然功能強(qiáng)大,但在通用性和靈活性方面還有所欠缺,因此企業(yè)經(jīng)常不得不開(kāi)發(fā)一些自建工具。
宜遠(yuǎn)智能在開(kāi)發(fā)數(shù)據(jù)標(biāo)注工具方面積累了許多心得。吳博指出,通過(guò)自建工具能夠更好地滿足項(xiàng)目推進(jìn)過(guò)程中的用戶管理、權(quán)限管理、多人協(xié)作審核,以及模型迭代標(biāo)注調(diào)整等需求。
尤其是在醫(yī)學(xué)影像領(lǐng)域,標(biāo)注的數(shù)據(jù)大多為圖片,天然具備便于展示的優(yōu)點(diǎn),因此可以本著方便易用的原則采用H5的canvas來(lái)設(shè)計(jì)標(biāo)注工具,同時(shí)結(jié)合css3的變換,滿足圖像縮放、標(biāo)注的需求。標(biāo)注人員只需打開(kāi)瀏覽器即可標(biāo)注,無(wú)需復(fù)雜軟件部署。
鑒于有些標(biāo)注圖片太大(比如一例CT數(shù)據(jù)多達(dá)幾十甚至上百兆,一例病理數(shù)據(jù)有可能多達(dá)1G),網(wǎng)絡(luò)傳輸效率低下,有時(shí)候需要對(duì)標(biāo)注數(shù)據(jù)做本地處理。小的項(xiàng)目可以采用數(shù)據(jù)本地化的方式,使用fiddler等代理軟件將網(wǎng)絡(luò)圖片請(qǐng)求代理到本地。大的項(xiàng)目則可以做內(nèi)網(wǎng)的分布式部署,將標(biāo)注系統(tǒng)部署在內(nèi)網(wǎng)服務(wù)器上,由標(biāo)注人員在內(nèi)網(wǎng)進(jìn)行標(biāo)注。
基于這些自建工具,標(biāo)注人員可以根據(jù)需求選擇本地標(biāo)注或在線標(biāo)注,操作集中于鼠標(biāo),交互非常友好。標(biāo)注人員可根據(jù)不同標(biāo)注需求繪制點(diǎn)/線/框,無(wú)需復(fù)雜設(shè)置,打開(kāi)瀏覽器即可標(biāo)注,也可以清楚看到哪些已標(biāo)哪些未標(biāo)。
隨著技術(shù)發(fā)展,數(shù)據(jù)標(biāo)注本身也呈現(xiàn)出了AI化的趨勢(shì)。比如基于以往的標(biāo)注,可以通過(guò)AI模型對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后由標(biāo)注人員在此基礎(chǔ)上做一些校正。
(算法篇 共有31頁(yè)信息量極大的PPT)
吳博認(rèn)為,算力優(yōu)化本質(zhì)上是跟預(yù)算做斗爭(zhēng),因?yàn)槿魏我患移髽I(yè)的預(yù)算和資源都是有限的,必須做很多的決策,要有所取舍。
數(shù)據(jù)層面,企業(yè)能做的決策不多,只能“看菜吃飯”,有多少數(shù)據(jù)就做多大的事。但在算力層面,企業(yè)有很多的選擇,比如選擇什么樣的框架,選擇品牌設(shè)備還是DIY設(shè)備,選擇云服務(wù)還是自建機(jī)房等。
就框架而言,Intel CPU + Nvidia GPU的框架是目前為止的首選,特別是在需要做模型訓(xùn)練的情況下。但企業(yè)也可以根據(jù)自身需求選擇其他框架,比如IBM體系的Power CPU + Nvidia GPU框架,性能也很優(yōu)異,在CPU與CPU、CPU與GPU、GPU與GPU之間都可以提供非常出色的帶寬支持,構(gòu)成比較高端解決方案。
而且為了追趕Intel CPU + Nvidia GPU的框架,Power CPU + Nvidia GPU提供了很多扶持計(jì)劃。對(duì)于研發(fā)團(tuán)隊(duì)來(lái)說(shuō),加入它們的foundation獲得算力上的支持是個(gè)不錯(cuò)的選擇。而且Power和浪潮的合作非常緊密,這意味著它的國(guó)產(chǎn)化將不成問(wèn)題。
此外,還有Intel CPU、Intel + ASIC、FPGA等多種框架,它們各有優(yōu)缺點(diǎn),企業(yè)可以視自身情況作出選擇。
……
雷鋒網(wǎng)AI掘金志線上直播結(jié)束后,學(xué)員從不同維度提出了18個(gè)問(wèn)題,吳博對(duì)多數(shù)問(wèn)題進(jìn)行了耐心解答。
問(wèn)題:
1.多疾病分類(lèi)的時(shí)候,針對(duì)嚴(yán)重不均衡的數(shù)據(jù),除了過(guò)采樣以外,還有沒(méi)有算法層面的突破?嚴(yán)重不均衡的數(shù)據(jù)集合會(huì)不會(huì)造成分類(lèi)時(shí)baseline不穩(wěn)定?
2.如何對(duì)多模態(tài)數(shù)據(jù)進(jìn)行有效利用?
3.針對(duì)組織器官數(shù)據(jù)有哪些標(biāo)注工具?
4.模型迭代標(biāo)注調(diào)整是什么意思?
5.今天講的細(xì)胞學(xué)、病理、肺結(jié)節(jié)等,有做成產(chǎn)品用到醫(yī)院的嗎?
6.病理圖片的顏色千差萬(wàn)別,如何做預(yù)處理?
7.液基細(xì)胞學(xué)用語(yǔ)義分割做的分割效果如何?
……
本文僅展示了部分內(nèi)容和10頁(yè)P(yáng)PT,剩下的精彩內(nèi)容和47頁(yè)P(yáng)PT,歡迎點(diǎn)擊鏈接:http://www.mooc.ai/open/course/384
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。