丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
醫(yī)療科技 正文
發(fā)私信給劉偉
發(fā)送

0

宜遠智能CEO吳博:醫(yī)學影像的數(shù)據(jù)標注、算法方法與算力優(yōu)化

本文作者: 劉偉 2017-12-28 19:37
導(dǎo)語:《未來醫(yī)療大講堂——醫(yī)學影像專題》第四期總結(jié)文。

宜遠智能CEO吳博:醫(yī)學影像的數(shù)據(jù)標注、算法方法與算力優(yōu)化

雷鋒網(wǎng)AI掘金志《未來醫(yī)療大講堂——醫(yī)學影像專題》第四期總結(jié)文:一個只給醫(yī)療AI從業(yè)者、影像科醫(yī)生、名校師生、CFDA工作人員看的系列課程。

注:90分鐘的視頻信息量巨大,文章僅為冰山一角,強烈建議觀看完整版視頻(含57頁PPT),請點擊鏈接:http://www.mooc.ai/open/course/384

宜遠智能CEO吳博:醫(yī)學影像的數(shù)據(jù)標注、算法方法與算力優(yōu)化


一、數(shù)據(jù)篇(17頁PPT)

1.醫(yī)學影像數(shù)據(jù)資產(chǎn)盤點

2.標注工具——脫敏:大框架、小技巧

3.標注工具第一類——PC+文件夾處理

4.標注工具第二類——專用IT系統(tǒng)和工具:客戶端系統(tǒng)與網(wǎng)站系統(tǒng)

5.第三方標注工具LabelImg

6.自建工具

7.標注工具開發(fā)心得

8.標注工具第三類——專用工具+AI輔助標注

二、算法篇(31頁PPT)

1.關(guān)于數(shù)據(jù)分割比例

2.遷移學習

3.框架選型:Pytorch、Caffe、TensorFlow、MXnet

4.目標檢測用于面部皮膚疾病分析

數(shù)據(jù)脫敏及預(yù)處理、皮膚疾病檢測

5.目標檢測用于宮頸基液細胞分析

基于深度學習+GBDT的Two Stage模型

multi CPU+multi GPU宮頸病理三分類系統(tǒng)

6.3D目標檢測用于肺結(jié)節(jié)CT分析:

數(shù)據(jù)處理、肺結(jié)節(jié)預(yù)測框架、Faster RCNN框架、Online hard Example mining、Loss 函數(shù)、框架選擇、我們的模型框架、FROC效果提升、模型網(wǎng)絡(luò)結(jié)構(gòu)(150層+,Unet+Resnet)、分類器與融合

三、算力篇(9頁PPT)

1.架構(gòu)選型決策:品牌 VS DIY

  • Intel CPU+Nvidia GPU

  • Power CPU+Nvidia GPU

  • Intel CPU

  • Intel +ASIC

  • Intel +FPGA

2、選型決策:云VS自建

亞馬遜云、美團云、阿里云

3.算力優(yōu)化:CPU GPU 寬帶優(yōu)化、CUDA


吳博從數(shù)據(jù)、算法和算力三個層面,詳細介紹了自己在AI醫(yī)學影像落地方面的實戰(zhàn)經(jīng)驗和心得。

他指出,醫(yī)療數(shù)據(jù)的價值評估與鉆石類似,可以從數(shù)據(jù)質(zhì)量、同分布來源的影像數(shù)據(jù)尺寸和數(shù)據(jù)標注程度這三大維度來考核。沒有經(jīng)過標注的數(shù)據(jù)就像未經(jīng)加工的原石,無法體現(xiàn)其價值,因此數(shù)據(jù)標注是AI醫(yī)學影像落地過程中至關(guān)重要的一環(huán)。

吳博對數(shù)據(jù)標注工具進行了分類,并分享了自己在開發(fā)數(shù)據(jù)標注工具方面的心得。他指出,通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權(quán)限管理、多人協(xié)作審核,以及模型迭代標注調(diào)整等需求。

數(shù)據(jù)層面,企業(yè)能做的決策不多,只能“看菜吃飯”,但在算力層面,企業(yè)有很多的選擇,比如選擇什么樣的框架,選擇品牌設(shè)備還是DIY設(shè)備,選擇云服務(wù)還是自建機房等。在課程的最后部分,吳博詳細介紹了許多選型決策和算力優(yōu)化方面的技巧。

嘉賓介紹:

宜遠智能CEO吳博:醫(yī)學影像的數(shù)據(jù)標注、算法方法與算力優(yōu)化

吳博,宜遠智能CEO

學術(shù)背景:吳博先后在清華大學、香港浸會大學求學,并在英國利茲大學完成博士后,師從計算機視覺專家唐遠炎教授等人。與此同時,他也在ICML/ACL等頂級會議發(fā)表多篇人工智能論文。

工業(yè)界經(jīng)驗:2017年創(chuàng)立醫(yī)療AI公司:宜遠智能,該公司集結(jié)了20多名人工智能博士以及眾多海內(nèi)外醫(yī)學顧問,為醫(yī)療健康領(lǐng)域提供AI增強解決方案,并與多家知名醫(yī)院達成合作,并推出成型產(chǎn)品。

創(chuàng)立宜遠智能之前,吳博曾在愛立信大數(shù)據(jù)研究院任職。還主導(dǎo)過百億級虛擬品電商、數(shù)字貨幣系統(tǒng)的業(yè)務(wù)及數(shù)據(jù)架構(gòu)建設(shè)與運營。

2017年成果:吳博領(lǐng)導(dǎo)的宜遠智能團隊在醫(yī)學影像領(lǐng)域,取得以下成績:

1.阿里天池醫(yī)療AI大賽GPU環(huán)節(jié)國內(nèi)最佳;開源系統(tǒng)榮獲大賽人氣獎。

2.面部皮膚診斷分析API、SDK已經(jīng)進入商業(yè)化,并在2017年世界互聯(lián)網(wǎng)大會展出。

3.宮頸基液細胞學診斷AI在權(quán)威評測中,超出醫(yī)生水平。

以下圖文為雷鋒網(wǎng)AI掘金志節(jié)選的吳博課程部分內(nèi)容:

一、數(shù)據(jù)篇

如何評估數(shù)據(jù)價值?

醫(yī)療人工智能建立在海量數(shù)據(jù)的基礎(chǔ)之上,但優(yōu)質(zhì)的醫(yī)療數(shù)據(jù)十分稀缺,其價值隨之凸顯。如何準確評估數(shù)據(jù)的價值,是醫(yī)生和投資人非常關(guān)心的話題,對此業(yè)內(nèi)尚未形成共識。

吳博認為,醫(yī)療數(shù)據(jù)可以類比為鉆石。鉆石的價值評估對應(yīng)著顏色、凈度、切工和克拉這四個維度,醫(yī)療數(shù)據(jù)也可如此類比。

顏色越純、凈度越高的鉆石,價值也就越高。對于醫(yī)學影像數(shù)據(jù)來說,它的價值也取決于其干凈、規(guī)范、清晰和標準化的程度。如果是從膠片、PACS系統(tǒng)和診斷報告中翻拍而來的數(shù)據(jù),必然會包含一些雜質(zhì),其價值將大打折扣。吳博指出,高質(zhì)量的數(shù)據(jù)需要是Raw Data,比如mhd格式的DICOM影像和openslide病理圖像。

鉆石單顆克拉數(shù)越高,價值也就越大。吳博認為,鉆石的克拉數(shù)可類比同分布來源的影像數(shù)據(jù)尺寸。所謂同分布來源的影像數(shù)據(jù),對CT來說就是來自同一設(shè)備的,參數(shù)和曝光強度都相同的影像數(shù)據(jù);對病理圖像來說,則指采用同一染色方法和色度、同一掃描儀及倍數(shù),以及相同存儲格式的影像數(shù)據(jù)。

雖然AI企業(yè)的最終目標是開發(fā)出一套通用性強的算法,能通吃各種數(shù)據(jù);但作為數(shù)據(jù)資產(chǎn)方,同分布同來源的影像數(shù)據(jù)規(guī)模越大,其價值就越高。

有些醫(yī)院雖然擁有大量數(shù)據(jù),但它們來自不同的科室,格式也不盡相同,這種數(shù)據(jù)的價值是要打一些折扣的。

宜遠智能CEO吳博:醫(yī)學影像的數(shù)據(jù)標注、算法方法與算力優(yōu)化

鉆石成為商品前需要經(jīng)過切割等加工,醫(yī)療數(shù)據(jù)同樣要經(jīng)過標注等處理才能釋放其價值。鉆石的切割工藝分為許多個層級,醫(yī)療影像數(shù)據(jù)的標注亦是如此。從基礎(chǔ)的類別標注到類別+病灶方框標注,再到類別+像素級勾畫,標注的精細度逐級提升,數(shù)據(jù)的價值亦水漲船高。

如何選擇數(shù)據(jù)標注工具?

工欲善其事,必先利其器。要想對醫(yī)療影像數(shù)據(jù)進行精細化的標注,首先得有好的標注工具。

吳博將標注工具劃分成了三大類別,他將最基礎(chǔ)的一類稱作“pc+文件夾處理”,即讓醫(yī)生在pc和工作站上對數(shù)據(jù)進行分揀。對于醫(yī)生來說,專業(yè)的數(shù)據(jù)標注軟件有一定的學習成本,原始的分揀處理減少了學習成本,而且往往行之有效,還具有不受網(wǎng)絡(luò)影響、安全性較高等優(yōu)點。不足之處則在于,對后期的數(shù)據(jù)清洗要求更高,而且過程繁雜,十分消耗人工物力。

宜遠智能CEO吳博:醫(yī)學影像的數(shù)據(jù)標注、算法方法與算力優(yōu)化

更高階的有專用IT系統(tǒng)和工具,包含第三方工具和自建工具。以MIT 的 Pascal VOC 標準標注工具 labelImg為代表的第三方工具雖然功能強大,但在通用性和靈活性方面還有所欠缺,因此企業(yè)經(jīng)常不得不開發(fā)一些自建工具。

宜遠智能在開發(fā)數(shù)據(jù)標注工具方面積累了許多心得。吳博指出,通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權(quán)限管理、多人協(xié)作審核,以及模型迭代標注調(diào)整等需求。

尤其是在醫(yī)學影像領(lǐng)域,標注的數(shù)據(jù)大多為圖片,天然具備便于展示的優(yōu)點,因此可以本著方便易用的原則采用H5的canvas來設(shè)計標注工具,同時結(jié)合css3的變換,滿足圖像縮放、標注的需求。標注人員只需打開瀏覽器即可標注,無需復(fù)雜軟件部署。

鑒于有些標注圖片太大(比如一例CT數(shù)據(jù)多達幾十甚至上百兆,一例病理數(shù)據(jù)有可能多達1G),網(wǎng)絡(luò)傳輸效率低下,有時候需要對標注數(shù)據(jù)做本地處理。小的項目可以采用數(shù)據(jù)本地化的方式,使用fiddler等代理軟件將網(wǎng)絡(luò)圖片請求代理到本地。大的項目則可以做內(nèi)網(wǎng)的分布式部署,將標注系統(tǒng)部署在內(nèi)網(wǎng)服務(wù)器上,由標注人員在內(nèi)網(wǎng)進行標注。

基于這些自建工具,標注人員可以根據(jù)需求選擇本地標注或在線標注,操作集中于鼠標,交互非常友好。標注人員可根據(jù)不同標注需求繪制點/線/框,無需復(fù)雜設(shè)置,打開瀏覽器即可標注,也可以清楚看到哪些已標哪些未標。

宜遠智能CEO吳博:醫(yī)學影像的數(shù)據(jù)標注、算法方法與算力優(yōu)化

隨著技術(shù)發(fā)展,數(shù)據(jù)標注本身也呈現(xiàn)出了AI化的趨勢。比如基于以往的標注,可以通過AI模型對數(shù)據(jù)進行預(yù)處理,然后由標注人員在此基礎(chǔ)上做一些校正。

二、算法篇

宜遠智能CEO吳博:醫(yī)學影像的數(shù)據(jù)標注、算法方法與算力優(yōu)化

宜遠智能CEO吳博:醫(yī)學影像的數(shù)據(jù)標注、算法方法與算力優(yōu)化

宜遠智能CEO吳博:醫(yī)學影像的數(shù)據(jù)標注、算法方法與算力優(yōu)化

宜遠智能CEO吳博:醫(yī)學影像的數(shù)據(jù)標注、算法方法與算力優(yōu)化

(算法篇 共有31頁信息量極大的PPT

三、算力篇

吳博認為,算力優(yōu)化本質(zhì)上是跟預(yù)算做斗爭,因為任何一家企業(yè)的預(yù)算和資源都是有限的,必須做很多的決策,要有所取舍。

數(shù)據(jù)層面,企業(yè)能做的決策不多,只能“看菜吃飯”,有多少數(shù)據(jù)就做多大的事。但在算力層面,企業(yè)有很多的選擇,比如選擇什么樣的框架,選擇品牌設(shè)備還是DIY設(shè)備,選擇云服務(wù)還是自建機房等。


宜遠智能CEO吳博:醫(yī)學影像的數(shù)據(jù)標注、算法方法與算力優(yōu)化

就框架而言,Intel CPU + Nvidia GPU的框架是目前為止的首選,特別是在需要做模型訓練的情況下。但企業(yè)也可以根據(jù)自身需求選擇其他框架,比如IBM體系的Power CPU + Nvidia GPU框架,性能也很優(yōu)異,在CPU與CPU、CPU與GPU、GPU與GPU之間都可以提供非常出色的帶寬支持,構(gòu)成比較高端解決方案。

而且為了追趕Intel CPU + Nvidia GPU的框架,Power CPU + Nvidia GPU提供了很多扶持計劃。對于研發(fā)團隊來說,加入它們的foundation獲得算力上的支持是個不錯的選擇。而且Power和浪潮的合作非常緊密,這意味著它的國產(chǎn)化將不成問題。

此外,還有Intel CPU、Intel + ASIC、FPGA等多種框架,它們各有優(yōu)缺點,企業(yè)可以視自身情況作出選擇。

……

學員部分提問

雷鋒網(wǎng)AI掘金志線上直播結(jié)束后,學員從不同維度提出了18個問題,吳博對多數(shù)問題進行了耐心解答。

問題:

1.多疾病分類的時候,針對嚴重不均衡的數(shù)據(jù),除了過采樣以外,還有沒有算法層面的突破?嚴重不均衡的數(shù)據(jù)集合會不會造成分類時baseline不穩(wěn)定?

2.如何對多模態(tài)數(shù)據(jù)進行有效利用?

3.針對組織器官數(shù)據(jù)有哪些標注工具?

4.模型迭代標注調(diào)整是什么意思?

5.今天講的細胞學、病理、肺結(jié)節(jié)等,有做成產(chǎn)品用到醫(yī)院的嗎?

6.病理圖片的顏色千差萬別,如何做預(yù)處理?

7.液基細胞學用語義分割做的分割效果如何?

……

本文僅展示了部分內(nèi)容和10頁PPT,剩下的精彩內(nèi)容和47頁PPT,歡迎點擊鏈接:http://www.mooc.ai/open/course/384

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說