0
雷鋒網(wǎng) AI 研習(xí)社按:最近一段時(shí)間以來(lái),醫(yī)學(xué)影像作為人工智能重要的應(yīng)用領(lǐng)域,受到學(xué)界和越來(lái)越多 AI 公司的關(guān)注。Nature、Science、Cell 上頻頻刊登在醫(yī)療影像中應(yīng)用 AI 的文章,谷歌、IBM、依圖科技等公司也紛紛加入 AI+ 醫(yī)療的競(jìng)爭(zhēng)……
作為全球最大的數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái),Kaggle 也順理成章搭上了這班順風(fēng)車(chē),與 Booz Allen Hamilton 咨詢公司一同推出了 2018 年 Data Science Bowl 比賽。
眾所周知,鑒定細(xì)胞的細(xì)胞核是大多數(shù)醫(yī)學(xué)分析的起點(diǎn)。人體 30 萬(wàn)億細(xì)胞中,大部分都有細(xì)胞核,而這些細(xì)胞核中存儲(chǔ)了 DNA。識(shí)別細(xì)胞核可以讓研究人員識(shí)別樣本中的每一個(gè)細(xì)胞,通過(guò)測(cè)量細(xì)胞對(duì)各種治療措施的反應(yīng),研究人員可以了解潛在的生物過(guò)程,進(jìn)而提高藥物檢測(cè)的效率,縮短新藥的開(kāi)發(fā)周期。
本次比賽要求參賽者構(gòu)建計(jì)算機(jī)視覺(jué)模型,從圖片中識(shí)別不同條件下的細(xì)胞核,并且以均值平均精度(MaP)和交并比(IoU)作為評(píng)價(jià)指標(biāo)。該比賽獎(jiǎng)池巨大,達(dá)到了 10 萬(wàn)美金之多,共吸引了 861 支隊(duì)伍。
下面是第一名的解決方案,雷鋒網(wǎng) AI 研習(xí)社編譯整理如下。
我們之前有參加過(guò)圖像分割挑戰(zhàn)賽(如 Carvana,Urban 3D,Spacenet,Konica Minolta),在這些比賽中,我們積累了豐富的經(jīng)驗(yàn)。因此,這一次比賽的選擇非常明確——開(kāi)了掛的 U-Net!
首先,我們嘗試了最簡(jiǎn)單的方法,并將針對(duì)二進(jìn)制掩膜的分水嶺算法加入其中(換言之,修改 GT 掩膜使得細(xì)胞核之間總是存在間隙),這讓我們?cè)诠_(kāi)榜單上獲得了大約 500 的分?jǐn)?shù)。顯然,這不足以贏得比賽。
然后,我們加入了代表輪廓的通道,輪廓的寬度取決于細(xì)胞核的大小。這些掩膜 + 簡(jiǎn)單的分水嶺后置處理算法讓我們?cè)诠_(kāi)榜單上大約獲得了 525 分。盡管這并不是一個(gè)大的突破,但是它給了我們對(duì)正確方向的啟示。
回過(guò)頭來(lái)看這些錯(cuò)誤,很明顯,網(wǎng)絡(luò)很容易在不模糊的地方預(yù)測(cè)輪廓。然而,在我們真正需要通過(guò)輪廓去分割出細(xì)胞核的地方,這些網(wǎng)絡(luò)的表現(xiàn)卻非常糟糕。因此,我們決定只預(yù)測(cè)細(xì)胞之間的邊界。很容易地,我們通過(guò)單一的網(wǎng)絡(luò)處理結(jié)果 + 分水嶺后置處理在公共榜單上獲得了大于 550 的分?jǐn)?shù)。
盡管我們?cè)谝粋€(gè)通道中有全掩膜,在另一個(gè)通道中有細(xì)胞的邊界,但有時(shí)結(jié)果還是不夠好。一個(gè)更好的方法是改變?cè)雍说难谀げ⑶沂惯吔缟系南袼攸c(diǎn)變成空白。這也讓我們能夠使用 softmax 而不是 sigmoid 函數(shù)作為激活函數(shù)。這樣可以更好地分離出原子核,但是實(shí)際上,由于交并比(IoU)的閾值太高,均值平均精度(MaP)卻被降低了。我們通過(guò)額外在全掩膜上訓(xùn)練的網(wǎng)絡(luò)去解決這個(gè)問(wèn)題,并且在后置處理的步驟中將結(jié)果進(jìn)行融合。
2 通道 sigmoid 激活函數(shù)掩膜網(wǎng)絡(luò)(例如,掩膜-邊界、邊界)或3通道 softmax 激活函數(shù)掩膜網(wǎng)絡(luò)(例如,掩膜-邊界、邊界、1-掩膜-邊界)
2 通道全掩膜(例如,掩膜、邊界)
對(duì)于圖c43e356beedae15fec60ae3f8b06ea8e9036081951deb7e44f481b15b3acfc37,處理結(jié)果看起來(lái)是這樣的:
在 post 處理之后的結(jié)果為:
由于只有幾百?gòu)堄?xùn)練圖像,我們需要提出具體的數(shù)據(jù)增強(qiáng)方案來(lái)防止模型過(guò)擬合,更好地泛化。我們用了大量的數(shù)據(jù)增強(qiáng)方法(或許太多了)
對(duì)比度受限自適應(yīng)直方圖均衡化算法(Clahe),銳化(Sharpen),凸點(diǎn)(Emboss)
高斯噪聲
彩圖到灰度轉(zhuǎn)換(Color to Gray)
反相——我們本不該使用它的,這種方法使得第二階段一些圖像沒(méi)有被準(zhǔn)確地預(yù)測(cè)
將灰度圖重新映射到隨機(jī)顏色的圖像中
模糊(Blur)、一般模糊(Median Blur)、非常模糊(Motion Blur)
對(duì)比度和亮度
隨機(jī)縮放、旋轉(zhuǎn)、翻轉(zhuǎn)
重度幾何變換:彈性變換(Elastic Transform)、透視變換(Perspective Transform)、分段仿射變換(Piecewise Affine transforms)、枕形畸變(Pincushion Distortion)
隨機(jī)色相、飽和度、明度(HSV)變換
通道重排——由于數(shù)據(jù)的天然性,這一點(diǎn)非常重要
圖像上細(xì)胞核的復(fù)制。這樣就創(chuàng)造了大量重疊的細(xì)胞核,似乎有助于網(wǎng)絡(luò)更好地學(xué)到重疊細(xì)胞核的邊界。
我們使用在 ImageNet 上預(yù)訓(xùn)練好的、類(lèi)似于編碼器——解碼器結(jié)構(gòu)的 UNet 網(wǎng)絡(luò)。
令人驚訝的是,像 VGG16 這樣的簡(jiǎn)單編碼器根本不適用于這個(gè)比賽,比如在細(xì)胞組織上看起來(lái)像細(xì)胞核(但事實(shí)上并不是)的困難情況下就失敗了,尤其是在像 59b35151d4a7a5ffdd7ab7f171b142db8cfe40beeee67277fac6adca4d042c4 這種彩色圖片中:
這些實(shí)驗(yàn)之后,我們決定進(jìn)行更加深入的研究!結(jié)果顯示,本次比賽中性能最好的模型是:DPN-92, Resnet-152,INceptionResnetV2,Resnet101
在這個(gè)部分,我們使用預(yù)測(cè)出的細(xì)胞核作為候選,來(lái)訓(xùn)練 LightGBM 模型。每一個(gè)候選都是通過(guò)最低的(決策樹(shù))分裂閾值挑選出來(lái)的,并且試圖與較高的閾值和損失分開(kāi)。我們使用幾個(gè)基本的形態(tài)學(xué)特征來(lái)描繪候選,例如:堅(jiān)固性、循環(huán)性、凸性、面積、計(jì)數(shù)等。預(yù)測(cè)目標(biāo)是交互比,之后根據(jù)預(yù)測(cè)出的交互比選擇候選的最佳閾值,將交互比很小的候選直接刪除。
我們從 janowczyk、nucleisegmentationbenchmark、isbi2009、BBBC020、TNBC 數(shù)據(jù)集中額外添加了一些圖像,其中一部分圖像降低了我們?cè)诠舶駟紊系牡梅?,使得?duì)彩色圖片的預(yù)測(cè)不那么準(zhǔn)確。很遺憾的是我們沒(méi)有時(shí)間去找到問(wèn)題的根源,進(jìn)而做出進(jìn)一步的調(diào)整。
我們使用了一種簡(jiǎn)單的方法:僅僅在后置處理之前對(duì)掩膜的結(jié)果取了平均。
隨機(jī)裁剪(random crops): 256*256
批處理尺寸(batch size):16
優(yōu)化器:Adam
學(xué)習(xí)率:初始值為十的負(fù)四次方(我們有不同的 LR 策略,但是大多數(shù)情況下選擇不超過(guò)十的負(fù)四次方的小 LR 值)。
對(duì)于使用 sigmoid 激活函數(shù)和 2 通道掩膜的網(wǎng)絡(luò),我們?yōu)槊總€(gè)通道使用「binary_crossdentropy」和「soft_dice」的組合。 對(duì)于使用 softmax 激活函數(shù)和 3 通道掩膜的網(wǎng)絡(luò),我們?yōu)槊總€(gè)通道使用 「categorical_crossentropy」和「soft_dice」(soft dice 僅僅適用于掩膜和邊界通道)
標(biāo)準(zhǔn)翻轉(zhuǎn)/旋轉(zhuǎn)(0度,90度,180度,270度)。
via Kaggle
雷鋒網(wǎng) AI 研習(xí)社編譯整理。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。