丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給WBLUE
發(fā)送

0

數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

本文作者: WBLUE 編輯:汪思穎 2018-04-10 11:23
導(dǎo)語:本文將介紹圖像類比賽的數(shù)據(jù)處理經(jīng)驗(yàn),以樹葉分類競(jìng)賽(Leaf Classification)和肺癌檢測(cè)比賽(Data Science Bowl 2017)為例。

雷鋒網(wǎng) AI 研習(xí)社按,在數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(上)一文中,AI 研習(xí)社介紹了結(jié)構(gòu)化數(shù)據(jù)和 NLP 數(shù)據(jù)的處理方式,其中包括對(duì) Titanic,房?jī)r(jià)預(yù)測(cè),惡意評(píng)論分類,恐怖小說家身份識(shí)別四個(gè)比賽的詳細(xì)分析。

本文將介紹圖像類比賽的數(shù)據(jù)處理經(jīng)驗(yàn),以樹葉分類競(jìng)賽(Leaf Classification)和肺癌檢測(cè)比賽(Data Science Bowl 2017)為例。

正文如下,雷鋒網(wǎng) AI 研習(xí)社編譯整理:

圖像

到目前為止,我介紹的都是文本(語言、字符串或數(shù)字)數(shù)據(jù)集,最后我將帶來兩個(gè)圖像數(shù)據(jù)集的分析。

我選的這兩個(gè)比賽(肺癌檢測(cè)樹葉分類)比我看過的其他比賽更具專業(yè)特色,這里的分析不再是基本分析,著重于探索不同技術(shù),因此適用于更高階的讀者。

在可視化技術(shù)以及特征構(gòu)建方面,我看到了很多變化。特別是肺癌比賽中,一些作者利用現(xiàn)有的醫(yī)學(xué)知識(shí)構(gòu)建極具專業(yè)特色的特征,雖然不能說這些特征的效果有多好,但是這里可視化效果令人驚嘆。

樹葉分類

競(jìng)賽中提供的數(shù)據(jù)集包括 1584 個(gè)按品種分類的被標(biāo)記的樹葉圖像,參賽者需要建立一個(gè)對(duì)標(biāo)記之外樹葉圖像分類的模型。

我選擇用于分析的 EDA 是 lorinc 的 Feature Extraction From Images,selfishgene 的 Visualizing PCA with Leaf Dataset 以及 Jose Alberto 的 Fast Image Exploration。

第一步最好先仔細(xì)瞧一瞧樹葉的圖像。

數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

selfishgene 檢查樹葉標(biāo)本

Jose 繪制出各個(gè)種類的樹葉,并指出每個(gè)種類有 10 張圖片。他還觀察了同類樹葉間的相似性。

lorinc 直接跳入分析階段,定位每片葉子的中心并應(yīng)用邊緣檢測(cè)技術(shù),他還將葉子的輪廓轉(zhuǎn)換為極坐標(biāo),以便更有效地測(cè)量葉子的中心:

之后,當(dāng)我們使用邊與中心之間的距離從形狀生成時(shí)間序列時(shí),我們可能想要轉(zhuǎn)換到另一種中心性度量——根據(jù)該中心的有效性。一種方法是測(cè)量中心和邊緣之間的(歐幾里德)距離......但是有一個(gè)更好的方法——我們將笛卡爾坐標(biāo)投影到極坐標(biāo)中。

selfishgene 選擇看圖像的方差方向:

在高維圖像空間中,每個(gè)圖像都可以被看成是不同的「方向」。

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

Selfishgene 看到的樹葉圖像的方差

selfishgene 也花費(fèi)了一些時(shí)間來研究圖像重建、平均圖像周圍的模型變化以及特征向量,他解釋道:

最上面一行包含每個(gè)特征向量的數(shù)據(jù)分布(沿著「方向」的直方圖),第二行包含了我們?cè)谇懊娴膱D中已經(jīng)看到的方差方向,第四行包含了樹葉的中值圖像,值得注意的是,這一行對(duì)于所有的特征向量是相同的。

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

selfishgene 看到的模型變形

特征檢測(cè)

lorinc 建議將每個(gè)樣例分成兩部分,并將它們作為兩個(gè)樣例處理(盡管他不采用這種方法)。lorinc 從時(shí)間序列中找到局部最大值和最小值(例如,繪制在極坐標(biāo)中的樹葉)并記錄道:

我很驚訝于這個(gè)方法表現(xiàn)得相當(dāng)不錯(cuò)。我認(rèn)為我可以從中構(gòu)建出一個(gè)非常有效的特征。但是這種方法的魯棒性不是很好:

對(duì)于樹葉#19,它沒有找到樹葉的末端,只找到了與中心距離最遠(yuǎn)的點(diǎn)。對(duì)于樹葉#78,可以看到在更復(fù)雜或有旋轉(zhuǎn)的葉片上效果很差。

數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

lorinc 繪制在極坐標(biāo)中所測(cè)葉子的最小值和最大值

在發(fā)現(xiàn)每片樹葉周圍存在噪音之后,lorinc 談到數(shù)學(xué)形態(tài)學(xué)。他花了一些時(shí)間弄清楚如何去除圖像中的噪點(diǎn),并用可愛的圖像來顯示疊加在樹葉上的距離圖:

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

lerinc 測(cè)量距離葉子中心的距離

肺癌

我選擇的 EDA 是 Guido Zuidhof 的 Full Preprocessing Tutorial,Mikel Bober-Irizar 的 Exploratory Data Analysis 和 Alexandru Papiu 的 Exploratory Analysis Visualization

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

anokas 檢查單個(gè)圖像的元數(shù)據(jù),可以看到病人出生日期被隱匿(19000101)

2017 年的 Data Science Bowl 比賽要求參賽者通過檢測(cè)一組圖像來預(yù)測(cè)患者是否患有癌癥。雖然在這一競(jìng)賽中確實(shí)有結(jié)構(gòu)化數(shù)據(jù)(自動(dòng)嵌入圖像中的標(biāo)簽信息),但其中一些數(shù)據(jù)是匿名的,也就是說,那些原本具有預(yù)測(cè)價(jià)值的特征(比如患者的年齡)用不了。這意味著所有的 kernel 只專注于圖像分析。

在三個(gè) kernel 作者中,Guido 是唯一一個(gè)結(jié)合醫(yī)學(xué)圖像來討論的人,這點(diǎn)在他對(duì)數(shù)據(jù)集的分析中可以看出來:

Dicom 是醫(yī)學(xué)影像文件標(biāo)準(zhǔn),這些文件中包含大量元數(shù)據(jù)(例如像素大?。?。不同掃描中的像素大小、粒度都不同(例如,切片之間的距離可能不同),這可能會(huì)影響 CNN 的性能。我們可以用同構(gòu)重采樣來處理。

另外兩位作者通過對(duì)數(shù)據(jù)集和圖像本身進(jìn)行更全面的探索開始了他們的 EDA。

apapie 檢查了圖像的形狀,而 anokas 開始觀察每個(gè)病人的掃描次數(shù)、總掃描次數(shù)和每個(gè)病人的 DICOM 文件直方圖,他還檢查了 ID 和病人是否患有癌癥是否存在關(guān)系(他發(fā)現(xiàn)沒有關(guān)系,這意味著數(shù)據(jù)集的排列是很有序的)。

Alexandru 對(duì)像素進(jìn)行分配并繪制圖像:

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

Guido 在 EDA 中闡明了 HU 所代表的東西(空氣,組織和骨骼):

數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

圖像

每位作者都在繼續(xù)研究這些圖片:

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

Anokas 觀察一組患者圖像

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

Alexandru 通過 X 射線看圖像

Alexandru 花了一些時(shí)間研究邊緣檢測(cè)是否能增強(qiáng)圖像。

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

提高閾值后,Alexandru 呈現(xiàn)出一些比較醒目的圖像

Alexandru 總結(jié)道:

有趣的是,過濾器也能檢測(cè)到肺里的血管,因此,一些用于區(qū)分球體和管道的三維表面探測(cè)區(qū)分技術(shù)將更適合這種情況。

同時(shí),Guido 討論了重采樣,重點(diǎn)關(guān)注了 DICOM 圖像的基本性質(zhì):

一次掃描可能存在一個(gè)像素間距[2.5,0.5,0.5],這意味著切片之間的距離是 2.5 毫米。對(duì)于不同的掃描,可能是[1.5,0.725,0.725],這對(duì)于自動(dòng)分析來說存在一定問題(例如使用 ConvNets 的時(shí)候)。處理這一問題的常見方法是將完整的數(shù)據(jù)集重新取樣到確定的等向性分辨率(isotropic resolution)中,如果我們選擇將所有的數(shù)據(jù)重新采樣到 1mm*1mm*1mm 的像素中,這樣就可以使用 3D 卷積網(wǎng)絡(luò)而不用擔(dān)心學(xué)習(xí)縮放與切片厚度的固定。

之后,Guido 在 EDA 中合并了多個(gè) DICOM 圖像完成檢測(cè)部位的三維圖:

數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

在另一個(gè)版本中,去除周圍的空氣以減少內(nèi)存:

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

3D圖像

點(diǎn)評(píng)

這次競(jìng)賽是我所見過的最與眾不同的。鑒于 Guido 對(duì)醫(yī)學(xué)圖像的熟悉,他能夠利用這一背景來得出更微妙的結(jié)論。但這并沒有阻止其他兩位缺乏醫(yī)學(xué)背景的作者得出同樣有趣的結(jié)論。

總結(jié)

  • 結(jié)構(gòu)化數(shù)據(jù)

對(duì)于結(jié)構(gòu)化數(shù)據(jù),分析時(shí)傾向于尋找目標(biāo)變量和其他變量之間的相關(guān)性,需要花費(fèi)相當(dāng)多的時(shí)間進(jìn)行可視化或?qū)ψ兞窟M(jìn)行排序。

對(duì)于較小的數(shù)據(jù)集,可以分析的數(shù)據(jù)只有這么多列,然而,不同的參賽者使用了截然不同的可視化方法,在選擇特征工程方面更極具創(chuàng)造性。

  • 自然語言數(shù)據(jù)集

從這些 EDA 中可以看到,大家在處理自然語言數(shù)據(jù)集時(shí)有相似之處,但在特征工程的選擇以及分析中,會(huì)得出不同結(jié)論,產(chǎn)生很大的變化。

  • 圖像數(shù)據(jù)集

圖像競(jìng)賽中,在分析和特征工程方面表現(xiàn)出了極大的多樣化。我所看到的圖像競(jìng)賽主要是針對(duì)有一定積累的參賽者,而且是在一些特定領(lǐng)域,這可能會(huì)產(chǎn)生更超前的多樣性。

當(dāng)數(shù)據(jù)集變得更加專業(yè)或深?yuàn)W時(shí),介紹性的分析和解釋就會(huì)減少,而比較深入和專業(yè)化的分析就會(huì)增加,而這正是我所看到的。雖然不同類型的數(shù)據(jù)有明顯不同的趨勢(shì),但專業(yè)領(lǐng)域知識(shí)起著重要的作用。在肺癌和葉片競(jìng)賽中,引入專業(yè)領(lǐng)域知識(shí)到研究中,可以支撐更深層次的分析。(有趣的是,我在自己的研究中也遇到過這種情況,Jeremy Howard 在他的 fast.ai 課程里討論了 Rossman 的數(shù)據(jù)集,以及最成功的模型是如何集成第三方數(shù)據(jù)集,如溫度、存儲(chǔ)位置等,從而做出更準(zhǔn)確的銷售預(yù)測(cè)。)

參賽者處理特征工程的時(shí)候,并沒有一個(gè)統(tǒng)一的過程。有些人選擇在分析時(shí)開始,而另一些人則在最初的分析完成之后,將其作為一個(gè)單獨(dú)的步驟。

最后,我看到的每一份分析手冊(cè)都有確定的讀者(初學(xué)者或資深研究者),這會(huì)影響分析和寫作。

在一些更受歡迎的比賽中,或是針對(duì)普通研究人員的比賽中,EDA 分析都是詳盡無遺的。在這些 EDA 中,我也看到了一種趨勢(shì),即在分析的同時(shí)穿插補(bǔ)充或敘事來幫助初學(xué)者更好地理解技術(shù)。

相比之下,針對(duì)更資深的研究者的筆記則傾向于去掉多余的敘述性描述,許多還跳過了基本的數(shù)據(jù)分析,而是直接轉(zhuǎn)到特定領(lǐng)域的技術(shù)中去。

特別鳴謝 Michelle Lew、Ari ZilnikSean Matthews 和 Bethany Basile,感謝他們對(duì)這篇文章的審閱。

via:thekevinscott.com

雷鋒網(wǎng) AI 研習(xí)社編譯整理。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說