丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

<label id="qtdnu"></label>

<li id="qtdnu"><legend id="qtdnu"></legend></li>

<span id="qtdnu"></span>

<delect id="up0sn"></delect>

<dl id="up0sn"></dl>

<option id="up0sn"><blockquote id="up0sn"></blockquote></option>

<dl id="up0sn"><u id="up0sn"></u></dl><table id="up0sn"></table>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預(yù)覽，將在時失效

人工智能正文

發(fā)私信給楊曉凡

發(fā)送

0

CVPR 2017精彩論文解讀：顯著降低模型訓(xùn)練成本的主動增量學(xué)習(xí) | 分享總結(jié)

本文作者：楊曉凡

2017-08-04 22:12

專題：CVPR 2017

導(dǎo)語：active learning + sequential fine-tune，讓模型表現(xiàn)停止增長的點在更少數(shù)據(jù)時到來

雷鋒網(wǎng) AI 科技評論按：計算機視覺盛會 CVPR 2017已經(jīng)結(jié)束了，雷鋒網(wǎng) AI 科技評論帶來的多篇大會現(xiàn)場演講及收錄論文的報道相信也讓讀者們對今年的 CVPR 有了一些直觀的感受。

論文的故事還在繼續(xù)

相對于 CVPR 2017收錄的共783篇論文，即便雷鋒網(wǎng) AI 科技評論近期挑選報道的獲獎?wù)撐?、業(yè)界大公司論文等等是具有一定特色和代表性的，也仍然只是滄海一粟，其余的收錄論文中仍有很大的價值等待我們?nèi)ネ诰?，生物醫(yī)學(xué)圖像、3D視覺、運動追蹤、場景理解、視頻分析等方面都有許多新穎的研究成果。

所以我們繼續(xù)邀請了宜遠智能的劉凱博士對生物醫(yī)學(xué)圖像方面的多篇論文進行解讀，延續(xù)之前最佳論文直播講解活動，陸續(xù)為大家解讀2篇的論文。

劉凱博士是宜遠智能的總裁兼聯(lián)合創(chuàng)始人，有著香港浸會大學(xué)的博士學(xué)位，曾任聯(lián)想（香港）主管研究員、騰訊高級工程師。半個月前宜遠智能的團隊剛剛在阿里舉辦的天池 AI 醫(yī)療大賽上從全球2887支參賽隊伍中脫穎而出取得了第二名的優(yōu)異成績。

在 8 月 1 日的直播分享中，劉凱博士為大家解讀了「Fine-tuning Convolutional Neural Networks for Biome?dical Image Analysis: Actively and Incrementally??」（用于生物醫(yī)學(xué)圖像分析的精細調(diào)節(jié)卷積神經(jīng)網(wǎng)絡(luò)：主動的，增量的）這篇論文，它主要解決了一個深度學(xué)習(xí)中的重要問題：如何使用盡可能少的標注數(shù)據(jù)來訓(xùn)練一個效果有潛力的分類器。以下為當(dāng)天分享的內(nèi)容總結(jié)。

CVPR 2017精彩論文解讀：顯著降低模型訓(xùn)練成本的主動增量學(xué)習(xí) | 分享總結(jié)

圖文分享總結(jié)

劉凱博士：大家好，我是深圳市宜遠智能科技有限公司的首席科學(xué)家劉凱。今天我給大家介紹一下 CVPR 2017 關(guān)于醫(yī)學(xué)圖像處理的一篇比較有意思的文章，用的是 active learning 和 incremental learning 的方法。

今天分享的主要內(nèi)容是，首先介紹一下這篇文章的 motivation，就是他為什么要做這個工作；然后介紹一下他是怎么去做的，以及在兩種數(shù)據(jù)集上的應(yīng)用；最后做一下簡單的總結(jié)，說一下它的特點以及還有哪些需要改進的地方。

CVPR 2017精彩論文解讀：顯著降低模型訓(xùn)練成本的主動增量學(xué)習(xí) | 分享總結(jié)

其實在機器學(xué)習(xí)，特別是深度學(xué)習(xí)方面，有一個很重要的前提是需要有足夠量的標注數(shù)據(jù)。但是這種標注數(shù)據(jù)一般是需要人工去標注，有時候標注的成本還是挺高的，特別是在醫(yī)學(xué)圖像處理上面。因為醫(yī)學(xué)圖像處理需要一些 domain knowledge，就是說醫(yī)生對這些病比較熟悉他才能標，我們一般人是很難標的。不像在自然圖像上面，比如ImageNet上面的圖片，就是一些人臉、場景還有實物，我們每個人都可以去標，這種成本低一點。醫(yī)學(xué)圖像的成本就會比較高，比如我右邊舉的例子，醫(yī)學(xué)圖像常見的兩種方式就是X光和CT。X光其實一個人一般拍出來一張，標注成本大概在20到30塊錢人民幣一張；CT是橫斷面，拍完一個人大概有幾百張圖片，標注完的成本就會高一點，標注的時間也會比較長。

舉個例子，比如標1000張，這個數(shù)據(jù)對 deep learning 來說數(shù)據(jù)量不算太大，X光需要2到3萬人民幣、3到4天才能標完；CT成本就會更長，而且時間成本也是一個很重要的問題。那要怎么解決深度學(xué)習(xí)在醫(yī)學(xué)方面、特別是醫(yī)學(xué)圖像方面的這個難題呢？就要用盡量少的標注數(shù)據(jù)去訓(xùn)練一個 promising 的分類器，就是說一個比較好的分類器。

CVPR 2017精彩論文解讀：顯著降低模型訓(xùn)練成本的主動增量學(xué)習(xí) | 分享總結(jié)

那我們就要考慮要多少訓(xùn)練數(shù)據(jù)才夠訓(xùn)練一個 promising 的分類器呢？這里有個例子，比如左邊這個圖，這個模型的 performance 隨著數(shù)據(jù)的增加是一個線性增長的過程，就是說數(shù)據(jù)越多，它的 performance 就越高。但在實際中，這種情況很少出現(xiàn)，一般情況下都是數(shù)據(jù)量達到一定程度，它的 performance就會達到一個瓶頸，就不會隨著訓(xùn)練數(shù)據(jù)的增加而增加了。但是我們有時候想的是把這個臨界點提前一點，讓它發(fā)生在更小數(shù)據(jù)量的時候。比如右邊這個圖的紅色虛線部分，用更小的數(shù)據(jù)達到了相同的 performance。這篇論文里就是介紹主動學(xué)習(xí) active learning 的手段，找到一個小數(shù)據(jù)集達到大數(shù)據(jù)集一樣的效果。

CVPR 2017精彩論文解讀：顯著降低模型訓(xùn)練成本的主動增量學(xué)習(xí) | 分享總結(jié)

怎么樣通過 active learning 的方式降低剛才右圖里的臨界點呢？就是要主動學(xué)習(xí)那些比較難的、容易分錯的、信息量大的樣本，然后把這樣的樣本標記起來。因為這些是比較難分的，容易分的可能幾個樣本就訓(xùn)練出來了，難分的就需要大量的數(shù)據(jù)，模型才能學(xué)出來。所以模型要先去學(xué)這些難的。

怎么去定義這個“難”呢？就是“難的”、“容易分錯”、“信息量大”，其實說的是一個意思。這個“信息量大”用兩個指標去衡量，entropy大和diversity高。entropy就是信息學(xué)中的“熵”，diversity就是多樣性。這個數(shù)據(jù)里的多樣性就代表了模型學(xué)出來的東西具有比較高的泛化能力。舉個例子，對于二分類問題，如果預(yù)測值是在0.5附近，就說明entropy比較高，因為模型比較難分出來它是哪一類的，所以給了它一個0.5的概率。

用 active learning 去找那些比較難的樣本去學(xué)習(xí)有這5個步驟

首先，把所有的未標注圖片數(shù)據(jù)在大量自然圖像中訓(xùn)練的網(wǎng)絡(luò)，大家知道現(xiàn)在有很多常用的網(wǎng)絡(luò)，從最初的LeNet、AlexNet、GoogLeNet、VGG、ResNet這樣的網(wǎng)絡(luò)中去測試一遍，得到預(yù)測值。然后挑出來那些最難的、信息量大的樣本去標注
用這些剛剛標注了的樣本去訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)，得到一個網(wǎng)絡(luò)N
把剩下沒有標簽的圖像用N過一遍，得到預(yù)測值，挑一遍那些最難的，用人工去給它標注
把剛剛標注了的樣本和原來已經(jīng)標好的樣本一起，也就是整個標注集拿來繼續(xù)訓(xùn)練這個網(wǎng)絡(luò)
重復(fù)3到4這個步驟，直到當(dāng)前的分類器可以對選出來的比較難的圖像很好的分類了。

CVPR 2017精彩論文解讀：顯著降低模型訓(xùn)練成本的主動增量學(xué)習(xí) | 分享總結(jié)

剛才的文字講解可能不是很直觀，我們用一個圖來看一下。這個圖從左到右看，一開始灰蒙蒙的意思是都還沒有標注，然后用一個pre-trained model去預(yù)測一遍都是哪個類。這樣每個數(shù)據(jù)上都有一個概率，可以根據(jù)這個概率去選擇它是不是難分的那個數(shù)據(jù)，就得到了中間這個圖，上面那一段是比較難的，然后我們把它標注出來。然后用一個 continuous fine-tune 的 CNN，就是在原來的模型上再做一次 fine-tune，因為有了一些標注數(shù)據(jù)了嘛，就可以繼續(xù) fine-tune了。 fine-tune后的模型對未標注的數(shù)據(jù)又有了一個預(yù)測的值，再根據(jù)這些預(yù)測值與找哪些是難標的，把它們標上。然后把這些標注的數(shù)據(jù)和之前就標注好的數(shù)據(jù)一起，再做一次 continuous fine-tune，就得到 CNN2了。然后依次類推，直到把所有的數(shù)據(jù)都標完了，或者是在沒有標完的時候模型的效果就已經(jīng)很好了，因為把其中難的數(shù)據(jù)都已經(jīng)標完了。

CVPR 2017精彩論文解讀：顯著降低模型訓(xùn)練成本的主動增量學(xué)習(xí) | 分享總結(jié)

剛才提到了兩個指標來判定一個數(shù)據(jù)是不是難分的數(shù)據(jù)。entropy比較直觀，預(yù)測結(jié)果在0.5左右就認為它是比較難分的；但diversity這個值不是很好刻畫，就通過 data augmentation數(shù)據(jù)增強的方式來設(shè)計指標，就是說從一個圖像設(shè)計出一系列它的變形。這些變形就可以是靠翻轉(zhuǎn)、旋轉(zhuǎn)、平移操作等等，一個變成了好幾個甚至十幾個，增加了它的多樣性。然后對這些所有的變形去預(yù)測它們的分類結(jié)果，如果結(jié)果不統(tǒng)一的話，就說明這副圖像的diversity比較強，那么這張圖像就是比較難分的，是hard sample；反之就是比較好分的，那么就不去做它的增強了。然后對所有增強以后的數(shù)據(jù)的預(yù)測值應(yīng)當(dāng)是一致的，因為它們代表的是同一個東西，但是也有一些例外，如果是像我剛才說的那樣的簡單的數(shù)據(jù)增強。

CVPR 2017精彩論文解讀：顯著降低模型訓(xùn)練成本的主動增量學(xué)習(xí) | 分享總結(jié)

這就會產(chǎn)生一個問題，原始的圖像，比如左邊這只小貓，經(jīng)過平移、旋轉(zhuǎn)、縮放等一些操作以后得到9張圖，每張圖都是它的變形。然后我們用CNN對這9張圖求是一只貓的概率，可以看到上面三個圖的概率比較低，就是判斷不出來是一只貓，我們直觀的去看，像老鼠、狗、兔子都有可能。本來這是一個簡單的例子，很容易識別出來這是一只貓，但是增強了以后反而讓模型不確定了。這種情況是需要避免的。

所以這種時候做一個 majority selection，就是一個少數(shù)服從多數(shù)的方式，因為多數(shù)都識別出來它是一只貓了。這就是看它的傾向性，用里面的6個預(yù)測值為0.9的數(shù)據(jù)，上面三個預(yù)測值為0.1的就不作為增強后的結(jié)果了。這樣網(wǎng)絡(luò)預(yù)測的大方向就是統(tǒng)一的了。

CVPR 2017精彩論文解讀：顯著降低模型訓(xùn)練成本的主動增量學(xué)習(xí) | 分享總結(jié)

這篇文章的創(chuàng)新點除了active learning之外，它在學(xué)習(xí)的時候也不是從batch開始，而是sequential learning。它在開始的時候效果就不會特別好，因為完全沒有標注數(shù)據(jù)，它是從一個ImageNet數(shù)據(jù)庫訓(xùn)練出的模型直接拿到medical的應(yīng)用里來預(yù)測，效果應(yīng)該不會太好。然后隨著標注數(shù)據(jù)的增加，active learning的效果就會慢慢體現(xiàn)出來。這里是在每一次fine-tune的時候，都是在當(dāng)前的模型基礎(chǔ)上的進一步fine-tune，而不是都從原始的pre-train的model做fine-tune，這樣就對上一次的模型參數(shù)有一點記憶性，是連續(xù)的學(xué)習(xí)。這種思路就跟學(xué)術(shù)上常見的sequntial learning和online learning是類似的。但是有一個缺點就是，fine-tune的參數(shù)不太好控制，有一些超參數(shù)，比如learning rate還有一些其它的，其實是需要隨著模型的變化而變化的，而且比較容易一開始就掉入local minimal，因為一開始的時候標注數(shù)據(jù)不是很多，模型有可能學(xué)到一個不好的結(jié)果。那么這就是一個open的問題，可以從好幾個方面去解決，不過解決方法這篇文章中并沒有提。

CVPR 2017精彩論文解讀：顯著降低模型訓(xùn)練成本的主動增量學(xué)習(xí) | 分享總結(jié)

這個方法在機器學(xué)習(xí)方面是比較通用的，就是找那些難分的數(shù)據(jù)去做sequntial的fine-tune。這篇論文里主要是用在了醫(yī)學(xué)圖像上面，用兩個例子實驗了結(jié)果，一個是結(jié)腸鏡的視頻幀分類，看看有沒有病變、瘤之類的。結(jié)論是只用了5%的樣本就達到了最好的效果，因為其實因為是連續(xù)的視頻幀，通常都是差不多的，前后的幀都是類似的，不需要每一幀都去標注。另一個例子也是類似的，肺栓塞檢測，檢測+分類的問題，只用1000個樣本就可以做到用2200個隨機樣本一樣的效果。

CVPR 2017精彩論文解讀：顯著降低模型訓(xùn)練成本的主動增量學(xué)習(xí) | 分享總結(jié)

這個作者我也了解一些，他是在 ASU 的PhD學(xué)生，然后現(xiàn)在在梅奧，美國一個非常著名的私立醫(yī)院梅奧醫(yī)院做實習(xí)，就跟需要做標注的醫(yī)生打交道比較多。這相當(dāng)于就是一個從現(xiàn)實需求得出來的一個研究課題。

總結(jié)下來，這篇文章有幾個比較好的亮點。

從標注數(shù)據(jù)來說，從一個完全未標注的數(shù)據(jù)集開始，剛開始的時候不需要標注數(shù)據(jù)，最終以比較少量的數(shù)據(jù)達到很好的效果；
然后，從sequntial fine-tune的方式，而不是重新訓(xùn)練；
選擇樣本的時候，是通過候選樣本的一致性，選擇有哪些樣本是值得標注的；
自動處理噪音，就是剛才舉的貓的那個例子，數(shù)據(jù)增強的時候帶來的噪音，通過少數(shù)服從多數(shù)的方式把那些噪音去掉了；
在每個候選集只選少量的patches計算熵和KL距離，KL距離就是描述diversity的指標，這樣減少了計算量。傳統(tǒng)的深度學(xué)習(xí)的時候會需要在訓(xùn)練之前就做數(shù)據(jù)增強，每個樣本都是同等的；這篇文章里面有一些數(shù)據(jù)增強不僅沒有起到好的作用，反而帶來了噪音，就需要做一些處理；而且還有一些數(shù)據(jù)根本不需要增強，這樣就減少了噪音，而且節(jié)省了計算。

CVPR 2017精彩論文解讀：顯著降低模型訓(xùn)練成本的主動增量學(xué)習(xí) | 分享總結(jié)

我今天分享的大概就是這些內(nèi)容。其實這里還有一個更詳細的解釋，最好還是把論文讀一遍吧，這樣才是最詳細的。

提問環(huán)節(jié)

Q：為什么開始的時候 active learning 沒有比random selection好？

A：其實不一定，有時候是沒有辦法保證誰好。active learning在一開始的時候是沒有標注數(shù)據(jù)的，相當(dāng)于這時候它不知道哪些數(shù)據(jù)是hard的，在這個醫(yī)學(xué)數(shù)據(jù)集上并沒有受到過訓(xùn)練。這時候跟 random selection 就一樣了，正在遷移原來 ImageNet 圖像的學(xué)習(xí)效果。random selection 則有可能直接選出來 hard的那些結(jié)果，所以有可能比剛開始的active selecting要好一點，但這不是每次都是 random selection 好。就是不能保證到底是哪一個更好。

（完）

雷鋒網(wǎng) AI 科技評論整理。系列后續(xù)的論文解讀分享也會進行總結(jié)整理，不過還是最希望大家參與我們的直播并提出問題。

相關(guān)文章：

中山大學(xué)金牌隊伍分享獲獎經(jīng)驗：如何玩轉(zhuǎn)圖像比賽

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

10人收藏

分享：

相關(guān)文章

專題

CVPR 2017

本專題其他文章

more

楊曉凡

讀論文為生

日常笑點滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

微信網(wǎng)絡(luò)安全智能電視硬創(chuàng)邦 AWS iCloud 蘋果發(fā)布會虛擬貨幣微博精選高德黑產(chǎn)

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說

<option id="ynioi"></option>

<delect id="ynioi"><tfoot id="ynioi"><dl id="ynioi"></dl></tfoot></delect>

<strong id="ynioi"></strong>

<progress id="ynioi"></progress>

<dd id="ynioi"><var id="ynioi"></var></dd>