丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
國際 正文
發(fā)私信給李尊
發(fā)送

0

從模糊到清晰,AI對圖片的識別越來越精準 | Facebook CVPR2016最新論文

本文作者: 李尊 2016-07-04 12:16
導(dǎo)語:Facebook AI實驗室最新CVPR2016論文,圖像邊緣的無監(jiān)督學習。

圖像邊緣的無監(jiān)督學習

聯(lián)合編譯:陳圳、章敏、Blake

摘要

數(shù)據(jù)驅(qū)動方法在邊緣檢測領(lǐng)域已被證明是有效的,且在最近的基準測試中取得了頂尖的成績。然而,目前所有數(shù)據(jù)驅(qū)動的邊緣檢測都要求以手工標注區(qū)域分割或?qū)ο筮吔绲姆绞綄τ?xùn)練過程進行監(jiān)督。特別是,人類標注者會標記出那些語義上有意義的邊緣,然后將這些邊緣用于訓(xùn)練。對于學習準確檢測邊緣來說,這種強的高水平監(jiān)督真的必要嗎?在本文中我們展示了一種簡單但有效的無監(jiān)督訓(xùn)練邊緣檢測的方法。為此我們利用了圖像運動來進行。更特別地的是我們的方法唯一輸入是幀之間的嘈雜半稠密匹配。我們從對邊緣的(圖像梯度)初步知識開始,在提高運動估計和邊緣檢測之間來輪流切換。通過使用龐大的視頻數(shù)據(jù)素材,用我們的無監(jiān)督方法訓(xùn)練出的邊緣檢測器已接近用完全監(jiān)督方法訓(xùn)練的同類邊緣檢測器(差異在 3-5% 范圍內(nèi))。最后,當將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到這些邊緣識別器時,我們的方法為對象檢測提供了一種嶄新的預(yù)訓(xùn)練模式。

1.引言

人類視覺系統(tǒng)很容易感知識別圖像的突出邊緣。突出邊緣對于如光流、物體檢測、物體建議等分類任務(wù)相當有用,所以建造同樣視覺能力的機器系統(tǒng)對邊緣檢測也應(yīng)該很有趣。然而,以往的嘗試都表明邊緣檢測相當有難度,早期的方法大多依靠于亮度和色彩梯度等低階指令。優(yōu)化架構(gòu)雖然能提高測試結(jié)果,但準確度仍然明顯低于人類表現(xiàn)。

由人類標記邊界組成的BSDS數(shù)據(jù)集,在邊緣檢測的關(guān)鍵轉(zhuǎn)變上奠定了基礎(chǔ)。與其他倚靠復(fù)雜手工特性不同,Doll′ar等人提出了一種數(shù)據(jù)驅(qū)動、監(jiān)督型的方法用來學習檢測邊緣。現(xiàn)在的邊緣檢測器都是基于這個理念建造的,并潛在推動技術(shù)往使用更加精密的學習范例方向發(fā)展。

然而,現(xiàn)有的數(shù)據(jù)驅(qū)動方法都要求嚴格的訓(xùn)練監(jiān)督。特別是像BSDS一樣的數(shù)據(jù)集,人類標記者通過他們的圖像構(gòu)筑經(jīng)驗來標記語義上有意義的邊緣。另外,最近的邊緣檢測器使用ImageNet來預(yù)先訓(xùn)練。在本文中,我們來進行探討:目標級監(jiān)督對于邊緣檢測是否不可替代?另外,邊緣檢測能在完全無人類監(jiān)督下進行嗎?

我們提出使用運動取代人類監(jiān)督來訓(xùn)練邊緣檢測器。運動邊界是圖像邊界的一部分,如圖1所示。因為圖像邊界能夠用來獲得正面的訓(xùn)練樣本。另一方面,在離運動邊界較遠的未知可能也包含圖像邊界。幸運的是,因為邊緣很少,簡單的對隨機位置取樣也能提供很少錯誤的負面訓(xùn)練結(jié)果。因此通過對假設(shè)準確動作預(yù)估,我們能夠為邊緣檢測獲得無限的訓(xùn)練數(shù)據(jù)。

從模糊到清晰,AI對圖片的識別越來越精準 | Facebook CVPR2016最新論文


圖1

確實,光學流動和邊緣檢測時緊緊耦合在一起的。最新,Revaud等人提出了EpicFlow,給出一個具體的邊界地圖和框架之間的半稠密匹配,EpicFlow生成稠密的補充匹配結(jié)果,這符合最新的結(jié)果預(yù)期。

這個想法啟發(fā)了我們的方法,我們一開始僅使用半稠密來匹配框架和基準圖片(簡單的圖像梯度)。然后

在計算匹配流動和最佳圖像邊緣之間反復(fù)進行運算,在大量視頻數(shù)據(jù)的訓(xùn)練下,我們獲得高度精密的正向反饋和隨機負向反饋,我們使用這些數(shù)據(jù)對我們的檢測器進行提高,我們的結(jié)果如圖2所示。

從模糊到清晰,AI對圖片的識別越來越精準 | Facebook CVPR2016最新論文


圖2

我們對結(jié)構(gòu)化邊緣(SE)和整體化邊緣(HE)進行了試驗。SE是基于構(gòu)筑架構(gòu),HE是基于深度網(wǎng)絡(luò)。SE更快,HE更準確。兩種檢測器都實現(xiàn)了目前最佳的結(jié)果。本文主要的結(jié)果是,通過使用我們的無監(jiān)督方法進行訓(xùn)練,這兩種都實現(xiàn)了完全監(jiān)督訓(xùn)練下的同等表現(xiàn)。

最后,我們證明這是能夠作為一種新穎的針對深度網(wǎng)絡(luò)的無監(jiān)督預(yù)訓(xùn)練方法。特別的是,當將一種神經(jīng)網(wǎng)絡(luò)微調(diào)用來物體檢測時,使用權(quán)重學習邊緣檢測比使用隨機已有權(quán)重表現(xiàn)要好。雖然結(jié)果還很初步,但我們相信這是未來探索一個很有希望的方向。

2.相關(guān)工作

邊緣檢測:

早期的邊緣檢測器是使用圖像梯度和質(zhì)感梯度手工設(shè)計的。相關(guān)性強的是這些邊緣檢測器是數(shù)據(jù)導(dǎo)向訓(xùn)練的。在加入多重分類、特性學習、衰減、結(jié)果預(yù)測和深度學習后,這些問題都得到較好堅決。這些方法都要求嚴格的訓(xùn)練監(jiān)督,在這個工作中我們探索無監(jiān)督學習是否能被替代(針對我們的實驗談?wù)摚?/span>

光學流動:

全面回顧已超出我們的研究能力,我們主要是研究利用少數(shù)匹配和圖像邊緣做評價的方法。特別是我們運用邊緣反饋,從稀到密的匹配添加來進行密集動作的描述。我們的關(guān)注點不在視覺估計,我們更加關(guān)注在沒有人類監(jiān)督下進行的邊緣和邊緣評價結(jié)果的聯(lián)合。

利用運動進行知覺分類。在人類視覺中,運動在分類和物體識別中起著至關(guān)重要的作用。Ostrovsky等人利用視力剛恢復(fù)的人來進行視覺技巧研究,結(jié)果顯示運動提示對于物體分類和識別能力十分重要。我們的研究也是受此啟發(fā):旨在利用運動提示研究邊緣探測器。

利用視頻進行研究:把視頻作為視覺學習表現(xiàn)的監(jiān)督信號是最近興起的方法,例如,把提高相鄰視頻的相似性,學習連續(xù)幀的潛在表現(xiàn),或是學著預(yù)測消失的或是未來的幀。Wang和Gupta利用物體追蹤并加強被追蹤幀在視頻中的相似性,而不是通過簡單加強視頻中連續(xù)幀的相似性。結(jié)果網(wǎng)絡(luò)很容易做出正常評價和物體探測。正如我們所展示的那樣,我們的方法可作為一個新穎無監(jiān)督且先于訓(xùn)練的體系。但是在之前的方法中,訓(xùn)練目標僅僅是作為一個代理去鼓勵網(wǎng)絡(luò)學會一個有用的表達,我們最初的目標是訓(xùn)練邊緣探測器,而學會表達僅僅是一個意外結(jié)果。

3.從視頻中學習邊緣

我們最開始是使用電腦視覺中的標準工具制作一些簡單的提示,例如點對應(yīng)和圖像梯度。我們使用DeepMatching去獲得連續(xù)兩幀(I,I’)之間的半稠密匹配。為匹配成功DeepMatching會計算不同部分和規(guī)模之間的聯(lián)系。但與其名字剛好相反的是,此方法并未涉及到深度學習。在本文剩余部分,我們會完善M的匹配結(jié)果。

從模糊到清晰,AI對圖片的識別越來越精準 | Facebook CVPR2016最新論文

我們提倡使用在圖2和算法1中提到的迭代過程。梯度級僅是圖像邊緣的粗略估計,因此可作為一個合理的起始點。在接下來的部分中我們更加詳細地討論此過程。

3.1 方法細節(jié)

EpicFlow

EpicFlow作為圖像對輸入(I,I'),圖像之間的半稠密匹配M和第一幀的邊緣圖E。它能有效地計算出由E決定的在M中所有像素和匹配點之間的近似測地距離。對于每一個像素,測地距被用于尋找與K最接近的匹配,以及由加權(quán)組合的運動矢量決定的源像素運動。最后的優(yōu)化是是使用最小的能量變化產(chǎn)生高精度的邊緣保護流向圖。我們會為讀者提供更多細節(jié)。

運動邊緣檢測

在給定的光流估計中進行運動邊緣檢測極具挑戰(zhàn)性,如圖3。Weinzaepfel等人表示基于流動圖的簡單梯度計算,結(jié)果往往不太理想,且對于運動邊緣檢測不提倡使用以數(shù)據(jù)驅(qū)動的方法。在本項研究中,我們會使用一個相對簡單但效果驚人的方法。我們使用基于圖像邊緣訓(xùn)練過的邊緣檢測器,為進行運動邊緣評估把(圖像)邊緣檢測器運用于有顏色編碼的流向圖。通過色彩,高度及飽和度對流動動向進行編碼,把光流映射的2D流量矢變成3D的顏色空間。動作邊緣經(jīng)此編碼變得十分清晰(我們嘗試過其他顏色空間但HSV表現(xiàn)最好)。在有顏色的流向圖使用邊緣探測器,能讓我們簡單了解運動邊緣檢測機制。

從模糊到清晰,AI對圖片的識別越來越精準 | Facebook CVPR2016最新論文


圖3.運動邊緣檢測的解釋。(a)輸入圖片。(b)基于輸入圖片添加顏色。(c)通過運用邊緣檢測器計算運動邊緣。(d)經(jīng)校對后的邊緣。經(jīng)校對后的邊緣可作為訓(xùn)練邊緣檢測的監(jiān)督信號。

運動邊緣校對

從流向計算出的運動邊緣與圖像邊緣有些許不符。我們發(fā)現(xiàn)這會對訓(xùn)練造成不利影響,尤其對于HE來說,其產(chǎn)生的邊緣較厚。為校對運動邊緣,我們使用簡單的探索方法:在運用非最大化的抑制和闕值后,我們把在彩色圖像中探測到的超像素和運動邊緣進行校對。尤其,我們利用涵蓋90%圖像邊緣的SLIC超像素,使用雙向匹配(同樣也適用于BSDS評價中)對運動和邊緣的超像素進行匹配。經(jīng)匹配的運動邊緣像素會轉(zhuǎn)移到超像素邊緣位置,而為匹配的運動邊緣會被丟棄。這一改良(如圖3d)能幫助我們過濾邊緣不清楚的圖像進而精準定位。

我們強調(diào)我們的目標并不是探測所有的邊緣。對于訓(xùn)練只需一小部分精準判斷。但是由于校準過程,我們的取樣會稍有偏移。特別一些缺少對應(yīng)圖像邊緣的運動邊緣會經(jīng)常缺失。而此缺陷和表現(xiàn)的影響會在第4部分進行討論。

訓(xùn)練:經(jīng)校對過的運動邊緣圖能作為訓(xùn)練邊緣探測器的監(jiān)督信號。陽性是在有準確率較高的地方進行取樣。陰性是統(tǒng)一從有教小臨界值的運動邊緣中進行取樣。但并未考慮運動邊緣的模糊的地方。如我們將會展示一樣,如此收集的樣本對于訓(xùn)練來說會是一個將強的監(jiān)督信號。

視頻數(shù)據(jù)集

對于訓(xùn)練,我們會聯(lián)合來自兩個不同部分的視頻數(shù)據(jù)集:視頻分割標準(VSB)和YouTube物體數(shù)據(jù)集。我們使用這兩個數(shù)據(jù)集中的所有高清視頻(100+155)。省略掉Youtube物體數(shù)據(jù)集中的解釋。視頻的收集將會超過500K,對于邊緣檢測的訓(xùn)練來說已足夠。

幀過濾。在給定的大量數(shù)據(jù)中,我們運用探測的方法選擇對于運動評估來說最清楚的幀。首先我們會使用ORB廣義匹配(計算很快)在連續(xù)幀之間安裝單應(yīng)矩陣。接著省去匹配度不高的幀,運動較慢(最大移位<2像素),運動較廣(平均移位>15像素),或是全局平移移動。這些探索方法移除了光流不可靠或是包含運動邊緣較少的幀。在所有試驗中我們使用修剪過的50K左右的幀。

3.2 邊緣檢測器的細節(jié)

我們使用分別基于樹狀和深層網(wǎng)絡(luò)的結(jié)構(gòu)化邊緣(SE)和整體化邊緣(HE)探測器進行試驗。SE因其準確度高且速度快被廣泛運用,例如,流向評估和物體建議。HE方法更新但取得的效果不錯。當使用未經(jīng)監(jiān)督的體系進行研究時,這兩種方法的表現(xiàn)與在監(jiān)督環(huán)境下的表現(xiàn)結(jié)果一致。

結(jié)構(gòu)化的邊緣(SE)

SE是通過提取較低水平的圖像特征,如顏色和梯度渠道,進行邊緣預(yù)測。這一方法通過結(jié)構(gòu)化標簽學習決策流程以決定在每一節(jié)點的相應(yīng)功能。在測試中,每一個決定都為相應(yīng)的節(jié)點輸入。最終的圖像是由每一個節(jié)點的重合部分構(gòu)成的,而由此方法的結(jié)果也會很好。我們在訓(xùn)練中也會使用相同的參數(shù)。這一樹狀體系會有8個分支,每一分支最深會有64層。每一樹狀是由隨機選擇的106數(shù)據(jù)集進行訓(xùn)練,而這一數(shù)據(jù)集的陰性和陽性部分數(shù)量都一樣。在訓(xùn)練中,我們把地區(qū)邊緣節(jié)點轉(zhuǎn)化為分割任務(wù),就如SE計算邊緣相關(guān)部分一樣。我們會舍棄未跨越整個邊緣的部分。在訓(xùn)練中的每一次迭代,樹狀系統(tǒng)都能從相互摩擦中有所收獲。在測試時,為達到最好效果我們會在各范圍運行SE。

整體邊緣化(HE)

HE使用改良的VGG-16網(wǎng)絡(luò)系統(tǒng)且?guī)в刑鴮又g的聯(lián)系和深層監(jiān)督。實施過程如下。我們會去掉所有的連接層,留下匯聚層,結(jié)果是結(jié)構(gòu)只剩下13層回旋層和4層匯聚層。通過附加線性分類器(1×1卷積)跳層能實施為各階段的最后一個轉(zhuǎn)化層,他們的結(jié)果都是用于產(chǎn)生最后的圖像。在我們的實施中,我們?nèi)コ俗钌顚哟蔚谋O(jiān)督(每一層都有不同的缺失函數(shù))因為我們發(fā)現(xiàn)單一的函數(shù)缺失所受懲罰較小,更易用于訓(xùn)練。

我們用調(diào)整過的且在ImageNet進行過訓(xùn)練的網(wǎng)絡(luò)和隨機初始化的網(wǎng)絡(luò)進行試驗。對于調(diào)整,我們使用參數(shù)為學習率1e-6,重量衰變.0002,動量.9和批量10。從摩擦中進行學習時,我們在每一個卷積塊的終點加上批量化層。這加速了訓(xùn)練也提高了匯聚。我們同樣也提高了學習率(1e-5),重量衰減(.0005)。每一次迭代會對網(wǎng)絡(luò)進行40次訓(xùn)練,這減少了一半的學習率。與SE不同,我們能從之前的迭代中重復(fù)使用網(wǎng)絡(luò)作為后續(xù)迭代的起點。

4.試驗和結(jié)果

我們對于每一個任務(wù)都使用2種不同的邊緣檢測器(SE,HE)且提供較為廣泛的標準。我們的主要研究成果是,只用視頻進行訓(xùn)練的圖像邊緣檢測器與全面監(jiān)督的訓(xùn)練模式相比,實現(xiàn)的成果更好。作為研究方法的副成果,我們同樣產(chǎn)生了具有競爭力的光流動和運動邊緣結(jié)果。最后,我們展示了使用視頻的網(wǎng)絡(luò)在物體檢測方面有所提高。

4.1運動邊界檢測

雖然我們的重點不是運動邊界檢測,但運動邊界作為我們唯一的監(jiān)督信息來源,識別它是非常重要的。因此我們的第一個實驗是基于運動邊界的。

從模糊到清晰,AI對圖片的識別越來越精準 | Facebook CVPR2016最新論文


表1.基于VSB的運動邊界結(jié)果。

我們用視頻分割基準(VSB),以20幀為單位,注釋地面真實運動的邊界。我們在測試集中282個注釋的幀上報告了結(jié)果(刪除沒有運動邊界的幀并且將每個視頻最后的幀作為所需的3幀),使用了三種標準的指標進行評估:固定輪廓閾值(ODS),每幅圖像的最佳閾值(OIS),和平均精度(AP)??紤]到高精準度規(guī)則,我們引入了額外的措施:精度為召回的20%。非最大抑制適用于評估先前所有的運動邊界。

表1中報告了四種基線的結(jié)果以及我們方法中最后一次迭代的運動邊界GT(SE/HE-IMAGE).

這些基線包括:圖像邊界(SE/HE-IMAGE),光流的梯度幅值(EPLCFLOW),一種結(jié)合運動信息和超像素分割的方法(GaLasso ),以及最近的一個數(shù)據(jù)驅(qū)動的監(jiān)督方法(WEINZAEPFEL)。

我們的方法,雖然簡單,但在20%召回中具有66~67精度,僅略差于[ 43 ],即使它沒有受過針對運動邊界檢測的訓(xùn)練。它在高精度規(guī)則方面基本上比它的基線好的多。雖然我們的目標不是運動邊界檢測本身,但該結(jié)果是很重要的,因為它使我們能夠獲得高質(zhì)量的正樣本,它能用于訓(xùn)練圖像邊界檢測器。

4.2 圖像邊界檢測

我們下一步調(diào)查了邊界檢測的性能。結(jié)果的報告基于伯克利分割數(shù)據(jù)集和基準(BSDS),它由200個訓(xùn)練,100個驗證,和200個測試圖像組成。每一個圖像都注釋了地面實況邊界。我們再一次用同樣的三個標準的指標:固定輪廓閾值(ODS),每幅圖像的最佳閾值(OIS),平均精度(AP),進行了精度評估。

圖像邊界檢測是否可以被訓(xùn)練用于運動邊界?我們的第一個實驗驗了這個問題。我們在VSB(591圖像)中使用了所有可利用的地面實況邊界,來訓(xùn)練SE和HE。結(jié)果在表2中(SE-VSB,HE-VSB)。對于這兩種方法,與用圖像邊界監(jiān)督(SE-BSDS,HE-BSDS)訓(xùn)練相比,結(jié)果都是在2到4點ODS。我們的結(jié)果表明:使用運動邊界進行圖像邊界檢測的學習是可行的。

我們接下來展示了使用視頻作為監(jiān)督信號的結(jié)果(SE-VIDEO,HE-VIDEO)。相比于監(jiān)督情況下.746(SEBSDS),SE-VIDEO實現(xiàn)了.724ODS。HE的結(jié)果相似(.748和。785)。如結(jié)果所示,使用視頻監(jiān)督達到了競爭的結(jié)果(3%到5%之間)。有趣的是,從視頻學習略勝了使用地面實況運動邊界訓(xùn)練。我們認為這是最小規(guī)模的VSB。

從模糊到清晰,AI對圖片的識別越來越精準 | Facebook CVPR2016最新論文


表2BSDS測試集的邊界檢測結(jié)果。我們提供了使用了三種標準指標:BSDS, VSB, and

VIDEO (非監(jiān)督)訓(xùn)練SE和HE的結(jié)果。HE在ImageNet上使用了VGG網(wǎng)絡(luò)進行預(yù)訓(xùn)練,HE?表明網(wǎng)絡(luò)是從零開始訓(xùn)練的。

對于HE,我們實驗開始于一個ImageNet預(yù)訓(xùn)練模型和從零開始訓(xùn)練(HE?)。HE在整個訓(xùn)練場景中大大受益于在ImageNet的預(yù)訓(xùn)練。這是令人鼓舞的,因為它意味著對象級知識,對于邊界檢測是有用的。另一方面,我們的視頻監(jiān)督方案同樣在ImageNet預(yù)訓(xùn)練中受益,因此,這意味著,在我們目前的設(shè)置沒有訓(xùn)練出模型的全部潛力。

為了探討性能如何演化,圖4中,對于兩種方法,我們在每一次迭代中都設(shè)置了ODS分數(shù)。在迭代0中Raw圖像梯度為。543ODS(未展示)。隨著大多數(shù)的收益進入第一次迭代,我們的迭代過程從圖像梯度中提供了顯著的改善。4次迭代之后,性能達到飽和(最后一次迭代,我們對SE使用了4百萬的樣本,對HE使用了80次訓(xùn)練,略微增加精度)。

從模糊到清晰,AI對圖片的識別越來越精準 | Facebook CVPR2016最新論文


圖4.在迭代上收斂ODS和AEE。

圖5中我們提供了可視化的邊界結(jié)果(在NMS之前)。SE損失了一些薄弱的邊界,但邊界仍然很好地對準圖像內(nèi)容。由于使用向下采用卷積特征圖,HE一般會產(chǎn)生較厚的邊界,這使它很難產(chǎn)生尖銳的圖像邊界。結(jié)果HE-VIDEO/HE?-VIDEO,有著比HEBSDS/HE?-BSDS更厚的邊界,可能是由于抽樣策略用于運動邊界訓(xùn)練。使用視頻訓(xùn)練時,我們也觀察到,邊界檢測的輸出好的區(qū)域更少,并且更趨向于丟失薄弱的邊界,這可能導(dǎo)致很大的性能差異。

4.3光流

我們在Middlebury和MPISintel數(shù)據(jù)集檢測光流。Middlebury被廣泛的使用,并且用很小的位移,組成復(fù)雜的運動。Sintel是從動畫序列,大位移特征和挑戰(zhàn)性的光照場景中獲得的。我們使用了Sintel的“最終”版本,并且用公共的地面實況在訓(xùn)練集中測試。由于目標是測試產(chǎn)生邊界的質(zhì)量,我們只集中于EpicFlow的版本,和SInte如CVPR2015l,最高性能的方法。

從模糊到清晰,AI對圖片的識別越來越精準 | Facebook CVPR2016最新論文


圖5 5個樣本圖片邊界檢測結(jié)果的說明(和[11]中使用的一樣),前兩排展示了原始圖片和地面實況。第二和第三排是使用BSDS或VIDEO訓(xùn)練SE的結(jié)果。剩下的圖顯示了變型的HE在BSDS或者VIDEO中的結(jié)果。HE?表明網(wǎng)絡(luò)是從零開始訓(xùn)練的。

從模糊到清晰,AI對圖片的識別越來越精準 | Facebook CVPR2016最新論文


表3.不同版本邊界圖EpicFlow的精準度。

表3顯示了在Sintel和Middleburry使用不同邊界圖時,EpicFlow的平均終點誤差(AEE)。大部分的邊界圖在Sintel引發(fā)了相同的結(jié)果(AEE在3.6~3.8附近)。特別是,使用SE-BSDS邊界的原始EpicFLow;有SE-VIDEO邊界的結(jié)果幾乎是一樣的。上面的結(jié)果是從HE-BSDS中獲得的,而HE-VDEO和HE?-VIDEO結(jié)果稍差。在Middleburry中方法的排名是相似的。

作為上限,我們還介紹了給定地面實況(GT)動作邊界的EpicFlow。精準度僅僅略微的優(yōu)于最好的學習邊界圖。這意味著當前給定的匹配中EpicFlow的性能達到飽和。

最后,圖4中每一幀我們都將AEE設(shè)置在Sintel上。所有的方法都提高了初始流量(AEE 4.016,不顯示),在幾次幾次迭代之后結(jié)果再次飽和。

4.4目標檢測

最后,我們測試了用于邊界檢測的無監(jiān)督訓(xùn)練方案,能否被用于預(yù)訓(xùn)練目標檢測網(wǎng)絡(luò)。

最近一個很有趣的問題,強監(jiān)督對于學習目標檢測的良好視覺代表,是否必不可少。盡管不是工作的重點,我們證明了我們的方案同樣可以用于網(wǎng)絡(luò)初始化。

在該實驗中,我們使用了HE?邊界檢測器(未經(jīng)過ImageNet預(yù)訓(xùn)練)。鑒于[39]中的建議,實驗使用了 PASCAL VOC 2007  and the Fast R-CNN目標檢測器。結(jié)果通過了主集合平均準確率(mAP)評估。我們使用了兩種網(wǎng)絡(luò)對比結(jié)果。VGG和ZF,以及四個訓(xùn)練方案:無預(yù)訓(xùn)練,在 BSDS (HE?-BSDS)上預(yù)訓(xùn)練,以及使用視頻(HE?-VIDEO)預(yù)訓(xùn)練。使用40K迭代訓(xùn)練-Val集微調(diào)所有的網(wǎng)絡(luò)(從零開始時120K迭代)。表4中總結(jié)了結(jié)果。

從模糊到清晰,AI對圖片的識別越來越精準 | Facebook CVPR2016最新論文


表4.在 PASCAL VOC2007測試中使用VGG(左)和ZF(右)的目標檢測結(jié)果。

VGG結(jié)果:我們嘗試在VOC中從零開始訓(xùn)練VGG,但沒得到有用的結(jié)果。甚至在120K迭代后檢測的性能仍然很低(~15mAP)。在BSDS上預(yù)訓(xùn)練網(wǎng)絡(luò)邊界檢測時,我們在PASCAL上的性能達到了42.1mAP。有趣的是,使用視頻訓(xùn)練時,我們看到了mAP中超過了兩個點的提高(盡管同樣的網(wǎng)絡(luò)差于邊界檢測)。

ZF結(jié)果:我們也進行這樣的實驗,訓(xùn)練一個更小的只有5個卷積層的ZF網(wǎng)絡(luò)。我們微調(diào)網(wǎng)絡(luò)邊界檢測,以便調(diào)整不同層之間的輸出。由于ImageNet預(yù)訓(xùn)練,調(diào)整了ZF網(wǎng)絡(luò)的Faet R-CNN在PASCAL中性能達到了58.6mAP,而沒有預(yù)訓(xùn)練,mAP則下降到38.2。目標檢測預(yù)訓(xùn)練,無論有無監(jiān)督,在從零開始訓(xùn)練中性能都提高了~3mAP。

綜上所述,我們總結(jié)出,目標檢測預(yù)訓(xùn)練,可以提高訓(xùn)練從零開始檢測器的性能(無論有無監(jiān)督)。然而。ImageNet預(yù)訓(xùn)練本質(zhì)上仍取得更好的效果。

4.5局限

在目標檢測方面,無監(jiān)督訓(xùn)練為什么沒有比監(jiān)督訓(xùn)練表現(xiàn)更好?理論上,一個足夠大的視頻集,應(yīng)該提供一個無限制的訓(xùn)練集,并且在這足夠大的集合中邊界檢測器的性能,應(yīng)該優(yōu)于那些更小的監(jiān)督訓(xùn)練集。然而,有很多問題普遍的限制了性能。(1)在薄弱的邊界方面,現(xiàn)存的流方法缺少精準度,另外,我們的調(diào)整方案也移除了薄弱的邊界。因此,薄弱邊界從我們的訓(xùn)練集中遺失了。(2)進一步提高圖片邊界不會改善光流,見表1.我們猜想,幀之間的匹配是EpicFlow的限制因素,而且直到他們提高,在當前方案中的光流和邊界也不會改善。(3)訓(xùn)練受到噪音標簽干擾,在特殊情況下,遺失了重要的標簽,消極的標簽,如果沒有妥善處理,會控制后期階段的梯度。

無監(jiān)督學習方案是否捕獲了目標級信息?目標的定義由它的邊界決定,相反很多的邊界只能被目標的知識識別。我們在邊界和目標檢測的結(jié)果,支撐了這個聯(lián)系:一方面,ImageNet預(yù)訓(xùn)練對于邊界檢測是有用的,或許因為它在網(wǎng)絡(luò)中注入了目標級的信息。另一方面。預(yù)訓(xùn)練一個邊界檢測網(wǎng)絡(luò)改善了目標檢測。原則上,邊界網(wǎng)絡(luò)需要學習高級別的波形信息,這或許可以解釋預(yù)訓(xùn)練的效果。然而,我們注意到在整個情景中,ImageNet的預(yù)訓(xùn)練仍然有益于邊界檢測。而且,在目標檢測方面ImageNet預(yù)訓(xùn)練本質(zhì)上仍然優(yōu)于視頻預(yù)訓(xùn)練。顯然,在捕獲目標等級信息方面,當前的無監(jiān)督方案沒有和ImageNet預(yù)訓(xùn)練一樣好的效果。

5.討論

本文中,我們提出在沒有明確監(jiān)督時從視頻中獲得運動邊界以便學習邊界檢測。

我們開發(fā)了一個迭代過程,使用邊界結(jié)果交替更新光流之間的關(guān)系,并且學習基于光流的邊界檢測器,使精準度和流得以增加。

我們論文的主要結(jié)果是邊界檢測器在訓(xùn)練使用我們的無監(jiān)督方案后,能達到和完全監(jiān)督訓(xùn)練一樣級別的性能。

此外,我們證明了我們的方法可以用于深度網(wǎng)絡(luò)的新型無監(jiān)督預(yù)訓(xùn)練方案。盡管預(yù)訓(xùn)練的結(jié)果不理想,我們堅信它是未來探索中一個非常有前途的方向。

從長遠來看我們堅信,當無監(jiān)督的方法可以訪問無限的數(shù)據(jù)時,邊界檢測的無監(jiān)督學習有潛力勝過監(jiān)督訓(xùn)練,而我們的工作是該方向非常重要的第一步。

via FAIR CVPR 2016


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說