0
本文作者: camel | 2017-08-01 18:24 |
雷鋒網(wǎng) AI科技評論按:當今在AI、自動駕駛等技術(shù)越發(fā)成熟的時期,如何將一張圖像中的物體自動分割歸類,也即所謂圖像語義分割,顯得尤為重要。
當前大多數(shù)圖像語義分割算法都是基于深度學(xué)習(xí)的方式,但是深度學(xué)習(xí)的效果很大程度上是依賴于大量訓(xùn)練數(shù)據(jù)的。目前的圖像分割方法無非兩種,一種是通過標注人員手動標注,如Cityscapes(提供無人駕駛環(huán)境下圖像分割的數(shù)據(jù)集)中的標注,但這種方法需要花費大量的人力、物力和時間。例如,下面這張包含28個目標事例的圖,處理它就需要人工手動點擊580次,這真的要點到手疼。
另一種則是將目標分割看作是像素標注的問題(pixel-labeling problem)自動完成分割工作。但是這種方法自身有較大的不精確性,而又無法通過人員干涉來修正,所以很難用來作為地面實況的評測數(shù)據(jù)。那么在填充評測數(shù)據(jù)集(例如Cityscapes)時,我們能否做到既可以自動標注以節(jié)省成本,在需要的時候又能通過人工修正來保證精度呢?
在《用Polygon-RNN標注目標事例》(Annotating Object Instances with a Polygon-RNN )這篇論文中,作者給了我們肯定的回答。作者采用了一種不同于像素標注的方法,而是將目標分割看做是一個多邊形預(yù)測的問題(polygon prediction problem),然后基于深度學(xué)習(xí)實現(xiàn)“半自動化”目標事例的標注。
這種算法首先需要給定一個邊框真值,簡單的說就是你用框選中要標注的事例。隨后它會基于RNN(Recurrent Neural Network,遞歸神經(jīng)網(wǎng)絡(luò))算法來預(yù)測一個包圍目標事例的封閉的多邊形輪廓。
這個多邊形的預(yù)測先是通過CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡(luò))找到一個起點,然后以順時針方向每次迭代生成多邊形下一個頂點。RNN每一次的迭代輸入都包含三個方面:
第一是圖片的CNN特征表示(圖中綠色方塊);
第二是前兩個RNN迭代輸出的頂點(圖中t-1和t-2的結(jié)果);
第三就是起點,它用來幫助RNN決定何時封閉多邊形。
通過連續(xù)生成多邊形的其他頂點,然后順序連接所有頂點即形成這個多邊形輪廓,整個過程(每一個目標事例)平均只需要250毫秒。這個過程有一個奇妙的特點就是,它的每一次迭代結(jié)果都會影響以后的迭代,這就給人工干預(yù)留了機會。如果有一個頂點的迭代偏離了目標事例,那么人們就可以通過修正這個頂點來改進目標分割的精度。
那么這種方法的結(jié)果怎樣呢?在這之前我們先了解一個概念:交并比(IoU,Intersection over Union),也即兩個圖形的交集面積比上并集面積
顯然,在目標分割中,標注圖形與目標事例之間的IoU值越大,說明精度越高。我們來看Polygon-RNN自動標記與像素標記方法標記的比較。在假設(shè)Cityscapes中人工標注的IoU為100%的情況下,Polygon-RNN自動預(yù)測的結(jié)果(沒有標注人員干預(yù))與通過像素標記方法分割目標的DeepMask和SharpMask(與DeepMask比有更高的分辨率,160 vs 56)比較如下圖所示:
這里橫軸指標記物體最長邊的像素大小,縱軸為交并比(IoU)。顯然,在目標事例像素較小的時候,Polygon-RNN方法要比像素標記方法精確度更高,而當目標事例較大時,Polygon-RNN的誤差將會變得很大。
與人工標注相比會是怎樣的結(jié)果呢?幾位研究人員一方面雇傭了一個熟練的標注員,讓他在隨機選出的10張Cityscapes圖上標記出所有的小汽車。而另一方面,研究人員通過算法模擬了一個“標注員”,讓它修正Polygon-RNN自動生成的多邊形。其結(jié)果發(fā)現(xiàn)使用Polygon-RNN,模擬“標注員”只需要大約9.39次點擊,IoU值就可以達到78.4%,這要比人工標記快4.74倍。我們來感受下作者的結(jié)果:
幾位研究人員同樣還采用了KITTI的數(shù)據(jù)重復(fù)了上述的比較,結(jié)果毫不例外,Polygon-RNN在自動標注上和其他像素標注方法DeepMask、SharpMask等的精度不相上下,在人工干預(yù)的情況下則會明顯優(yōu)于后兩者。這說明Polygon-RNN的方法根本不依賴于具體的某一個數(shù)據(jù)庫,完全是一個能普遍使用的即節(jié)省成本,又節(jié)約時間,精度還完全勝任的半自動化標記工具。
當然,Polygon-RNN目前仍然有一個比較嚴重的問題,我們前面也說了,那就是對大尺寸目標事例它的誤差會急劇增大。解決這一問題需要模型有更高的分辨率,這也就意味著需要更大的內(nèi)存。能否通過優(yōu)化模型本身來降低誤差,而不增加內(nèi)存需求呢?讓我們拭目以待!
雷鋒網(wǎng)(公眾號:雷鋒網(wǎng)) 注:原文鏈接 Annotating Object Instances with a Polygon-RNN
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。