0
本文作者: camel | 2020-01-07 11:44 |
雷鋒網(wǎng)注:本文作者劉平平,未經(jīng)允許禁止轉(zhuǎn)載。
現(xiàn)在常用的對象檢測器存在一些顯而易見而又極易被忽視的問題,正如同對“屋里的大象”視而不見。分析和優(yōu)化這些問題對于圖像識別技術(shù)的進(jìn)步顯得尤為重要。
現(xiàn)今,圖像識別技術(shù)在自動駕駛、醫(yī)學(xué)影像以及大熱的機(jī)器視覺等領(lǐng)域發(fā)揮著不可或缺的作用,而穩(wěn)定的系統(tǒng)對于圖像識別的優(yōu)劣起著關(guān)鍵作用。但即使是最先進(jìn)的對象檢測器也存在一些常見的故障:當(dāng)將一個圖像中的對象移植到另一個圖像中,將導(dǎo)致對象檢測器識別產(chǎn)生偏差甚至無法識別。
究竟是什么原因?qū)е伦R別故障?是否有方法優(yōu)化解決這個問題?約克大學(xué)的Amir Rosenfeld、John K. Tsotsos和多倫多大學(xué)Richard Zemel等人發(fā)表的《The Elephant in the Room》詳細(xì)研究并回答了這些問題。
研究人員提取一幅圖片中的“大象”作為目標(biāo)移植到另一幅圖片中,發(fā)現(xiàn)幾個明顯的問題(如圖1):
圖 1
1、監(jiān)測不穩(wěn)定:目標(biāo)可能不能被檢測到且被檢測到的概率大大降低;
2、報告的對象身份不一致:根據(jù)位置,該目標(biāo)可能被檢測為多種不同的類別;
3、目標(biāo)會引起非局部影響:與目標(biāo)不重疊的對象可以切換身份、邊界框或完全消失。
為進(jìn)一步驗證上述問題是否存在,研究人員又隨機(jī)選取大量圖片進(jìn)一步實驗。
不出所料:當(dāng)將一個圖像中的對象移植到另一個圖像中,將導(dǎo)致對象檢測器的識別產(chǎn)生偏差甚至無法識別。且在現(xiàn)行最精準(zhǔn)的檢測器faster_rcnn_nas_coco 上運(yùn)用幾種不同的模型均不同程度出現(xiàn)這種問題。
上述實驗均為隨機(jī)選取的圖片,因此所選取的對象是兩個從未在一張圖片中出現(xiàn)的特定組合。但是,網(wǎng)絡(luò)成功處理此類圖片及組合很困難。為排除此問題對實驗造成的干擾,研究人員從一個圖像中復(fù)制一個對象,并將其復(fù)制到同一圖像中的另一個位置。
圖 2
結(jié)果表明,當(dāng)移動目標(biāo)時,部分遮蔽以及上下文都對識別產(chǎn)生一定的影響(圖2)。例如,在 b 欄奶牛的腳在靠近電視時變成了遙控器。在 d 欄當(dāng)植物的一部分被遮擋而人的手在附近時,植物的底部被識別為手提包或杯子。
為何對象檢測器會出現(xiàn)這個問題?研究人員進(jìn)一步進(jìn)行實驗試圖探索此問題。
研究人員選取一張圖片,圖片中的一只僅露出局部身體的貓被錯誤地識別為斑馬。研究人員分別做了以下實驗:
1、丟棄檢測邊界框之外的所有像素:不能固定對象的分類,貓仍被識別為斑馬,這表明ROI (region-of-interest)內(nèi)的特征可能會引起混淆;
2、丟棄ROI內(nèi)的所有非貓像素,貓被識別為貓,分類固定;
3、在邊界框外的范圍內(nèi)再次添加隨機(jī)噪聲:貓再次被識別為斑馬,檢測不正確。
這個實驗表明ROI外的特征會影響最終的檢測結(jié)果。
研究人員通過匹配探測器在原始圖像和修改后的圖像中生成的一組邊界框來計算場景的識別發(fā)生了多少次變化。計算公式如下:
通過識別計算29張不同圖片,他們統(tǒng)計了已移植對象導(dǎo)致對任何原始對象的檢測被修改的位置的平均位置百分比,結(jié)果如下表。閾值τ是最小重疊,以將兩個相同類別的邊界框計算為匹配項。
Affected-class-Agnostic: 邊界框之間的類別不可知匹配的結(jié)果;
Affected-Occluded-20: 結(jié)果僅計算每個原始對象最多20%的區(qū)域被目標(biāo)對象覆蓋的情況;
Affected-No-Occ: 目標(biāo)對象不會遮擋任何物體的結(jié)果。
通過上述實驗,研究人員針對對象檢測器存在常見故障發(fā)生的原因有以下幾個推論:
1、部分遮蓋:部分遮蓋仍是對象檢測器發(fā)展的一大挑戰(zhàn)。但已有科學(xué)家提出數(shù)據(jù)驅(qū)動、局部證據(jù)定義目標(biāo)等方法解決因目標(biāo)遮蓋而設(shè)別偏差的問題。
2、超出分布的示例:研究人員將目標(biāo)移植到另一張圖片中會使得目標(biāo)邊框產(chǎn)生突變邊緣,邊緣修改后的圖像在訓(xùn)練集的圖像分布下發(fā)生的可能性很小。且這些輕微的擾動如邊緣突變也會造成網(wǎng)絡(luò)輸出發(fā)生巨大變化,從而導(dǎo)致識別偏差。
3、信號保存:空間池因其效率和不變形使得它對空間變形問題很有效,但是目前研究表明空間池分層阻礙了網(wǎng)絡(luò)的位移不變。
4、上下文推理:現(xiàn)有的對象檢測器不具備上下文推理能力,而網(wǎng)絡(luò)推理會對對象類別及其相對空間布局之間的相互作用進(jìn)行編碼,這些上下文推理往往會造成識別偏差,如圖2。
5、非極大值抑制:由于存在非極大值抑制,移植對象過程中使得其他對象遮蓋狀態(tài)發(fā)生變化,使得距被移植對象較遠(yuǎn)的對象識別也出現(xiàn)問題。
6、功能干擾:現(xiàn)行對象檢測器使用從卷積層獲得的特征,以生成最終的物體類別和矩形邊界框預(yù)測。這使得邊界框以內(nèi)的非對象部分也成為識別對象的一部分,雖然在對象特征不明顯時能根據(jù)非對象部分上下文推測對象類別,但是同時也會干擾對象正確識別。
在所有原因中,功能干擾是最為根本的原因,而由部分遮擋或上下文推理引起的影響是這個問題的具體體現(xiàn)。
即使這個問題現(xiàn)在很難解決,科學(xué)家Tsotsos仍然提出了解決模型:一旦完成了對視覺層次的第一遍處理,主導(dǎo)信號便向下傳播通過層次結(jié)構(gòu),執(zhí)行空間和特征衰減,以便信號的下一層將包含有關(guān)感興趣對象的信息,即較少與周圍特征糾纏在一起。這個模有望減輕識別偏差問題,而在將來是否會確實會發(fā)作用,我們拭目以待。
雷鋒網(wǎng)報道。雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。