0
本文作者: 我在思考中 | 2022-10-20 11:47 |
作者丨曹穎、Thomas Tsao
編輯丨陳彩嫻
我們所生活的世界由物體、地面和天空組成。視覺感知需要解決兩個基本的問題:
(1)將視覺輸入分割成離散的單元;
(2)考慮可能由于物體變形、視角變化和動態(tài)遮擋導(dǎo)致的外觀變化,跟蹤分割出的單元。當(dāng)下的計算機(jī)視覺分割和跟蹤方法都需要進(jìn)行學(xué)習(xí)。
那么,機(jī)器可以無需學(xué)習(xí)就分割出對象并進(jìn)行跟蹤嗎?
本文作者指出,從環(huán)境表面反射的光線的數(shù)學(xué)結(jié)構(gòu)產(chǎn)生了恒常性表面的自然表征,這種表征為分割和跟蹤任務(wù)提供了一種解決方案。
本文描述了如何根據(jù)連續(xù)的視覺輸入生成這種表面的表征。對于一些合成的背景雜亂的視頻,盡管物體出現(xiàn)了嚴(yán)重的外觀變化,本文提出的方法可以在無需學(xué)習(xí)的情況下分割出物體,并持續(xù)跟蹤它們。
靈長類動物的視覺系統(tǒng)可以將由視網(wǎng)膜接收的圖像流組成的視覺輸入轉(zhuǎn)換為對穩(wěn)定、離散物體的感知信號,而人們尚未充分研究清楚這種感知組織過程。從傳統(tǒng)上說,這一過程被分解為兩個獨(dú)立的問題:(1)分割問題。將某張圖像中的視覺像素分組為不同的物體(2)跟蹤問題。識別出不同圖像中外觀產(chǎn)生變化的物體。
這兩個問題都極具挑戰(zhàn)性。如圖 1 所示,分割任務(wù)是非常困難的。因?yàn)榫嚯x較遠(yuǎn)、顏色不同、紋理不一的像素可能屬于同一個物體,而相鄰的、具有相同顏色/紋理的像素可能屬于不同的物體(圖 1A)。而對于跟蹤任務(wù)而言,由于物體變形、視角變化或動態(tài)遮擋,同一物體的外觀可能發(fā)生劇烈變化(圖 1B)。
傳統(tǒng)的計算機(jī)視覺研究通常通過基于圖像強(qiáng)度、顏色和紋理的區(qū)域增長方法來解決分割問題,這些方法依賴于從單幅圖像中提取的屬性。
近年來的大多數(shù)圖像分割工作的則采用了基于深度學(xué)習(xí)的方法。以往的工作主要通過概率化的動力學(xué)建?;颉富跈z測的跟蹤」來解決跟蹤任務(wù),最近的方法則結(jié)合了深度學(xué)習(xí)技術(shù)。
雖然早期用于分割和跟蹤的學(xué)習(xí)方法是有監(jiān)督的,需要大型有標(biāo)簽的訓(xùn)練集,但最近許多無監(jiān)督方法涌現(xiàn)了出來。本文從計算的角度探索了分割和持續(xù)跟蹤目標(biāo)能力的起源,表明在原則上可以在不學(xué)習(xí)、有監(jiān)督或無監(jiān)督的情況下解決該問題。
作為對基于圖像的分割和跟蹤方法的補(bǔ)充,基于幾何的方法將視覺視為一個逆向的圖形學(xué)問題。在該框架下,視覺系統(tǒng)通過將三維圖形模型反轉(zhuǎn),根據(jù)圖像推理出三維表面。然而,由于在透視投射到視網(wǎng)膜上的過程中失去了深度的維度,因此這種反向推理過程不完全受約束,這意味著根據(jù)經(jīng)驗(yàn)廣泛學(xué)習(xí)是必要的。
本文證明了,如果輸入某個場景的圖像序列,其中觀察者或物體都在移動,根據(jù)圖像推理三維曲面的問題實(shí)際上是完全受限的。本文通過數(shù)學(xué)分析和計算實(shí)驗(yàn)證明,只要滿足以下兩個自然的假設(shè):
(1)世界是由物體組成的,即具有局部恒定光照的平滑紋理表面的離散集合
(2)動物從移動的觀察點(diǎn)觀察世界,就可以在不需要學(xué)習(xí)的情況下,實(shí)現(xiàn)對環(huán)境中每個離散表面的分割和持續(xù)跟蹤。
本文的計算實(shí)驗(yàn)僅限于合成視頻,但本文提出的方法也適用于高質(zhì)量的圖像,可以很容易地擴(kuò)展到自然條件下。
本文本質(zhì)上從數(shù)學(xué)上實(shí)現(xiàn)了心理學(xué)家 J. J. Gibson 的「視覺感知的生態(tài)學(xué)方法」。Gibson 指出,理解人類視覺的關(guān)鍵是在 3D 環(huán)境和人眼之間插入一個「環(huán)境光學(xué)陣列場」。
如圖 1C 所示,空間中一點(diǎn)的環(huán)境光學(xué)陣列由來自環(huán)境中被照亮的表面通過該點(diǎn)的光線的 2D 分布組成。環(huán)境光學(xué)陣列場是由一套被 Gibson 稱為「生態(tài)光學(xué)」的定律支配的,這些定律可以解釋視覺感知的大部分現(xiàn)象:「與其完全從神經(jīng)系統(tǒng)的角度解釋感知,我希望在一定程度上從光本身進(jìn)行解釋。生態(tài)光學(xué)就是一種解釋的方式」。在 Gibson 提出視覺生態(tài)光學(xué)方法后的幾十年里,這個重要的概念在計算機(jī)視覺界引起了越來越多的關(guān)注。
本文用精確的數(shù)學(xué)術(shù)語表述了 Gibson 的理論并實(shí)現(xiàn)了計算。數(shù)學(xué)分析表明,物體表面信息可以通過兩種拓?fù)浣Y(jié)構(gòu)(立體微分同胚映射的偽變換群和無窮小增長邊界集冗余地表示為光學(xué)陣列場。從生態(tài)光學(xué)的角度來看,視覺是一個完全受約束的適定性問題。環(huán)境光學(xué)陣列場的視覺環(huán)境中包含將物體感知為離散的、持久的單元的完整信息。
與味覺和觸覺不同,視覺使動物無需直接接觸就能感受環(huán)境。在視覺中,遠(yuǎn)端刺激(環(huán)境中的物體)和近端刺激(視網(wǎng)膜上的光)之間的鏈接是環(huán)境表面反射的光,在每個觀察點(diǎn)上形成了 Gibson 提出的「光學(xué)陣列」。
圖 2:目標(biāo)分割與跟蹤的拓?fù)浣鉀Q方案
給定一個包含多個物體的復(fù)雜場景(圖 2A),分割任務(wù)旨在識別物體邊界(boundary)。我們可以從圖像中所有邊緣(edge)的圖開始(圖 2B)開始進(jìn)行分割,物體的邊界應(yīng)該是這些邊緣的子集。關(guān)鍵的難點(diǎn)在于,有些邊緣是「紋理邊緣」(如圖 2A中貼紙的邊緣),而有些邊緣是真正的物體邊緣(如圖 2A 中蘋果的邊)。本文證明了場景的相近視角之間轉(zhuǎn)換的信息可以用來區(qū)分這兩種類型的邊緣。
具體而言,如果一個空間區(qū)域包含一個表面的圖塊,那么從附近的觀測點(diǎn)獲取的兩個圖塊彼此將是微分同胚的。也就是說,人們可以通過像拉伸和彎曲橡膠片一樣來配準(zhǔn)它們(圖 2C)。
本文展示了如何通過迭代的優(yōu)化方案,用一組局部 Gabor 感受野動態(tài)地進(jìn)行仿射變換,消除兩個圖塊之間的變換(見圖 5)來計算這種微分同胚映射。然而,如果一個圖塊包含一個物體邊緣,那么在邊緣的一側(cè),圖塊將是微分胚性的,而在另一側(cè)則不是。因?yàn)閺囊粋€角度看,背景的一部分是可見的,而從另一個角度看則是不可見的,這導(dǎo)致了微分同胚映射的「單側(cè)失效」(圖 2D)。
在視覺心理物理學(xué)中,這種現(xiàn)象被稱為「達(dá)芬奇立體視覺」。這提供了一種有效的方法來區(qū)分紋理邊緣和真實(shí)的物體邊緣:對于每個邊緣元素,確定邊緣每側(cè)的微分同胚映射。物體的邊界僅在一側(cè)伴隨微分同胚映射。此外,我們可以將其視為擁有邊緣的一側(cè)(圖 2E)。通過在整個圖像中重復(fù)這個過程,我們可以將一個邊緣圖轉(zhuǎn)換為一個真正有信息量的物體邊界圖(圖 2F)。
一旦以這種表面表征框架對分割任務(wù)建模,計算機(jī)視覺中最困難的問題之一——持續(xù)目標(biāo)跟蹤,就變得十分簡單了。
如圖 2G 所示, 我們可以通過查看這兩個圖圖塊是否通過一系列重疊的表面圖塊(如圖 2H 和 2I)相連來判斷兩個離散的圖塊是否屬于同一個不變的表面。因此,在表面表征框架中,一個不變的物體構(gòu)成了表面圖塊的等價類,其中等價關(guān)系由表面重疊定義。
重要的是,解決分割的相同的微分同胚映射機(jī)制讓我們可以計算這些表面重疊,從而連接(即跟蹤)同一曲面隨時間變化的不同視圖。即使一個表面的外觀經(jīng)歷了劇烈的變形(例如,一匹馬的前視圖和后視圖),只要只要連續(xù)的視圖之間存在局部微分同胚關(guān)系,跟蹤過程就可以很容易地將視圖連接起來。
在這里,本文從數(shù)學(xué)上表達(dá)生態(tài)光學(xué)的規(guī)律。我們表明,用于解決分割和不變性問題的數(shù)據(jù),以及更普遍地用于獲得視覺表表征的數(shù)據(jù),在動物的近端視覺環(huán)境中是充分且冗余的。
分割和不變性問題可以被形式化定義為:確定從一系列觀測點(diǎn)看到的兩個圖塊是否屬于同一個物理表面。在單視圖場景下,上述定義對應(yīng)于分割問題。在一段時間內(nèi)連續(xù)的一系列視圖的場景下,這對應(yīng)于跟蹤問題。該問題依賴于一個關(guān)鍵屬性——表面連續(xù)性,這是一種拓?fù)湫再|(zhì),而不是基于圖像的性質(zhì),利用從不同角度拍攝的成對圖像計算,而不是從單個圖像中計算而來。
本文引入兩個拓?fù)淇臻g:一個用于描述環(huán)境中的 3D 物體(遠(yuǎn)端刺激),另一個用于描述從這些物體反射并匯聚在環(huán)境中的每個觀測點(diǎn)的光線(近端刺激)。本文研究了這兩個空間之間的映射關(guān)系,證明了前一個空間中物體的拓?fù)浣M織信息在后一個空間中準(zhǔn)確地表征。換而言之,對不變的物體的視覺感知是可能的。
圖 3:通過立體微分同胚映射對局部和全局的表面近鄰性進(jìn)行編碼。
如圖 3 所示,局部表面連續(xù)性的性質(zhì)是根據(jù)「從不同視角拍攝的一對圖像之間存在/不存在一種特定類型的映射來指定的,即「立體微分同胚映射」。這為拓?fù)鋱D像分割提供了關(guān)鍵要點(diǎn)(見圖 3 A-C)。如果兩個曲面表示都包含由立體微分同胚映射相關(guān)的部分,則它們是同一物體的兩個表面表示,這種全局拓?fù)涮匦蕴峁┝瞬蛔冃缘年P(guān)鍵要點(diǎn)(見圖 3D)。
圖 3 的具體解釋如下:
(A)將點(diǎn) P 投影到極坐標(biāo)系中的射線空間 S(O) 中,r=(θ,φ)。
(B)遠(yuǎn)端歐氏空間的表面鄰近性在近端視覺空間中被準(zhǔn)確編碼。如果一個點(diǎn)的鄰域是環(huán)境中一個相鄰局部表面圖塊(例如,包含字母「A」的表面圖塊)的透視投影,則可以根據(jù)該鄰域找到一個到相鄰射線空間的立體微分同胚映射。相交的射線對對應(yīng)于轉(zhuǎn)換空間 S(O_1) × S(O_2) 中的立體光線對。
(C)遠(yuǎn)端歐氏空間中的表面離散性在近端視覺空間中被準(zhǔn)確地編碼。我們無法為包含遮擋輪廓的點(diǎn)的射線空間中的鄰域找到與相鄰的射線空間的微分同胚映射。射線空間中 O_1 處的這樣輪廓段用垂直的品紅短線標(biāo)記;它是一個在透視投影下折疊的物體的射線空間圖像,構(gòu)成了一個無窮小的增長。這是因?yàn)?,隨著觀測點(diǎn)在所有者一側(cè)進(jìn)行任何變化,(例如,移動到 O_2),輪廓都會增長。也就是說,邊界兩側(cè)的圖像(兩條深綠色的垂直線)現(xiàn)在是正則的,沒有交點(diǎn)。
如下圖所示,遮擋輪廓的所有者由增長部分另一側(cè)確定。由于射線空間中所有不在遮擋輪廓中的點(diǎn)都具有表示局部表面圖塊的鄰域,遮擋輪廓提供了環(huán)境表面的緊湊而完整的表示。
(D)遠(yuǎn)端歐氏空間的表面持久性在近端視覺空間中被準(zhǔn)確編碼。在 O_1 和 O_4 處的射線空間中的圖塊 A 和 C 代表同一相鄰環(huán)境表面的某些部分,因?yàn)樗鼈冇芍丿B的立體鄰域鏈連接,相當(dāng)于 CC(Ω)。
其中,O_1 處的圖塊 A 和 O_2 處的圖塊 A 是 MS(Ω) 等價的。O_2 處的圖塊 B 和 O_3 處的圖塊 B,、O_3 處的圖塊 C 和O_4 處的圖塊 C 也是等價的。O_2 處的圖塊 A 和 O_2 處的圖塊 B 是重疊的,O_3 處的圖塊 B 和 O_3 處的圖塊 C 也是重疊的。
因此,在 O_1 處包含圖塊 A 的 MS(Ω)-等價類與在 O_3 處包含圖像補(bǔ)丁 B 的 MS(Ω)-等價類相關(guān)聯(lián),后者可以進(jìn)一步與在 O_4 處包含圖塊 C 的 MS(Ω)-等價類相連。因此,O_1處的圖塊 A 與 O_4 處的圖塊 C 是 CC(Ω) 等價的。該方案使同一全局表面的截然不同的視圖(例如,圖1 B 中馬的三個視圖)可以被視為屬于同一全局持久性表面。
正如幾何光學(xué)描述了物體上的點(diǎn)是如何通過光映射為圖像平面上的點(diǎn)一樣,生態(tài)光學(xué)從拓?fù)渖厦枋隽巳S歐氏空間中物體表面的重要結(jié)構(gòu)(例如,連續(xù)性、空間分隔、部分重疊等性質(zhì))如何通過光映射為視覺空間中光線的拓?fù)浣Y(jié)構(gòu):常規(guī)組件、透視映射、遮擋輪廓、增加/刪除遮擋輪廓周圍的部分、MS(Ω) 等價類和 CC(Ω) 等價類。
生態(tài)光學(xué)理論描述了動物視覺環(huán)境的物理事實(shí),該理論并不依賴于視覺系統(tǒng)的存在。本文展示了一個在環(huán)境中移動的視覺系統(tǒng)如何通過計算利用視覺空間中光線的拓?fù)浣Y(jié)構(gòu)來感知視覺環(huán)境的拓?fù)?,即感知離散的、不變的單元。
分割和不變目標(biāo)跟蹤的計算方法
給定某個場景的視頻幀的序列,其中觀測者和物體都在移動,我們需要根據(jù)表面連續(xù)性分割每一幀,為不同幀中統(tǒng)一物體的表面組件賦予同樣的標(biāo)簽。
圖 4:拓?fù)鋵W(xué)分割和跟蹤的計算實(shí)現(xiàn)。
我們首先使用標(biāo)準(zhǔn)的邊緣檢測算法找到強(qiáng)度邊緣,例如,Canny邊緣檢測器(圖4A)。由于空間上分隔開來的表面之間的邊界圖像可能具有不同的強(qiáng)度,我們假設(shè)在自然的觀測條件下,遮擋的輪廓(occluding contour)主要與強(qiáng)度邊緣相關(guān)。接著,我們隨機(jī)選擇一組已識別邊緣的鄰域進(jìn)行進(jìn)一步的拓?fù)浞治觥?strong>這些鄰域是從連續(xù)的幀中成對提取的(圖 4B)。
接下來,關(guān)鍵的步驟是,基于在分段邊緣段每側(cè)分別執(zhí)行的連續(xù)幀之間的微分同胚映射檢測(圖 4 B-D),將邊緣段分類為紋理邊緣或遮擋邊緣,然后識別每個遮擋邊緣的所有者。根據(jù)數(shù)學(xué)理論,在紋理邊緣處,兩側(cè)計算的微分同胚映射是相同的;而在物體邊緣處,擁有該邊緣的鄰域與下一幀的中的該鄰域是微分同胚的,但另一側(cè)的鄰域則不是微分同胚的。
將紋理邊緣與物體邊緣區(qū)分開后,就可以識別出物體邊緣的所有者,并計算出連續(xù)幀的每個鄰域上的微分同胚性。這樣一來,我們就可以進(jìn)行物體分割和跟蹤了。
我們首先計算一個「超分割」映射,該映射為每個以輪廓為邊界的組件分配不同的標(biāo)簽(圖 4D 左)。然后,為了計算分割圖,我們簡單地通過將任何純紋理區(qū)域(即毗鄰紋理邊緣但從來不擁有單側(cè)區(qū)域)的標(biāo)簽重新分配為其相鄰的雙側(cè)所有者的標(biāo)簽來擦除紋理邊緣(圖 4D 中)。
完成分割后,計算物體跟蹤圖的最后一步就變得很簡單了:確定持久性表面——包含圖塊的物體分割圖組件,與前一幀的單側(cè)所有者或純紋理微分同胚(圖 4D 中),并為每個持久性表面分配與前一幀(圖 4D 右)相同的標(biāo)簽。注意,在這里,我們再次使用了在分割階段執(zhí)行的微分同胚檢測。
從廣義上講,本文提出的場景分割和跟蹤技術(shù)包含以下三組主要的步驟:
(1)邊緣提取和超分割圖的計算
(2)微分同胚映射關(guān)聯(lián)的計算
(3)利用關(guān)聯(lián)信息,為超分割圖的組件重新分配標(biāo)簽
微分同胚映射的計算
圖 5:計算微分同胚映射
對微分同胚映射的計算過程如圖 5 所示:
(A)為了計算以某一點(diǎn)為中心的兩個圖塊之間的微分同胚映射,我們將兩個圖塊投影到一組 Gabor 感受野 g_i(i = 1,…,18) 上,涉及 6 個方向和 3 個空間頻率。(圖 A 左上)由于透視投影的幾何約束和亮度恒定約束,我們通過放射變換 將兩個圖塊在局部關(guān)聯(lián)起來,對應(yīng)于全微分同胚的泰勒級數(shù)展開中的第一項(xiàng),從而得到了能量函數(shù) E_i 的方程。為了計算該變換,我們求解 使 E = 0 的參數(shù)
。(圖 A 右上)我們用牛頓法求解方程,需要計算導(dǎo)數(shù)矩陣 E_0。(圖 A 下)我們需要反過來計算 Gabor 感受野對仿射變換的每個參數(shù)的導(dǎo)數(shù),將其稱為「Lie germ 感受野」。
(B)一對圖像幀,左側(cè)綠色框中的部分以某個紋理輪廓上的點(diǎn)為中心;右側(cè)紫色框中的部分以遮擋輪廓上的點(diǎn)為中心,對應(yīng)于圖 4C 所示的兩個相同的鄰域。為了給仿射變換計算提供足夠的支持,我們將圖塊的中心向左或向右移動。(左下)分別計算出在 i 幀和 i+1 幀之間計算的左右鄰域的仿射變換 T_1 和 T_2 的六個參數(shù)。這六個參數(shù)相等,意味著分隔兩個鄰域的輪廓是紋理輪廓。(右下)在不同的邊緣點(diǎn)上進(jìn)行相同的計算,得到左右鄰域的仿射變換 T_3 和 T_4 。這六個參數(shù)不相等,這意味著分隔兩個鄰域的輪廓是一個遮擋輪廓。
(C)在遮擋輪廓處,前景側(cè)擁有輪廓。為了確定輪廓所有者,我們計算仿射變換 T3 和 T4。第 i 幀圖像中圖塊的左右部分如第 1 列所示,變換后的圖塊的左右不分如第 2 列所示。第 i+1 幀中,圖塊的左右部分如第 3 列所示。輪廓所有者的第 2 列和第 3 列應(yīng)該相同,被遮擋的一邊的第 2 列和第 3 列則對應(yīng)于導(dǎo)致差異的增長/刪除的邊界。第四列底部的過程顯示了輪廓線右側(cè)的刪除邊界,意味著輪廓的所有者在左側(cè)。第 4 列中的差異被投影到 Gabor 感受野上,因此邊緣的差異被忽略了。
實(shí)驗(yàn)結(jié)果
為了測試本文提出的系統(tǒng),作者生成了一個包含 160 幀動態(tài)場景和四個物體的視頻序列。這些物體經(jīng)歷了嚴(yán)重的變形、視角變化和部分遮擋,而且,每個物體都包含一個內(nèi)部的紋理輪廓為分割過程帶來挑戰(zhàn)。
圖 6:在包含多個對象的合成數(shù)據(jù)集中分割并跟蹤物體,盡管由于物體變形、視角變化和動態(tài)遮擋造成了嚴(yán)重的外觀變化。
通過前饋掃描所有幀,我們得到一個完整的場景圖,其頂點(diǎn)包含跨空間/時間的超級割組件,其邊緣對應(yīng)于跨空間/時間的這些表面組件之間的連通性。
分割和跟蹤系統(tǒng)在每一階段處理后的輸出如圖 6A 所示。第 1 行顯示了四個不同時間點(diǎn)的輸入圖像。第 2 行顯示了超分割圖。第 3 行顯示了物體的分割圖。第 4 行顯示物體跟蹤圖。第 5 行顯示了在計算不變的物體圖之后,通過反向掃描計算的修正后的物體跟蹤圖。
有了這個場景圖,我們就可以重新遍歷這些幀,并為屬于場景圖中相同聯(lián)通組件的分割圖中的每個表面分配相同的標(biāo)簽。這使不同的表面組件隨著時間的推移在分割任務(wù)中被識別為同一對象的一部分。
這個場景圖的不同組件對應(yīng)于不同的不變對象。圖 B 顯示了根據(jù)合成數(shù)據(jù)集計算出的場景圖的四個連通的組件,對應(yīng)于三片樹葉和熊。每個頂點(diǎn)對應(yīng)一個不同的超分割組件。A 中所示幀對應(yīng)的每個圖分量的頂點(diǎn)用彩色表示。
實(shí)驗(yàn)結(jié)果表明,本文提出的跟蹤方法對由于物體變形、視角變化和動態(tài)遮擋造成的形狀變化具有魯棒性。在圖 6 C 中,四張圖像分別來自拓?fù)浞指詈透櫣ぷ髁鞒痰牟煌幚黼A段,從左到右依次為:視覺輸入、超分割圖、區(qū)分出紋理圖塊的跟蹤到的表面組件、去除掉紋理圖塊的跟蹤到的表面組件。每個圖像對應(yīng)的四種不同的深度網(wǎng)絡(luò)如圖所示。通過拓?fù)浞指詈透?,可以將雜亂的輸入圖像轉(zhuǎn)換/鏈接到獨(dú)立表面的無遮擋表征。
本文展示了如何通過視覺表面表征的生成將分割和不變性問題從一個需要特殊技巧或黑盒深度學(xué)習(xí)的不合理挑戰(zhàn)轉(zhuǎn)變?yōu)橐粋€容易解決的問題。
在本文中,我們假設(shè)世界是由具有平滑紋理表面的物體組成的,動物從移動的觀察點(diǎn)觀看世界,并證明了有可能基于上述假設(shè)解決分割和不變跟蹤環(huán)境中每個離散表面的問題。
本文提出的理論解釋了如何從環(huán)境的透視投影中以不變的方式提取表面表征,即相鄰表面組件的拓?fù)錁?biāo)簽及其形狀和位置的幾何描述。本文證明了通過檢測遮擋輪廓(帶有可見表面的空間上的分隔信息)可以將圖像分割成獨(dú)立的表面,通過檢測微分同胚性(帶有從不同視角可見的表面之間的重疊關(guān)系信息)可以完成對圖像序列中的不變表面的跟蹤。此外,本文不僅證明了該方法在數(shù)學(xué)上的有效性,而且證明了它在合成視頻目標(biāo)分割和不變跟蹤方面的計算效果。
人們普遍認(rèn)為,圖像沒有遮擋、表面、輪廓等信息,只有像素的集合,而感知的目標(biāo)就是「解讀」這些數(shù)據(jù)。本文展示了視覺系統(tǒng)如何返璞歸真地感知拓?fù)浣Y(jié)構(gòu)(遮擋、表面、輪廓等)。對這些拓?fù)浣Y(jié)構(gòu)的感知不需要依賴于觀察者的解釋,可以通過提取到的信息直接指定這些拓?fù)鋵ο蠹捌湓趪?yán)格的數(shù)學(xué)意義上的關(guān)系。
為此,我們需要擴(kuò)展透視投影的概念。透視投影通常被認(rèn)為是從三維空間中的一點(diǎn)到圖像平面上一點(diǎn)的映射。然而,為了理解真實(shí)彎曲物體的分割和不變跟蹤,需要完成如下步驟:(1)將透視投影視為從物體的 2D 表面到 2D 射線空間的映射(2)進(jìn)一步放大焦點(diǎn),從 2D 曲面如何投影到單個射線空間,延伸到如何投影到射線空間的場。
Gibson 的表面感知理論啟發(fā)了本文的研究。Gibson 觀察到,表面的連續(xù)性是由保序變換(光學(xué)陣列中用于連續(xù)性的可用信息可以被描述為保持了鄰接順序),以及與增長/刪除事件相關(guān)的遮擋輪廓確定的。
Nakayama 等人進(jìn)一步發(fā)展了表面表征的概念,并通過巧妙的心理物理實(shí)驗(yàn)展示了它對人類視覺的重要性。他們發(fā)現(xiàn)了一種令人驚訝的心理物理現(xiàn)象:立體圖的增長/刪除足以產(chǎn)生表面分離的感覺。他們將這種 3D 感知形式稱為「達(dá)芬奇立體視覺」,以與「Wheatstone 立體視覺」進(jìn)行對比,后者涉及對雙眼可視點(diǎn)深度的感知。
上述兩種立體視覺都是通過匹配一對圖像中的點(diǎn)來表示的。但是分割和目標(biāo)跟蹤的問題本質(zhì)上需要對點(diǎn)的鄰域進(jìn)行分組。因此,為了使這兩個問題在數(shù)學(xué)上和計算上易于處理,我們必須用基于微分拓?fù)涞摹干鷳B(tài)光學(xué)」來取代用來解釋達(dá)芬奇和 Wheatstone 立體視的幾何光學(xué)。
來自生態(tài)光學(xué)的拓?fù)涓拍顬橐曈X研究中的許多經(jīng)典思想提供了新的視角。例如,由于表面 3D 距離不連續(xù),遮擋輪廓通常被視為是強(qiáng)度不連續(xù)的。另一方面,我們的定義甚至不包括「強(qiáng)度」。
在我們的框架中,遮擋輪廓只是透視投影中的一個奇異點(diǎn),其相關(guān)屬性是無窮小的增長邊界;這樣輪廓的概念是圖像分割的基礎(chǔ)。另一個例子是,不變性通常被視為與目標(biāo)學(xué)習(xí)相關(guān)的問題。在我們的框架中,不變性被數(shù)學(xué)化地表述為表面的透視圖像之間的等價關(guān)系,關(guān)鍵的等價關(guān)系是表面重疊,計算等價的機(jī)制是局部微分同胚檢測。
對計算機(jī)視覺研究的影響
拓?fù)浔砻姹碚骼碚搶τ嬎銠C(jī)視覺具有重要意義。該理論強(qiáng)調(diào)了為人工視覺系統(tǒng)配備介于像素和對象標(biāo)簽之間的顯式中間表面表征的重要性。此外,該理論闡明了表面重疊是實(shí)現(xiàn)目標(biāo)跟蹤的關(guān)鍵數(shù)學(xué)特性。相比之下,大多數(shù)用于跟蹤的計算機(jī)視覺算法假設(shè)被跟蹤對象在幀之間應(yīng)該是「相似的」。
目前的計算機(jī)視覺視頻分割方法大致可以分為以下三種。
(1)基于檢測的跟蹤。首先在單個幀內(nèi)分割出獨(dú)立的對象,然后通過某種相似度量將分割的對象實(shí)例跨幀連接起來。60 多年前,Bela Julesz 就認(rèn)識到通過檢測來跟蹤人類感知的不足之處:人類對物理現(xiàn)實(shí)的感知主要是由圖像之間的透視變換決定的,而不是由單張圖像中的形式?jīng)Q定的。
(2)嘗試直接使用光流作為輸入來進(jìn)行視頻分割。
(3)端到端訓(xùn)練的深度網(wǎng)絡(luò),將視頻作為輸入并逐幀輸出對象檢測結(jié)果。
雖然其中一些計算機(jī)視覺方法與本文提出的拓?fù)浔砻姹碚骼碚撓嚓P(guān),但它們的實(shí)現(xiàn)通常依賴于「特定的假設(shè)」(例如,物體構(gòu)成具有相似運(yùn)動模式的像素集群,這對非剛性物體無效)或「黑箱深度學(xué)習(xí)方法」,而該方法沒有利用使光流生成對象標(biāo)簽的原理。盡管如此,現(xiàn)有的方法在跟蹤真實(shí)世界視頻中對象的基準(zhǔn)測試上取得了不錯的性能,獲得了關(guān)于如何結(jié)合學(xué)習(xí)方法構(gòu)建魯棒的分割和跟蹤系統(tǒng)的思路。
我們相信,通過結(jié)合數(shù)學(xué)化的表面表征框架,這種系統(tǒng)可能會變得更加強(qiáng)大,理由包括以下四點(diǎn):
(1)表面表征闡明了需要學(xué)習(xí)的是什么。
(2)表面保證使我們可以以一種系統(tǒng)的方式,實(shí)現(xiàn)基于時空相鄰性的物體識別的自我監(jiān)督學(xué)習(xí)。
(3)表面表示可能受益于專門的前端硬件。
(4)表面表示將分割、跟蹤和三維表面重建統(tǒng)一為一個連貫的框架。
對生物視覺研究的影響
本文研究結(jié)果不僅對構(gòu)建新的人工視覺系統(tǒng)有重要意義,而且對理解生物視覺也有重要意義。目前,科學(xué)家們對早期圖像處理的神經(jīng)機(jī)制(如邊緣檢測、運(yùn)動檢測、以及非常高級的物體識別機(jī)制)都有詳細(xì)的了解。然而,現(xiàn)有研究缺乏對中間加工步驟的理解,這些步驟解釋了一個物體最初如何出現(xiàn)在視覺系統(tǒng)中:一組邊緣如何被不變地轉(zhuǎn)換成一組與特定物體關(guān)聯(lián)的物體輪廓。本文提出的解決方案為神經(jīng)科學(xué)研究勾畫出了一條解決該問題的道路,在探究感知分組的簡單神經(jīng)關(guān)聯(lián)之外,要研究視覺表面表征的詳細(xì)工作機(jī)制。
本文提出的解決分割和不變跟蹤的計算必須是局部的,因此可以在視網(wǎng)膜視覺區(qū)域完成。每個對象的不變標(biāo)簽通過不同視角的局部微分同胚性在整個對象中傳播。要創(chuàng)建一個對象圖,需要一個基本的神經(jīng)機(jī)制來表示圖內(nèi)的連接。這個聚合信號由什么組成仍然是未知的。
值得注意的是,最近的一項(xiàng)研究表明,不變的視覺表面表征機(jī)制可能是靈長類動物所獨(dú)有的。靈長類動物大腦中存在拓?fù)浔砻姹碚鞯囊粋€生理學(xué)證據(jù)是「邊界所有權(quán)細(xì)胞」的發(fā)現(xiàn),它顯示了對輪廓某側(cè)的所有者的選擇性,這是一個關(guān)鍵的拓?fù)涮卣?。本文提出的理論認(rèn)為,邊界所有權(quán)細(xì)胞的輸出應(yīng)該隨著時間的推移整合,以生成不變的物體標(biāo)簽,影響視覺信息從感知到符號的基本轉(zhuǎn)換。
本文提出的生態(tài)光學(xué)理論不是一種隨意的新視覺模型,它在數(shù)學(xué)上是必然成立的。理論的每一部分都對英語計算目標(biāo)和機(jī)制。該理論的簡單性和必要性為視覺研究提供了一個新的方向:詳細(xì)了解大腦是如何完成表面表征。
原文鏈接:https://www.pnas.org/doi/10.1073/pnas.2204248119
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。