0
本文作者: 我在思考中 | 2022-03-28 09:58 |
編譯 | Ailleurs
編輯 | 陳彩嫻
情報分析是一項重要工作,軍事戰(zhàn)略家、研究人員和記者,都依賴情報分析來作出決策、揭露違反國際協(xié)議的行為,并向公眾展示戰(zhàn)爭的嚴(yán)酷現(xiàn)實。衛(wèi)星圖像在情報分析工作中扮演了重要的信息來源角色。
然而,在烏克蘭,由于大量的云層覆蓋和頻繁的夜間襲擊,各種形式的衛(wèi)星圖像都無法捕捉地面信息。好消息是,合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)圖像可以穿透云層,但是需要經(jīng)過專門培訓(xùn)的人員來對其圖像進(jìn)行解讀,如能將這項繁瑣的任務(wù)自動化,便可以實現(xiàn)實時動態(tài)觀察。而目前基于典型RGB圖像開發(fā)的計算機(jī)視覺方法尚不能很好地解讀SAR圖像。
因此,相關(guān)研究者認(rèn)為,當(dāng)下改進(jìn)針對SAR圖像的方法、代碼庫、數(shù)據(jù)集和預(yù)訓(xùn)練模型的獲取和可用性,將有助于烏克蘭情報機(jī)構(gòu)、研究人員和記者的工作。
近日,伯克利人工智能研究中心發(fā)布了一項新研究,旨在解決SAR圖像的使用受限問題。Ritwik Gupta、Colorado Reed、Anja Rohrbach和Trevor Darrell等人提出一種基線方法和預(yù)訓(xùn)練模型,能夠使人們在做下游分類、語義分割和改變檢測等任務(wù)時,方便地互換使用RGB和SAR圖像。
圖1: SEVIRI儀器于2022年2月28日-3月1日在烏克蘭上空測量的氣團(tuán)(云層)。來源:EUMETSAT
我們生活在一個瞬息萬變的世界,經(jīng)歷著自然災(zāi)害、社會動蕩、戰(zhàn)爭以及各種混亂事件,它們在地球表面留下了不可預(yù)測的且通常是永久性的痕跡。理解我們所處環(huán)境的變化一直都是一個歷史性難題。勘測員們被派去探索新的現(xiàn)實境況 ,他們分散的調(diào)查發(fā)現(xiàn)經(jīng)常被雜亂地整合,構(gòu)成現(xiàn)實的一個來源。從法國攝影師納達(dá)爾(Nadar)拍下第一張航拍照片,到前蘇聯(lián)發(fā)射的人類第一顆人造衛(wèi)星“斯普特尼克1號”(Sputnik 1)的無線電信號被用來分析電離層,保持警覺狀態(tài)始終都是人類的目標(biāo)。
警覺,或者說監(jiān)測,貫穿著人類幾千年歷史,與任何工具一樣,它也一直是一把雙刃劍。從歷史上看,沒有制衡的監(jiān)測對社會是有害的。相反,適當(dāng)且盡責(zé)的監(jiān)測則使我們能夠了解有關(guān)世界的深刻真相,進(jìn)而在科學(xué)和人道主義領(lǐng)域取得進(jìn)步。現(xiàn)在,隨著在軌衛(wèi)星數(shù)量的增長,我們對于環(huán)境的認(rèn)識幾乎每天都在更新。過去,我們只掌握很少的信息,而今天,我們已經(jīng)擁有了超過我們所能夠有意義地從中提取知識的范圍的大量數(shù)據(jù)。儲存和理解這些數(shù)據(jù)中所含信息是一項日益緊迫的工程挑戰(zhàn)。
由于每天都有數(shù)百TB的數(shù)據(jù)從衛(wèi)星下行傳送到數(shù)據(jù)中心,通過人工處理從這些數(shù)據(jù)中獲取知識和可執(zhí)行建議,已經(jīng)成為一項無法完成的任務(wù)。最廣泛使用的遙感數(shù)據(jù)形式是光電 (electro-optical,EO)衛(wèi)星圖像,這種圖像很常見,任何使用過谷歌地圖或類似測繪軟件的人都跟光電圖像“打過交道”。
運用機(jī)器學(xué)習(xí)的光電遙感圖像處理技術(shù)已被廣泛應(yīng)用于科學(xué)和商業(yè)領(lǐng)域。從改善降水預(yù)測,到通過識別磚窯來對人類奴隸制做循證分析(磚窯是現(xiàn)代奴隸制的典型發(fā)生場所),再到對整個城市進(jìn)行分類識別以改善交通路線選擇,機(jī)器學(xué)習(xí)在光電圖像上的產(chǎn)出已經(jīng)融入了人類社會的方方面面。
圖2: 基輔地區(qū)的超高分辨率光電衛(wèi)星圖像,由Maxar公司于2022年2月28日拍攝。圖像顯示,橫跨斯特雷鎮(zhèn)河的一座橋似乎已被摧毀。
提供光電圖像的常用衛(wèi)星星座包括美國地質(zhì)調(diào)查局運營的陸地衛(wèi)星系列(Landsat),和歐洲航天局運營的哥白尼哨兵2號(Copernicus Sentinel-2)。這些星座提供10-60米分辨率的圖像,盡管這對于許多場景來說已經(jīng)足夠用了,但它們無法觀察到更精細(xì)的細(xì)節(jié)。
在過去幾年里,豐富的商業(yè)資源帶來了超高分辨率的光電圖像。Planet、Maxar、Airbus等公司每天都在對整個地球進(jìn)行成像,他們提供了極為精確的圖像,分辨率介于0.3-2.0米之間,并且圖像重訪率很高。
圖3: Maxar公司的超高分辨率光電圖像示例,顯示了浮式生產(chǎn)和儲存,卸載裝置,以及一艘油輪。
高分辨率圖像提供的更高分辨率能夠支持一系列的下游使用場景。比如,可以在更精細(xì)的尺度上檢測土壤侵蝕,還可以在災(zāi)害之后對建筑物的損壞進(jìn)行分類。機(jī)器學(xué)習(xí)方法必須要適應(yīng)超高分辨率衛(wèi)星圖像。隨著敏銳度的提高,像素的數(shù)量和可識別的類別數(shù)量已經(jīng)增加了幾個數(shù)量級。計算機(jī)視覺研究對此給予的回應(yīng)包括,降低計算成本以學(xué)習(xí)衛(wèi)星圖像的有效表示,建立方法來減輕標(biāo)注人員的工作負(fù)擔(dān),設(shè)計大型軟件框架,來方便計算機(jī)視覺從業(yè)者對豐富的圖像來源進(jìn)行處理。
通常來說,現(xiàn)有用于其它非航空RGB圖像的計算機(jī)視覺方法,能夠很好遷移到衛(wèi)星圖像上來,這使得提供高精度結(jié)果的商業(yè)化超高分辨率圖像能夠立即被投入使用。
然而,盡管高分辨率光電圖像帶來如此多的益處,它仍具有一定的局限性。
對于戰(zhàn)爭和自然災(zāi)害等高度混亂和危險的情況,持續(xù)并且可靠的地面觀測是至關(guān)重要的。遺憾的是,在這一點上,光電圖像無法滿足人們的全部監(jiān)測需求。光電圖像只能在白天探測到光源,而現(xiàn)實情況是,在任何一個時間,都有接近2/3的地面被云層覆蓋。我們必須考慮云層問題,否則想要知道地面上發(fā)生了什么重要的事情時,這種地面上的阻礙就成了一個大麻煩。為了解決這個問題,機(jī)器學(xué)習(xí)方法試圖去移除圖像上的云層,來預(yù)測在無云的情況下觀測目標(biāo)會是什么樣,但是這個過程中所丟失的信息基本上是不可恢復(fù)的。
合成孔徑雷達(dá)(SAR)圖像是一種主動遙感,衛(wèi)星將微波雷達(dá)波脈沖向下傳輸?shù)降厍虮砻?,這些雷達(dá)波從地面和地面的任何物體上反射回衛(wèi)星。通過在時間和空間維度上將這些脈沖處理形成SAR圖像,其中的每一個像素都是由不同雷達(dá)散射的疊加。
雷達(dá)波能穿透云層,而且由于衛(wèi)星持續(xù)地產(chǎn)生雷達(dá)波,所以即使在夜間也能照亮地球表面。合成孔徑雷達(dá)用途廣泛,可用于估測地表粗糙度、繪制大面積洪水范圍,以及監(jiān)測受保護(hù)水域中是否有非法漁船出沒。
目前,有多個SAR衛(wèi)星星座在運行。哥白尼哨兵1號星座向人們提供分辨率在10-80米之間的圖像(最常見的是10米分辨率圖像)。大多數(shù)商業(yè)SAR提供商,如芬蘭的ICEYE的公司和美國的Capella Space公司,能夠提供分辨率在0.5米的圖像。隨著衛(wèi)星星座數(shù)量的增長和政府法規(guī)的發(fā)展,在即將推出的發(fā)射項目中,其它商業(yè)SAR提供商的目標(biāo)是制作出分辨率在0.5米以下且具有高重訪率的圖像。
圖4: Capella Space公司提供的烏克蘭-白俄羅斯邊界上的超高分辨率合成孔徑雷達(dá)圖像
雖然合成孔徑雷達(dá)圖像乍一看可能與光電圖像非常相似,但其物理原理卻大不相同,這導(dǎo)致圖像產(chǎn)出中出現(xiàn)了許多有趣的效應(yīng),這些效應(yīng)可能是違反直覺的,并且與現(xiàn)代計算機(jī)視覺不相容。有三種常見的效應(yīng):極化效應(yīng)(polarization),疊掩效應(yīng)(layover),多路徑效應(yīng)(multi-path)。
極化效應(yīng)
圖5: 來自哨兵1號(Sentinel-1)輻射測量地形校正圖像,在烏克蘭第聶伯羅(Dnipro)的同一區(qū)域,VH極化(左)和VV極化(右)顯示出差異。雷達(dá)在相應(yīng)的局部區(qū)域的回波可能不同。
SAR衛(wèi)星上的雷達(dá)天線經(jīng)常發(fā)射極化的雷達(dá)波。極化方向是波電場的方向。地面上的物體對雷達(dá)波的不同極化給予不同的反應(yīng) 。因此,SAR衛(wèi)星通常以雙極化或四極化模式運行,在水平(H)或垂直(V)方向上傳播極化波,從而產(chǎn)生HH、HV、VH和VV四種波段。所以,盡管我們可以將此與電光圖像中的RGB波段進(jìn)行對比,但其物理學(xué)原理是不同的。
疊掩效應(yīng)
圖6: Capella公司的超高分辨率SAR圖像示例。體育場的上部似乎與其后方的停車場重疊。
疊掩效應(yīng)是指雷達(dá)波束先到達(dá)距離更近的目標(biāo)物體頂部,后達(dá)到更遠(yuǎn)的目標(biāo)物體底部,因而頂部先成像,導(dǎo)致物體的頂部與底部圖像形成重疊。當(dāng)物體特別高時,這種情況就會發(fā)生。從視覺上看,高層建筑呈現(xiàn)出側(cè)臥狀,而山脈看起來則是山峰與基底相交。
多路徑效應(yīng)
圖7: 斜向SAR圖像中橋梁的多徑效應(yīng)示例
當(dāng)雷達(dá)波從地面上的物體反射,并在返回 SAR 傳感器之前發(fā)生多次反彈時,就會發(fā)生多路徑效應(yīng)。多徑效應(yīng)會導(dǎo)致目標(biāo)物體在生成的圖像中以各種變換形式出現(xiàn)。這種效應(yīng)在 SAR 圖像中隨處可見,但在城市地區(qū)、森林和其他密集環(huán)境中尤為明顯。
基于傳統(tǒng)RGB圖像的現(xiàn)有計算機(jī)視覺方法并未考慮到上述這些效應(yīng)。在光電衛(wèi)星圖像上訓(xùn)練的物體檢測器,預(yù)設(shè)一個特定物體只會出現(xiàn)一次,或者該物體在不同的環(huán)境中看起來相對相似,而不是可能與周圍的物體呈現(xiàn)鏡像、分散或者交疊狀態(tài)。遮擋的本質(zhì)和光電圖像中遮擋假設(shè)的視覺原理,不能直接運用到SAR圖像上來。
總而言之,現(xiàn)有的計算機(jī)視覺技術(shù)可以應(yīng)用于 SAR 圖像,但性能會降低,并且會出現(xiàn)一套系統(tǒng)性錯誤,而這些錯誤可以通過專門針對SAR圖像模式的技術(shù)方法來解決。
在烏克蘭,圖像分析師目前使用區(qū)域上空可獲取的光電圖像和 SAR 圖像。當(dāng)光電圖像可用時,為該模式構(gòu)建的現(xiàn)有計算機(jī)視覺工具可有助于加快情報收集過程。但是,當(dāng)只有 SAR 圖像可用時,這些工具就失效了。圖像分析人員不得不求助于人工分析,這既耗費時間又容易出錯。國際上的一些其它機(jī)構(gòu)正在探索這個問題,但就可用數(shù)據(jù)量而言,這仍然是一個未被充分研究的領(lǐng)域。
伯克利人工智能研究中心創(chuàng)建了一套初始方法和模型,這些方法和模型從公開發(fā)布的 BigEarthNet-MM 數(shù)據(jù)集和Capella 的 Open Data 數(shù)據(jù)中,集中學(xué)習(xí)RGB圖像 、SAR圖像以及RGB+SAR共配圖像的魯棒表示。這兩個數(shù)據(jù)集都包含RGB和SAR圖像。通過使用這些模型,圖像分析師能夠交替使用 RGB、SAR 或 RGB+SAR共配圖像來執(zhí)行多種下游視覺任務(wù),例如圖像分類、語義分割、目標(biāo)檢測或變化檢測。
SAR與EO圖像是具有不同現(xiàn)象學(xué)特征的數(shù)據(jù)源,在這個問題上,研究人員發(fā)現(xiàn)在使用SAR圖像來進(jìn)行表示學(xué)習(xí)時,Vision Transformer (ViT) 是一種特別有效的架構(gòu),因為它消除了卷積神經(jīng)網(wǎng)絡(luò)所固有的尺度和位移不變的歸納偏差。在進(jìn)行RGB、SAR和RGB+SAR圖像的表示學(xué)習(xí)時,MAERS方法表現(xiàn)最佳,它基于何愷明等人(2021)提出的掩碼化自動編碼器(Masked Autoencoder,MAE),這是一種可擴(kuò)展的自監(jiān)督學(xué)習(xí)網(wǎng)絡(luò):它將掩碼化數(shù)據(jù)作為輸入,學(xué)習(xí)對輸入數(shù)據(jù)的編碼,然后學(xué)習(xí)對數(shù)據(jù)的解碼,對非掩碼輸入數(shù)據(jù)進(jìn)行重建。
與過往流行的對比學(xué)習(xí)視覺表示框架不同,MAE網(wǎng)絡(luò)并不預(yù)設(shè)數(shù)據(jù)中存在某些可能對于SAR特征而言成問題的增強(qiáng)不變性,相反,它只依賴對原始輸入數(shù)據(jù)的重建,這對于 RGB、SAR或RGB+ SAR模型來說是一個不可知過程。
如圖8所示,通過學(xué)習(xí)RGB、SAR和RGB+SAR通道的獨立輸入投影層,MAERS進(jìn)一步對MAE加以擴(kuò)展,使用共享的ViT網(wǎng)絡(luò)對這些投影層的輸出進(jìn)行編碼,然后使用獨立的輸出投影層對RGB、SAR或RGB+SAR通道進(jìn)行解碼。其后,輸入投影層和共享的ViT網(wǎng)絡(luò)可以運用到下游任務(wù)中,比如目標(biāo)檢測或變化檢測,在這些任務(wù)中,RGB、SAR或RGB+SAR都可以進(jìn)入輸入編碼器。
圖8: 上方為MAERS學(xué)習(xí)聯(lián)合表示過程的可視化,下方為一個編碼器,可用于執(zhí)行下游任務(wù),比如用RGB或SAR或RGB+ SAR模型進(jìn)行對象檢測。
學(xué)習(xí)RGB、SAR和RGB+SAR模式的表示,有助于執(zhí)行一系列的下游任務(wù),如基于內(nèi)容的圖像檢索、分類、分割和檢測。為了證明所學(xué)習(xí)的表示方法的有效性,研究者在已有的基準(zhǔn)上進(jìn)行了實驗:一是對BigEarthNet-MM數(shù)據(jù)集中共配的EO和SAR場景進(jìn)行多標(biāo)簽分類;二是對SpaceNet 6數(shù)據(jù)集中超高分辨率的EO和SAR圖像進(jìn)行語義分割。
對BigEarth-MM數(shù)據(jù)集進(jìn)行多標(biāo)簽分類
圖9:(左)對哨兵2號的EO圖像和哨兵1號的SAR圖像進(jìn)行分割,將其用于執(zhí)行BigEarth-MM Challenge規(guī)定的多標(biāo)簽分類任務(wù)。給多模型編碼器添加了一個線性層,然后進(jìn)行端到端的微調(diào)。
MAERS使用一組用于ViT編碼器的ImageNet權(quán)重進(jìn)行初始化,然后在BigEarthNet-MM數(shù)據(jù)集上對RGB、SAR和RGB+SAR圖像進(jìn)行20個周期的預(yù)訓(xùn)練。研究者在MAERS編碼器上附加了一個單一的線性層,并通過對整個模型進(jìn)行20個周期的微調(diào)來學(xué)習(xí)多標(biāo)簽分類任務(wù)。
結(jié)果顯示在表1中。經(jīng)過微調(diào)的MAERS,優(yōu)于BigEarthNet-MM論文所呈現(xiàn)的最佳RGB+SAR結(jié)果。而且,為了RGB、SAR和RGB+SAR輸入模式的表示學(xué)習(xí),對本身已經(jīng)近乎完美的MAE架構(gòu)加以調(diào)整后,它依然產(chǎn)生了最好的結(jié)果。
表1: BigEarthNet-MM測試集所報告的每一類F2分?jǐn)?shù)。
對EO和SAR圖像進(jìn)行語義分割
研究者進(jìn)一步做了對建筑足跡進(jìn)行語義分割的遷移學(xué)習(xí)實驗,這是一項“及時雨”性質(zhì)的任務(wù),將有助于圖像分析人員了解烏克蘭所遭受的破壞情況,并且它是在對建筑損失做評估之前的一個先行工作。對于政府官員、記者,和想要了解俄羅斯對基礎(chǔ)設(shè)施和平民襲擊的范圍和嚴(yán)重程度的人權(quán)組織來說,建筑損失評估都有直接的意義。
圖10: 構(gòu)建基于SAR圖像的MAERS分割示例,取自SpaceNet6。其中左邊顯示的是RGB圖像,右邊顯示的是疊加了分割結(jié)果的SAR圖像。SAR圖像以VV、VH和VV/VH波段的假色顯示。
在該實驗中,研究者使用SpaceNet 6數(shù)據(jù)集作為一個開放和公開的基準(zhǔn),來其用以構(gòu)建來自Capella Space的VHR SAR圖像中的足跡檢測的表示學(xué)習(xí)的有效性。他們使用這個編碼器與UperNet架構(gòu)串聯(lián)用于語義分割。圖11顯示了在只有SAR圖像輸入的SpaceNet 6的封閉驗證組件中,在訓(xùn)練使用SAR或RGB圖像的分割模型上分割建筑所占用的IoU性能。與從頭開始訓(xùn)練RGB+SAR模型或采用完全相同的結(jié)構(gòu)調(diào)整ImageNet權(quán)值相比,MAERS預(yù)訓(xùn)練模型可提高約13個點。
圖11: 使用帶有ViT主干網(wǎng)絡(luò)的UperNet分割模型,在SpaceNet 6 Challenge上構(gòu)建分割I(lǐng)oU。
這表明,MAERS可以學(xué)習(xí)RGB+SAR模式的魯棒表示,因此在完成下游任務(wù)時,使用EO或SAR圖像都是可行的。需要注意的是,在建筑物分割任務(wù)中,SAR圖像的現(xiàn)象學(xué)特征使其具有一定劣勢,而使用EO圖像執(zhí)行該任務(wù)可獲得大于90的IoU得分。這便給SAR技術(shù)留下了一個巨大的空白,有待進(jìn)一步研究。不過,當(dāng)環(huán)境條件不利于EO圖像的捕獲時,從SAR圖像中獲得其性能仍十分重要。
目前這項研究只得出了初步結(jié)果,但仍顯示出了很強(qiáng)的說服力。研究人員表示,他們將向人道主義伙伴提供研究模型,幫助他們對居民區(qū)和其他平民區(qū)進(jìn)行環(huán)境變化檢測,以更好地揭示入侵者在烏克蘭犯下的戰(zhàn)爭罪行。
當(dāng)前,人道主義組織正密切關(guān)注著烏克蘭的戰(zhàn)爭,這些模型將有助于提高人道主義工作的效率。不過,與任何其它技術(shù)一樣,我們需要警惕技術(shù)被不恰當(dāng)?shù)貫E用。研究人員考慮到了這一點,他們在設(shè)計模型時,參考了在人道主義背景下進(jìn)行情報和圖像分析的人員所提供的意見,將他們的想法、評論和批評納入考慮,從而提供了一種符合人類利益的工具,并在使用安全方面加上了一把鎖。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。