0
雷鋒網AI科技評論按:本文由商湯科技投稿,簡要介紹商湯科技研究團隊在 ICCV2019 上錄用的一篇文章:Geometry NormalizationNetworks for Accurate Scene Text Detection(GNNets),針對自然場景下文字檢測的幾何歸一化網絡。
該文章通過對待處理圖像的特征圖進行幾何變換,從而將待處理圖像中幾何分布差異較大的文本框歸一化到一定的幾何分布范圍內,提高了自然場景下文本測檢的效果。
隨著深度學習的迅速發(fā)展,計算機視覺技術對實際生產具有影響越來越重要的影響。對圖像中的文本進行檢測和識別,有助于計算機理解視覺內容。
由于卷積神經網絡(CNN)方法的通用性,自然場景文本檢測受益于常規(guī)物體檢測而快速發(fā)展。但由于自然場景中的文本在實際應用場景中具有較大的幾何變化(例如寬高比或文字方向),所以其自身仍存在巨大的挑戰(zhàn)。
對于尺度變化問題,現(xiàn)有方法一般通過使用一個檢測頭(detection header)對不同層級的特征進行檢測,利用 NMS 融合結果后作為輸出或者使用類似 FPN [1] 的網絡將多尺度特征融合然后進行文本檢測。
對于角度變化問題,現(xiàn)有方法一般通過直接回歸文本框角度或使用對方向敏感的卷積來預測任意方向。
但目前的方法中要求檢測頭(detection header)需要學習到文字巨大的幾何差異或者檢測頭(detectionheader)僅在所有訓練樣本中一個子集進行學習,這可能導致性能欠佳。
作者研究了幾何分布對場景文本檢測的影響,發(fā)現(xiàn)基于 CNN 的檢測器只能捕獲有限的文本幾何分布,但充分利用所有訓練的樣本可以提高其泛化能力。
為了解決上述難題,作者提出了一種新穎的幾何規(guī)范化模塊(GNM)。每個自然場景圖片中的文本實例可以通過 GNM 歸一化到一定的幾何分布范圍內。這樣所有訓練樣本均被歸一化為有限的分布,因此可以有效地訓練一個共享的文本檢測頭。
本文提出的 GNM 是通用的,可以直接將該模塊插入到任何基于 CNN 的文本檢測器中。為了驗證提出方法的有效性,作者針對文字方向的差異性新建了一個測試集(Benchmark)并發(fā)布。雷鋒網
Fig.1. Overall architecture.
Fig. 1 是 GNNets 的整體網絡結構圖??傮w網絡結構由 Backbone,GNM,SharedText Detection Header 組成。通過 Backbone 提取的特征圖會被輸入到具有多個分支的幾何規(guī)范化模塊(GNM)中,每個分支由一個尺度歸一化單元(SNU)和方向歸一化單元(ONU)組成。
SNU 有兩個不同比例的尺歸一化單位(S,S1/2)和四個方向歸一化單位(O,Or,Of,Or + f)。通過 SNU 和 ONU 的不同組合,GNM 會生成不同的幾何歸一化特征圖,這些特征圖將被輸入到一個共享文本檢測標頭中。
Fig.2. ONU.
Fig.2 是作者提出的 ONU 模塊的示意圖。通過應用 ONU 可以更改文本框方向。如圖所示「綠色」框是原始框,「灰色」框是轉換過程中的中間框,「紅色」框是 ONU 的輸出的結果框。
θ和θ' 分別是原始框和結果框的角度。(a),(b),(c)和(d)分別是 O,Or,Of,Or + f 的過程的示意圖。由上圖可以簡單明了的表示 ONU 具有將 [0,π/4],[-π/2,-π/4],[-π/4,0] 和 [π/4,π/2] 角度的文本轉換為在 [0,π/4] 角度的文本。
Fig.3. Architecture of GNM.
Fig. 3 展示了 GNM 在網絡中的結構設置。對于 SNU 中的 S 使用 1x1 的卷積操作和 3x3 的卷積操作;S1/2 使用 1X1 的卷積,步長為 2 的下采樣以及 3x3 的卷積。對于 ONU 中的 O,Or,Of,Or + f 中的 Operations 則分別采用不操作,旋轉 feature maps,翻轉 feature maps 和旋轉后再翻轉 feature maps。
由于多分支網絡的影響,作者提出了一個針對 GNNets 的抽樣訓練策略。
在訓練期間,作者隨機采樣一個文本實例,并通過旋轉和調整大小 7 次來對其進行擴充,以使 GNM 的每個分支在每批次中都具有有效的文本實例用于訓練。這樣可以對 GNM 的所有分支進行統(tǒng)一訓練。并且在訓練過程中如果文本實例不在預先設定的幾何區(qū)間內,則忽略分支中的該文本實例。
在測試過程中,作者將 GNM 中所有分支輸出文本框相應地反向投影到原始比例和方向。不在分支預先設定的幾何區(qū)間內的文本框會被丟棄。其余的文本框通過 NMS 合并。
Table 1. Comparison with the state-of-the-art methods on both ICDAR 2015 and ICDAR 2017MLT.
與原始的 PSENet[2] 相比,作者提出的 GNNets 在 ICDAR 2015[3] 和 ICDAR 2017 MLT [4] 上分別實現(xiàn)了約 1.3%和 2.1%的性能提升。
與 ICDAR 2015 上的 EAST[5] 和 ITN [6] 相比,GNNet 的 F-score 比它們分別高出 8%和 9%。與 FTSN [7] 相比,獲得了 4.5%的性能提升。GNNets 在 ICDAR 2015 上的表現(xiàn)優(yōu)于 FOTS [8],在 ICDAR 2017 MLT 上的 F-score 更超出其 7.3%。并且 FOTS 使用了文字識別的數(shù)據(jù)。
在單尺度測試中,作者提出的 GNNets 在 ICDAR 2015 和 ICDAR2017 MLT 上均達到了 state-of-the-art 的性能。Fig. 5 可視化了 GNNets 和其他文本檢測方法在 ICDAR 2015 和 ICDAR 2017 MLT 上的檢測結果。
Fig.5. Qualitative results on ICDAR2015 and ICDAR 2017 MLT. The right column shows GNNets results.
1、在本文中,作者提出了一種新穎的幾何歸一化模塊(GNM)以生成多個幾何感知特征圖。并且 GNM 是通用的,可以應用到任何基于 CNN 的檢測器中,以構建端到端的幾何歸一化網絡(GNNet)。
實驗表明,GNNet 在檢測幾何分布較大的文本實例方面相較于 baseline 表現(xiàn)出出色的性能。并且,GNNet 在兩個文字檢測主流的數(shù)據(jù)集上較最新的方法獲得了顯著的性能提升。
2、文中研究了幾何分布對場景文本檢測的影響,發(fā)現(xiàn)基于 CNN 的檢測器只能捕獲有限的文本幾何分布,但充分利用所有訓練的樣本可以提高其泛化能力,對后續(xù)文字檢測以及其他相關領域有啟發(fā)性影響。
3、綜上所述,文本檢測是 OCR 任務的首要前提,但自然場景下文字的字體變化、懸殊的寬高比、任意角度給檢測任務帶來巨大的挑戰(zhàn),本文為我們提出了目前研究方向上忽略的點,并提供了一個新穎的解決方法,但是相較與常規(guī)物體檢測,文本檢測領域仍然有其特殊性以及較大的提升空間。
參考文獻
[1]Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan,and Serge Belongie. Feature Pyramid Networks for Object Detection. In CVPR,2017.
[2]Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, and Jian Yang. ShapeRobust Text Detection with Progressive Scale Expansion Network. arXiv preprintarXiv:1806.02559, 2018.
[3]Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, Suman Ghosh,Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay RamaseshanChandrasekhar, Shijian Lu, and Others. ICDAR 2015 Competition on RobustReading. In ICDAR, 2015.
[4]ICDAR2017 Competition on Multi-Lingual Scene Text Detection and ScriptIdentification. http://rrc.cvc.uab.es/?ch=8&com=introduction, 2017.
[5]Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, andJiajun Liang. EAST: An Efficient and Accurate Scene Text Detector. In CVPR,2017.
[6]Fangfang Wang, Liming Zhao, Xi Li, Xinchao Wang, and Dacheng Tao.Geometry-Aware Scene Text Detection with Instance Transformation Network. InCVPR, 2018.
[7]Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, andWeidong Qiu. Fused Text Segmentation Networks for Multi-Oriented Scene TextDetection. In ICPR, 2018.
[8]Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, and Junjie Yan. Fots:Fast Oriented Text Spotting with a Unified Network. In CVPR, 2018.
雷鋒網報道。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。