0
本文作者: camel | 2019-12-15 21:55 | 專題:ICCV 2019 |
雷鋒網(wǎng)AI科技評(píng)論按:本文由商湯科技投稿,簡(jiǎn)要介紹商湯科技研究團(tuán)隊(duì)在 ICCV2019 上錄用的一篇文章:Geometry NormalizationNetworks for Accurate Scene Text Detection(GNNets),針對(duì)自然場(chǎng)景下文字檢測(cè)的幾何歸一化網(wǎng)絡(luò)。
該文章通過(guò)對(duì)待處理圖像的特征圖進(jìn)行幾何變換,從而將待處理圖像中幾何分布差異較大的文本框歸一化到一定的幾何分布范圍內(nèi),提高了自然場(chǎng)景下文本測(cè)檢的效果。
隨著深度學(xué)習(xí)的迅速發(fā)展,計(jì)算機(jī)視覺(jué)技術(shù)對(duì)實(shí)際生產(chǎn)具有影響越來(lái)越重要的影響。對(duì)圖像中的文本進(jìn)行檢測(cè)和識(shí)別,有助于計(jì)算機(jī)理解視覺(jué)內(nèi)容。
由于卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法的通用性,自然場(chǎng)景文本檢測(cè)受益于常規(guī)物體檢測(cè)而快速發(fā)展。但由于自然場(chǎng)景中的文本在實(shí)際應(yīng)用場(chǎng)景中具有較大的幾何變化(例如寬高比或文字方向),所以其自身仍存在巨大的挑戰(zhàn)。
對(duì)于尺度變化問(wèn)題,現(xiàn)有方法一般通過(guò)使用一個(gè)檢測(cè)頭(detection header)對(duì)不同層級(jí)的特征進(jìn)行檢測(cè),利用 NMS 融合結(jié)果后作為輸出或者使用類似 FPN [1] 的網(wǎng)絡(luò)將多尺度特征融合然后進(jìn)行文本檢測(cè)。
對(duì)于角度變化問(wèn)題,現(xiàn)有方法一般通過(guò)直接回歸文本框角度或使用對(duì)方向敏感的卷積來(lái)預(yù)測(cè)任意方向。
但目前的方法中要求檢測(cè)頭(detection header)需要學(xué)習(xí)到文字巨大的幾何差異或者檢測(cè)頭(detectionheader)僅在所有訓(xùn)練樣本中一個(gè)子集進(jìn)行學(xué)習(xí),這可能導(dǎo)致性能欠佳。
作者研究了幾何分布對(duì)場(chǎng)景文本檢測(cè)的影響,發(fā)現(xiàn)基于 CNN 的檢測(cè)器只能捕獲有限的文本幾何分布,但充分利用所有訓(xùn)練的樣本可以提高其泛化能力。
為了解決上述難題,作者提出了一種新穎的幾何規(guī)范化模塊(GNM)。每個(gè)自然場(chǎng)景圖片中的文本實(shí)例可以通過(guò) GNM 歸一化到一定的幾何分布范圍內(nèi)。這樣所有訓(xùn)練樣本均被歸一化為有限的分布,因此可以有效地訓(xùn)練一個(gè)共享的文本檢測(cè)頭。
本文提出的 GNM 是通用的,可以直接將該模塊插入到任何基于 CNN 的文本檢測(cè)器中。為了驗(yàn)證提出方法的有效性,作者針對(duì)文字方向的差異性新建了一個(gè)測(cè)試集(Benchmark)并發(fā)布。雷鋒網(wǎng)
Fig.1. Overall architecture.
Fig. 1 是 GNNets 的整體網(wǎng)絡(luò)結(jié)構(gòu)圖??傮w網(wǎng)絡(luò)結(jié)構(gòu)由 Backbone,GNM,SharedText Detection Header 組成。通過(guò) Backbone 提取的特征圖會(huì)被輸入到具有多個(gè)分支的幾何規(guī)范化模塊(GNM)中,每個(gè)分支由一個(gè)尺度歸一化單元(SNU)和方向歸一化單元(ONU)組成。
SNU 有兩個(gè)不同比例的尺歸一化單位(S,S1/2)和四個(gè)方向歸一化單位(O,Or,Of,Or + f)。通過(guò) SNU 和 ONU 的不同組合,GNM 會(huì)生成不同的幾何歸一化特征圖,這些特征圖將被輸入到一個(gè)共享文本檢測(cè)標(biāo)頭中。
Fig.2. ONU.
Fig.2 是作者提出的 ONU 模塊的示意圖。通過(guò)應(yīng)用 ONU 可以更改文本框方向。如圖所示「綠色」框是原始框,「灰色」框是轉(zhuǎn)換過(guò)程中的中間框,「紅色」框是 ONU 的輸出的結(jié)果框。
θ和θ' 分別是原始框和結(jié)果框的角度。(a),(b),(c)和(d)分別是 O,Or,Of,Or + f 的過(guò)程的示意圖。由上圖可以簡(jiǎn)單明了的表示 ONU 具有將 [0,π/4],[-π/2,-π/4],[-π/4,0] 和 [π/4,π/2] 角度的文本轉(zhuǎn)換為在 [0,π/4] 角度的文本。
Fig.3. Architecture of GNM.
Fig. 3 展示了 GNM 在網(wǎng)絡(luò)中的結(jié)構(gòu)設(shè)置。對(duì)于 SNU 中的 S 使用 1x1 的卷積操作和 3x3 的卷積操作;S1/2 使用 1X1 的卷積,步長(zhǎng)為 2 的下采樣以及 3x3 的卷積。對(duì)于 ONU 中的 O,Or,Of,Or + f 中的 Operations 則分別采用不操作,旋轉(zhuǎn) feature maps,翻轉(zhuǎn) feature maps 和旋轉(zhuǎn)后再翻轉(zhuǎn) feature maps。
由于多分支網(wǎng)絡(luò)的影響,作者提出了一個(gè)針對(duì) GNNets 的抽樣訓(xùn)練策略。
在訓(xùn)練期間,作者隨機(jī)采樣一個(gè)文本實(shí)例,并通過(guò)旋轉(zhuǎn)和調(diào)整大小 7 次來(lái)對(duì)其進(jìn)行擴(kuò)充,以使 GNM 的每個(gè)分支在每批次中都具有有效的文本實(shí)例用于訓(xùn)練。這樣可以對(duì) GNM 的所有分支進(jìn)行統(tǒng)一訓(xùn)練。并且在訓(xùn)練過(guò)程中如果文本實(shí)例不在預(yù)先設(shè)定的幾何區(qū)間內(nèi),則忽略分支中的該文本實(shí)例。
在測(cè)試過(guò)程中,作者將 GNM 中所有分支輸出文本框相應(yīng)地反向投影到原始比例和方向。不在分支預(yù)先設(shè)定的幾何區(qū)間內(nèi)的文本框會(huì)被丟棄。其余的文本框通過(guò) NMS 合并。
Table 1. Comparison with the state-of-the-art methods on both ICDAR 2015 and ICDAR 2017MLT.
與原始的 PSENet[2] 相比,作者提出的 GNNets 在 ICDAR 2015[3] 和 ICDAR 2017 MLT [4] 上分別實(shí)現(xiàn)了約 1.3%和 2.1%的性能提升。
與 ICDAR 2015 上的 EAST[5] 和 ITN [6] 相比,GNNet 的 F-score 比它們分別高出 8%和 9%。與 FTSN [7] 相比,獲得了 4.5%的性能提升。GNNets 在 ICDAR 2015 上的表現(xiàn)優(yōu)于 FOTS [8],在 ICDAR 2017 MLT 上的 F-score 更超出其 7.3%。并且 FOTS 使用了文字識(shí)別的數(shù)據(jù)。
在單尺度測(cè)試中,作者提出的 GNNets 在 ICDAR 2015 和 ICDAR2017 MLT 上均達(dá)到了 state-of-the-art 的性能。Fig. 5 可視化了 GNNets 和其他文本檢測(cè)方法在 ICDAR 2015 和 ICDAR 2017 MLT 上的檢測(cè)結(jié)果。
Fig.5. Qualitative results on ICDAR2015 and ICDAR 2017 MLT. The right column shows GNNets results.
1、在本文中,作者提出了一種新穎的幾何歸一化模塊(GNM)以生成多個(gè)幾何感知特征圖。并且 GNM 是通用的,可以應(yīng)用到任何基于 CNN 的檢測(cè)器中,以構(gòu)建端到端的幾何歸一化網(wǎng)絡(luò)(GNNet)。
實(shí)驗(yàn)表明,GNNet 在檢測(cè)幾何分布較大的文本實(shí)例方面相較于 baseline 表現(xiàn)出出色的性能。并且,GNNet 在兩個(gè)文字檢測(cè)主流的數(shù)據(jù)集上較最新的方法獲得了顯著的性能提升。
2、文中研究了幾何分布對(duì)場(chǎng)景文本檢測(cè)的影響,發(fā)現(xiàn)基于 CNN 的檢測(cè)器只能捕獲有限的文本幾何分布,但充分利用所有訓(xùn)練的樣本可以提高其泛化能力,對(duì)后續(xù)文字檢測(cè)以及其他相關(guān)領(lǐng)域有啟發(fā)性影響。
3、綜上所述,文本檢測(cè)是 OCR 任務(wù)的首要前提,但自然場(chǎng)景下文字的字體變化、懸殊的寬高比、任意角度給檢測(cè)任務(wù)帶來(lái)巨大的挑戰(zhàn),本文為我們提出了目前研究方向上忽略的點(diǎn),并提供了一個(gè)新穎的解決方法,但是相較與常規(guī)物體檢測(cè),文本檢測(cè)領(lǐng)域仍然有其特殊性以及較大的提升空間。
參考文獻(xiàn)
[1]Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan,and Serge Belongie. Feature Pyramid Networks for Object Detection. In CVPR,2017.
[2]Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, and Jian Yang. ShapeRobust Text Detection with Progressive Scale Expansion Network. arXiv preprintarXiv:1806.02559, 2018.
[3]Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, Suman Ghosh,Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay RamaseshanChandrasekhar, Shijian Lu, and Others. ICDAR 2015 Competition on RobustReading. In ICDAR, 2015.
[4]ICDAR2017 Competition on Multi-Lingual Scene Text Detection and ScriptIdentification. http://rrc.cvc.uab.es/?ch=8&com=introduction, 2017.
[5]Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, andJiajun Liang. EAST: An Efficient and Accurate Scene Text Detector. In CVPR,2017.
[6]Fangfang Wang, Liming Zhao, Xi Li, Xinchao Wang, and Dacheng Tao.Geometry-Aware Scene Text Detection with Instance Transformation Network. InCVPR, 2018.
[7]Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, andWeidong Qiu. Fused Text Segmentation Networks for Multi-Oriented Scene TextDetection. In ICPR, 2018.
[8]Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, and Junjie Yan. Fots:Fast Oriented Text Spotting with a Unified Network. In CVPR, 2018.
雷鋒網(wǎng)報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章