0
本文作者: 汪思穎 | 2018-11-21 17:13 |
雷鋒網(wǎng) AI 科技評論消息,日前,云從科技在自然場景 OCR 中的文本檢測這個(gè)環(huán)節(jié)取得了技術(shù)突破,在檢測準(zhǔn)確率和檢測效率兩個(gè)綜合維度上,獲得了至今為止最好的結(jié)果。這一事件在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評論數(shù)據(jù)庫項(xiàng)目「AI 影響因子」中有相應(yīng)加分。以下為他們對此次使用的深度學(xué)習(xí)文本檢測框架 Pixel-Anchor 的解讀。
背景導(dǎo)讀
OCR 技術(shù)有著悠久的發(fā)展歷史,從上世紀(jì) 60 年代第一個(gè)識(shí)別英文字母的 OCR 產(chǎn)品面世以來,OCR 的識(shí)別領(lǐng)域逐步擴(kuò)展到數(shù)字、符號,進(jìn)而其他語言,譬如拉丁語系中的法文、德文、意大利文等,東亞語系中的中文、日文、韓文等。OCR 一般包含兩個(gè)基本模塊,文本檢測和文本識(shí)別。在深度學(xué)習(xí)技術(shù)發(fā)展之前,傳統(tǒng) OCR 的文本檢測依賴于一些淺層次的圖像處理方法或者圖像分割方法以及一些復(fù)雜繁瑣的后處理技術(shù)進(jìn)行文字定位,譬如早期基于二值化的連通域提取,或者后期基于極大穩(wěn)定區(qū)域的字符區(qū)域提取,之后再配合這些被提取區(qū)域進(jìn)行一系列的連接操作來完成最終的文本定位。因?yàn)檫@些技術(shù)的使用,傳統(tǒng) OCR 所處理的對象往往局限于成像清晰,背景干凈,字體簡單而同時(shí)又排列規(guī)整的文檔圖像。
隨著深度學(xué)習(xí)的發(fā)展,在 OCR 的文本檢測領(lǐng)域中,也涌現(xiàn)出一系列端到端的深度學(xué)習(xí)檢測框架,OCR 所能處理的對象逐步從高質(zhì)量的文檔圖像擴(kuò)展到成像質(zhì)量高低不等、背景復(fù)雜、字體多樣、文本方向任意的自然場景中。應(yīng)用范圍也從文檔識(shí)別擴(kuò)展到圖片廣告過濾、場景理解、商品識(shí)別、街景定位、票據(jù)識(shí)別等廣泛的領(lǐng)域。下圖是幾個(gè)自然場景文本檢測的例子。
目前基于深度學(xué)習(xí)的文本檢測框架可以分為兩類,一類是基于像素級別的圖像語義分割,另一類是來源于通用的物體檢測框架,譬如基于錨 (anchor) 的檢測和回歸。
基于像素分割的文本檢測框架首先通過圖像語義分割獲得可能的文本像素,之后通過像素點(diǎn)直接回歸或者對文本像素的聚合得到最終的文本定位;而基于錨檢測回歸的文本檢測框架是在通用物體檢測的基礎(chǔ)之上,通過設(shè)置更多不同長寬比的錨來適應(yīng)文本變長的特性,以達(dá)到文本定位的效果。
基于像素分割的文本檢測往往具有更好的精確度,但是對于小尺度的文本,因?yàn)檫m用的文本像素過于稀疏,檢出率通常不高,除非以犧牲檢測效率為代價(jià)對輸入圖像進(jìn)行大尺度的放大;基于錨檢測回歸的文本檢測對文本尺度本身不敏感,對小文本的檢出率高,但是對于大角度的密集文本塊,錨匹配的方式會(huì)不可避免的陷入無法適從的矛盾之中,此外,由于這種方法是基于文本整體的粗粒度特征,而并不是基于像素級別的精細(xì)特征,它的檢測精度往往不如基于像素分割的文本檢測。對于中文這樣文本長度跨度很大的語言,目前的這兩種方法在長文本上的效果都不盡人意。
針對這些問題,云從科技提出了一種端到端的深度學(xué)習(xí)文本檢測框架 Pixel-Anchor,通過特征共享的方式高效的把像素級別的圖像語義分割和錨檢測回歸放入一個(gè)網(wǎng)絡(luò)之中,把像素分割結(jié)果轉(zhuǎn)換為錨檢測回歸過程中的一種注意力機(jī)制,使得錨檢測回歸的方法在獲得高檢出率的同時(shí),也獲得高精確度。
此外,對于如中文這樣文本長度跨度很大的語言,在 Pixel-Anchor 中,云從科技提出了一個(gè)自適應(yīng)的預(yù)測層,針對不同層級的特征所對應(yīng)的感受野范圍,設(shè)計(jì)不同的錨以及錨的空間位置分布,以更高的效率更好的適應(yīng)變化的文本長度。如前所述,在兩個(gè)具有挑戰(zhàn)性的自然場景文本檢測測試集 ICDAR2015 以及 ICDAR2017 MLT,Pixel-Anchor 在檢測準(zhǔn)確率和檢測效率兩個(gè)綜合維度上,獲得了至今為止最好的結(jié)果(具體結(jié)果見下面 Table 1,Table 2 和 Table 3)。該框架在滿足生產(chǎn)環(huán)境實(shí)時(shí)性要求的基礎(chǔ)上獲得了很高的檢測準(zhǔn)確率,目前已在云從科技的證件票據(jù)識(shí)別系統(tǒng)和圖片廣告過濾系統(tǒng)中上線。
Pixel-Anchor 這套文本檢測框架,和目前主流的文本檢測框架相比,提出了兩個(gè)大的改進(jìn)點(diǎn):
第一點(diǎn)是提出了把像素級別的圖像語義分割以及基于錨的檢測回歸方法高效融合在一起,可端到端訓(xùn)練的檢測網(wǎng)絡(luò)。在該網(wǎng)絡(luò)中,像素級別的圖像語義分割以及基于錨的檢測回歸方法共享基礎(chǔ)特征,而像素級別的圖像語義分割結(jié)果作為一種注意力機(jī)制,用以監(jiān)督錨檢測回歸的執(zhí)行過程,在有效保證文本檢出率的同時(shí),提升了文本檢測的精度。
總體框架見上圖,Pixel-Anchor 采用學(xué)術(shù)界通用的 ResNet-50 作為特征提取主干網(wǎng)絡(luò),提取出 1/4,1/8,1/16 的特征圖作為像素級別語義分割模塊(Figure 5)以及錨檢測回歸模塊(Figure 6)的基礎(chǔ)特征,同時(shí)語義分割模塊的輸出結(jié)果以熱力圖的形式注入到錨檢測回歸模塊中。整個(gè)網(wǎng)絡(luò)簡單輕巧,可通過 ADAM 優(yōu)化方法進(jìn)行端到端的訓(xùn)練。
第二點(diǎn)是在錨檢測回歸這個(gè)模塊中引入了自適應(yīng)預(yù)測層「Adaptive Predictor Layer」,該預(yù)測層連接在不同層級的特征圖之后,根據(jù)各特征圖感受野的不同,調(diào)整錨的長寬比,卷積核的形狀以及錨的空間密度(anchor density,見 Figure 7),用以高效的獲得各特征圖上的文本檢測結(jié)果,進(jìn)而對文本長度的變化獲得更好的適應(yīng)性。自適應(yīng)預(yù)測層在檢測水平長文本上的性能非常出色,和經(jīng)典的 CTPN 方法相比,這一方法不需要復(fù)雜的后處理,更魯棒的同時(shí)效率更高。
論文地址:https://arxiv.org/abs/1811.07432
(完)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。