今日 Paper | 高效骨干搜索；學(xué)習(xí)擴(kuò)充；最小人臉檢測器；?DEPARA等

本文作者： AI研習(xí)社

2020-04-01 11:19

導(dǎo)語：為了更好地服務(wù)廣大 AI 青年，AI 研習(xí)社正式推出全新「論文」版塊。

用于場景文本識別的高效骨干搜索

論文名稱：Efficient Backbone Search for Scene Text Recognition

作者：Zhang Hui /Yao Quanming /Yang Mingkun /Xu Yongchao /Bai Xiang

發(fā)表時間：2020/3/14

論文鏈接：https://paper.yanxishe.com/review/14658?from=leiphonecolumn_paperreview0401

推薦原因

這篇論文要解決的是場景文本識別(Scene Text Recognition, STR)的問題。過去的研究更加重視通過改進(jìn)預(yù)處理圖像模塊來提高性能，比如校正和去模糊，或者序列轉(zhuǎn)換器。然而，另一個關(guān)鍵模塊，即特征序列提取器，還沒有得到廣泛的研究。這篇論文提出了一個自動化場景文本識別(AutoSTR)方法來搜索依賴于數(shù)據(jù)的主干模型，以提高文本識別性能。首先，新方法為STR設(shè)計了一個特定于域的搜索空間，其中包含了各種運算的選擇和下采樣路徑的約束。然后，新方法使用了一個兩步搜索算法，它解耦了操作和下采樣路徑，可以在給定的空間中進(jìn)行有效的搜索。實驗表明，通過搜索依賴于數(shù)據(jù)的主干，AutoSTR可以在更少錯誤和模型參數(shù)的情況下，在標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集上超越最先進(jìn)的方法。

今日 Paper | 高效骨干搜索；學(xué)習(xí)擴(kuò)充；最小人臉檢測器；?DEPARA等

學(xué)習(xí)擴(kuò)充：用于文本識別的聯(lián)合數(shù)據(jù)增強(qiáng)和網(wǎng)絡(luò)優(yōu)化

論文名稱：Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition

作者：Luo Canjie /Zhu Yuanzhi /Jin Lianwen /Wang Yongpan

發(fā)表時間：2020/3/14

論文鏈接：https://paper.yanxishe.com/review/14657?from=leiphonecolumn_paperreview0401

推薦原因

這篇論文被CVPR 2020接收，要解決的是文本識別問題。

這篇論文提出了一種新的文本圖像數(shù)據(jù)增強(qiáng)方法。與傳統(tǒng)增強(qiáng)方法（例如旋轉(zhuǎn)、縮放和透視變換）不同，新方法旨在掌握適當(dāng)而高效的數(shù)據(jù)增強(qiáng)方法，對于訓(xùn)練健壯的識別器更有效而具體。新方法通過使用一組自定義基準(zhǔn)點變得靈活而可控，并通過聯(lián)合學(xué)習(xí)彌合了孤立數(shù)據(jù)增強(qiáng)過程與網(wǎng)絡(luò)優(yōu)化之間的鴻溝。代理網(wǎng)絡(luò)從識別網(wǎng)絡(luò)的輸出中學(xué)習(xí)并控制基準(zhǔn)點，從而為識別網(wǎng)絡(luò)生成更合適的訓(xùn)練樣本。在包括常規(guī)場景文本、不規(guī)則場景文本、手寫文本在內(nèi)的各種基準(zhǔn)上進(jìn)行的大量實驗表明，這篇論文提出的增強(qiáng)方法和聯(lián)合學(xué)習(xí)策略顯著提高了識別網(wǎng)絡(luò)的性能。

KPNet：最小人臉檢測器

論文名稱：KPNet: Towards Minimal Face Detector

作者：Song Guanglu /Liu Yu /Zang Yuhang /Wang Xiaogang /Leng Biao /Yuan Qingsheng

發(fā)表時間：2020/3/17

論文鏈接：https://paper.yanxishe.com/review/14656?from=leiphonecolumn_paperreview0401

推薦原因

這篇論文發(fā)表于AAAI 2020，考慮的是人臉檢測的問題。

這篇論文發(fā)現(xiàn)臉部外觀特征具有足夠的判別力，用微型淺層神經(jīng)網(wǎng)絡(luò)也可以從背景中進(jìn)行檢測。與大多數(shù)自上而下聯(lián)合面部檢測和對齊方法不同，所提KPNet以自下而上的方式檢測較小的面部關(guān)鍵點，而非整個面部。KPNet首先通過精心設(shè)計的細(xì)粒度比例逼近和比例自適應(yīng)Soft-argmax運算符從低分辨率圖像預(yù)測面部界標(biāo)。無需任何復(fù)雜的頭部架構(gòu)或精心的網(wǎng)絡(luò)設(shè)計，KPNet只需約1M參數(shù)即可實現(xiàn)通用人臉檢測和對齊基準(zhǔn)的當(dāng)前最佳準(zhǔn)確率，在GPU上的運行速度為1000fps，且易于在大多數(shù)前端芯片上實時執(zhí)行。

DEPARA:深度知識可遷移性的深度屬性圖

論文名稱：DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

作者：Song Jie /Chen Yixin /Ye Jingwen /Wang Xinchao /Shen Chengchao /Mao Feng /Song Mingli

發(fā)表時間：2020/3/17

論文鏈接：https://paper.yanxishe.com/review/14655?from=leiphonecolumn_paperreview0401

推薦原因

這篇論文被CVPR 2020接收，提出了名為DEPARA的深度屬性圖模型，以研究從預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)（PRe-trained Deep Neural Networks，PR-DNN）中獲得的知識的可遷移性。在DEPARA中，節(jié)點對應(yīng)于輸入，并由它們在PR-DNN的輸出的向量化屬性圖表示。邊表示輸入之間的相關(guān)性，并通過從PR-DNN中提取的特征相似度來衡量。兩個PR-DNN的知識可遷移性是通過它們對應(yīng)的DEPARA的相似性來衡量的。這篇論文將DEPARA應(yīng)用于遷移學(xué)習(xí)中的預(yù)訓(xùn)練模型選擇和層選擇問題，并通過大量實驗證明所提方法在解決這兩個問題上的有效性和優(yōu)越性。

用于任意形狀文本檢測的深度關(guān)系推理圖網(wǎng)絡(luò)

論文名稱：Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

作者：Zhang Shi-Xue /Zhu Xiaobin /Hou Jie-Bo /Liu Chang /Yang Chun /Wang Hongfa /Yin Xu-Cheng

發(fā)表時間：2020/3/17

論文鏈接：https://paper.yanxishe.com/review/14654?from=leiphonecolumn_paperreview0401

推薦原因

這篇論文已經(jīng)被CVPR 2020接收，要解決的是任意形狀的文本檢測。

這篇論文提出了一種用于任意形狀文本檢測的新統(tǒng)一關(guān)系推理圖網(wǎng)絡(luò)。在該方法中，局部圖通過卷積神經(jīng)網(wǎng)絡(luò)橋接了文本提議模型，并通過圖卷積網(wǎng)絡(luò)跨越深度關(guān)系推理網(wǎng)絡(luò)，從而使所提網(wǎng)絡(luò)端到端可訓(xùn)練。具體而言，每個文本實例將被分成一系列小的矩形組件，并且這些小組件的幾何屬性（如高度、寬度和方向）將由文本提案模型估算。給定幾何屬性，本地圖構(gòu)造模型可以大致建立不同文本組件之間的鏈接。為進(jìn)一步推理并推論組件與其鄰居之間鏈接的可能性，這篇論文采用基于圖的網(wǎng)絡(luò)對局部圖執(zhí)行深度關(guān)系推理。公開數(shù)據(jù)集上的實驗證明了所提方法具有當(dāng)前最佳性能。