0
本文作者: AI研習(xí)社 | 2020-04-01 11:19 |
用于場景文本識別的高效骨干搜索
學(xué)習(xí)擴(kuò)充:用于文本識別的聯(lián)合數(shù)據(jù)增強(qiáng)和網(wǎng)絡(luò)優(yōu)化
KPNet:最小人臉檢測器
DEPARA:深度知識可遷移性的深度屬性圖
用于任意形狀文本檢測的深度關(guān)系推理圖網(wǎng)絡(luò)
論文名稱:Efficient Backbone Search for Scene Text Recognition
作者:Zhang Hui /Yao Quanming /Yang Mingkun /Xu Yongchao /Bai Xiang
發(fā)表時間:2020/3/14
論文鏈接:https://paper.yanxishe.com/review/14658?from=leiphonecolumn_paperreview0401
推薦原因
這篇論文要解決的是場景文本識別(Scene Text Recognition, STR)的問題。過去的研究更加重視通過改進(jìn)預(yù)處理圖像模塊來提高性能,比如校正和去模糊,或者序列轉(zhuǎn)換器。然而,另一個關(guān)鍵模塊,即特征序列提取器,還沒有得到廣泛的研究。這篇論文提出了一個自動化場景文本識別(AutoSTR)方法來搜索依賴于數(shù)據(jù)的主干模型,以提高文本識別性能。首先,新方法為STR設(shè)計了一個特定于域的搜索空間,其中包含了各種運(yùn)算的選擇和下采樣路徑的約束。然后,新方法使用了一個兩步搜索算法,它解耦了操作和下采樣路徑,可以在給定的空間中進(jìn)行有效的搜索。實驗表明,通過搜索依賴于數(shù)據(jù)的主干,AutoSTR可以在更少錯誤和模型參數(shù)的情況下,在標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集上超越最先進(jìn)的方法。
論文名稱:Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition
作者:Luo Canjie /Zhu Yuanzhi /Jin Lianwen /Wang Yongpan
發(fā)表時間:2020/3/14
論文鏈接:https://paper.yanxishe.com/review/14657?from=leiphonecolumn_paperreview0401
推薦原因
這篇論文被CVPR 2020接收,要解決的是文本識別問題。
這篇論文提出了一種新的文本圖像數(shù)據(jù)增強(qiáng)方法。與傳統(tǒng)增強(qiáng)方法(例如旋轉(zhuǎn)、縮放和透視變換)不同,新方法旨在掌握適當(dāng)而高效的數(shù)據(jù)增強(qiáng)方法,對于訓(xùn)練健壯的識別器更有效而具體。新方法通過使用一組自定義基準(zhǔn)點變得靈活而可控,并通過聯(lián)合學(xué)習(xí)彌合了孤立數(shù)據(jù)增強(qiáng)過程與網(wǎng)絡(luò)優(yōu)化之間的鴻溝。代理網(wǎng)絡(luò)從識別網(wǎng)絡(luò)的輸出中學(xué)習(xí)并控制基準(zhǔn)點,從而為識別網(wǎng)絡(luò)生成更合適的訓(xùn)練樣本。在包括常規(guī)場景文本、不規(guī)則場景文本、手寫文本在內(nèi)的各種基準(zhǔn)上進(jìn)行的大量實驗表明,這篇論文提出的增強(qiáng)方法和聯(lián)合學(xué)習(xí)策略顯著提高了識別網(wǎng)絡(luò)的性能。
論文名稱:KPNet: Towards Minimal Face Detector
作者:Song Guanglu /Liu Yu /Zang Yuhang /Wang Xiaogang /Leng Biao /Yuan Qingsheng
發(fā)表時間:2020/3/17
論文鏈接:https://paper.yanxishe.com/review/14656?from=leiphonecolumn_paperreview0401
推薦原因
這篇論文發(fā)表于AAAI 2020,考慮的是人臉檢測的問題。
這篇論文發(fā)現(xiàn)臉部外觀特征具有足夠的判別力,用微型淺層神經(jīng)網(wǎng)絡(luò)也可以從背景中進(jìn)行檢測。與大多數(shù)自上而下聯(lián)合面部檢測和對齊方法不同,所提KPNet以自下而上的方式檢測較小的面部關(guān)鍵點,而非整個面部。KPNet首先通過精心設(shè)計的細(xì)粒度比例逼近和比例自適應(yīng)Soft-argmax運(yùn)算符從低分辨率圖像預(yù)測面部界標(biāo)。無需任何復(fù)雜的頭部架構(gòu)或精心的網(wǎng)絡(luò)設(shè)計,KPNet只需約1M參數(shù)即可實現(xiàn)通用人臉檢測和對齊基準(zhǔn)的當(dāng)前最佳準(zhǔn)確率,在GPU上的運(yùn)行速度為1000fps,且易于在大多數(shù)前端芯片上實時執(zhí)行。
論文名稱:DEPARA: Deep Attribution Graph for Deep Knowledge Transferability
作者:Song Jie /Chen Yixin /Ye Jingwen /Wang Xinchao /Shen Chengchao /Mao Feng /Song Mingli
發(fā)表時間:2020/3/17
論文鏈接:https://paper.yanxishe.com/review/14655?from=leiphonecolumn_paperreview0401
推薦原因
這篇論文被CVPR 2020接收,提出了名為DEPARA的深度屬性圖模型,以研究從預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)(PRe-trained Deep Neural Networks,PR-DNN)中獲得的知識的可遷移性。在DEPARA中,節(jié)點對應(yīng)于輸入,并由它們在PR-DNN的輸出的向量化屬性圖表示。邊表示輸入之間的相關(guān)性,并通過從PR-DNN中提取的特征相似度來衡量。兩個PR-DNN的知識可遷移性是通過它們對應(yīng)的DEPARA的相似性來衡量的。這篇論文將DEPARA應(yīng)用于遷移學(xué)習(xí)中的預(yù)訓(xùn)練模型選擇和層選擇問題,并通過大量實驗證明所提方法在解決這兩個問題上的有效性和優(yōu)越性。
論文名稱:Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection
作者:Zhang Shi-Xue /Zhu Xiaobin /Hou Jie-Bo /Liu Chang /Yang Chun /Wang Hongfa /Yin Xu-Cheng
發(fā)表時間:2020/3/17
論文鏈接:https://paper.yanxishe.com/review/14654?from=leiphonecolumn_paperreview0401
推薦原因
這篇論文已經(jīng)被CVPR 2020接收,要解決的是任意形狀的文本檢測。
這篇論文提出了一種用于任意形狀文本檢測的新統(tǒng)一關(guān)系推理圖網(wǎng)絡(luò)。在該方法中,局部圖通過卷積神經(jīng)網(wǎng)絡(luò)橋接了文本提議模型,并通過圖卷積網(wǎng)絡(luò)跨越深度關(guān)系推理網(wǎng)絡(luò),從而使所提網(wǎng)絡(luò)端到端可訓(xùn)練。具體而言,每個文本實例將被分成一系列小的矩形組件,并且這些小組件的幾何屬性(如高度、寬度和方向)將由文本提案模型估算。給定幾何屬性,本地圖構(gòu)造模型可以大致建立不同文本組件之間的鏈接。為進(jìn)一步推理并推論組件與其鄰居之間鏈接的可能性,這篇論文采用基于圖的網(wǎng)絡(luò)對局部圖執(zhí)行深度關(guān)系推理。公開數(shù)據(jù)集上的實驗證明了所提方法具有當(dāng)前最佳性能。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)文章:
今日 Paper | RevealNet;時間序列預(yù)測;無監(jiān)督問答;實時語義立體匹配等
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。