0
本文作者: AI研習(xí)社 | 2020-04-08 10:56 |
UnrealText:從虛擬世界合成真實場景文本圖像
ScrabbleGAN:半監(jiān)督變長手寫文本生成
ROAM:遞歸優(yōu)化跟蹤模型
G2L-Net:用于實時6D姿態(tài)估計的嵌入矢量特征的全局到局部網(wǎng)絡(luò)
用于人體姿勢估計的多視角圖像的可穿戴IMU融合:一種幾何方法
論文名稱:UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World
作者:Long Shangbang /Yao Cong
發(fā)表時間:2020/3/24
論文鏈接:https://paper.yanxishe.com/review/15414?from=leiphonecolumn_paperreview0408
推薦原因
這篇論文被CVPR 2020接收,提出了一種名為UnrealText的圖像合成方法,可以通過3D圖形引擎渲染逼真的圖像。3D合成引擎通過整體渲染場景和文本來提供逼真外觀,并允許訪問精確的場景信息。這篇論文通過大量實驗驗證了所提方法在場景文本檢測和識別方面的有效性。這篇論文還會生成多語言版本,以供將來對多語言場景文本檢測和識別進行研究。
論文名稱:ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation
作者:Fogel Sharon /Averbuch-Elor Hadar /Cohen Sarel /Mazor Shai /Litman Roee
發(fā)表時間:2020/3/23
論文鏈接:https://paper.yanxishe.com/review/15413?from=leiphonecolumn_paperreview0408
推薦原因
這篇論文被CVPR 2020接收,考慮的是手寫文本生成的問題。
深度學(xué)習(xí)方法在手寫文本識別問題上取得了大幅的性能提高,然而由于手寫體的每個人都有獨特風(fēng)格,基于深度學(xué)習(xí)的訓(xùn)練樣本會受到數(shù)量的限制。收集數(shù)據(jù)是一項具有挑戰(zhàn)性且代價高昂的任務(wù),而隨后的標(biāo)注任務(wù)也非常困難。這篇論文使用半監(jiān)督方法來減輕數(shù)據(jù)標(biāo)注的負(fù)擔(dān)。與完全監(jiān)督的方法相比,半監(jiān)督方法除了使用標(biāo)記數(shù)據(jù)之外,還使用一些未標(biāo)記的樣本來提高性能,從而能更好地適應(yīng)測試集中新出現(xiàn)的圖像。
論文名稱:ROAM: Recurrently Optimizing Tracking Model
作者:Yang Tianyu /Xu Pengfei /Hu Runbo /Chai Hua /Chan Antoni B.
發(fā)表時間:2019/7/28
論文鏈接:https://paper.yanxishe.com/review/15412?from=leiphonecolumn_paperreview0408
推薦原因
這篇論文被CVPR 2020接收,提出了一個由反應(yīng)生成和邊界框回歸組成的追蹤模型,其中反應(yīng)生成部分通過生成一個熱圖來顯示對象出現(xiàn)在不同的位置,邊界框回歸部分通過回歸相對的邊界框來定位滑動窗口的位置。為了有效地使模型適應(yīng)外觀變化,這篇論文提出通過離線訓(xùn)練一個遞歸神經(jīng)優(yōu)化器來更新追蹤模型,使模型在幾個梯度步驟內(nèi)收斂,提高了更新跟蹤模型的收斂速度,同時獲得了更好的性能。在OTB, VOT, LaSOT, GOT-10K和TrackingNet基準(zhǔn)數(shù)據(jù)集上評估了新提出的模型、ROAM和ROAM++這兩個模型,實驗結(jié)果表明新提出的方法明顯優(yōu)于最先進的方法。
論文名稱:G2L-Net: Global to Local Network for Real-time 6D Pose Estimation with Embedding Vector Features
作者:Chen Wei /Jia Xi /Chang Hyung Jin /Duan Jinming /Leonardis Ales
發(fā)表時間:2020/3/24
論文鏈接:https://paper.yanxishe.com/review/15408?from=leiphonecolumn_paperreview0408
推薦原因
這篇論文被CVPR 2020接收,要處理的是姿態(tài)估計的問題。
這篇論文提出了一個名為G2L-Net的實時6D目標(biāo)姿態(tài)估計框架,包含三個部分:首先通過二維檢測從RGB-D圖像中提取粗粒度目標(biāo)點云;然后將粗粒度目標(biāo)點云加入到遷移定位網(wǎng)絡(luò)中進行三維分割和目標(biāo)遷移預(yù)測;最后通過預(yù)測得到的分割和平移信息,將細粒度目標(biāo)點云轉(zhuǎn)化為局部正則坐標(biāo),用于訓(xùn)練旋轉(zhuǎn)定位網(wǎng)絡(luò)來估計初始目標(biāo)旋轉(zhuǎn)。在第三步中,G2L-Net通過定義逐點嵌入向量特征來捕獲視圖感知的信息。為了計算出更精確的旋轉(zhuǎn),G2L-Net還采用旋轉(zhuǎn)殘差估計器來估計初始旋轉(zhuǎn)與真實標(biāo)簽之間的殘差,從而提高初始姿態(tài)估計的性能。在兩個基準(zhǔn)數(shù)據(jù)集上的大量實驗表明,G2L-Net在精度和速度方面都達到了最新的水平。
論文名稱:Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A Geometric Approach
作者:Zhang Zhe /Wang Chunyu /Qin Wenhu /Zeng Wenjun
發(fā)表時間:2020/3/25
論文鏈接:https://paper.yanxishe.com/review/15407?from=leiphonecolumn_paperreview0408
推薦原因
這篇論文被CVPR 2020接收,要解決的是3D人體姿勢估計的問題。
利用可穿戴的慣性測量單元(Inertial measurement unit,IMU),這篇論文提出一種名為定向正則化網(wǎng)絡(luò)(Orientation Regularized Network,ORN)的幾何方法,來增強每對關(guān)節(jié)的視覺特征。當(dāng)一個關(guān)節(jié)被遮擋時,新方法可以顯著提高2D姿態(tài)估計的準(zhǔn)確性。然后,這篇論文通過定向規(guī)則化圖形結(jié)構(gòu)模型(Orientation Regularized Pictorial Structure Model,ORPSM)將多視圖2D姿勢提升到3D空間,來最小化3D和2D姿勢之間的投影誤差,以及3D姿勢和IMU方向之間的差異。這種兩步的方法明顯減少了公開數(shù)據(jù)集上的誤差。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)文章:
今日 Paper | COVID-19;深度興趣網(wǎng)絡(luò);COVIDX-NET;場景文本遷移等
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。