0
本文作者: AI研習(xí)社 | 2020-04-08 10:56 |
UnrealText:從虛擬世界合成真實(shí)場(chǎng)景文本圖像
ScrabbleGAN:半監(jiān)督變長(zhǎng)手寫(xiě)文本生成
ROAM:遞歸優(yōu)化跟蹤模型
G2L-Net:用于實(shí)時(shí)6D姿態(tài)估計(jì)的嵌入矢量特征的全局到局部網(wǎng)絡(luò)
用于人體姿勢(shì)估計(jì)的多視角圖像的可穿戴IMU融合:一種幾何方法
論文名稱(chēng):UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World
作者:Long Shangbang /Yao Cong
發(fā)表時(shí)間:2020/3/24
論文鏈接:https://paper.yanxishe.com/review/15414?from=leiphonecolumn_paperreview0408
推薦原因
這篇論文被CVPR 2020接收,提出了一種名為UnrealText的圖像合成方法,可以通過(guò)3D圖形引擎渲染逼真的圖像。3D合成引擎通過(guò)整體渲染場(chǎng)景和文本來(lái)提供逼真外觀,并允許訪(fǎng)問(wèn)精確的場(chǎng)景信息。這篇論文通過(guò)大量實(shí)驗(yàn)驗(yàn)證了所提方法在場(chǎng)景文本檢測(cè)和識(shí)別方面的有效性。這篇論文還會(huì)生成多語(yǔ)言版本,以供將來(lái)對(duì)多語(yǔ)言場(chǎng)景文本檢測(cè)和識(shí)別進(jìn)行研究。
論文名稱(chēng):ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation
作者:Fogel Sharon /Averbuch-Elor Hadar /Cohen Sarel /Mazor Shai /Litman Roee
發(fā)表時(shí)間:2020/3/23
論文鏈接:https://paper.yanxishe.com/review/15413?from=leiphonecolumn_paperreview0408
推薦原因
這篇論文被CVPR 2020接收,考慮的是手寫(xiě)文本生成的問(wèn)題。
深度學(xué)習(xí)方法在手寫(xiě)文本識(shí)別問(wèn)題上取得了大幅的性能提高,然而由于手寫(xiě)體的每個(gè)人都有獨(dú)特風(fēng)格,基于深度學(xué)習(xí)的訓(xùn)練樣本會(huì)受到數(shù)量的限制。收集數(shù)據(jù)是一項(xiàng)具有挑戰(zhàn)性且代價(jià)高昂的任務(wù),而隨后的標(biāo)注任務(wù)也非常困難。這篇論文使用半監(jiān)督方法來(lái)減輕數(shù)據(jù)標(biāo)注的負(fù)擔(dān)。與完全監(jiān)督的方法相比,半監(jiān)督方法除了使用標(biāo)記數(shù)據(jù)之外,還使用一些未標(biāo)記的樣本來(lái)提高性能,從而能更好地適應(yīng)測(cè)試集中新出現(xiàn)的圖像。
論文名稱(chēng):ROAM: Recurrently Optimizing Tracking Model
作者:Yang Tianyu /Xu Pengfei /Hu Runbo /Chai Hua /Chan Antoni B.
發(fā)表時(shí)間:2019/7/28
論文鏈接:https://paper.yanxishe.com/review/15412?from=leiphonecolumn_paperreview0408
推薦原因
這篇論文被CVPR 2020接收,提出了一個(gè)由反應(yīng)生成和邊界框回歸組成的追蹤模型,其中反應(yīng)生成部分通過(guò)生成一個(gè)熱圖來(lái)顯示對(duì)象出現(xiàn)在不同的位置,邊界框回歸部分通過(guò)回歸相對(duì)的邊界框來(lái)定位滑動(dòng)窗口的位置。為了有效地使模型適應(yīng)外觀變化,這篇論文提出通過(guò)離線(xiàn)訓(xùn)練一個(gè)遞歸神經(jīng)優(yōu)化器來(lái)更新追蹤模型,使模型在幾個(gè)梯度步驟內(nèi)收斂,提高了更新跟蹤模型的收斂速度,同時(shí)獲得了更好的性能。在OTB, VOT, LaSOT, GOT-10K和TrackingNet基準(zhǔn)數(shù)據(jù)集上評(píng)估了新提出的模型、ROAM和ROAM++這兩個(gè)模型,實(shí)驗(yàn)結(jié)果表明新提出的方法明顯優(yōu)于最先進(jìn)的方法。
論文名稱(chēng):G2L-Net: Global to Local Network for Real-time 6D Pose Estimation with Embedding Vector Features
作者:Chen Wei /Jia Xi /Chang Hyung Jin /Duan Jinming /Leonardis Ales
發(fā)表時(shí)間:2020/3/24
論文鏈接:https://paper.yanxishe.com/review/15408?from=leiphonecolumn_paperreview0408
推薦原因
這篇論文被CVPR 2020接收,要處理的是姿態(tài)估計(jì)的問(wèn)題。
這篇論文提出了一個(gè)名為G2L-Net的實(shí)時(shí)6D目標(biāo)姿態(tài)估計(jì)框架,包含三個(gè)部分:首先通過(guò)二維檢測(cè)從RGB-D圖像中提取粗粒度目標(biāo)點(diǎn)云;然后將粗粒度目標(biāo)點(diǎn)云加入到遷移定位網(wǎng)絡(luò)中進(jìn)行三維分割和目標(biāo)遷移預(yù)測(cè);最后通過(guò)預(yù)測(cè)得到的分割和平移信息,將細(xì)粒度目標(biāo)點(diǎn)云轉(zhuǎn)化為局部正則坐標(biāo),用于訓(xùn)練旋轉(zhuǎn)定位網(wǎng)絡(luò)來(lái)估計(jì)初始目標(biāo)旋轉(zhuǎn)。在第三步中,G2L-Net通過(guò)定義逐點(diǎn)嵌入向量特征來(lái)捕獲視圖感知的信息。為了計(jì)算出更精確的旋轉(zhuǎn),G2L-Net還采用旋轉(zhuǎn)殘差估計(jì)器來(lái)估計(jì)初始旋轉(zhuǎn)與真實(shí)標(biāo)簽之間的殘差,從而提高初始姿態(tài)估計(jì)的性能。在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,G2L-Net在精度和速度方面都達(dá)到了最新的水平。
論文名稱(chēng):Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A Geometric Approach
作者:Zhang Zhe /Wang Chunyu /Qin Wenhu /Zeng Wenjun
發(fā)表時(shí)間:2020/3/25
論文鏈接:https://paper.yanxishe.com/review/15407?from=leiphonecolumn_paperreview0408
推薦原因
這篇論文被CVPR 2020接收,要解決的是3D人體姿勢(shì)估計(jì)的問(wèn)題。
利用可穿戴的慣性測(cè)量單元(Inertial measurement unit,IMU),這篇論文提出一種名為定向正則化網(wǎng)絡(luò)(Orientation Regularized Network,ORN)的幾何方法,來(lái)增強(qiáng)每對(duì)關(guān)節(jié)的視覺(jué)特征。當(dāng)一個(gè)關(guān)節(jié)被遮擋時(shí),新方法可以顯著提高2D姿態(tài)估計(jì)的準(zhǔn)確性。然后,這篇論文通過(guò)定向規(guī)則化圖形結(jié)構(gòu)模型(Orientation Regularized Pictorial Structure Model,ORPSM)將多視圖2D姿勢(shì)提升到3D空間,來(lái)最小化3D和2D姿勢(shì)之間的投影誤差,以及3D姿勢(shì)和IMU方向之間的差異。這種兩步的方法明顯減少了公開(kāi)數(shù)據(jù)集上的誤差。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)文章:
今日 Paper | COVID-19;深度興趣網(wǎng)絡(luò);COVIDX-NET;場(chǎng)景文本遷移等
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。