上交大盧策吾團(tuán)隊(duì)AlphaPose更新，頂級(jí)性能的實(shí)時(shí)姿態(tài)估計(jì)

本文作者：楊曉凡

2018-09-12 17:21

導(dǎo)語(yǔ)：MSCOCO - 71 mAP @ 20 FPS

雷鋒網(wǎng) AI 科技評(píng)論按：今年 2 月，我們報(bào)道過(guò)上海交通大學(xué)盧策吾團(tuán)隊(duì)開(kāi)源 AlphaPose 的消息。

AlphaPose 是一個(gè)多人姿態(tài)估計(jì)系統(tǒng)，具有極高的精準(zhǔn)度。據(jù)盧策吾團(tuán)隊(duì)介紹， AlphaPose 在姿態(tài)估計(jì)（Pose Estimation）標(biāo)準(zhǔn)測(cè)試集 MSCOCO 上達(dá)到 72.3 mAP，是首個(gè)超過(guò) 70 mAP 的開(kāi)源系統(tǒng)，比 Mask-RCNN 相對(duì)提高 8.2%，比 OpenPose（CMU）相對(duì)提高 17%。除此之外，在 MPII 排行榜上，AlphaPose 以 6% 的相對(duì)優(yōu)勢(shì)占據(jù)榜首。AlphaPose 基于騰訊優(yōu)圖和盧策吾團(tuán)隊(duì)在 ICCV 2017 上發(fā)表的分區(qū)域多人姿態(tài)識(shí)別算法（RMPE）。

近日，AlphaPose 迎來(lái)一次重大更新。在不損失精度的情況下，他們把識(shí)別速度提升到實(shí)時(shí)。系統(tǒng)采用PyTorch 框架，在姿態(tài)估計(jì)的標(biāo)準(zhǔn)測(cè)試集MSCOCO上，達(dá)到 71mAP 的精度，同時(shí)，速度達(dá)到 20FPS（平均每張圖像中有 4. 6 人）。代碼支持 Linux 和 Windows。

上交大盧策吾團(tuán)隊(duì)AlphaPose更新，頂級(jí)性能的實(shí)時(shí)姿態(tài)估計(jì)

各開(kāi)源框架在MSCOCO上的性能，運(yùn)行在 1080Ti 單卡上

據(jù)盧策吾團(tuán)隊(duì)介紹，新版 AlphaPose 系統(tǒng)，架設(shè)在 PyTorch 框架上，得益于 PyTorch 的靈活性，新系統(tǒng)對(duì)用戶更加友好，安裝使用過(guò)程更加簡(jiǎn)易，也方便進(jìn)行二次開(kāi)發(fā)。同時(shí)，系統(tǒng)支持圖片、視頻、攝像頭輸入，實(shí)時(shí)在線計(jì)算出多人的姿態(tài)結(jié)果。

為了在兼顧速度的同時(shí)保持精度，新版 AlphaPose 提出了一個(gè)新的姿態(tài)估計(jì)模型。模型的骨架網(wǎng)絡(luò)使用 ResNet101，在下采樣部分添加 SE 模塊作為 attention 模塊。除此之外，使用 PixelShuffle 進(jìn)行3次上采樣，輸出關(guān)鍵點(diǎn)的熱度圖，在提高分辨率的同時(shí)，保持特征信息不丟失，技術(shù)論文會(huì)在近期公布。

另一方面，盧策吾本人在知乎上表示，「alphapose 系統(tǒng)接下來(lái)計(jì)劃上線 3D pose，密集人群 pose，超輕量級(jí) pose，pose-action 聯(lián)合預(yù)測(cè)模塊，等等，每一個(gè)模塊一般會(huì)對(duì)應(yīng)一篇學(xué)術(shù)論文。MVIG 團(tuán)隊(duì)會(huì)持續(xù)優(yōu)化速度，精度。希望能像 Yolo 一樣持續(xù)更新成為一個(gè)對(duì)大家有用的系統(tǒng)。學(xué)術(shù)上，有新的算法第一時(shí)間更新，并投稿頂級(jí)會(huì)議。工程上，也會(huì)做到方便二次開(kāi)發(fā)?！箯倪@樣的路線圖可以看到，AlphaPose 目標(biāo)是成為一個(gè)對(duì)學(xué)界、業(yè)界都開(kāi)放、有用的代碼庫(kù)，我們也非常期待 AlphaPose 的未來(lái)更新。

項(xiàng)目鏈接：

https://github.com/MVIG-SJTU/AlphaPose/tree/pytorch

項(xiàng)目主頁(yè)：

http://www.mvig.org/research/alphapose.html

ICCV 2017 RMPE論文鏈接：

http://cn.arxiv.org/abs/1612.00137

上交大盧策吾團(tuán)隊(duì)AlphaPose更新，頂級(jí)性能的實(shí)時(shí)姿態(tài)估計(jì)

人體關(guān)鍵點(diǎn)檢測(cè)對(duì)于描述人體姿態(tài)，預(yù)測(cè)人體行為至關(guān)重要。因此人體關(guān)鍵點(diǎn)檢測(cè)是諸多計(jì)算機(jī)視覺(jué)任務(wù)的基礎(chǔ)。其在動(dòng)作分類，異常行為檢測(cè)，以及人機(jī)交互等領(lǐng)域有著很廣闊的應(yīng)用前景，是計(jì)算機(jī)視覺(jué)領(lǐng)域中一個(gè)既具有研究?jī)r(jià)值、同時(shí)又極具挑戰(zhàn)性的熱門課題。

上交大盧策吾團(tuán)隊(duì)AlphaPose更新，頂級(jí)性能的實(shí)時(shí)姿態(tài)估計(jì)

盧策吾：上海交通大學(xué)研究員，博士生導(dǎo)師。主要從事計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)相關(guān)研究，入選國(guó)家「青年千人」計(jì)劃，原斯坦福 AI Lab 博士后研究員（導(dǎo)師：Fei-Fei Li 和 Leo Guibas），為斯坦福-豐田無(wú)人車重要研究人員之一。

雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。上海交大機(jī)器視覺(jué)與智能實(shí)驗(yàn)室公眾號(hào)推文參見(jiàn)這里。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。