The existing human pose estimation methods are confronted with inaccurate long-distance regression or high computational cost due to the complex learning objectives. This work proposes a novel deep learning framework for human pose estimation called composite localization to divide the complex learning objective into two simpler ones: a sparse heatmap to find the keypoint's approximate location and two short-distance offsetmaps to obtain its final precise coordinates. To realize the framework, we construct two types of composite localization networks: CLNet-ResNet and CLNet-Hourglass. We evaluate the networks on three benchmark datasets, including the Leeds Sports Pose dataset, the MPII Human Pose dataset, and the COCO keypoints detection dataset. The experimental results show that our CLNet-ResNet50 outperforms SimpleBaseline by 1.14% with about 1/2 GFLOPs. Our CLNet-Hourglass outperforms the original stacked-hourglass by 4.45% on COCO.


翻译:由于学习目标复杂,现有人类构成估计方法面临不准确的长距离回归或高计算成本。 这项工作提出了一个新的人类构成估计深学习框架,称为复合本地化,将复杂的学习目标分为两个更简单的目标:寻找关键点大致位置的稀疏热图和获得最终精确坐标的两种短距离偏移图。 为了实现这一框架,我们建造了两类复合本地化网络:CLNet-ResNet和CLNet-Hourglas。我们评估了三个基准数据集的网络,包括利兹体育软体数据集、MPII人类软体数据集和COCO关键点探测数据集。实验结果显示,我们的CLNet-ResNet50将简单基准线比1. 14% 高出大约1/2 GFLOPs。 我们的CLNet-Hourclasy 将原堆式小时玻璃比4.45% CO 。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
专知会员服务
110+阅读 · 2020年3月12日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
27+阅读 · 2020年12月24日
DPOD: Dense 6D Pose Object Detector in RGB images
Arxiv
5+阅读 · 2019年2月28日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员