论文介绍

这篇文章的标题是“Fast Human Pose Estimation”,作者是Feng Zhang, Xiatian Zhu和Mao Ye。以下是该文档的摘要:

  • 背景:尽管现有的人体姿态估计方法在模型泛化性能上有所提高,但它们往往忽略了效率问题。这导致了在实际使用中的模型效率和成本效益较差。为了解决这个问题,作者提出了一种新的Fast Pose Distillation (FPD)模型学习策略。
  • 主要贡献
  1. 作者研究了人体姿态模型的效率问题,这与现有的大多数方法形成了对比,后者主要关注于提高准确性,但在部署时的模型推断成本很高。
  2. 提出了一种Fast Pose Distillation (FPD)模型训练方法,可以更有效地训练非常小的人体姿态CNN网络。这基于知识蒸馏的思想,该思想已成功应用于对象图像分类的深度模型中。
  3. 设计了一个轻量级的Hourglass网络,可以构建更具成本效益的姿态估计CNN模型,同时保留足够的学习能力,以实现满意的准确率。
  • 方法:作者首先训练了一个大型的教师姿态模型,然后使用该模型的知识来训练一个目标学生模型。这种方法的关键是设计一个适当的模仿损失函数,该函数能够有效地从教师模型中提取并转移知识,以训练学生模型。
  • 实验:作者使用了两个人体姿态基准数据集,MPII和Leeds Sports Pose (LSP),进行了实验。使用了标准的Percentage of Correct Keypoints (PCK)测量方法来评估模型的性能。

思路:先分别减少Hourglass的Features数和堆叠网络的个数来观察其性能降低多少。之后,选择一个网络作为学生网络,通过知识蒸馏的方法使得其性能再提升上来。从而实现精度基本不变而部署消耗大大减少的目的。下图为作者减少Hourglass的Feature数和Stage数的对比图:

Hourglass网络结构通常表现为一种下采样然后上采样的形状,看起来像一个沙漏。

在下采样阶段,空间分辨率逐渐降低但特征的深度(通道数)增加,使网络能够捕捉更多的语义信息。然后,在上采样阶段,网络尝试重建高分辨率的信息。这种结构允许网络在不同的空间分辨率层级上捕捉信息。