Fast Human Pose Estimation

ZLT·2023-09-30·2992 次阅读

论文介绍

Fast-Human-Pose-Estimation 下载

这篇文章的标题是“Fast Human Pose Estimation”，作者是Feng Zhang, Xiatian Zhu和Mao Ye。以下是该文档的摘要：

背景：尽管现有的人体姿态估计方法在模型泛化性能上有所提高，但它们往往忽略了效率问题。这导致了在实际使用中的模型效率和成本效益较差。为了解决这个问题，作者提出了一种新的Fast Pose Distillation (FPD)模型学习策略。
主要贡献：

作者研究了人体姿态模型的效率问题，这与现有的大多数方法形成了对比，后者主要关注于提高准确性，但在部署时的模型推断成本很高。
提出了一种Fast Pose Distillation (FPD)模型训练方法，可以更有效地训练非常小的人体姿态CNN网络。这基于知识蒸馏的思想，该思想已成功应用于对象图像分类的深度模型中。
设计了一个轻量级的Hourglass网络，可以构建更具成本效益的姿态估计CNN模型，同时保留足够的学习能力，以实现满意的准确率。

方法：作者首先训练了一个大型的教师姿态模型，然后使用该模型的知识来训练一个目标学生模型。这种方法的关键是设计一个适当的模仿损失函数，该函数能够有效地从教师模型中提取并转移知识，以训练学生模型。
实验：作者使用了两个人体姿态基准数据集，MPII和Leeds Sports Pose (LSP)，进行了实验。使用了标准的Percentage of Correct Keypoints (PCK)测量方法来评估模型的性能。

思路：先分别减少Hourglass的Features数和堆叠网络的个数来观察其性能降低多少。之后，选择一个网络作为学生网络，通过知识蒸馏的方法使得其性能再提升上来。从而实现精度基本不变而部署消耗大大减少的目的。下图为作者减少Hourglass的Feature数和Stage数的对比图：

Hourglass网络结构通常表现为一种下采样然后上采样的形状，看起来像一个沙漏。

在下采样阶段，空间分辨率逐渐降低但特征的深度（通道数）增加，使网络能够捕捉更多的语义信息。然后，在上采样阶段，网络尝试重建高分辨率的信息。这种结构允许网络在不同的空间分辨率层级上捕捉信息。

最后作者选定了4堆叠块，128通道的HourglassNet小网络作为学生网络。训练过程如下图：

损失函数：

前者为教师网络输出作为监督信息而得到的损失，另一项损失便为ground truth作为监督信息得到的损失。两者的损失函数都使用MSE损失函数。

姿态检测+评分的Demo尝试

将标准视频进行爬取，将视频逐帧读取成图片;
由于图片背景光线不太利于关键点捕抓，利用deeplabv3p_xception65_humanseg进行抠图处理;
基于pose_resnet50_mpii模型进行关键点检测并存储检测结果;
然后对测试视频作同样处理存储检测结果;
基于单通道的直方图对标准检测结果集以及测试检测结果集进行图片相似度计算，取结果均值作为选手的主题曲实力值;

评分代码：

import cv2

# 计算单通道的直方图的相似值
def calculate(image1, image2):
    hist1 = cv2.calcHist([image1], [0], None, [256], [0.0, 255.0])
    hist2 = cv2.calcHist([image2], [0], None, [256], [0.0, 255.0])
    # 计算直方图的重合度
    degree = 0
    for i in range(len(hist1)):
        if hist1[i] != hist2[i]:
            degree = degree + (1 - abs(hist1[i] - hist2[i]) / max(hist1[i], hist2[i]))
        else:
            degree = degree + 1
    degree = degree / len(hist1)
    return degree

使用距离度量（如欧几里得距离）或相似性度量（如余弦相似性）进行动作评估，其准确性和效果确实会受到一些限制。这些度量方法通常更适用于简单的相似性比较，但在复杂的动作评估场景中可能不够精确。以下是一些可能的问题和考虑因素：

不同动作的范围: 两个动作可能在大部分关键点上都很相似，但在某一特定关键点上有很大的差异。使用欧几里得距离可能会忽视这种局部的重要差异。
动作的速度和节奏: 仅比较关键点可能会忽视动作的速度和节奏，这在某些场合（如舞蹈或体操）是非常关键的。
动作的连续性: 真实世界的动作是连续的，而不是离散的关键点。仅使用静态的度量方法可能不足以捕捉动作的所有细节。
维度的问题: 欧几里得距离在高维空间中可能不太稳定，而人体的关键点数据是高维的。
角度和方向: 余弦相似性更多地考虑了向量的方向而不是大小。但在动作评估中，角度和距离都是重要的。

基于深度度量学习的动作相似性度量

基于深度神经网络动作质量评估首先使用深度神经网络提取动作的特征，然后将动作质量分数的预测建模为回归任务，通过多次训练使得预测出的质量分数与真实分数之间的误差尽可能地小[37小42]。但基于回归的动作评估得到的质量分数缺乏可解释性。通过引入参考序列进行对比，使得质量分数预测的环节更加完善，并且不需要针对特点的动作指定不司的评估指标，只需学习如何更好的比较两个动作。针对传统度量学习难以捕获复杂动作的非线性特征和时间语义信息，本文提出基于 AM-GCN 和深度度量学习的动作质量评估模型。

李生网络的结构如图所示，将两个样本分别送入到两个相同的深度神经网络中，两个特征提取网络的结构和参数相同。然后使用损失函数计算两个输出结果的距离差，误差越小相似度越高。损失函数根据输入数据和任务的不同可以使用对比损失、余弦损失、交叉熵损失等。但通过深度神经网络得到的高维特征向量已经超出欧几里得空间距离衡量的范围，因此不适合用对比损失函数衡量两个高维特征差异。本文通过全连接层学习两个高维特征向量间的相似性。

设想的路线

赏

人体关键点检测以及应用

轻量级姿态估计技巧总结

Author

ZLT

科技数码互联网，代码改变生活

查看评论 - NOTHING

Comments | NOTHING

暂无评论

取消回复

Markdown Supported while Forbidden

你是我一生只会遇见一次的惊喜 ...

戳我试试 OωO 嘿嘿嘿ヾ(≧∇≦*)ゝ

bilibili~	(=・ω・=)	Tieba

IamZLT's BLOG

切换主题 | SCHEME TOOL