密集场景下的行人跟踪替代算法，头部跟踪算法

大家好，以后我将开一个新的系列，这个系列的内容，主要是从发过顶会的大佬们公开的报告中总结（大部分都是英文的），计划将一些优秀的工作报告视频，整理成图文，供大家一起学习。一起学习顶会大佬们如何做研究，如何分析问题，解决问题，并验证结果的正确性以及宣传包装自己的科研成果（highlight 创新点）。

计划更新频率一周一篇求分享，求点赞支持，一起努力做一个合格的算法工程师！

这篇文章是CVPR 2021 的最新论文，文章的标题：

密集场景下的行人跟踪替代算法，头部跟踪算法 | CVPR 2021_计算机视觉_03

文章的主要内容是提出了一种行人跟踪的替代算法，尝试跟踪行人中最清晰可见的部位（头部）来代替跟踪人体，因为人体存在严重的遮挡现象。同时贡献了一个新的数据集 Crowd of Heads Dataset (CroHD) ，并且提出了一个新的评价跟踪器的指标 IDEucl 。

在活动识别、异常检测、机器人导航、视觉监控、安全规划等领域有着广泛的应用

摘要

在拥挤的视频序列中跟踪人是视觉场景理解的重要组成部分。不断增加的人群密度挑战了人类的可见度，限制了现有行人跟踪器对更高人群密度的可扩展性。为此，我们提出用人头群数据集（Crowd of Heads Dataset，CroHD）恢复人头跟踪，该数据集由9个11463帧的序列组成，包含2276838个人头和5230个在不同场景中注释的轨迹。在评价方面，我们提出了一个新的指标IDEucl来衡量一个算法在图像坐标空间中保持最长距离唯一身份的有效性，从而建立了行人拥挤运动与跟踪算法性能之间的对应关系。此外，我们还提出了一种新的头部检测器HeadHunter，它是为拥挤场景中的小头部检测而设计的。我们扩展了一个粒子滤波和基于颜色直方图的头部跟踪再识别模块的HeadHunter。为了建立一个强大的基线，我们将我们的跟踪器与CroHD上现有的最先进的行人跟踪器进行了比较，并展示了其优越性，特别是在保持身份的跟踪指标方面。我们相信，我们的研究成果将有助于在密集人群中进行行人追踪，因为我们有一个轻便的头部探测器和一个能有效保存身份的跟踪器。

密集场景下的行人跟踪替代算法，头部跟踪算法 | CVPR 2021_python_04

主要内容

在这项工作中，提出了一种在密集人群中进行跟踪的替代方法，通过视频最明显的部位来跟踪行人，即头部。不断增加的人群密度，对人的能见度来说是个挑战。

将现有的行人跟踪器的可拓展性，由于了更高人群密度中的遮挡问题，大大降低了目标检测器的性能。（存在的问题）

为了应对这些挑战，同时在拥挤的人群环境中有效跟踪人，作者重新思考了多目标跟踪任务，通过清晰可见的部位来跟踪人类（解决方案）。

为此，我们提出了一个新的数据集。crow hd crowd of heads 数据集，是由标签的行人头部组成，用于跟踪分布在五个场景中在不同照明环境下的全高清分辨率密集人群（解决方案）。

密集场景下的行人跟踪替代算法，头部跟踪算法 | CVPR 2021_python_05

而现有的跟踪是跟踪算法的有说服力的性能指标，他们没有量化跟踪器能够在图像坐标空间中保留身份的真实情况的比例（存在的问题）。为了弥补这一差距，我们提出 IDEucl 一个度量标准（解决方案），该度量基于它在图像坐标空间中保持一致身份的效率，为了直观地理解我们的指标，请考虑上面显示的示例,图中两个跟踪器 a 和 b 计算相同ground truth 轨迹的不同身份。

密集场景下的行人跟踪替代算法，头部跟踪算法 | CVPR 2021_python_06

跟踪器 a 在前 150 帧中提交了三个身份切换，而另一方面，跟踪器 b 在前 150 帧保持一致的身份，但在后 150 帧中提交了三个身份切换。然而，现有的指标报告了，两个跟踪器的分数相同，因此无法区分。它们作为我们提议的 ide ucl 措施，显示了基于图像坐标空间y轴上中行进距离的跟踪器，它能够区分两个跟踪器并报告跟踪器 a 的分数为 0.3，跟踪器 b 的分数为 0.67（验证猜想）。

密集场景下的行人跟踪替代算法，头部跟踪算法 | CVPR 2021_计算机视觉_07

密集场景下的行人跟踪替代算法，头部跟踪算法 | CVPR 2021_算法_08

作为补充，我们在crow hd 上开发了一个头部检测器baseline，称为HeadHunter，它更适合在拥挤的人群中进行头部检测。HeadHunter是一个端到端的 two-stage 具有三个功能特点的检测器（解决方案）。首先它使用特征金字塔网络在多个尺度上提取特征，使用 resnet 50 作为backbone。图像中外貌和头部是同质的，并且经常在拥挤的场景中像无关紧要对象（通常是背景），因此我们增加了一个每个单独的 fpns 之上的context-sensitive prediction module，因为检测行人头部是检测许多小尺寸的问题，相邻放置的目标，我们在特征上使用转置卷积，跨越所有金字塔层级以提升每个特征图的空间分辨率。最后，我们使用带区域提议网络（rpn）的faster rcnn 头，rpn 生成目标提议（object proposals），而回归和分类头每个分别提供位置偏移和置信度分数，通过三个主要组件的简单组装，我们的头部检测器实现了scut head 数据集的state-of-the-art 结果。

密集场景下的行人跟踪替代算法，头部跟踪算法 | CVPR 2021_算法_09

密集场景下的行人跟踪替代算法，头部跟踪算法 | CVPR 2021_人工智能_10

本文采用粒子滤波框架和基于颜色直方图的HeadHunter Re-ID 模块对猎头进行扩展，HeadHunter的工作原理可以概括为四个主要步骤

从 HeadHunter 中提取特征
从之前的视频帧中回归和预测部位的位置
Re-ID：基于颜色直方图的匹配
初始化新的检测

首先从前一帧初始化的headhunter轨迹中提取给定帧的特征，然后基于运动模型进行回归，并在新的帧中，根据它们的重要度权重估计它们的位置，然后使用基于颜色直方图的re-identification来最小化身份切换，最后对于没有粒子匹配的建议，在当前帧中初始化新的检测

结果

密集场景下的行人跟踪替代算法，头部跟踪算法 | CVPR 2021_计算机视觉_11

在CroHD和MOTChallenge之间对比相同的序列
ours 是在CroHD上评估，而others 实在MOTChallenge上评估
s-MOTA , s-IDF1, s-MT：由于各自检测器的MODA导致各自的得分尺度不一致
我们的方法大大优于其他方法

我们讨论了我们工作中最有趣的结果头部跟踪器和全身跟踪器之间的比较，我们在CroHD和MOTChallenge数据集之间对比相同的序列，相同的序列确保跟踪器在场景中相同行人的全身和头部边界框上进行评估为了进行比较，我们评估了 HeadHunter t在CroHD数据集 ground truth 上的表现，同时评估了mott challenge数据集ground truth 上公布的最新方法，因为我们使用了与其他方法不同的目标探测器。性能指标之间的直接比较是不公平的，因此对于每个序列，我们测量了跟踪得分相对于他们的目标探测器得分，以获得我们的方法大大优于其他方法，表明跟踪头部检测更适合于跟踪环境中涉及行人密度高。