业界首创直接点预测新范式，腾讯优图人群定位和计数框架 P2PNet 入选 ICCV ‘ 21 Oral

网友提问：

优质回答：

机器之心专栏

腾讯优图实验室

针对人群计数这个挑战，现有的人群密度图回归是不是最优解决方案？针对小尺度高密集场景，检测技术是否还有用武之地？针对更为廉价的人头中心点标注，我们还能做检测吗？本文展示了一项全新的范式，来解答上述几个问题。

在本年度的计算机视觉顶会 ICCV 2021 上，腾讯优图实验室提出了点对点网络（Point-to-Point Network，P2PNet），业界首创直接预测人头中心点的人群计数新范式，能够同时实现人群个体定位和人群计数，该算法在 2020 年 12 月份刷新 NWPU 榜单，相关成果已被 ICCV 2021 接收为 Oral 论文。

论文地址：https://arxiv.org/pdf/2107.12746.pdf

项目地址：https://github.com/TencentYoutuResearch/CrowdCounting-P2PNet

背景介绍

人群计数任务旨在估计给定图像中特定区域的总人数，在城市管理、公共安全方面有着重要的实用价值。人群计数任务可以被视为特殊场景下的人头检测任务，其特殊之处在于以下三点：

主要面向极小尺度人头（通常小于 30 像素）；

人头分布密集，存在严重的重叠遮挡问题；

受限于极高的标注成本，只能提供人头中心点标注且数据匮乏。

由于以上三个问题的存在，即便是基于深度神经网络的模型也面临着很大的技术挑战。

已有方案。目前的主流解决方案有两种，如下图 1 所示：

图 1：以往方法与 P2PNet 的区别。

方案一（基于密度图回归的方法）：人群分布密度图是根据人头中心点标注来生成的，对密度图进行积分即可获得总人数。这类方法的缺点是：在只有人头中心点标注的情况下，生成的密度图并不准确，而且无法提供人群中个体的位置信息，特别是对于拥挤区域。此类方法仍是目前最主流的方案。

方案二（基于估计框的检测方法）：先根据人头中心点标注估计人头框，然后使用人头检测技术来定位每个人头。这类方法的缺点则是难以准确地估计人头框，导致模型优化错误和预测后处理（非极大值抑制）失效。目前仅有少数方法采用这种方案。

本研究采用的方案（P2PNet）：本方案从一个全新视角来审视人群计数这个任务，旨在直接解决其超任务：人群个体定位。该任务不仅能给出指定区域的人头总数，还能直接给出人群中每个个体的具体位置，从而便于后续更高阶的人群分析任务（人群行为分析、异常行为检测以及人群跟踪等）。针对这个超任务，腾讯优图实验室提出了点对点网络（Point-to-Point Network，P2PNet），能直接以人头中心点作为训练，并直接输出预测的人头中心点坐标，是业内首个能直接预测人头中心点的算法，有望开启人群计数相关研究的新范式。

技术创新

本研究的主要贡献有以下两点：

业界首次提出了一个完全基于点的框架，同时实现人群个体定位和人群计数任务。该框架所能提供的点级别人群个体位置信息，是下游高阶人群分析任务的基础。同时，与该框架相契合，研究者提出了密度归一化平均精度（nAP）的评测指标，该指标是一个综合性的指标，能同时对定位精度和计数精度进行全面的评估；

提出了点对点网络（Point-to-Point Network，P2PNet），直接预测人群中人头中心点的位置，是基于以上所提框架的一种直观简洁的示例模型。如下图 2 所示，P2PNet 分别使用两个分支（人头中心点回归分支和候选人头点分类分支）来预测一系列候选人头中心点。该网络具有简洁直观高精度的特性，可以作为业内一个全新的基准。

图 2：所提 P2PNet 的网络结构。

实现细节

候选人头点预测：对于输入图像中固定大小的块，基于给定参考点，P2PNet 会预测一系列候选人头点集。在训练阶段，最初这些点的位置是随机预测的，通过将这些候选点经过一对一匹配算法确定各自的回归和分类标签，来进行网络的优化和学习。在推理阶段，这些候选点通过简单的置信度筛选作为预测的人头中心点。

图 3：不同的匹配策略对比。

候选点匹配：匹配策略是 P2PNet 的核心，不同的策略会直接导致最终预测结果上显著的精度差异。如下图 3 所示，我们根据候选点与真实人头点之间的匹配关系，将匹配策略归为三类。其中，在 1 v N 匹配中，单个候选点会匹配到多个真实点，但在预测时却只能预测出其中某一个，从而导致整体计数值的欠预测；相反地，在 N v 1 匹配中，同一个真实点会被匹配到多个候选点，在预测时就会产生针对部分真实点的重复预测，从而导致整体计数值的过预测。因此，P2PNet 选择了 1 v 1 匹配策略，所有的候选点都会有明确的预测目标，未被匹配的候选点则会被分类为背景，通过这种策略可以实现在候选点正确分类时就能实现计数值的完美预测，同时也避免了优化歧义性。

本方法中所用的 1 v 1 匹配采用了匈牙利匹配算法，其匹配距离代价综合考虑了像素间距离和候选点置信度，这样就保证了通过不断地训练迭代，预测候选点能够以尽可能高的置信度来逐步接近标注人头点。

图 4：不同定位精度的 nAP 指标示意图。

密度归一化平均精度（nAP）：在密集场景下，如何合理准确地评估人头点定位精度是一个有挑战性的问题。本文提出一个全新的指标密度归一化平均精度（density normalized Average Precision，nAP）来提供对算法计数精度和定位能力的综合评估。在实际应用中，准确定位人头点意味着：1）预测点与真实点之间的像素距离要尽可能接近；2）人群分布越密集的区域，定位精度要求越高；3）正确预测点的置信度要尽可能高；4）冗余预测点要尽可能少（置信度要尽可能低）。相应地，nAP 提供了多种不同定位精度下的细分指标，来满足实际应用对不同定位能力的要求，如上图 4 所示。

在对每个预测点进行评估时，nAP 还引入了参考点周围的密度等级信息对像素距离进行了归一化处理，这可以很好地将空间范围内的密度变化信息考虑在内，非常适合评估算法对大范围分布的拥挤人群中的个体定位能力。在评测环节，nAP 按照置信度从高到低依次评估每个预测点，这与推理阶段输出给定阈值以上的所有预测点相一致，使得评测结果更具实际参考价值。最后，nAP 还引入了对重复预测点的惩罚，因此也能同时反映出算法的计数精度，故而成为了一个能同时评估计数精度和定位能力的综合性指标。

实验效果

综合评估

首先，研究者使用本文所提出的 nAP 指标对算法在定位和计数方面的能力进行综合性的评估。如下表 1 所示，通过在多个不同密度等级的数据集上评测，可以看出 P2PNet 在各种定位精度下都能获得不错的精度，特别是在最贴合实际应用的 nAP_0.5 上普遍取得了 80% 以上的精度。

值得注意的是，P2PNet 并没有采用任何多尺度特征融合的策略，也没有使用任何坐标 Refinement 的策略，以往相关领域的工作都证明了这类策略能够进一步提升模型表现。对于在极高定位精度下的指标 nAP_0.05，P2PNet 表现相对较差，其中一个可能的原因是：在如此高的定位精度下，人工标注的误差已经无法忽略不计了。