CityPersons

arXiv2025-09-30 收录

下载链接：

https://github.com/charlesshang/detectron-pytorch/tree/master/data/citypersons

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为CityPersons，包含2428张训练图片和500张验证图片，专注于行人检测这一类别。数据集中的对象可能会相互遮挡，仅对物体的可见部分进行标注作为边界框。规模上，该数据集拥有2428张训练图片和500张验证图片，任务类型为物体检测。

The CityPersons dataset contains 2428 training images and 500 validation images, focusing on the pedestrian detection task. Objects within this dataset may be mutually occluded, and only their visible parts are annotated with bounding boxes. As for its scale, this dataset has 2428 training images and 500 validation images, and the task type of this dataset is object detection.

搜集汇总

数据集介绍

构建方式

CityPersons数据集构建于Cityscapes数据集之上，旨在为行人检测领域提供高质量且多样化的标注资源。其构建过程首先利用Cityscapes已有的精细像素级语义分割标注，特别是针对行人的实例分割掩码。在此基础上，开发了一套专门的标注工具，以高效生成行人的边界框标注。标注协议遵循了行人检测领域的标准实践，对于行走或站立等典型行人姿态，标注员需标记头部顶端和双脚中心点，随后基于固定的宽高比（0.41）自动生成对齐的完整身体边界框（amodal bounding box），该框覆盖了被遮挡部分。同时，数据集还标注了仅包含可见部分的边界框，并计算遮挡率。此外，标注工作细化了人物类别，将其分为行人、骑行者、坐姿者及其他姿态，并对图像中的虚假人像（如海报、雕像）进行了忽略区域标注，确保了标注的全面性与精确性。

使用方法

CityPersons数据集在行人检测研究中具有多重应用价值。首先，其庞大的规模和多样性使其成为极佳的训练数据源，可用于训练具有强大泛化能力的单一卷积神经网络模型。实验表明，仅在CityPersons上训练的模型，在Caltech、KITTI、INRIA等多个外部测试集上均能取得具有竞争力的性能。其次，该数据集可作为高效的预训练数据，当针对特定目标数据集（如Caltech或KITTI）进行微调时，能显著提升模型性能，尤其是在处理小尺度行人、严重遮挡案例以及提高定位精度方面效果突出。此外，作为评估基准，CityPersons因其更高的行人密度和遮挡复杂度，对现有检测器提出了更大挑战，可用于推动算法在困难场景下的进步。数据集还可与Cityscapes提供的语义分割标签等多模态信息结合，探索上下文信息以进一步提升检测质量，例如将语义概率图作为额外输入通道。

背景与挑战

背景概述

行人检测作为计算机视觉领域的重要研究方向，在自动驾驶、智能监控及移动机器人等领域具有广泛应用。随着卷积神经网络的兴起，该领域虽取得显著进展，但在模型架构设计与训练数据质量方面仍存诸多挑战。在此背景下，马克斯·普朗克信息学研究所的Shanshan Zhang、Rodrigo Benenson与Bernt Schiele于2017年共同构建了CityPersons数据集。该数据集基于Cityscapes街景图像，通过精细化边界框标注，聚焦于解决行人检测中因场景单一、遮挡严重及尺度多变导致的模型泛化能力不足问题。其覆盖27个城市、多种季节与天气条件，以高密度行人标注和丰富遮挡模式为特色，显著推动了跨数据集泛化研究，成为行人检测领域的关键基准之一。

当前挑战

CityPersons数据集致力于应对行人检测中的核心挑战：一是提升模型在复杂真实场景下的鲁棒性，尤其针对严重遮挡、小尺度行人及多样化背景等难题；二是解决现有数据集如Caltech和KITTI中行人密度低、场景单一导致的泛化能力局限。在构建过程中，研究团队面临多重技术挑战：需从Cityscapes的实例分割标注中生成高质量的全身体边界框，确保标注在尺度与遮挡情况下保持对齐一致性；同时，需设计高效标注工具以处理高密度人群图像，并精确区分行人、骑行者等细粒度类别，避免遗漏或误标。这些挑战共同塑造了数据集的严谨性与实用价值。

常用场景

经典使用场景

在计算机视觉领域，行人检测作为一项基础任务，广泛应用于自动驾驶、智能监控和移动机器人等场景。CityPersons数据集以其丰富的城市街景图像和高质量的行人边界框标注，成为评估和优化行人检测模型性能的经典基准。该数据集涵盖了27个不同城市、多种季节和天气条件下的图像，平均每幅图像包含约7个行人，显著高于早期数据集如Caltech和KITTI的密度。这种多样性使得CityPersons能够有效测试模型在复杂环境中的泛化能力，尤其是在遮挡和小尺度行人检测方面，为研究者提供了更具挑战性的实验平台。

解决学术问题

CityPersons数据集的引入，主要解决了行人检测研究中数据多样性和泛化性不足的学术问题。早期数据集如Caltech和KITTI虽然推动了领域进展，但受限于单一城市采集和低行人密度，难以全面反映真实世界中的复杂场景。CityPersons通过提供多城市、高密度且包含大量遮挡案例的标注数据，使研究者能够训练出更具鲁棒性的单一卷积神经网络模型。该数据集不仅提升了模型在跨数据集测试中的表现，还显著改善了对于小尺度行人和重度遮挡情况的检测精度，从而推动了行人检测算法向更高实用性和泛化能力的方向发展。

实际应用

在实际应用层面，CityPersons数据集为自动驾驶系统和智能安防监控提供了关键的数据支持。其丰富的城市环境图像模拟了真实道路中的行人分布，包括拥挤街道、交叉路口和多样光照条件，有助于训练出在复杂场景下仍能保持高检测率的模型。例如，在自动驾驶领域，基于CityPersons训练的检测器能够更准确地识别出行人，尤其是在遮挡频繁的都市环境中，从而提升车辆的安全决策能力。此外，该数据集还可用于优化监控摄像头中的行人跟踪算法，增强公共空间的安全管理效率。

数据集最近研究