CrowdHuman

github2026-03-01 更新2026-03-15 收录

下载链接：

https://github.com/QQ767172261/Crowdhuman-dense-crowd-dataset-Training-of-dense-pedestrian-detection-dataset-and-application-of-YOL

下载链接

链接失效反馈

官方服务：

资源简介：

CrowdHuman密集人群数据集，yolo的txt格式。CrowdHuman数据集数据量比较大，训练集15000张，验证集4370张。训练集和验证集中共有470K个实例，约每张图片包含23个人，同时存在各种各样的遮挡。每个人类实例都用头部边界框、人类可见区域边界框和人体全身边界框注释。数量:训练集15000张，验证集4370张左右。类别:0为头部，1为完整人体，2为可见部分的人体。

CrowdHuman is a dense crowd dataset using YOLO txt annotation format. The dataset has a large scale, including 15,000 training images and approximately 4,370 validation images. There are a total of 470K annotation instances across the two splits, with an average of about 23 human instances per image, and various occlusion scenarios exist in the crowd scenes. Each human instance is annotated with three types of bounding boxes: head bounding box, visible human region bounding box, and full-body human bounding box. The category labels are defined as: 0 for head, 1 for full human body, and 2 for partially visible human body.

创建时间：

2026-03-01

原始信息汇总

CrowdHuman密集人群数据集（YOLO TXT格式）概述

数据集基本信息

数据集名称：CrowdHuman
任务类型：密集人群检测（Dense Human Detection）
原始来源：https://www.crowdhuman.org/
转换后格式：YOLO TXT格式（每张图像对应一个.txt标注文件）

数据规模与构成

总图像数量：19,370张
训练集（train）：15,000张
验证集（val）：4,370张
总实例数量：约470,000个标注实例
平均每图人数：约23人/图（高度密集场景）

场景与标注特点

适用场景：街道、地铁站、商场、集会、校园等复杂城市环境
遮挡情况：广泛存在部分遮挡、严重遮挡、相互重叠、截断等
标注类型：每个人类实例都用头部边界框、人类可见区域边界框和人体全身边界框注释
截断比例：约15%的人体位于图像边缘并被截断

类别定义

类别 ID	类别名称	英文名	标注内容	说明
0	头部	Head	头部边界框（Head BBox）	用于人脸/头部定位，即使身体被遮挡也可标注
1	完整人体	Full Body	全身边界框（Full-body BBox）	包含完整人体轮廓（含被遮挡部分的推测范围）
2	可见人体	Visible Body	可见区域边界框（Visible BBox）	仅标注图像中实际可见的人体部分

标注格式说明

格式：YOLO TXT格式，每行格式为class_id center_x center_y width height
坐标规范：所有坐标均已归一化至[0, 1]范围（相对于图像宽高）
标注规则：每个目标最多包含3个边界框（若全部可见），分别对应上述三类；若某部分不可见（如全身被遮挡），则不标注对应类别

数据统计概览

统计项	数值
总图像数	19,370
总标注框数	≈ 470,000
平均每图标注框数	≈ 24.3
最大单图人数	> 100人（极端密集场景）
遮挡比例	> 60%的实例存在不同程度遮挡

YOLO训练配置建议

yaml

crowdhuman.yaml

path: ./crowdhuman_yolo train: images/train val: images/val nc: 3 names: [head, full_body, visible_body]

预期性能参考值

模型	mAP@0.5	mAP@0.5:0.95
YOLOv8s	~0.82–0.86	~0.55–0.60
YOLOv8m	~0.85–0.88	~0.60–0.65
YOLOv8l	~0.87–0.90	~0.63–0.68

搜集汇总

数据集介绍

构建方式

在密集人群检测领域，数据集的构建质量直接影响模型在复杂场景下的泛化能力。CrowdHuman数据集通过采集城市环境中高度密集的场景图像，如街道、地铁站及集会场所，构建了包含19,370张图像的大规模集合。每张图像均经过精细标注，为每个实例提供头部边界框、可见人体区域边界框以及完整人体边界框，总计约470,000个标注实例，平均每张图像涵盖23个人物，充分覆盖了遮挡、重叠及截断等现实挑战。

特点

该数据集的核心特点在于其多层次的标注体系与高度密集的场景设计。每个实例同时标注头部、可见人体及完整人体三类边界框，为研究遮挡问题提供了丰富的信息维度。数据集中超过60%的实例存在不同程度的遮挡，且包含大量小目标与边缘截断情况，模拟了真实世界中的复杂人群分布。这种设计使得CrowdHuman成为评估检测模型鲁棒性与精度的理想基准，尤其适用于推动密集目标检测与遮挡处理算法的进步。

使用方法

针对CrowdHuman数据集的应用，研究者可依据具体任务灵活选择标注类别。例如，行人检测可聚焦于完整人体或可见人体类别，而人脸或头部检测则利用头部标注进行训练。数据集已转换为YOLO TXT格式，每行标注包含类别标识与归一化坐标，便于直接集成至YOLO等现代检测框架。通过配置相应的YAML文件，用户可快速启动训练流程，并借助数据增强策略如Mosaic与MixUp优化模型在密集与小目标场景下的性能。

背景与挑战

背景概述

CrowdHuman数据集诞生于2018年，由清华大学和旷视科技的研究团队联合构建，旨在应对密集场景下行人检测的核心难题。该数据集聚焦于复杂城市环境中的高密度人群，通过提供头部、可见人体和完整人体三个层次的精细化标注，为计算机视觉领域在遮挡处理、小目标识别以及边界框回归等关键问题上设立了新的基准。其大规模、高质量的标注数据显著推动了密集目标检测算法的发展，成为评估模型在真实世界拥挤场景中鲁棒性的重要工具。

当前挑战

该数据集致力于解决密集人群检测中因严重遮挡、尺度多变和个体截断所导致的识别精度下降问题，其核心挑战在于模型需同时精准定位并区分高度重叠的多个实例。在构建过程中，标注工作面临巨大困难，例如在人群高度密集且相互遮挡的图像中，精确勾勒每个人的完整身体轮廓和可见部分需要大量人工判别与校验，确保标注的一致性与准确性成为一项耗时且复杂的工程。

常用场景

经典使用场景

在计算机视觉领域，密集人群检测是城市安防与智能监控的核心挑战之一。CrowdHuman数据集以其大规模、高密度和复杂遮挡特性，成为评估与提升目标检测模型鲁棒性的经典基准。该数据集常被用于训练和验证先进的目标检测算法，特别是在行人检测任务中，模型需在每张平均包含23人的图像中精准定位头部、可见人体及完整人体边界框，以应对现实世界中人群密集、相互遮挡的复杂场景。

衍生相关工作

围绕CrowdHuman数据集，学术界衍生出一系列经典研究工作。例如，诸多研究利用其多类别标注探索遮挡鲁棒性增强方法，提出了改进的检测架构与损失函数。同时，该数据集常被用作基准，推动了如YOLOv8等先进检测模型的性能优化与评估。这些工作不仅提升了密集人群检测的技术水平，还促进了相关领域如人群行为分析、场景理解等交叉研究方向的发展，形成了持续的技术演进脉络。

数据集最近研究

应用目标	推荐使用的类别
行人检测（通用）	类别1（完整人体）或类别2（可见人体）
人脸/头部检测	类别0（头部）
遮挡鲁棒性研究	同时使用三类，分析遮挡对检测的影响
小目标检测优化	利用头部（小目标）训练多尺度检测器