CrowdHuman
收藏数据集概述
数据集名称
CrowdHuman
数据集目的
用于评估在人群场景中的检测器性能。
数据集规模
- 训练集:15000张图像
- 验证集:4370张图像
- 测试集:5000张图像
- 总人数实例:470K(训练和验证集)
- 平均每张图像人数:23人
数据集特点
- 包含多种遮挡情况
- 每个人实例标注有头部边界框、可见区域边界框和全身边界框
数据集结构
标注格式
-
文件格式:
odgt,每行是一个JSON,包含对应图像的所有标注信息。 -
JSON结构: python JSON{ "ID" : image_filename, "gtboxes" : [gtbox], } gtbox{ "tag" : "person" or "mask", "vbox": [x, y, w, h], "fbox": [x, y, w, h], "hbox": [x, y, w, h], "extra" : extra, "head_attr" : head_attr, } extra{ "ignore": 0 or 1, "box_id": int, "occ": int, } head_attr{ "ignore": 0 or 1, "unsure": int, "occ": int, }
-
标注说明:
tag为mask表示该框为人群/反射/类似人物等,需忽略(extra中的ignore为1)vbox, fbox, hbox分别表示可见框、全框、头框
下载链接
- 训练集:CrowdHuman_train01.zip
- 训练集:CrowdHuman_train02.zip
- 训练集:CrowdHuman_train03.zip
- 验证集:CrowdHuman_val.zip
- 训练标注:annotation_train.odgt
- 验证标注:annotation_val.odgt
- 测试集:CrowdHuman_test.zip
使用指南
标注转换
- 使用脚本
crowdhuman2coco.py将CrowdHuman标注转换为COCO格式。
数据集类
-
提供PyTorch和MegEngine的简单实现,用于读取CrowdHuman数据集。
-
数据集类支持的返回顺序: python class CrowdHuman(VisionDataset): supported_order = ( "image", "boxes", "vboxes", "hboxes", "boxes_category", "info", )
-
示例使用: python crowdhuman_dataset = CrowdHuman( root=path/to/CrowdHuman, ann_file=path/to/annotations.json, remove_images_without_annotations=True, order=[ image, boxes, boxes_category info ] )




