IndoorCrowd
收藏arXiv2026-04-02 更新2026-04-04 收录
下载链接:
https://sheepseb.github.io/IndoorCrowd/
下载链接
链接失效反馈官方服务:
资源简介:
IndoorCrowd是由布加勒斯特理工大学等机构构建的多场景室内人群数据集,旨在解决复杂室内环境下人体感知任务的数据匮乏问题。该数据集包含4个不同建筑布局的校园场景(ACS-EC、ACS-EG等),采集了31段5fps视频共计9913帧,提供实例级分割掩码和MOTChallenge格式的连续身份轨迹标注。数据通过结合SAM等基础模型的自动标注与人工修正流程构建,特别关注人群密度变化(最高达79.3%稠密帧)和建筑遮挡等挑战。其应用领域涵盖智能监控、人机交互等需要精确室内人群分析的场景,为算法在真实复杂环境中的性能评估提供了新基准。
提供机构:
布加勒斯特理工大学; Expleo
创建时间:
2026-04-02
原始信息汇总
IndoorCrowd 数据集概述
数据集基本信息
- 数据集名称: IndoorCrowd
- 核心任务: 室内场景下的人体检测、实例分割和多目标跟踪
- 场景数量: 4个室内公共场所(ACS-EC, ACS-EG, IE-Central, R-Central)
- 数据总量: 31个视频,总计 9,913帧 带有人工验证和手动校正的逐实例分割掩码
- 控制子集: 620帧 完全由人工标注,用于基准测试
- 跟踪子集: 2,552帧 带有人工验证的连续身份轨迹,格式为MOTChallenge
- 采集设置: 固定网络摄像头,分辨率1280 × 720像素,25 fps,在多个日期的下午和傍晚录制
- 帧采样: 降采样至5 fps
场景详细描述与统计
各场景特点
- ACS-EC: 密集多层中庭,平均每帧12.2人,79.3%为密集帧,平均实例尺度60.8像素,是数据集中最具挑战性的场景。
- ACS-EG: 狭窄走廊,地面摄像机,近远距离尺度变化强烈,遮挡率38.3%。
- IE-Central: 入口大厅,高角度摄像机,每帧人数范围最广(4–17人),23.5%为密集帧。
- R-Central: 中央中庭,俯视视角,结构柱造成规律性部分遮挡,密度最均匀的场景。
人群统计(整体)
- 总实例数: 4,862
- 平均每帧人数: 8.10 ± 4.18
- 密度分布: 稀疏(≤3人)5.8%,中等(4–10人)62.0%,密集(>10人)32.2%
- 整体遮挡率: 30.3%(基于边界框重叠IoU > 0.1估计)
实例尺度统计(整体)
- 相对尺度均值: 各场景不同
- 绝对尺度均值(像素): 各场景不同
- 宽高比均值: 各场景不同
- COCO尺寸分布: 小(< 32² px²)、中(32²–96² px²)、大(> 96² px²)百分比各场景不同
标注流程
采用 人机协同管道,结合高召回率的基础模型自动标注与针对性人工校正。
- 视频录制: 固定网络摄像头。
- 帧采样: 5 fps。
- 基础模型自动标注: 使用三种自动标注器生成候选掩码和边界框:SAM3(高召回,文本提示)、GroundingSAM(语言接地,更高精度)、EfficientGroundingSAM(较低推理成本下质量相当)。
- 人工审查与校正: 每帧均经过人工验证,使用SAM 2.1和交互式Gradio审查界面进行添加、校正和删除。
- 人工标注控制子集: 620帧完全从头标注,无任何自动标注先验。
- MOT子集整理: 从SAM3检测结果生成初始轨迹片段,经人工审查校正身份切换、合并片段、移除幽灵轨迹并线性插值缺失检测。
自动标注质量评估
基于620帧人工标注真值进行评估。评估指标:AP@0.5, AP@0.75, 精确率, 召回率, 掩码IoU, Cohens κ。
- 关键发现: SAM3在密集场景(如ACS-EC)中召回率最高(0.88–0.98),但精度较低(ACS-EC为0.52),是人工校正的最佳起点。GroundingSAM和EfficientGroundingSAM提供互补的更高精度。所有方法在ACS-EC上性能下降最多,因其帧更密集、实例更小(平均60.8像素)且遮挡更高。
基准测试结果
检测与分割
模型在ACS-EC + ACS-EG上训练,在IE-Central + R-Central上评估。
- 最佳检测模型: RT-DETR-L(Box mAP@0.5: 0.911)。
- 最佳分割模型: YOLOv8n-seg(Mask mAP@0.5: 0.833,延迟最低:1.89 ms)。
多目标跟踪(整体)
在所有四个场景上评估六种检测器-跟踪器组合。
- 最佳组合: RT-DETR-L + OC-SORT(MOTA: 56.2,IDF1: 71.8)。
- 身份切换最少: YOLOv8n + BoT-SORT(IDS: 143)。
- 实时部署推荐: YOLOv8n + ByteTrack(MOTA: 48.5,FPS > 108)。
- 最具挑战性跟踪场景: ACS-EC(即使使用RT-DETR-L,MOTA峰值也为40.2)。
相关数据集对比
- 现有行人检测基准(CrowdHuman, WiderPerson, CityPersons)主要为室外场景。
- MOTChallenge系列(MOT17, MOT20)缺乏实例掩码,且关注非受限或事件驱动环境而非固定室内监控。
- IndoorCrowd填补了真实世界、固定摄像头室内场景的空白,提供了在多样化人群条件下的三种标注类型(边界框、实例掩码、MOT轨迹)。
引用信息
bibtex @inproceedings{indoorcrowd2026, author = {Nae, Sebastian-Ion and Moldoveanu, Radu and Ghita, Alexandra Stefania and Florea, Adina Magda}, title = {IndoorCrowd: A Multi-Scene Dataset for Human Detection, Segmentation, and Tracking with an Automated Annotation Pipeline}, booktitle = {5th DataCV Workshop and Challenge, in conjunction with IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2026}, }
搜集汇总
数据集介绍

构建方式
在室内人群感知研究领域,数据采集的复杂性与标注成本构成了显著挑战。IndoorCrowd数据集通过一套创新的半自动化标注流程构建而成,其基础是在大学校园四个典型室内场景(ACS-EC、ACS-EG、IE-Central、R-Central)采集的31段监控风格视频。原始视频以25 fps录制,后统一降采样至5 fps,最终得到9,913帧图像。标注流程采用人机协同策略:首先利用SAM3、GroundingSAM等基础模型生成初始检测框与实例分割掩码候选,随后由人工逐帧进行验证与修正,包括补全缺失实例、修正掩码边界及剔除误检。为评估自动标注质量,研究者专门构建了包含620帧的人工全标注控制集,并采用Cohen's κ、AP、掩码IoU等指标进行系统量化。此外,数据集还包含一个2,552帧的多目标跟踪子集,其轨迹经由人工校对,确保了身份标识的时空连续性,并遵循MOTChallenge标准格式。
特点
该数据集的核心特征体现在其多维度、高复杂性的室内场景覆盖。四个采集场景在空间布局、人群密度与视角几何上呈现显著差异:ACS-EC作为多层中庭,帧平均人数达12.23,79.3%的帧被归类为高密度,构成了数据集中最具挑战性的拥挤环境;ACS-EG为狭长走廊,虽密度中等但遮挡率最高(38.3%),凸显了视角与几何结构对遮挡的影响;IE-Central入口大厅和R-Central中央中庭则分别展示了中等密度与均匀低密度的不同模式。数据标注兼具实例级分割掩码与连续身份轨迹,满足了检测、分割与跟踪任务的综合需求。实例尺度与长宽比在不同场景间变化剧烈,从ACS-EC的平均60.8像素小目标到ACS-EG的平均135.6像素大目标,有效模拟了真实室内监控中因距离与视角导致的尺度变化。这种精心设计的场景多样性,使数据集能够系统评估算法在密度波动、频繁遮挡及小目标检测等核心难点上的鲁棒性。
使用方法
IndoorCrowd数据集为计算机视觉社区提供了一个评估室内人群感知算法的基准平台。研究者可利用其提供的标准训练-测试划分(按视频级别划分,避免时序泄露)进行模型训练与性能评估。对于检测与分割任务,数据集中包含边界框与实例掩码的9,913帧图像可直接用于模型训练,并在保留场景上进行测试,以考察模型泛化能力。对于多目标跟踪任务,2,552帧的跟踪子集及其MOTChallenge格式的标注,支持使用MOTA、IDF1等标准指标进行跟踪器性能评测。数据集中包含的620帧人工精标控制集,为比较不同自动标注方法或研究标注质量对模型性能的影响提供了宝贵资源。此外,论文中提供的基于YOLOv8、RT-DETR等模型的基线性能,为后续研究设立了明确的参照点。数据集的公开将促进室内特定场景下检测、分割与跟踪算法的创新与比较研究。
背景与挑战
背景概述
室内人群行为理解是智能监控、智慧建筑及人机交互等领域的核心任务,然而现有数据集在规模与复杂性上难以充分捕捉真实室内场景的多样性。为填补这一空白,布加勒斯特理工大学的研究团队于2025年推出了IndoorCrowd数据集。该数据集聚焦于室内环境下的人类检测、实例分割与多目标跟踪,采集自校园内四个不同场景,包含31段视频共计9913帧,并提供了经过人工核验的实例分割掩码与连续身份轨迹标注。IndoorCrowd的构建旨在应对室内场景中因建筑结构、视角限制及人群密度剧烈波动所带来的独特挑战,为相关算法在复杂室内环境中的评估与优化提供了关键基准。
当前挑战
IndoorCrowd数据集致力于解决室内场景中人类感知任务的多重挑战。在领域问题层面,其核心挑战在于应对高密度人群、频繁人际遮挡、小尺度实例以及因建筑立柱、家具等静态物体导致的复杂遮挡模式,这些因素共同加剧了检测、分割与跟踪的难度。在构建过程中,主要挑战体现在高质量标注的成本与效率平衡上:实例级掩码标注与跨帧身份一致性跟踪标注极为耗时;为此,研究团队引入了基于SAM3、GroundingSAM等基础模型的自动化标注流程,并需通过人工核验与修正来确保标注质量,这一半自动流程在提升效率的同时,也需克服自动标注在密集场景下召回率高但精度不足的缺陷。
常用场景
经典使用场景
在室内人群感知研究领域,IndoorCrowd数据集为密集环境下的行人检测、实例分割与多目标追踪提供了标准化的评估基准。该数据集通过四个校园场景(ACS-EC、ACS-EG、IE-Central、R-Central)捕捉了真实室内环境的复杂动态,包括人群密度波动、尺度变化及频繁遮挡。研究者通常利用其标注的实例掩码与连续身份轨迹,验证算法在拥挤室内空间中的鲁棒性,尤其在处理小尺度目标与复杂遮挡模式时展现出独特价值。
实际应用
该数据集在智慧建筑管理与安防监控领域具有直接应用价值。其场景覆盖了走廊、中庭、入口大厅等典型室内公共空间,可用于训练人群密度估计、异常行为检测及人流轨迹分析模型。例如,在校园或商场的人群调度系统中,基于IndoorCrowd训练的算法能实时识别拥堵区域,优化疏散路径;在服务机器人导航任务中,则能提升其在动态人群环境中的避障与交互能力。
衍生相关工作
IndoorCrowd的发布催生了一系列针对室内人群分析的衍生研究。部分工作基于其多场景特性,开发了适应密度突变的动态检测框架;另有研究利用其掩码标注探索了遮挡感知的实例分割方法。数据集提供的自动标注质量评估协议,也促进了SAM、GroundingSAM等基础模型在室内场景的优化研究,为半自动标注管线的设计提供了重要参考。
以上内容由遇见数据集搜集并总结生成



