PANDA

Name: PANDA
Creator: 清华大学
Published: 2020-03-11 00:58:32
License: 暂无描述

arXiv2020-03-11 更新2024-06-21 收录

下载链接：

http://www.panda-dataset.com

下载链接

链接失效反馈

官方服务：

资源简介：

PANDA是一个具有高分辨率的人类中心视频数据集，由清华大学创建，旨在支持大规模、长期和多对象的视觉分析。该数据集通过高分辨率相机捕捉真实世界场景，覆盖广阔的视野和高空间分辨率。PANDA包含丰富的层次化标注，包括15,974.6k边界框、111.8k细粒度属性标签、12.7k轨迹、2.2k群体和2.9k交互。数据集的应用领域包括人群行为分析和交互检测，旨在解决复杂人群行为和交互的识别问题。

PANDA is a high-resolution human-centric video dataset developed by Tsinghua University, which aims to support large-scale, long-term and multi-object visual analysis. This dataset captures real-world scenes via high-resolution cameras, boasting wide field of view and high spatial resolution. PANDA includes rich hierarchical annotations, namely 15,974.6k bounding boxes, 111.8k fine-grained attribute labels, 12.7k trajectories, 2.2k groups and 2.9k interactions. Its application domains cover crowd behavior analysis and interaction detection, targeting the recognition of complex crowd behaviors and interactions.

提供机构：

清华大学

创建时间：

2020-03-11

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，大规模、长时序、多目标的人类中心视觉分析长期受限于视野广度与空间分辨率之间的固有矛盾。PANDA数据集通过采用先进的阵列相机千兆像素摄像技术，突破了这一瓶颈。数据采集使用水平视角约70度、分辨率高达25k×14k的千兆相机，以30Hz帧率捕捉真实世界户外场景。原始视频经过筛选，从21个多样化场景中各提取约3600帧，并最终精选600帧代表性图像进行标注。针对千兆像素级图像标注的挑战，研究团队采用“分而治之”的策略，将全图划分为4至16个子图像分别标注，再映射回原图并处理边界切割对象，最终由专业标注团队完成全部标注工作。

使用方法

PANDA数据集支持多种人类中心视觉分析任务的研究与评估。对于基础的行人检测任务，研究者需处理千兆像素图像带来的计算效率挑战以及巨大尺度变化和复杂遮挡导致的准确率问题，通常采用多尺度缩放与滑动窗口分块处理的策略。在多目标跟踪任务中，可利用其提供的长时序、大范围轨迹数据，评估算法在复杂遮挡和长期活动下的性能，基准评估遵循MOTChallenge的标准指标。数据集还引入了一个新颖的“交互感知群组检测”任务，鼓励研究者开发融合全局轨迹与局部交互信息的算法。为此，论文提出了一个“全局到局部聚焦”框架作为参考，该框架利用轨迹嵌入、不确定性采样和时空卷积网络，协同利用数据集中提供的多模态标注信息。用户可通过官方渠道获取数据，并按照提供的训练/测试集划分进行算法开发与性能比较。

背景与挑战

背景概述

PANDA数据集于2020年由清华大学与杜克大学联合推出，标志着面向大规模、长时段、多目标的人类中心视觉分析迈入新纪元。该数据集旨在解决传统视觉数据在广域视场与高空间分辨率之间的固有矛盾，通过十亿像素级摄像技术，同步捕捉平方公里级场景的全局视野与局部细节。其核心研究问题聚焦于复杂真实场景下的人类行为与交互理解，涵盖行人检测、多目标跟踪及群体交互感知等关键任务。凭借其前所未有的空间尺度与标注粒度，PANDA为计算机视觉与行为学领域提供了探索宏观群体动态与微观个体互动的统一平台，推动了大规模社会行为计算模型的发展。

当前挑战

PANDA数据集所针对的人类中心视觉分析任务面临多重挑战。在领域问题层面，极端的尺度变化（高达百倍）、复杂遮挡与密集人群导致现有检测与跟踪算法在精度与效率上均显不足；长时轨迹的维持与身份切换在广阔场景中尤为困难。构建过程中的挑战亦十分显著：十亿像素级单帧图像的标注需采用分块合并策略以处理海量数据，并需协调全局轨迹与局部交互的多模态标注一致性；在真实动态场景中定义与标注社会性群体及其交互类别，需依赖社会信号处理并经过多轮交叉校验，以克服主观歧义，确保标注的可靠性与科学性。

常用场景

经典使用场景

在计算机视觉领域，大规模人群行为分析长期受限于视野广度与空间分辨率的固有矛盾。PANDA数据集凭借其千兆像素级的视频分辨率与广阔的视野覆盖，为这一领域提供了前所未有的研究平台。该数据集最经典的使用场景在于评估和推动大规模、长时段、多目标的人体检测与追踪算法。其每帧图像可覆盖约一平方公里区域，同时保持千兆像素级的细节分辨率，使得算法能够在同一场景下处理从近处清晰个体到远处密集人群的极端尺度变化与复杂遮挡，从而模拟真实世界监控、公共安全等场景下的核心视觉任务。

解决学术问题

PANDA数据集主要解决了计算机视觉中人体中心分析领域的几个关键学术问题。首先，它突破了传统数据集在视野广度与空间分辨率之间的权衡，为研究极端尺度变化下的目标检测提供了基准。其次，其长时段、多目标的视频序列为研究复杂遮挡、长距离轨迹关联下的多目标追踪带来了严峻挑战。更为重要的是，它引入并支持了‘交互感知的群体检测’这一新任务，将全局轨迹分析与局部交互识别相结合，推动了从单纯的位置感知向更深层的社会行为理解的研究范式转变。这些问题的解决对于理解大规模真实场景中人群的复杂行为与互动模式具有奠基性意义。

实际应用

PANDA数据集所模拟的场景与特性，使其研究成果具有广泛的实际应用前景。在智慧城市与公共安全领域，其支持的技术可用于超大规模广场、交通枢纽、重大活动场所的人群监控、异常行为检测和群体动态分析，实现更精准的态势感知与安全管理。在社会科学与行为学研究方面，数据集为定量分析人群的聚集模式、流动规律和社会互动提供了宝贵的可视化数据源。此外，在自动驾驶的感知系统中，处理类似PANDA中存在的远距离小目标、密集遮挡行人的能力，对于提升系统的安全性与可靠性至关重要。

数据集最近研究