JRDB-Act

arXiv2021-11-24 更新2024-06-21 收录

下载链接：

https://jrdb.erc.monash.edu/

下载链接

链接失效反馈

官方服务：

资源简介：

JRDB-Act是一个大规模数据集，用于时空动作、社交群体和活动检测。它由社交移动机器人捕获，反映了大学校园环境中人类日常生活的真实分布。该数据集包含超过2.8M的动作标签，每个标注的人体边界框都带有基于姿势的动作标签和可选的基于交互的动作标签。此外，JRDB-Act还提供了社交群体标注，有助于根据场景中的交互对个体进行分组，以推断其社交活动。

JRDB-Act is a large-scale dataset designed for spatio-temporal action, social group and activity detection. It is captured by social mobile robots and reflects the real-world distribution of human daily life in university campus environments. This dataset contains over 2.8 million action labels, where each annotated human bounding box is paired with pose-based action labels and optional interaction-based action labels. Additionally, JRDB-Act provides social group annotations, which facilitate grouping individuals based on their interactions within the scene to infer their corresponding social activities.

创建时间：

2021-06-16

搜集汇总

数据集介绍

构建方式

在机器人视觉与人类行为理解领域，JRDB-Act 数据集的构建体现了对真实场景中人类日常行为的高度还原。该数据集基于 JRDB 多模态数据集扩展而成，通过移动机器人平台在校园环境中采集了 54 段室内外全景视频序列。构建过程中，研究团队对视频中每一帧的每个人体边界框进行了密集的时空标注，涵盖了姿态基动作、人-人交互及人-物交互三大类共 26 种原子动作，累计生成超过 280 万个人体动作标签。标注过程采用分层质量控制机制，由专业标注团队依据视觉线索与时间上下文进行精细化标注，并为每个标签附加了标注者置信度等级，确保了数据标注的可靠性与一致性。

特点

JRDB-Act 数据集在时空行为理解领域展现出多重显著特点。其标注体系具有高度的时空密集性，每个边界框均标注了强制性姿态基动作及可选的交互基动作，同时引入了社会群体标识符，能够自然反映真实场景中人群的社会分组结构。数据分布呈现典型的长尾特性，动作类别出现频率高度不均衡，模拟了现实世界中人类行为的自然分布。此外，数据集标注包含难度分级机制，区分了基于视觉线索可明确判定的“简单”标签、需依据上下文推断的“中等”标签以及依赖运动历史推测的“困难”标签，为模型鲁棒性评估提供了分层基准。全景视角与机器人运动平台采集方式进一步引入了视角变化与运动模糊等真实世界复杂性。

使用方法

JRDB-Act 数据集为时空动作检测、社会群体识别及群体活动理解等多任务学习提供了系统化评估框架。研究者在关键帧层面进行模型训练与评估，遵循标准平均精度指标，并依据标注难度等级设计分层评估策略。数据集官方划分了训练、验证与测试集，确保序列级分离以避免数据泄露。使用该数据集时，可基于全景视频片段提取时空特征，结合边界框几何关系构建个体间相似性矩阵，进而通过谱聚类等方法推断社会群体结构。对于动作识别任务，需采用分区损失函数等策略处理长尾分布，并利用群体特征聚合增强个体动作分类性能。数据集支持端到端多任务学习管线的开发，其多模态特性也为融合视觉与三维点云数据提供了可能。

背景与挑战

背景概述

在计算机视觉与机器人学领域，理解复杂场景中的人类行为与社交互动是推动智能系统发展的核心问题。JRDB-Act数据集于2021年由阿德莱德大学、斯坦福大学、三星AI剑桥及莫纳什大学的研究团队联合发布，作为JRDB数据集的扩展，旨在填补移动机器人平台在非约束真实环境中感知人类日常行为的空白。该数据集通过配备多模态传感器的社交移动机器人采集于大学校园环境，密集标注了超过280万个时空动作标签，涵盖姿态、人-人及人-物交互三类原子动作，并创新性地引入了社交群体标注。其核心研究问题聚焦于从机器人视角实现个体动作、社交群体及群体活动的联合检测，为自动驾驶、人机交互等应用提供了关键数据支撑，显著推动了具身智能与场景理解研究的发展。

当前挑战

JRDB-Act数据集所针对的时空动作与社交群体检测任务面临多重挑战。在领域问题层面，非结构化真实场景中人类动作呈现高度不平衡的长尾分布，且机器人运动与视角变化导致动作识别难度加剧；同时，密集人群环境中社交群体的动态划分与群体活动推理需融合时空上下文与交互关系，对现有模型的多任务协同学习能力提出更高要求。在构建过程中，数据标注面临大规模视频序列中动作边界模糊、遮挡严重及视角畸变等问题，标注者需依赖时序线索进行推断，导致约38.6%的标注被标记为‘困难’级别；此外，全景视频中多目标跟踪与身份关联的复杂性，以及社交群体标注的主观性校验，均为数据集的构建增添了显著难度。

常用场景

经典使用场景

在机器人视觉与计算机视觉交叉领域，JRDB-Act数据集为时空动作检测与社交群体分析提供了关键基准。该数据集通过移动机器人平台在校园环境中采集，密集标注了超过280万个原子动作标签，涵盖姿态、人-人及人-物交互等多类别。其经典使用场景集中于开发端到端可训练模型，以同时推断个体动作、识别社交群体并分析群体活动，尤其适用于复杂动态场景下的多任务学习框架验证。

衍生相关工作

基于JRDB-Act的标注体系与挑战特性，衍生了一系列聚焦于时空动作检测与社交分析的研究工作。例如，研究者通过引入特征融合与特征值损失函数优化社交群体检测性能，或采用损失分区策略处理动作类别不平衡问题。这些工作扩展了Social-CAD等早期群体活动数据集的框架，推动了多任务学习、图神经网络与自注意力机制在复杂场景动作理解中的应用。

数据集最近研究