RHAS133

Name: RHAS133
Creator: 卡尔斯鲁厄理工学院, 北京理工大学, 中国科学院自动化研究所, 湖南大学, 上海人工智能实验室, 河北科技大学
Published: 2025-06-11 20:13:18
License: 暂无描述

arXiv2025-06-11 更新2025-06-13 收录

下载链接：

https://github.com/KPeng9510/HopaDIFF.git

下载链接

链接失效反馈

官方服务：

资源简介：

RHAS133数据集是首个用于多人物场景中基于文本引用的人体动作分割的数据集。它由133部电影组成，包含33小时的视频数据和137种细粒度的动作标注，以及为每个感兴趣的人提供文本引用。该数据集旨在解决当前人体动作分割方法无法有效处理多人物场景和未定义动作序列的问题，并作为评估相关方法的基准。RHAS133数据集的独特之处在于它结合了多人物交互、文本引用和细粒度动作标注，使其成为一个更加全面和具有挑战性的基准，以推动在多人物场景中的人体动作分割研究。

提供机构：

卡尔斯鲁厄理工学院, 北京理工大学, 中国科学院自动化研究所, 湖南大学, 上海人工智能实验室, 河北科技大学

创建时间：

2025-06-11

搜集汇总

数据集介绍

构建方式

RHAS133数据集构建于133部电影的多人物场景中，通过精心筛选和标注，涵盖了542个不同个体的137种细粒度动作类别。数据集的标注过程遵循AVA协议，并扩展了动作标签集以捕捉更广泛的人类行为。每段视频的平均时长为3.3分钟，总时长达到33小时。为确保标注质量，六位具有领域专业知识的标注员进行了手动标注和交叉验证。文本参考描述目标个体而不透露其动作，进一步增强了数据集的多样性和复杂性。

特点

RHAS133数据集在多人物场景中引入了文本参考引导的动作分割任务，填补了现有数据集在多人交互和自由形式动作序列上的空白。其独特之处在于结合了细粒度动作标注和自然语言参考，使得模型能够通过文本描述准确定位目标个体的动作。数据集中的动作类别丰富多样，涵盖了从基本动作到复杂互动的广泛范围，为模型提供了充分的训练和测试场景。

使用方法

RHAS133数据集适用于文本参考引导的动作分割任务。使用时，模型需结合视频数据和文本参考，定位并分割目标个体的动作。数据集支持多种评估指标，包括帧级准确率（ACC）、编辑分数（EDIT）和分段F1分数（F1@10, 25, 50）。研究人员可通过随机分区和跨电影分区两种评估设置，全面测试模型的泛化能力。此外，数据集兼容多种视觉语言模型（如BLIP-2和CLIP），为不同研究需求提供了灵活性。

背景与挑战

背景概述

RHAS133数据集由Karlsruhe Institute of Technology、Beijing Institute of Technology、中国科学院自动化研究所等机构的研究团队于2025年提出，旨在解决多人物场景下的文本参考引导动作分割问题。该数据集基于133部电影构建，包含33小时视频数据和137种细粒度动作标注，是首个支持通过自然语言描述指定目标人物进行动作分割的数据集。其创新性体现在将文本参考与多人物动作分析相结合，突破了传统单人物固定动作协议的限制，为视频理解领域提供了更接近真实场景的研究基准。

当前挑战

RHAS133面临的核心挑战体现在两方面：领域问题层面，现有动作识别方法难以在多人物场景中准确聚合视觉线索并关联文本描述，传统单人物动作分割模型无法处理非结构化动作序列；构建过程层面，数据集需解决多人物交互的复杂标注问题，包括跨场景人物身份一致性维护、细粒度动作边界划分，以及文本参考与视觉动作的语义对齐。此外，电影场景的光照变化、遮挡等因素也增加了标注难度，需要设计严格的交叉验证机制确保标注质量。

常用场景

经典使用场景

RHAS133数据集在多人物视频场景中，通过文本描述引导特定人物的动作分割，为计算机视觉领域提供了全新的研究范式。该数据集最经典的使用场景在于解析复杂社交互动中个体的细粒度行为，例如在电影片段中根据'穿蓝色连衣裙的女性'等文本描述，精准定位并分割该人物的坐立、行走、交谈等动作序列。这种基于自然语言指代的动作理解方式，显著提升了模型在密集人群环境下的目标感知能力。

衍生相关工作

基于RHAS133的创新特性，研究者已衍生出多项重要工作。HopaDIFF框架通过双分支扩散模型结合傅里叶条件机制，建立了动作分割新范式；HP-xLSTM模块开创了跨模态时序推理的新方法。该数据集还促进了GroundingDINO等视觉定位模型在时序分析中的迁移应用，并推动了BLIP-2等视觉语言模型在长视频理解中的性能突破。

数据集最近研究