ActionArt

Name: ActionArt
Creator: 中山大学, 中国; 阿里巴巴集团通义实验室; 深圳鹏城实验室, 中国; 教育部机器智能与先进计算重点实验室, 中国
Published: 2025-04-25 16:05:32
License: 暂无描述

arXiv2025-04-25 更新2025-04-29 收录

下载链接：

https://www.modelscope.cn/datasets/maybex/ActionArt

下载链接

链接失效反馈

官方服务：

资源简介：

ActionArt是一个细粒度视频字幕数据集，旨在推动以人为中心的多模态理解研究。该数据集包含数千个视频，捕捉了广泛的人类动作、人-物交互和多样化的场景，每个视频都伴有详细的注释，精确地标注了每个肢体动作。我们开发了八个子任务，以评估现有大型多模态模型在不同维度上的细粒度理解能力。实验结果表明，尽管当前的大型多模态模型在各种任务上表现良好，但它们往往在实现细粒度理解方面有所欠缺。我们认为，这种局限性主要归因于精细标注数据的稀缺，这些数据既昂贵又难以手动扩展。由于手动注释既昂贵又难以扩展，我们提出了代理任务来增强模型在空间和时间维度上的感知能力。这些代理任务经过精心设计，由现有大型语言模型自动生成的数据驱动，从而减少了对外部昂贵手动标签的依赖。实验结果表明，提出的代理任务显著缩小了与手动标注细粒度数据相比的性能差距。

ActionArt is a fine-grained video captioning dataset designed to advance human-centric multimodal understanding research. This dataset contains thousands of videos that capture a wide range of human actions, human-object interactions and diverse scenarios, with each video accompanied by detailed annotations that precisely label every limb movement. We developed eight subtasks to evaluate the fine-grained understanding capabilities of state-of-the-art large multimodal models across diverse dimensions. Experimental results show that although current large multimodal models perform well across various tasks, they often fall short in achieving fine-grained understanding. We argue that this limitation is mainly attributed to the scarcity of finely annotated data, which is both costly and difficult to scale manually. Given that manual annotation is both costly and difficult to scale, we propose proxy tasks to enhance the perceptual capabilities of models across spatial and temporal dimensions. These proxy tasks are carefully designed and data-driven, automatically generated by existing large language models, thereby reducing reliance on expensive external manual annotations. Experimental results demonstrate that the proposed proxy tasks significantly narrow the performance gap compared to using manually annotated fine-grained data.

提供机构：

中山大学, 中国; 阿里巴巴集团通义实验室; 深圳鹏城实验室, 中国; 教育部机器智能与先进计算重点实验室, 中国

创建时间：

2025-04-25

原始信息汇总

数据集概述

基本信息

数据集名称: maybex/ActionArt
许可证: Apache License 2.0
创建者: @maybex
下载量: 0
大小: 5.18MB
更新时间: 2025-04-28

数据集状态

当前状态: 内容尚未更新，请期待后续更新。

备注

该数据集由ModelScope.cn平台提供。

搜集汇总

数据集介绍

构建方式

ActionArt数据集构建于MoVid数据集的基础上，通过精心设计的人工标注流程对视频内容进行细粒度标注。研究团队首先利用GPT-4V等先进多模态大模型生成初步视频描述，随后通过人工干预对每段视频的肢体动作进行精细化标注，确保每个动作细节都得到准确描述。标注过程采用双重校验机制，最终构建了包含4009个视频片段的基准数据集，涵盖武术、舞蹈等多种人类活动场景。

特点

ActionArt数据集的核心特点在于其对人类动作的细粒度刻画能力。该数据集不仅包含丰富的人类动作和人物-物体交互场景，还针对每个视频提供了详尽的肢体运动描述。特别设计了8个子任务评估框架，包括局部空间理解、全局空间理解、时序定位等维度，全面考察模型对人类动作的精细理解能力。数据集包含2678个人工标注的多选题问答对，为模型评估提供了可靠基准。

使用方法

使用ActionArt数据集时，研究者可通过其设计的8个子任务系统评估多模态大模型的细粒度视频理解能力。数据集支持以64帧为上限的视频采样，分辨率限制在480x480像素。建议采用三阶段训练策略：先在视频表示任务上预训练，再通过代理任务增强细粒度理解能力，最后利用人工标注数据进行微调。评估时可采用准确率作为主要指标，针对不同子任务分别计算性能表现。

背景与挑战

背景概述

ActionArt是由中山大学、阿里巴巴集团通义实验室等机构的研究团队于2025年提出的细粒度人本视频理解基准数据集。该数据集基于MoVid视频库构建，包含4,009段涵盖武术、舞蹈等多样化场景的人类动作视频，每段视频均配有精确到肢体运动的细粒度标注。作为首个专注于微观动作解析的多模态基准，ActionArt通过8项子任务系统评估模型在时空维度上的细粒度理解能力，填补了传统视频理解模型在肢体运动解析方面的空白，为人机交互、智能监控等应用场景提供了重要的研究基础。

当前挑战

ActionArt针对两大核心挑战展开研究：在领域问题层面，现有多模态大模型对肢体朝向、关节角度等微观动作的识别准确率不足60%，难以满足医疗康复、体育训练等高精度场景需求；在构建过程中，细粒度标注面临标注成本与质量控制的矛盾，单段视频平均需耗费4.6小时人工校验。研究团队创新性地采用GPT-4V预标注与差分帧合成技术，通过空间差异挖掘、姿态描述等代理任务降低90%标注成本，但动态遮挡、快速动作模糊等复杂场景仍导致14.7%的标注误差率。

常用场景

经典使用场景

ActionArt数据集在细粒度人体动作理解领域具有重要应用价值，其精心标注的肢体运动细节为研究多模态大模型在时空维度上的感知能力提供了基准。该数据集通过连续帧的姿势描述、空间差异分析和动作序列标注，支持模型对舞蹈、武术等复杂人体动作的微观解析，尤其在需要捕捉手指关节弯曲角度或躯干旋转幅度等精细动作特征的场景中展现出独特优势。

衍生相关工作

该数据集催生了MotionLLM等专注于人体运动理解的新模型架构，其代理任务范式被Video-MME等基准借鉴用于长视频分析。相关技术路线启发了Oryx-MLLM的动态压缩器设计，而数据集构建方法为ShareGPT4Video等视频标注项目提供了自动化标注的参考框架。

数据集最近研究