Action100M

github2026-01-16 更新2026-01-17 收录

下载链接：

https://github.com/facebookresearch/Action100M

下载链接

链接失效反馈

官方服务：

资源简介：

Action100M 是一个大规模视频动作数据集，包含视频动作的标注信息，每个样本包含视频的唯一标识符、元数据以及分段注释。分段注释包括时间边界、节点ID、父节点ID、层级、PLM生成的标题和动作标签以及LLama-3生成的标题。

Action100M is a large-scale video action dataset with annotated information for video actions. Each sample contains the video's unique identifier, metadata, and segmented annotations. The segmented annotations include temporal boundaries, node ID, parent node ID, hierarchy level, titles and action labels generated by PLM, as well as titles generated by LLama-3.

创建时间：

2026-01-14

原始信息汇总

Action100M 数据集概述

数据集基本信息

数据集名称：Action100M: A Large-scale Video Action Dataset
发布机构：Meta FAIR、香港科技大学、阿姆斯特丹大学、索邦大学
相关论文：arXiv:2601.10592
许可证：FAIR Noncommercial Research License

数据集内容与规模

类型：大规模视频动作数据集
预览版本：完整数据集的10%已发布，可通过Hugging Face仓库 facebook/action100m-preview 访问。
数据来源：YouTube视频。

数据结构与标注

每个样本包含一个视频的所有标注信息，包含以下字段：

video_uid：YouTube视频ID。
metadata：视频级元数据（标题、描述、ASR转录文本等）。
nodes：按时间定位的分段标注列表，遵循分层“标题树”结构。

分段节点 (`nodes` 列表中的元素) 包含字段：

start, end：分段在完整视频中的时间边界（秒）。
node_id：该分段节点的唯一标识符。
parent_id：父分段节点的ID。根节点（对应整个视频）的 parent_id 为 null。
level：在层次结构中的深度。数值越小表示分段越粗（更长），数值越大表示分段越细（更短）。
plm_caption：由PLM-3B模型为该分段生成的描述。
plm_action：由PLM-3B模型生成的简短动作标签。
llama3_caption：针对叶节点，由LLama-3.2-Vision-11B模型生成的中间帧描述。
gpt：主要的Action100M标注信息，适用于不太短的分段，包含以下子字段：
- gpt["summary"]["brief"]：该分段的单句简洁描述。
- gpt["summary"]["detailed"]：该分段的更长、更详细的总结。
- gpt["action"]["brief"]：命名该步骤的简短动词短语。
- gpt["action"]["detailed"]：描述如何执行该动作的命令式指令。
- gpt["action"]["actor"]：执行动作的主体（名词短语）。

数据访问与使用

主要访问点：Hugging Face数据集 facebook/action100m-preview。
本地加载与可视化示例：参见 usage.ipynb。
数据样本：仓库中的 data/hySSAAw4t24.json 文件展示了一个样本。

引用信息

如需在研究中引用此数据集，请使用以下BibTeX条目：

@article{chen2026action100m, title={Action100M: A Large-scale Video Action Dataset}, author={Chen, Delong and Kasarla, Tejaswi and Bang, Yejin and Shukor, Mustafa and Chung, Willy and Yu, Jade and Bolourchi, Allen and Moutakanni, Théo and Fung, Pascale}, journal={arXiv preprint arXiv:2601.10592}, year={2026} }

搜集汇总

数据集介绍

构建方式

在视频理解领域，大规模标注数据对于模型训练至关重要。Action100M的构建过程体现了系统性数据采集与智能标注的深度融合。该数据集源自YouTube平台的海量公开视频，通过自动化流程筛选出涵盖广泛人类活动的视频内容。每个视频被分割为多个时间片段，并采用层次化的树状结构进行组织，其中根节点对应完整视频，子节点则代表不同粒度的视频段落。标注工作主要依托先进的大语言模型与视觉语言模型协同完成，包括PLM-3B生成初步描述与动作标签，以及GPT系列模型提供精细的摘要、动作分解与执行者信息，从而形成多层级、多模态的丰富注释体系。

特点

作为当前规模领先的视频动作数据集，Action100M的显著特征在于其前所未有的数据体量与精细的结构化标注。数据集包含超过一亿个视频片段的注释，覆盖了从日常活动到专业技能的多样化动作场景。其核心创新在于引入了层次化的“标题树”结构，允许从整体概览到局部细节的多尺度语义理解。每个片段不仅包含简洁的动作标签，还提供了详细的描述性摘要与指令式动作分解，并明确标注了动作执行主体。这种多层次、多角度的注释方式为视频理解模型提供了更为丰富和立体的监督信号，极大地促进了细粒度动作识别与时空关系推理的研究。

使用方法

为便于学术研究，Action100M通过Hugging Face平台提供了便捷的数据访问接口。研究者可以使用`datasets`库直接加载数据集的预览版本，该版本包含了完整数据集的百分之十以供初步探索。数据以流式Parquet文件格式提供，支持高效的大规模数据处理。加载后的每个样本对应一个完整视频，包含视频唯一标识符、元数据以及结构化的节点注释列表。用户可以通过迭代器遍历样本，并访问每个视频片段的时间戳、层级关系、模型生成的各类描述与动作标签。官方提供的Jupyter Notebook示例详细展示了数据加载、解析与可视化的完整流程，为后续的模型训练与评估奠定了技术基础。

背景与挑战

背景概述

在计算机视觉领域，视频理解尤其是动作识别一直是研究热点，但大规模、高质量标注数据集的稀缺制约了模型性能的突破。Action100M数据集由Meta FAIR、香港科技大学、阿姆斯特丹大学及索邦大学的研究团队于2026年联合创建，旨在构建一个涵盖广泛人类行为的大规模视频动作数据集。该数据集通过从YouTube视频中提取层次化树状标注，利用先进的大型语言模型生成精细的动作描述与摘要，核心研究问题聚焦于提升视频动作的细粒度识别与理解能力，为训练更强大的多模态基础模型提供了关键数据支撑，有望推动动作识别、视频摘要及指令生成等相关领域的发展。

当前挑战

Action100M致力于解决视频动作识别领域长期存在的挑战，即如何从复杂动态场景中准确理解并标注细粒度的人类行为。构建过程中面临多重困难：首先，视频数据的时空复杂性要求标注系统能处理长视频中的时序分割与层次化语义关联；其次，依赖大型语言模型自动生成标注虽提升了规模，但需确保生成内容的准确性、一致性与多样性，避免模型偏见或错误传播；此外，数据版权与隐私问题也需谨慎处理，以符合非商业研究许可的要求。这些挑战共同构成了数据集开发与应用的核心难点。

常用场景

经典使用场景

在计算机视觉与视频理解领域，Action100M数据集以其大规模、层次化标注的特性，为视频动作识别与理解任务提供了经典的应用场景。该数据集常用于训练和评估深度学习模型，特别是针对视频中复杂动作的时序定位与语义解析。研究者利用其丰富的层级结构，能够深入探索动作的细粒度分解，从宏观活动到微观步骤，推动模型在长视频理解、动作步骤分解等任务上的性能提升。

衍生相关工作

围绕Action100M数据集，已衍生出多项经典研究工作，主要集中在视频动作建模、层次化表示学习等领域。例如，研究者利用其层级标注开发了新的时序动作检测框架，能够同时处理不同粒度的动作单元；另有工作专注于多模态融合，结合视频、文本与语音信息，提升动作理解的准确性。这些工作不仅拓展了数据集的利用深度，也为视频分析领域的算法创新提供了重要参考。

数据集最近研究