Action100M

Name: Action100M
Creator: Meta FAIR; 香港科技大学; 阿姆斯特丹大学; 索邦大学
Published: 2026-01-16 01:02:27
License: 暂无描述

arXiv2026-01-16 更新2026-01-17 收录

下载链接：

https://github.com/facebookresearch/Action100M

下载链接

链接失效反馈

官方服务：

资源简介：

Action100M是由Meta FAIR等机构联合构建的大规模视频动作数据集，包含来自120万条互联网教学视频的1.47亿个时序标注片段，总时长相当于14.6年。数据集通过自动化流水线生成，采用V-JEPA 2嵌入进行分层时序分割，并组织为树状多级字幕结构，最终通过GPT-OSS-120B推理模型输出结构化标注。其21.3亿单词量的丰富标注支持开放词汇动作识别，在VL-JEPA模型训练中展现出卓越的零样本性能，为视频理解与物理世界建模研究提供了新基准。

Action100M is a large-scale video action dataset jointly constructed by Meta FAIR and other institutions. It contains 147 million temporally annotated segments sourced from 1.2 million online instructional videos, with a total duration equivalent to 14.6 years. The dataset is generated via an automated pipeline, adopts V-JEPA 2 embeddings for hierarchical temporal segmentation, is organized into a tree-like multi-level subtitle structure, and finally outputs structured annotations through the GPT-OSS-120B inference model. Its rich annotations with a vocabulary size of 2.13 billion support open-vocabulary action recognition, and have demonstrated outstanding zero-shot performance during VL-JEPA model training, providing a new benchmark for video understanding and physical world modeling research.

提供机构：

Meta FAIR; 香港科技大学; 阿姆斯特丹大学; 索邦大学

创建时间：

2026-01-16

原始信息汇总

Action100M 数据集概述

数据集基本信息

名称: Action100M
性质: 大规模视频动作数据集
论文: Action100M: A Large-scale Video Action Dataset
预览版获取地址: facebook/action100m-preview
许可证: FAIR 非商业研究许可证

数据内容与结构

数据集包含视频的层次化标注。每个样本对应一个视频，包含以下字段：

video_uid (字符串): 源视频的 YouTube 视频 ID。
metadata (字典): 视频级元数据（标题、描述、ASR 转录文本等）。
nodes (字典列表): 每个视频片段的标注列表。

片段标注节点结构

nodes 列表中的每个元素代表层次化“标题树”中的一个时间局部化片段，包含：

start, end (浮点数): 片段在整个视频中的边界（秒）。
node_id (字符串): 该片段节点的唯一 ID。
parent_id (字符串或 null): 父片段的 ID。根节点（对应整个视频）的 parent_id 为 null。
level (整数): 在层次结构中的深度。level 值越小表示片段越粗（更长）；值越大表示片段越细（更短）。
plm_caption (字符串或 null): 由 PLM-3B 为该片段生成的描述。
plm_action (字符串或 null): 由 PLM-3B 生成的简短动作标签。
llama3_caption (字符串或 null): 由 LLama-3.2-Vision-11B 为叶节点生成的中间帧描述。
gpt (字典或 null): 主要的 Action100M 标注，适用于不太短的片段：
- gpt["summary"]["brief"]: 该片段的一句话简洁描述。
- gpt["summary"]["detailed"]: 对视频片段的更长、更详细的总结。
- gpt["action"]["brief"]: 命名该步骤的简短动词短语。
- gpt["action"]["detailed"]: 描述如何完成该动作的命令式指令。
- gpt["action"]["actor"]: 执行动作的人或物（名词短语）。

数据加载与使用

预览版（完整数据的 10%）可通过 Hugging Face 数据集库加载。
提供了从本地 Parquet 文件加载和可视化的示例代码（usage.ipynb）。
代码仓库中存储了一个样本文件 data/hySSAAw4t24.json。

引用

如需引用，请使用提供的 BibTeX 条目。

搜集汇总

数据集介绍

构建方式

在视频理解领域，大规模、高质量的数据集是推动模型泛化能力的关键。Action100M的构建依托一套全自动流水线，该流程从120万条互联网教学视频出发，总时长约14.6年。首先，利用V-JEPA 2嵌入进行层次化时间分割，将视频分解为多尺度的时间片段；随后，通过Llama-3.2-Vision和Perception-LM等前沿模型生成帧级与段级描述，并组织为树状字幕结构；最终，借助GPT-OSS-120B大型语言模型，在多轮自优化机制下聚合证据，输出包含简洁/详细动作描述、执行者及视频字幕的结构化标注。这一流程在约160万GPU小时的计算资源下，自动化产生了1.47亿个片段级标注，涵盖213亿英文单词，实现了标注规模与质量的平衡。

使用方法

Action100M为训练大规模视频语言模型提供了核心数据支撑。研究人员可直接利用其丰富的层次化标注进行监督学习，例如训练VL-JEPA等联合嵌入预测架构。数据集支持零样本动作识别与文本到视频检索任务的评估，在包括Something-something-v2、EPIC-KITCHENS-100、Kinetics-400在内的八个基准测试中验证模型泛化能力。使用时可依据任务需求选择不同粒度的标注字段，如利用简洁动作描述优化动作分类，或借助详细字幕增强视觉语言对齐。此外，数据集的树状结构便于探索时间层次建模，为动作预测、程序性规划及世界模型等前沿研究方向提供了可扩展的实验平台。

背景与挑战

背景概述

视频动作理解是机器智能在物理世界中实现具身交互与状态推理的核心能力，其发展长期受限于大规模、高质量标注数据的匮乏。2026年，Meta FAIR联合多所高校的研究团队推出了Action100M数据集，旨在构建一个开放词汇、跨领域的大规模视频动作数据基础。该数据集源自120万条互联网教学视频，通过全自动流水线生成了约1.47亿个时序定位片段，并提供了多层次的动作描述与视频摘要。Action100M的创建标志着视频理解从特定领域、小规模标注向开放域、自动化标注的重要转变，为动作识别、世界建模与长时序推理研究提供了前所未有的数据支撑。

当前挑战

Action100M致力于解决开放词汇视频动作识别这一核心领域问题，其挑战在于如何从海量、异构的互联网视频中精准提取并标注细粒度、多层次的物理动作。构建过程中的主要挑战体现在三方面：一是时序分割的复杂性，需利用V-JEPA 2嵌入进行层次化聚类，以平衡动作的原子性与连贯性；二是标注质量的保障，需通过树状摘要结构与多轮自优化推理机制，聚合多源证据以抑制大模型幻觉；三是数据分布的均衡性，面对动作频率的长尾分布，需设计语义重采样策略，提升模型对稀有动作的泛化能力。

常用场景

经典使用场景

在视频理解与动作识别领域，Action100M数据集凭借其海量规模与多层次标注，成为训练大规模视觉语言模型的基石。该数据集通过自动化流程从120万教学视频中提取出1.47亿个时序片段，每个片段均附带开放词汇的动作描述与丰富字幕，为模型提供了跨越广泛领域的密集监督信号。其经典应用场景在于支撑开放词汇动作识别系统的开发，使得模型能够从视频中推断出精细的物理动作，例如从“搅拌面糊”到“组装电脑”等不同抽象层级的任务。

解决学术问题

Action100M有效应对了视频动作理解研究中长期存在的标注瓶颈与数据规模限制。传统数据集如COIN、YouCook2等，虽在特定领域提供了宝贵标注，但受限于手动标注成本，其规模与多样性难以满足开放域模型训练需求。该数据集通过全自动标注管道，结合V-JEPA 2嵌入、多层次字幕树与GPT-OSS-120B推理模型，生成了高质量、细粒度的动作与字幕标注。这为解决开放词汇动作识别、长时序建模以及世界状态推理等核心学术问题提供了坚实的数据基础，推动了视频理解从狭窄领域向通用物理世界认知的跨越。

实际应用

在实际应用层面，基于Action100M训练的模型展现出强大的零样本泛化能力，为具身智能、可穿戴辅助设备及物理世界建模等场景提供了关键技术支撑。例如，在智能家居环境中，模型可实时解析用户操作视频，识别“打开灯具”、“切割番茄”等动作，进而实现自动化任务辅助。在工业流程监控领域，系统能够分析装配视频，自动分解并验证操作步骤。此外，其强大的文本-视频检索性能也为内容理解、视频摘要生成等多媒体应用开辟了新的可能性。

数据集最近研究