actionbench

Name: actionbench
Creator: AI at Meta
Published: 2026-02-20 07:43:06
License: 暂无描述

Hugging Face2026-02-20 更新2026-02-21 收录

下载链接：

https://huggingface.co/datasets/facebook/actionbench

下载链接

链接失效反馈

官方服务：

资源简介：

ActionBench 是一个用于评估从视频生成动画3D网格的基准数据集，包含128对视频与动画点云的配对样本。每个样本包括：1) 一段16帧的RGBA格式视频（带alpha遮罩）；2) 动画点云数据，其形状为(T, V, 6)，其中T=16表示关键帧数量，V表示顶点数量（网格表面随机采样的点），6表示每个点的位置(x,y,z)和法向量(nx,ny,nz)。该点云具有跟踪特性，即每个点索引对应随时间变形的相同表面点，提供了密集的时间对应关系。数据集基于ObjaverseXL中的动画对象场景，使用Blender 3.5.1渲染生成。主要评估指标包括：CD-3D（每帧几何精度）、CD-4D（时空一致性）和CD-M（运动保真度）。数据集适用于视频到3D转换、视频分类等任务。

ActionBench is a benchmark dataset for evaluating animated 3D mesh generation from videos, which contains 128 paired samples of videos and animated point clouds. Each sample consists of two parts: 1) a 16-frame RGBA-format video with an alpha mask; 2) animated point cloud data with the shape of (T, V, 6), where T=16 represents the number of keyframes, V denotes the number of vertices (points randomly sampled from the mesh surface), and 6 corresponds to the position (x, y, z) and normal vector (nx, ny, nz) of each point. This point cloud features tracking consistency, meaning each point index corresponds to the same surface point that deforms over time, thus providing dense temporal correspondences. The dataset is generated by rendering animated object scenes sourced from ObjaverseXL using Blender 3.5.1. The primary evaluation metrics include CD-3D (per-frame geometric accuracy), CD-4D (spatiotemporal consistency) and CD-M (motion fidelity). This dataset is suitable for tasks such as video-to-3D conversion and video classification.

提供机构：

AI at Meta

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在计算机视觉与三维重建领域，合成数据集的构建对于推动动态三维模型生成技术的发展至关重要。ActionBench数据集的构建依托于ObjaverseXL这一大规模三维模型库，从中选取动画对象并利用Blender 3.5.1进行高质量渲染。每个样本均包含16帧RGBA视频序列及其对应的动态点云，点云数据通过从动画网格表面随机采样顶点获得，并保持了时间维度上的密集对应关系，形成了128组视频与动态点云的配对样本，为评估视频到三维动画的生成任务提供了精准的基准。

特点

该数据集的核心特征在于其精心设计的配对结构与时空一致性。每个样本均包含带有透明度通道的视频帧与具有追踪属性的动态点云，点云数据以(T, V, 6)的张量形式组织，不仅记录了顶点在三维空间中的位置，还包含了法线向量信息，确保了几何细节的完整性。更为重要的是，点云在时间轴上保持顶点索引的一致性，为模型提供了跨帧的密集对应关系，使得评估能够深入到运动连贯性与时空一致性的层面，为动态三维重建任务设立了新的标准。

使用方法

使用ActionBench进行评估时，需按照其规定的格式组织预测结果。用户需要生成以样本唯一标识符命名的子目录，并在其中存放对应时间步的GLB格式网格文件。通过运行官方提供的评估脚本，将预测结果与真实数据进行比较，系统会自动计算CD-3D、CD-4D及CD-M等多维度指标，全面衡量生成模型在几何精度、时空一致性及运动保真度方面的性能。这一流程不仅标准化了评估过程，也确保了结果的可比性与可复现性，为研究社区提供了可靠的性能基准。

背景与挑战

背景概述

随着三维视觉与动态场景重建技术的迅猛发展，从视频中生成高质量的三维动画网格已成为计算机视觉领域的前沿课题。ActionBench数据集由Meta等机构的研究团队于2026年创建，旨在为视频到三维动画生成任务提供一个标准化的评估基准。该数据集包含128对视频与动画点云的配对样本，基于ObjaverseXL中的合成场景渲染而成，核心研究聚焦于推动时空一致的动态三维重建算法的发展，对动画生成、虚拟现实及机器人感知等应用领域具有重要的推动作用。

当前挑战

在视频到三维动画生成的领域内，模型需克服几何精度、时空一致性及运动保真度等多重挑战，例如准确捕捉非刚性形变与复杂运动模式。ActionBench构建过程中，研究团队面临合成数据生成与真实感平衡的难题，包括确保点云在时间维度上的密集对应关系，以及跨帧顶点跟踪的稳定性，这些技术障碍对数据集的可靠性与评估有效性提出了较高要求。

常用场景

经典使用场景

在计算机视觉与三维重建领域，ActionBench数据集为评估视频到动态三维网格生成任务提供了标准化的基准。该数据集通过合成场景中配对视频与动态点云样本，支持研究者系统性地测试模型从二维视频序列中重建具有时间一致性的三维动画对象的能力。其经典使用场景集中于量化生成模型的几何精度、时空一致性及运动保真度，为算法性能提供了可复现的客观衡量标准。

实际应用

在实际应用层面，ActionBench数据集所支撑的技术在增强现实、虚拟内容创作及机器人视觉感知等领域具有广泛前景。例如，在影视特效与游戏开发中，能够从单目视频自动生成高质量三维动画角色，大幅降低手工建模成本。在工业仿真与自动驾驶系统中，该技术有助于从真实世界视频中重建动态物体的运动轨迹，为环境理解与交互提供更丰富的三维时空信息。

衍生相关工作

围绕ActionBench数据集，已衍生出一系列重要的研究工作。其关联项目ActionMesh提出了基于时序三维扩散的动画网格生成框架，并定义了CD-3D、CD-4D等核心评估指标。这些工作共同推动了视频到三维生成领域的进展，激励了后续研究在神经辐射场动态建模、可驱动角色生成等方向上的探索，形成了以配对视频-三维数据为基础的新兴技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集