FastvideoWorldModel-MC

Hugging Face2026-02-01 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/alexzms/FastvideoWorldModel-MC

下载链接

链接失效反馈

官方服务：

资源简介：

FastvideoWorldModel-MC 数据集包含来自 MineDojo 的简短 Minecraft 游戏片段。每个片段存储在一个文件夹中，包含视频文件和可选的 JSON 动作标注文件。视频文件采用 H.264 编码（libx264），帧率和分辨率记录在 manifest.json 中，每段视频固定包含 96 帧。动作标注文件（mg_actions.json）提供逐帧的动作信息，包括原始 MineDojo 多离散动作向量、移动动作（如 W、A、S、D 等组合）和视角动作（如上、下、左、右等）。部分片段还包含高级数据文件（data.npz），提供对齐到视频帧的 numpy 数组，包括动作向量、位置坐标（x, y, z）以及相机偏航角和俯仰角（以度为单位）。数据集适用于视频生成、动作预测等 Minecraft 相关的研究任务，采用 Apache 2.0 许可证，语言为英语。

创建时间：

2026-02-01

原始信息汇总

FastvideoWorldModel-MC 数据集概述

数据集基本信息

数据集名称: FastvideoWorldModel-MC
许可协议: Apache-2.0
主要语言: 英语 (en)
数据来源: 包含来自《我的世界》(MineDojo) 的短视频片段。

数据内容与结构

数据集由多个《我的世界》游戏片段（episode）组成。每个片段存储在一个独立的文件夹中，文件夹内包含视频文件及可选的JSON动作标注文件。

文件目录结构

每个片段的文件夹命名格式为：episode_<timestamp_utc>_w<worker_id>_<episode_index>_<run_name>/ 文件夹内包含以下文件：

manifest.json: 记录元数据，如帧率（fps）和图像分辨率（image_size_hw）。
video.mp4: 视频文件，编码格式为H.264 (libx264)，固定包含96帧。
mg/mg_actions.json: 逐帧动作标注文件。
data.npz: 可选文件，包含对齐到视频帧的numpy数组，供高级用户使用。

核心数据文件说明

1. 视频文件 (`video.mp4`)

编码: H.264 (libx264)
帧数: 96帧
帧率与分辨率: 记录在 manifest.json 文件的 fps 和 image_size_hw 字段中，其中 image_size_hw = [高度, 宽度]。

2. 动作标注文件 (`mg/mg_actions.json`)

此文件提供逐时间步的动作标注。

格式: 顶层为JSON对象（字典）。
键: 字符串形式的时序步，从 "0" 到 "T-1"。
每个时序步的值包含以下字段：
- action: List[int] 类型，原始的MineDojo MultiDiscrete动作向量。
- move_action: str 类型，取值于集合 { "", "W", "A", "S", "D", "WA", "WD", "SA", "SD" }。
- view_action: str 类型，取值于集合 { "", "up", "down", "left", "right", "up_left", "up_right", "down_left", "down_right" }。
注意:
- view_action 由每帧的偏航角/俯仰角变化量推导得出。
- 遵循常见《我的世界》惯例：dyaw > 0 => right； dpitch > 0 => down。

3. 高级数据文件 (`data.npz`) - 可选

此文件使用 numpy.savez_compressed 创建，包含与视频帧对齐的numpy数组（通常 T = 96）。包含的键及其数据：

actions: int64 类型，形状为 (T, D)。每帧的原始MineDojo MultiDiscrete 动作向量，D 与 manifest["action_nvec"] 的长度匹配。
positions: float32 或 float64 类型，形状为 (T, 3)。表示《我的世界》中的三维世界坐标 (x, y, z)。
yaws: float32 或 float64 类型，形状为 (T,)。表示相机偏航角，单位为度。
pitches: float32 或 float64 类型，形状为 (T,)。表示相机俯仰角，单位为度。提示：如果仅需要视频和 mg_actions.json 文件，可以忽略此 data.npz 文件。

搜集汇总

数据集介绍

构建方式

在游戏人工智能研究领域，高质量的仿真环境交互数据对于训练世界模型至关重要。FastvideoWorldModel-MC数据集通过采集MineDojo平台中的短时游戏片段构建而成，每个片段以独立文件夹形式组织，包含一段固定96帧的H.264编码视频及可选的JSON动作标注文件。数据采集过程记录了每帧对应的原始多维度离散动作向量、移动与视角动作分类，并部分包含由numpy压缩文件提供的精确对齐的世界坐标与摄像机姿态数据，确保了时序动作与视觉观测的严格同步。

特点

该数据集的核心特征体现在其多模态对齐与结构化标注设计上。视频流采用标准编码格式，帧率与分辨率信息通过清单文件明确记录，保障了数据的可复现性。动作标注体系不仅提供原始的底层动作向量，还将其解析为可读的移动方向与视角转动语义标签，兼顾了机器学习模型的输入需求与人类可解释性。此外，部分片段附带的数值数组文件提供了像素级对齐的三维位置与旋转数据，为研究视觉表征与物理状态映射关系提供了独特的多视角监督信号。

使用方法

研究者可依据不同实验需求灵活调用该数据集的层级化内容。基础使用场景仅需加载视频文件与mg_actions.json，通过解析时间步键值对即可获得帧级动作序列，适用于行为克隆或视频预测任务。进阶研究则可利用data.npz文件中的对齐数值数组，直接获取动作向量、三维坐标及欧拉角数据流，支持世界模型训练中的状态重建与动力学学习。数据集采用的标准化目录结构与清晰元数据描述，使得其能够无缝集成至现代深度学习管道，促进仿真环境中视频序列生成与动作规划研究的迭代发展。

背景与挑战

背景概述

FastvideoWorldModel-MC数据集诞生于强化学习与视频生成模型交叉研究蓬勃发展的时代，由研究团队为探索高效的世界模型训练而构建。该数据集聚焦于《我的世界》游戏环境，通过采集短时游戏片段，旨在为视频预测、动作建模及具身智能等前沿课题提供结构化、多模态的基准数据。其核心研究问题在于如何利用有限的视频序列与精确的动作标注，驱动模型学习复杂环境中的动态规律与行为策略，从而推动样本效率高、泛化能力强的世界模型发展，对自主智能体与模拟学习领域具有显著的促进作用。

当前挑战

该数据集致力于解决视频世界模型训练中的关键挑战，即如何从高维、连续的视觉输入中有效提取环境动态并关联智能体行为，以支持长期、准确的未来帧与状态预测。构建过程中的挑战体现在多模态数据的精确对齐与标注上，例如确保视频帧、原始动作向量及衍生移动/视角动作之间严格同步，同时需处理《我的世界》环境中动作空间的高维离散特性及视角变化的复杂映射。此外，数据采集需在可控条件下保持游戏状态的一致性，以保障序列的连贯性与可重复性，这对标注流程与存储结构提出了较高要求。

常用场景

经典使用场景

在强化学习与计算机视觉交叉领域，FastvideoWorldModel-MC数据集为视频预测与世界模型研究提供了经典范例。该数据集通过收录《我的世界》游戏环境中的短片段视频及对应的动作标注，构建了时序对齐的多模态序列数据。研究者可基于这些数据训练模型，以预测未来帧序列或生成潜在状态表示，从而模拟动态环境演变过程。

实际应用

在实际应用层面，FastvideoWorldModel-MC数据集为游戏人工智能与自主机器人控制提供了关键训练资源。基于该数据集训练的模型能够模拟复杂三维环境中的物理交互，应用于游戏角色自动化、虚拟环境测试平台构建以及机器人视觉运动规划等领域。这些应用不仅降低了真实世界实验的成本，还加速了智能系统在动态场景中的部署与优化。

衍生相关工作

围绕该数据集，学术界衍生出多项经典研究工作，主要集中在视频预测架构、世界模型算法以及跨模态表示学习等方面。例如，基于其时序对齐特性，研究者开发了多种循环神经网络与变换器模型，用于长程动态建模；同时，该数据集也促进了对比学习与生成对抗网络在视觉强化学习中的融合，推动了如Dreamer系列算法等前沿方法的演进与验证。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集