minerl-navigate

Hugging Face2026-02-12 更新2026-02-13 收录

下载链接：

https://huggingface.co/datasets/Andemand11/minerl-navigate

下载链接

链接失效反馈

官方服务：

资源简介：

MineRL Navigate Video Dataset 是一个基于 Minecraft 游戏的视频数据集，最初由 Guss 等人（2019）为强化学习应用而众包收集。该数据集记录了人类玩家在程序生成的 Minecraft 3D 世界中导航至目标坐标的过程，场景涵盖森林、山脉、村庄和海洋等。为创建视频预测数据集，原始数据中的 'Navigate' 和 'Navigate Extreme' 任务的人类演示被合并并分割为长度为 500 的非重叠序列。数据集包含 961 个训练视频和 225 个测试视频，均为独立的 MP4 文件。此外，JSON 格式的元数据提供了玩家在游戏中的操作以及前进方向与目标方向之间的角度信息。该数据集适用于视频分类和视频预测等任务，并特别标注与 Minecraft 相关的内容。

创建时间：

2026-02-12

原始信息汇总

MineRL Navigate Video Dataset 概述

数据集基本信息

数据集名称：MineRL Navigate Video Dataset
许可协议：MIT
主要任务类别：视频分类
数据规模：1K<n<10K
标签：Minecraft, Minerl, 视频预测

数据来源与构成

原始来源：数据集由Guss等人（2019年）通过众包方式收集，用于强化学习应用。
内容描述：数据展示了人类玩家在视频游戏《我的世界》（Minecraft）的程序生成3D世界中，穿越森林、山脉、村庄和海洋，前往目标坐标的游玩过程。
本数据集构建：为创建视频预测数据集，将Navigate和Navigate Extreme任务的人类演示记录合并，并分割成长度为500的非重叠序列。

数据内容与格式

数据特征：包含video特征，其数据类型为视频。
文件格式：视频数据以独立的MP4文件存储。
额外元数据：以JSON格式存储，包含玩家在游戏中的操作以及前进方向与目标方向之间的角度。
数据划分：
- 训练集：包含961个视频文件，存储路径为train/*.mp4。
- 测试集：包含225个视频文件，存储路径为test/*.mp4。

参考文献

Saxena, Vaibhav; Ba, Jimmy; Hafner, Danijar. (2021). Clockwork Variational Autoencoders. arXiv preprint arXiv:2102.09532.
Guss, William H.; Houghton, Brandon; Topin, Nicholay; Wang, Phillip; Codel, Cayden; Veloso, Manuela; Salakhutdinov, Ruslan. (2019). MineRL: A Large-Scale Dataset of Minecraft Demonstrations. International Joint Conference on Artificial Intelligence.

搜集汇总

数据集介绍

构建方式

在强化学习研究领域，MineRL Navigate视频数据集源自Guss等人于2019年通过众包方式收集的人类玩家演示数据，旨在为算法提供丰富的交互范例。该数据集聚焦于《我的世界》游戏中的导航任务，通过整合Navigate与Navigate Extreme两类任务的演示片段，将其分割为长度为500帧的非重叠视频序列，最终形成包含961个训练视频与225个测试视频的集合，并以MP4格式独立存储，同时辅以记录玩家动作及目标方向角度的JSON元数据。

使用方法

研究人员可借助该数据集开展视频预测、行为克隆及强化学习算法验证等多类实验。使用时应首先加载MP4格式的视频文件，并结合附带的JSON元数据解析玩家动作序列与环境交互信息。数据集已明确划分为训练集与测试集，便于模型训练与性能评估；在应用过程中，可依据任务需求提取视频帧序列或动作轨迹，以构建时序预测或策略学习模型，同时参考提供的学术文献以深化方法设计。

背景与挑战

背景概述

在强化学习领域，获取高质量的人类示范数据对于训练智能体在复杂环境中执行任务至关重要。MineRL Navigate视频数据集由Guss等人于2019年创建，旨在通过众包方式收集《我的世界》游戏环境中的人类玩家导航行为。该数据集聚焦于智能体在程序生成的3D世界中向目标坐标移动的核心研究问题，涵盖了森林、山脉、村庄和海洋等多种地形，为视频预测与强化学习算法的研究提供了丰富的实验基础。其发布显著推动了基于人类示范的模仿学习与决策生成技术的发展，成为该领域的重要基准资源之一。

当前挑战

该数据集主要应对视频预测任务中的挑战，即如何基于历史帧序列准确生成未来环境状态，这在动态变化的3D导航场景中尤为困难，涉及光照、地形与物体交互的复杂建模。构建过程中，研究人员需处理众包数据的一致性问题，确保不同玩家示范的动作与视角具有可比性；同时，将原始演示分割为长度500的非重叠视频序列，需保持时间连贯性与任务完整性，并整合动作指令与目标方向等元数据，这对数据清洗与标注流程提出了较高要求。

常用场景

经典使用场景

在强化学习与视频预测领域，MineRL Navigate Video Dataset 为研究者提供了宝贵的实验资源。该数据集通过记录人类玩家在《我的世界》三维环境中导航至目标坐标的演示视频，捕捉了复杂动态场景中的视觉信息与行为序列。其经典应用场景集中于训练和评估视频预测模型，例如变分自编码器（VAE）或循环神经网络（RNN），以模拟和预测玩家在多样化地形（如森林、山脉、村庄和海洋）中的运动轨迹。这些模型能够学习环境的时间演化规律，为智能体在未知场景中的决策提供先验知识。

解决学术问题

该数据集有效解决了强化学习中样本效率低下与探索成本高昂的学术难题。通过提供大规模人类演示数据，它支持模仿学习与逆强化学习方法的发展，使智能体能够从专家行为中直接学习策略，减少对环境交互的依赖。同时，数据集中的视频序列与元数据（如玩家动作与目标方向角度）为研究时空表示学习、序列建模和跨模态对齐提供了基础，推动了视频预测与行为克隆领域的理论进展，并促进了在复杂、开放世界环境中智能体自主导航能力的提升。

实际应用

在实际应用层面，MineRL Navigate Video Dataset 为游戏人工智能与机器人导航系统提供了重要参考。基于该数据集训练的模型可应用于游戏开发，用于生成非玩家角色（NPC）的智能导航行为，增强游戏体验的真实感。此外，在机器人领域，这些模型能够模拟真实世界中的动态障碍物规避与路径规划任务，例如在多变地形或城市环境中实现自主移动。数据集中的三维视觉信息还可用于虚拟现实（VR）与增强现实（AR）系统的场景理解，支持沉浸式交互应用的开发。

数据集最近研究