DMControl and MMBench Dataset

github2026-01-14 更新2026-01-15 收录

下载链接：

https://github.com/nicklashansen/dreamer4

下载链接

链接失效反馈

官方服务：

资源简介：

我们的数据集包含7,200条混合质量的轨迹（3.6M帧），涵盖来自DMControl和MMBench的30个连续控制任务。为了构建这个数据集，我们使用专家TD-MPC2代理收集了每个任务的240条轨迹，这些代理是我们Newt/MMBench项目的一部分。我们默认使用128×128的分辨率进行训练，但数据集支持高达224×224的分辨率。我们的数据集将很快在HuggingFace上公开。

Our dataset contains 7,200 trajectories of mixed quality (3.6M frames), covering 30 continuous control tasks sourced from DMControl and MMBench. To construct this dataset, we collected 240 trajectories for each task using expert TD-MPC2 agents, which are part of our Newt/MMBench project. We use a resolution of 128×128 by default for training, while the dataset supports resolutions up to 224×224. Our dataset will be publicly released on HuggingFace soon.

创建时间：

2026-01-12

原始信息汇总

数据集概述

数据集基本信息

数据集名称: 未在README中明确命名，但为用于训练Dreamer 4模型的数据集。
数据来源: 基于DMControl和MMBench基准中的任务，使用TD-MPC2智能体收集。
数据状态: 即将在HuggingFace上公开。

数据集内容与规模

任务范围: 包含30个连续控制任务。
数据规模: 总计7,200条混合质量的轨迹，相当于360万帧。
数据收集:
- 每个任务收集240条轨迹。
- 使用来自Newt/MMBench项目的专家TD-MPC2智能体。
数据多样性处理: 在动作中添加噪声以增加数据多样性。

数据格式与规格

动作空间: 连续动作。
观测分辨率:
- 默认训练分辨率: 128×128。
- 支持最高分辨率: 224×224。

相关资源与引用

原始论文引用:
- Dreamer 4: Training Agents Inside of Scalable World Models
- DMControl: DeepMind Control Suite
- MMBench: Learning Massively Multitask World Models for Continuous Control
- TD-MPC2: TD-MPC2: Scalable, Robust World Models for Continuous Control
数据生成参考: 可参考Newt仓库了解数据生成流程。
数据集发布平台: 即将发布于HuggingFace。

搜集汇总

数据集介绍

构建方式

在强化学习领域，构建高质量的数据集对于训练通用世界模型至关重要。该数据集通过集成DMControl与MMBench两大基准平台，汇集了30个连续控制任务，共计7200条混合质量轨迹，涵盖360万帧图像数据。其构建过程依赖于TD-MPC2专家智能体，针对每个任务采集240条轨迹，并在动作空间中引入噪声以增强数据多样性，从而为多任务世界模型的训练提供了丰富且具挑战性的环境交互样本。

特点

该数据集的核心特点在于其广泛的任务覆盖与高质量的数据构成。它不仅涵盖了从基础运动到复杂操作的多样化连续控制场景，还支持最高224×224像素的图像分辨率，为模型提供了精细的视觉输入。数据集中混合了不同质量的轨迹，既包含专家级演示，也融入了噪声扰动后的行为，这种设计有助于提升模型的鲁棒性与泛化能力，使其能够适应真实世界中复杂多变的环境动态。

使用方法

在模型训练过程中，该数据集主要用于Dreamer 4架构的因果分词器与交互动力学模型的联合优化。用户需首先利用数据集训练分词器，对图像块与潜在令牌进行编码与重构；随后基于分词器的输出，结合动作序列与噪声参数，训练具备去噪能力的动力学模型。数据集可通过HuggingFace平台公开获取，并支持本地生成，为研究者提供了灵活的实验基础，以探索多任务世界模型在连续控制领域的性能边界。

背景与挑战

背景概述

DMControl与MMBench数据集作为强化学习领域的重要基准，由Nicklas Hansen等研究人员于2025年前后整合构建，旨在为连续控制任务提供大规模、多任务的环境交互数据。该数据集汇集了DMControl的经典物理仿真环境与MMBench的多任务评估框架，核心研究问题聚焦于训练能够泛化至多样化任务的通用世界模型，以推动智能体在复杂动态环境中的自主决策能力发展。其构建依托于先进的TD-MPC2专家策略，生成涵盖30项任务的混合质量轨迹，为后续研究如Dreamer 4等世界模型算法提供了关键的数据支撑，显著促进了多任务强化学习与模型基础方法的进步。

当前挑战

该数据集致力于解决连续控制领域中智能体在多任务环境下的泛化与适应性挑战，要求模型能够从异构任务中学习共享表征，并处理高维视觉输入与连续动作空间的复杂映射关系。在构建过程中，研究人员面临数据质量与多样性的平衡难题，需通过注入动作噪声以增强轨迹的探索性，同时确保专家策略生成的样本覆盖足够的状态空间。此外，数据集规模达数百万帧，涉及多环境集成与标准化处理，对存储、计算效率以及跨任务的一致性标注提出了较高要求，这些挑战共同制约着大规模世界模型的训练效果与实用部署。

常用场景

经典使用场景

在强化学习与连续控制领域，DMControl and MMBench 数据集为世界模型训练提供了关键支持。该数据集整合了来自 DMControl 和 MMBench 的 30 项连续控制任务，涵盖行走、跳跃、旋转等多种机器人运动场景，其 7200 条混合质量轨迹与 360 万帧图像数据，为模型学习跨任务通用动态表征奠定了坚实基础。研究者通常利用这些数据训练如 Dreamer 4 等世界模型，通过因果分词器与交互动态模型，实现对高维视觉输入与连续动作序列的联合建模，从而在仿真环境中探索多任务强化学习的泛化能力。

实际应用

在实际应用层面，基于该数据集训练的世界模型可部署于机器人控制、自动驾驶仿真以及游戏智能体开发等场景。例如，在机器人运动规划中，模型能够利用学习到的环境动态预测动作后果，从而生成稳定、高效的控制策略。在自动驾驶领域，类似技术可用于模拟复杂交通环境，安全地训练决策算法。此外，该数据集支持的高分辨率图像训练，有助于提升视觉感知与控制策略的耦合性能，为现实世界的具身智能系统提供可靠的仿真测试平台。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作。例如，Dreamer 4 世界模型利用其进行多任务连续控制训练，探索了基于 Transformer 的因果动态建模。TD-MPC2 算法作为数据收集的专家策略，进一步推动了模型预测控制与强化学习的结合。MMBench 项目则扩展了大规模多任务世界模型的学习框架，验证了跨领域泛化的可行性。这些工作共同构建了一个从数据生成到模型训练、再到实际部署的完整研究脉络，持续推动着强化学习向更通用、更高效的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集