AIME-NoB

Hugging Face2025-04-22 更新2025-04-23 收录

下载链接：

https://huggingface.co/datasets/IcarusWizard/AIME-NoB

下载链接

链接失效反馈

官方服务：

资源简介：

AIME-NoB是一个用于强化学习的自包含数据集，包含多个轨迹，每个轨迹以.hdf5文件格式单独存储。数据集由Volkswagen AG机器学习研究实验室的Xingyuan Zhang在攻读博士学位期间收集，用于预训练世界模型并进行观察模仿学习。

AIME-NoB is a self-contained reinforcement learning dataset comprising multiple trajectories, each stored individually in the .hdf5 file format. It was collected by Xingyuan Zhang during his doctoral studies at the Machine Learning Research Laboratory of Volkswagen AG, and is designed for pretraining world models and performing observational imitation learning.

创建时间：

2025-04-10

搜集汇总

数据集介绍

构建方式

在强化学习研究领域，AIME-NoB数据集的构建采用了严谨的实验设计方法。该数据集通过plan2explore算法在DMC环境中运行2000条轨迹并提取回放缓冲区数据，同时包含5条随机轨迹的初始化数据，最终形成2005条完整轨迹。MetaWorld专家数据则源自tdmpc2预训练策略生成的50条高质量轨迹，所有数据均以.hdf5格式存储，包含智能体的本体感知数据和图像观测序列，其中pre_action字段特别标注了前一时刻的动作状态。

特点

作为专为世界模型预训练和观测模仿学习设计的基准数据集，AIME-NoB具有显著的多模态特性。每个轨迹文件完整记录了智能体在视觉环境中的时空动态，包含连续的传感器读数与视觉观测的精确对齐。数据集采用自包含设计，无需依赖外部资源，且通过分层存储结构实现了高效的数据访问。特别值得注意的是初始时刻动作状态的零值标记，为时序建模提供了清晰的边界条件。

使用方法

研究者可通过HuggingFace平台获取该数据集，利用配套的Python工具链进行高效加载。标准使用流程涉及SequenceDataset类的实例化，需指定数据路径、观测序列长度等参数。典型应用场景包括世界模型预训练、离线强化学习以及行为克隆等任务。数据集采用CC BY 4.0许可协议，允许学术社区自由使用和改进，相关代码示例已在GitHub仓库开源，为复现论文实验结果提供了完整的技术支持。

背景与挑战

背景概述

AIME-NoB数据集由大众汽车集团机器学习研究实验室的张星远博士在其博士研究期间创建，旨在支持其论文《克服知识壁垒：基于预训练世界模型的在线观察模仿学习》的实验部分。该数据集的核心研究问题聚焦于如何通过预训练世界模型实现高效的观察模仿学习，为相关领域的研究提供了重要的实验基准。数据集发布于2024年5月，采用CC BY 4.0许可，包含由plan2explore算法在DMC环境中生成的轨迹数据以及MetaWorld专家策略生成的数据，为强化学习和模仿学习研究提供了丰富的资源。

当前挑战

AIME-NoB数据集面临的挑战主要体现在两个方面：其一，在领域问题方面，观察模仿学习需要解决从观察中推断行为策略的复杂性问题，尤其是在高维视觉输入下如何有效提取状态表征并生成可靠动作序列；其二，在数据构建过程中，确保轨迹数据的多样性和覆盖度是关键挑战，例如在DMC环境中通过plan2explore算法收集2000条轨迹时需平衡探索效率与数据质量，而MetaWorld专家数据的生成则依赖于第三方策略的可靠性。此外，数据集未预设标准划分方案，可能增加后续研究的评估复杂性。

常用场景

经典使用场景

在强化学习领域，AIME-NoB数据集为研究者提供了一个标准化的测试平台，特别适用于世界模型预训练和观察模仿学习任务。该数据集通过记录仿真环境中的轨迹数据，包括本体感知和图像信息，为算法开发提供了丰富的输入输出对。其经典使用场景包括训练智能体从观察中学习行为策略，而无需直接访问专家动作数据，这在机器人控制等领域具有重要价值。

解决学术问题

AIME-NoB数据集有效解决了强化学习中知识迁移的难题，特别是在观察模仿学习场景下。通过提供高质量的轨迹数据，研究者能够探索如何利用预训练世界模型来克服环境动态的知识障碍。该数据集为验证新算法在跨任务知识迁移、样本效率提升等方面的性能提供了可靠基准，推动了模仿学习与强化学习的交叉研究。

衍生相关工作

基于AIME-NoB数据集，研究者已开展多项延伸工作，包括离线强化学习算法的改进、世界模型架构的优化等。该数据集启发了对观察模仿学习范式的深入探索，如结合元学习框架提升跨任务泛化能力。相关研究还探讨了如何利用该数据集中的多模态信息（视觉与本体感知）来增强策略学习的鲁棒性，为后续研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集