ImagineBench

Name: ImagineBench
Creator: 南京大学软件新技术国家重点实验室 & 南京大学人工智能学院 & Polixir.ai & 香港大学
Published: 2025-05-15 14:45:37
License: 暂无描述

arXiv2025-05-15 更新2025-05-17 收录

下载链接：

https://github.com/LAMDA-RL/ImagineBench

下载链接

链接失效反馈

官方服务：

资源简介：

ImagineBench是一个用于评估离线强化学习算法的数据集，它包含由环境收集的真实回放和大型语言模型生成的虚拟回放。数据集覆盖了运动、机器人操作和导航等多个领域，并提供了不同复杂程度的自然语言任务指令，以促进语言条件策略的学习。ImagineBench旨在解决强化学习算法在未见过的任务上表现不佳的问题，为未来的研究提供了方向，包括更好地利用虚拟回放、快速在线适应和持续学习，以及扩展到多模态任务。

提供机构：

南京大学软件新技术国家重点实验室 & 南京大学人工智能学院 & Polixir.ai & 香港大学

创建时间：

2025-05-15

原始信息汇总

ImagineBench 数据集概述

核心目标

评估强化学习算法通过大型语言模型(LLM)生成的想象轨迹(imaginary rollouts)和真实数据训练策略的性能，并衡量其在新颖任务上的泛化能力。

数据集状态

当前可用环境：CLEVR-Robot、Meta-World、BabyAI、LIBERO
数据类型：真实数据 + LLM生成的想象轨迹
LLM来源：llama2

可用环境详情

环境名称	训练任务	新颖任务
CLEVR-Robot	将A球移动到B球的某个方向	未见过任务如"将所有球聚集在一起"和"将球排成一条线"
Meta-World	Meta-world基准提供的10个不同任务	假设智能体面对墙壁的操作/训练技能的组合
BabyAI	7x7网格世界任务如"goto"、"putnext"和"开门"	训练技能的新组合和扩展
LIBERO	涉及拾取和放置的机器人操作	顺序拾取和放置/假设存在不安全因素的操作

数据格式

observations: (N, T, D)数组，D为观测空间维度与指令编码的拼接
actions: (N, T, D)数组，D为动作空间维度
rewards: (N, T, 1)数组
masks: (N, T, 1)数组，指示每个时间步是否有效(1)或填充(0)

使用方式

训练

支持算法：bc, cql, bcq, td3+bc
支持环境：Ball-v0, MetaWorld-v0, BabyAI-v0, Libero-v0, Mujoco-v0
数据集类型：train, rephrase, easy, hard

获取数据集

python import imagine_bench env = imagine_bench.make(MetaWorld-v0, level=rephrase) real_data, imaginary_rollout = env.get_dataset(level="rephrase")

未来计划

增加更多环境领域
提供更多真实+LLM想象的轨迹数据
提供不同难度级别的任务

搜集汇总

数据集介绍

构建方式

ImagineBench数据集的构建过程分为两个关键步骤：首先通过专家策略在真实环境中收集状态-动作轨迹，并标注对应的自然语言指令；随后采用监督微调方法对大型语言模型进行训练，使其能够根据初始状态和目标任务生成合成轨迹。具体而言，在真实轨迹收集阶段，研究团队针对不同环境（如Meta-world、CLEVR-Robot等）分别采用预收集数据集、规则策略或强化学习训练等方式获取高质量轨迹数据；在合成轨迹生成阶段，通过动态预测、轨迹解释和轨迹生成三项任务对LLaMA-2模型进行微调，最终构建出包含真实与合成轨迹的混合数据集。

特点

该数据集最显著的特征体现在三维度架构设计：其一是双模态数据构成，同时包含环境采集的真实轨迹和LLM生成的合成轨迹，为研究虚实数据融合提供了基础；其二是多领域覆盖性，涵盖运动控制（MuJoCo）、机器人操作（Meta-world/LIBERO）和导航任务（BabyAI）等典型强化学习场景；其三是分层任务体系，将自然语言指令划分为训练任务、改写任务、简单新任务和复杂新任务四个难度层级，系统评估策略的泛化能力。这种设计使得数据集的规模达到数十万条轨迹，且每条轨迹均与结构化语言指令精确对齐。

使用方法

使用该数据集时需遵循标准化评估流程：研究者可选择加载预分割的训练集与测试集，其中测试集包含三个层级的未见任务。评估时需将自然语言指令通过BERT编码后与观测状态拼接，作为策略网络的输入。基准测试表明，现有离线强化学习算法（如CQL、BCQ等）在混合数据训练时需平衡真实与合成轨迹的采样比例，建议采用等比例批量采样策略。对于性能评估，数据集提供各环境专属的成功率计算函数，如机器人操作任务采用5cm位置容差判定，运动控制任务则要求85%语义一致性。所有实验应重复三次随机种子以保证结果可靠性。

背景与挑战

背景概述

ImagineBench是由南京大学人工智能学院与Polixir.ai等机构的研究团队于2025年推出的首个面向强化学习与大型语言模型合成轨迹的基准测试平台。该数据集针对强化学习领域长期存在的真实交互数据依赖性问题，创新性地提出利用语言模型生成合成轨迹（imaginary rollouts）来辅助策略学习。其核心研究价值在于建立了覆盖运动控制、机器人操作和导航三大领域的标准化评估体系，包含真实环境轨迹与LLM生成轨迹的混合数据集，并设计了基于自然语言指令的多层次任务复杂度评估框架。该基准通过系统评估现有离线强化学习算法在合成轨迹上的表现，揭示了当前方法在未见过任务上仅有35.44%成功率的局限性，为语言模型驱动的知识迁移研究提供了重要实验平台。

当前挑战

ImagineBench面临的核心挑战体现在算法适配与数据质量两个维度。在领域问题层面，现有离线强化学习算法难以有效融合真实轨迹与语言模型生成的合成轨迹，在复杂任务上的性能差距达28.93个百分点，突显了需要开发新型算法来处理合成轨迹的分布偏移和不确定性。在构建过程中，研究团队需要解决语言模型生成轨迹的物理合理性验证难题，包括状态转移正确性（硬任务中仅72.9%合规率）和动态合法性（硬任务中66.8%通过率）等关键技术瓶颈。此外，多模态指令理解、长周期任务分解以及跨领域知识迁移等挑战也深刻影响着数据集的实用价值与扩展边界。

常用场景

经典使用场景

ImagineBench作为首个结合大语言模型（LLM）生成虚拟轨迹与真实环境数据的强化学习基准，其经典应用场景聚焦于评估离线强化学习算法在未见任务上的泛化能力。该数据集通过整合运动控制（如HalfCheetah）、机器人操作（Meta-world）和导航（BabyAI）等多领域环境，为研究者提供了模拟人类通过想象学习新技能的实验平台。尤其在语言条件策略学习中，其分层次的任务指令（基础训练、改写指令、简单/复杂新任务）可系统验证算法对语义理解和组合泛化的处理能力。

衍生相关工作

该数据集催生了多个标志性研究方向：KALM框架通过LLM生成底层控制轨迹并蒸馏为策略，证明了领域知识迁移的有效性；URI利用教程书籍文本生成控制轨迹，开辟了无环境交互的策略学习新范式；AgentTrek将其扩展至浏览器自动化领域，实现了大规模任务轨迹合成。后续工作如InCLET进一步结合文本虚拟轨迹，增强了代理对多模态指令的解析能力，推动着具身智能向人类式的想象学习机制演进。

数据集最近研究