AUTOENV-36

Name: AUTOENV-36
Creator: 香港科技大学（广州）、DeepWisdom、北京大学、新加坡科技设计大学、悉尼大学、耶鲁大学、蒙特利尔大学
Published: 2025-11-25 00:54:23
License: 暂无描述

arXiv2025-11-25 更新2025-11-26 收录

下载链接：

https://github.com/FoundationAgents/AutoEnv

下载链接

链接失效反馈

官方服务：

资源简介：

AUTOENV-36是由香港科技大学等七所机构联合构建的异构环境基准数据集，包含36个独立环境共计358个验证关卡。该数据集涵盖导航、操作、模式推理和仿真四大类型，平均每个环境具备6.1个行动空间和471行代码实现，在奖励机制上平衡分配了二元奖励与累积奖励（各占50%），观测维度覆盖完全可观测（41.7%）与部分可观测（58.3%）场景。通过自动化环境生成框架以平均4.12美元的低成本构建，采用三层抽象架构实现基础动力学、观测策略与渲染皮肤的分离。该数据集专为研究智能体跨环境泛化能力而设计，旨在解决传统智能体在异构规则分布环境中适应性不足的核心挑战。

提供机构：

香港科技大学（广州）、DeepWisdom、北京大学、新加坡科技设计大学、悉尼大学、耶鲁大学、蒙特利尔大学

创建时间：

2025-11-25

原始信息汇总

AutoEnv 数据集概述

数据集简介

AutoEnv 是一个用于语言模型代理的自动化环境基础设施，旨在实现跨环境和环境内部的可扩展性。其核心思想是将环境分解为奖励规则、转移动态和观察“外观”，使得同一个核心世界可以通过不同的规则分布和表现形式（纯文本、表格、基于网格等）进行实例化。

生成的环境数据集

AutoEnv-36 数据集

使用 AutoEnv 生成了 36 个具有完全独立规则集的环境，构成了 AutoEnv-36 数据集。这些环境以文本形式表示，每个环境包含 10 个测试关卡和 5 个验证关卡。源代码和关卡生成脚本位于代码仓库的 benchmarks 目录中。

核心特性

环境因子化：将环境分解为奖励规则、转移动态和观察“外观”。
可扩展性：支持跨环境和环境内部的扩展。
多模态支持：旨在提供从文本主题到更丰富模态（包括多模态设置和 3D 游戏世界）的统一自动化扩展方式。
数据扩展：通过关卡生成器、验证器和大量交互轨迹在每个环境内部扩展数据。

实验与应用

基于此基础设施，研究人员在 AutoEnv 构建的环境上进行了跨环境学习实验，结果揭示了当前代理学习方法的鲁棒性局限。AutoEnv 旨在成为一个通用的研究平台，用于研究环境生成、代理学习、奖励设计和交互世界中的扩展规律。

示例：逆向语义控制

展示了同一底层网格世界的两种观察“外观”。左侧使用一套符号语义映射（例如 # 代表墙，. 代表自由单元格），右侧则系统性地反转了此映射（例如交换墙和自由空间的表示），而不改变真实的转移或奖励规则。通过比较代理在这两种视图下的性能，可以测试代理是否真正在学习环境动态，而非依赖于关于每个符号含义的固定先验假设。

多模态环境

为 AutoEnv-36 中的部分环境生成了多模态外观。同时也基于同一迷宫规则生成了多模态外观。

数据集获取与使用

代码仓库地址：https://github.com/FoundationAgents/AutoEnv
快速开始：安装依赖、配置模型密钥、配置生成参数后，运行 python run_environment_generation.py 即可生成环境。
引用：如果使用 AutoEnv，请引用相关 arXiv 论文。

致谢

感谢 mini-swe-agent 和 codex 为本项目提供的基础支持。

搜集汇总

数据集介绍

构建方式

在强化学习研究领域，构建具有多样化规则分布的环境一直是衡量智能体跨环境学习能力的关键挑战。AUTOENV-36数据集通过自动化环境生成框架AUTOENV构建，该框架将环境分解为状态转移、观测函数和奖励机制三个可配置的抽象层。首先基于环境主题生成结构化描述并转换为领域专用语言，随后通过编码代理实现三层架构的代码生成，并经过包含执行测试、关卡生成和差分模型验证的三阶段验证流程，最终形成具有358个验证关卡的高质量异构环境集合。

使用方法

研究者可通过标准化的环境接口加载预设关卡，采用强化学习或基于语言的智能体进行交互实验。数据集支持以规范化奖励作为核心评估指标，通过将实际奖励与验证器估算的最大奖励比值进行性能量化。在跨环境学习研究中，可采用组件中心化学习框架，通过选择策略、优化方案和目标组件的组合实现八种具体学习方法，并利用环境自适应选择机制探索学习策略的泛化性能。实验配置需遵循三重复现原则，确保评估结果的统计稳定性。

背景与挑战

背景概述

AUTOENV-36数据集于2025年由香港科技大学（广州）、DeepWisdom等机构联合创建，聚焦于跨环境智能体学习能力的系统性评估。该数据集通过自动化框架生成36个异构环境，涵盖导航、操作、模式推理等多样化任务，旨在解决传统智能体在单一环境分布下训练的局限性，推动智能体在动态规则、观测与奖励结构下的泛化能力研究。其构建基于强化学习形式化方法，将环境分解为基础动态、观测策略与渲染皮肤三层抽象，显著降低了环境生成成本，为智能体学习理论提供了标准化测试平台。

当前挑战

AUTOENV-36面临的核心挑战包括跨环境泛化与自适应学习策略设计。在领域问题层面，智能体需克服异构环境中的规则分布差异，例如部分可观测性、逆向语义映射等复杂场景，当前模型在二进制奖励与累积奖励环境间表现波动显著。构建过程中，自动化生成需平衡环境多样性与执行可靠性，涉及代码自修复、层级验证与差分模型测试等多阶段质量控制，确保生成的358个关卡兼具挑战性与可解性。

常用场景

经典使用场景

在强化学习与智能体泛化研究领域，AUTOENV-36数据集通过其36个异构环境与358个验证关卡，为评估跨环境学习能力提供了标准化测试平台。该数据集覆盖导航、操作、模式推理等多样化任务，其经典应用场景包括测试语言模型在动态规则、观测模式及奖励结构差异下的适应性能，例如实验中七个语言模型仅达到12-49%的标准化奖励，凸显了其在衡量智能体跨环境泛化瓶颈方面的核心价值。

解决学术问题

该数据集系统性地解决了智能体研究中环境多样性匮乏与学习策略评估标准缺失两大核心问题。通过自动化生成异构环境分布，AUTOENV-36使得研究者能够量化分析固定学习策略在环境扩展时的性能衰减现象，例如实验表明单一学习方法在6环境子集上可提升8%性能，而在36环境全集中增益骤降至3%。这一机制为研究环境自适应学习、元学习策略设计提供了可复现的实证基础。

实际应用

在现实应用中，AUTOENV-36为开发具备环境感知能力的自主智能体提供了训练与验证基础设施。其支持的多模态渲染接口可直接对接虚拟助手、机器人控制等场景，例如通过部分可观测环境模拟现实信息受限场景，通过逆向语义环境训练智能体对抗认知偏差。数据集平均4.12美元的低生成成本进一步推动了工业界对可扩展智能体系统的快速迭代。

数据集最近研究