AgentGym-RL-Data-ID

Hugging Face2025-09-12 更新2025-09-13 收录

下载链接：

https://huggingface.co/datasets/AgentGym/AgentGym-RL-Data-ID

下载链接

链接失效反馈

官方服务：

资源简介：

AgentGym-RL是一个用于通过多轮强化学习训练LLM代理进行长期决策的框架和数据集。它包含多种现实世界场景，支持主流强化学习算法，并提出了ScalingInter-RL训练方法以实现探索与利用的平衡。

AgentGym-RL is a framework and dataset dedicated to training LLM agents for long-term decision-making through multi-turn reinforcement learning. It includes various real-world scenarios, supports mainstream reinforcement learning algorithms, and proposes the ScalingInter-RL training method to strike a balance between exploration and exploitation.

创建时间：

2025-09-02

原始信息汇总

AgentGym-RL-Data-ID 数据集概述

基本信息

任务类别：强化学习
许可证：CC-BY-NC-4.0
语言：英语
标签：LLM智能体、决策制定、多轮交互、网页导航、深度搜索、文本游戏、具身任务、科学任务

数据集描述

该数据集是论文《AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning》中提出的强化学习数据集和基准测试。旨在通过多轮强化学习训练LLM智能体进行长时程决策制定。

支持的环境和场景

网页导航：基于WebArena的真实网页环境，包含在线购物、讨论论坛、协作开发和业务内容管理四个领域。
深度搜索：基于Search-R1的检索增强生成环境，支持多轮检索和推理任务。
数字游戏：包含TextCraft文本制作游戏环境，通过自然语言交互和基于任务的规划完成任务。
具身任务：包含BabyAI可控网格世界环境，提供文本指令进行模拟环境中的具身推理。
科学任务：包含SciWorld科学探索模拟器，通过文本驱动的推理循环进行科学实验。

使用方式

环境要求

CUDA 12.4
PyTorch 2.4
Python 3.10

数据准备

通过以下命令下载数据集： bash git lfs install git clone https://huggingface.co/datasets/AgentGym/AgentGym-RL-Data-ID

训练方法

支持两种训练方法：

AgentGym-RL：固定轮次训练
ScalingInter-RL：渐进式交互训练，早期侧重利用，后期侧重探索

评估方法

提供各任务的评估脚本，位于examples/eval目录中。

引用

如使用本数据集，请引用相关论文。

许可证

CC-BY-NC-4.0许可证。

搜集汇总

数据集介绍

构建方式

在强化学习领域，AgentGym-RL-Data-ID数据集通过模块化架构整合了多样化真实场景，涵盖网页导航、深度搜索、文本游戏、具身任务及科学实验五大环境。其构建过程采用多轮交互式强化学习框架，摒弃监督微调依赖，通过环境交互自主获取决策知识。数据生成依托ScalingInter-RL训练策略，初期限制交互轮次以保障稳定性，后期逐步扩展探索范围以激发多样行为策略。

特点

该数据集显著特征在于其高度异构的任务生态，既包含WebArena的电商与论坛交互，又融合Search-R1的检索推理、TextCraft的文本沙盒游戏以及BabyAI和SciWorld的具身与科学模拟环境。其多模态任务设计支持主流RL算法验证，且通过渐进式探索-利用平衡机制，有效规避长周期决策中的策略崩溃问题。数据集采用CC-BY-NC-4.0协议，确保学术使用的合规性与可复现性。

使用方法

使用者需配置CUDA 12.4与PyTorch 2.4环境，通过Git LFS克隆数据集后，可分别运行AgentGym-RL固定轮次策略或ScalingInter-RL动态扩展策略。训练时需启动独立环境服务器，参照示例脚本调整交互轮次参数，例如设置rounds_ctrl.type为scaling_inter_stepwise以实现阶梯式探索扩展。评估阶段通过标准化脚本对接多环境验证接口，支持跨任务泛化性能测试与决策轨迹分析。

背景与挑战

背景概述

AgentGym-RL-Data-ID数据集由研究团队于2025年推出，旨在推动大语言模型在长时程决策任务中的强化学习研究。该数据集聚焦于多轮交互式决策场景，覆盖网页导航、深度搜索、文本游戏、具身任务及科学实验五大现实领域。其模块化架构设计支持主流强化学习算法，为构建无需监督微调即可从零训练的自主智能体提供了统一框架，显著提升了智能体在复杂环境中的泛化能力与决策稳定性。

当前挑战

该数据集核心挑战在于解决长时程决策中探索与利用的平衡问题，需克服多轮交互导致的策略崩溃风险。构建过程中需整合异构环境接口，确保跨领域数据的一致性与可扩展性；同时需设计渐进式训练机制以协调短期目标与长期策略，避免智能体在开放环境中陷入局部最优。此外，真实环境模拟与大规模交互日志的收集亦对数据质量与标注精度提出较高要求。

常用场景

经典使用场景

在智能体决策研究领域，AgentGym-RL-Data-ID数据集被广泛应用于多轮交互式强化学习训练场景。该数据集通过整合网页导航、深度搜索、文本游戏、具身任务和科学实验五大真实环境，为语言模型智能体提供了从基础探索到复杂决策的全周期训练支持。研究者利用其模块化架构设计，能够灵活配置不同回合长度的交互策略，有效模拟人类认知发展过程中的知识积累与技能迁移机制。

实际应用

在实际应用层面，该数据集支撑的智能体系统已成功部署于电子商务平台的自动化导购、学术文献的智能检索分析、虚拟教学实验环境的交互指导等多个领域。基于WebArena环境训练的智能体能够完成在线购物流程的自主导航，而依托SciWorld构建的系统则实现了科学实验流程的自动化执行。这些应用显著提升了复杂任务处理的效率与智能化水平，为产业数字化转型提供了技术支撑。

衍生相关工作

该数据集催生了系列创新性研究，包括基于多环境迁移学习的跨域决策算法、面向长周期任务的课程学习策略以及结合大语言模型的分层强化学习框架。相关衍生工作如WebNavigator-RL将网页导航能力扩展至移动端交互场景，SciAgent系统则进一步丰富了科学实验环境的任务复杂度。这些研究共同推动了具身智能与多模态决策系统的融合发展，为构建通用人工智能奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集