five

seta-env

收藏
Hugging Face2026-01-10 更新2026-01-11 收录
下载链接:
https://huggingface.co/datasets/camel-ai/seta-env
下载链接
链接失效反馈
官方服务:
资源简介:
SETA RL数据集是CAMEL-AI Scaling Environments for Agents项目的一部分,通过完全自动化和可扩展的合成和验证流程生成,与Terminal-Bench任务格式兼容。每个任务文件夹包含task.yaml、Dockerfile和run-tests.sh文件,涵盖了任务指令、Docker容器定义和可验证的评估。

The SETA RL Dataset is part of the CAMEL-AI Scaling Environments for Agents project. It is generated via a fully automated and scalable synthesis and validation pipeline, and is compatible with the task format of Terminal-Bench. Each task folder contains task.yaml, Dockerfile, and run-tests.sh, which cover task instructions, Docker container definitions, and verifiable evaluation procedures respectively.
提供机构:
CAMEL-AI.org
创建时间:
2026-01-07
原始信息汇总

SETA RL 数据集概述

数据集描述

SETA RL 数据集是 CAMEL-AI “Scaling Environments for Agents” 项目的一部分。该数据集通过完全自动化且可扩展的合成与验证流程生成,并与 Terminal-Bench 任务格式兼容。

数据集内容与结构

数据集中的每个文件夹代表一个独立的任务。每个任务文件夹包含以下三个核心文件:

  • task.yaml:包含任务指令。
  • Dockerfile:定义任务运行的 Docker 容器。
  • run-tests.sh:用于进行可验证的评估。

使用方法

  1. 克隆 Hugging Face 数据集仓库: bash git clone https://huggingface.co/datasets/camel-ai/seta-env

  2. 克隆代码仓库: bash git clone https://github.com/camel-ai/seta

  3. 将数据集中的 Dataset 文件夹复制到 seta 代码目录下的 dataset 文件夹中。

  4. 使用代码仓库中的工具将数据集格式转换为 parquet: bash python -u training/data_utils/convert_tasks_to_dataset.py --tasks_dir <path/to/Dataset> --output_dir <path/to/dataset>

相关链接

  • 项目代码:https://github.com/camel-ai/seta
  • 数据集仓库:https://huggingface.co/datasets/camel-ai/seta-env
  • CAMEL 项目:https://github.com/camel-ai/camel
  • RL 模型:https://huggingface.co/camel-ai/seta-rl-qwen3-8b
  • 技术报告:https://eigent-ai.notion.site/SETA-Scaling-Environments-for-Terminal-Agents-2d2511c70ba280a9b7c0fe3e7f1b6ab8

引用

@misc{seta, author = {Qijia Shen, Jay Rainton, Aznaur Aliev, Ahmed Awelkair, Boyuan Ma, Zhiqi (Julie) Huang, Yuzhen Mao, Wendong Fan, Philip Torr, Bernard Ghanem, Changran Hu, Urmish Thakker, Guohao Li}, month = Jan, title = {{SETA: Scaling Environments for Terminal Agents}}, year = {2026} }

搜集汇总
数据集介绍
main_image_url
构建方式
在强化学习领域,数据集的构建往往依赖于复杂的环境模拟与任务生成。SETA RL数据集作为CAMEL-AI项目的一部分,其构建过程采用了全自动且可扩展的合成与验证流程。该流程通过系统化的任务生成机制,为每个独立任务创建了包含任务指令、Docker容器定义及可验证评估脚本的完整配置,确保了数据集在终端智能体训练中的高度兼容性与可靠性。
使用方法
使用SETA RL数据集时,需首先克隆相应的HuggingFace仓库与代码仓库,并将数据集文件夹复制至指定目录。随后,通过代码库中提供的实用工具将原始任务格式转换为Parquet格式,这一步骤优化了数据加载与处理的效率。转换后的数据集可直接集成到强化学习训练流程中,支持智能体在多样化的终端任务环境中进行策略学习与性能评估,为终端智能体的规模化训练提供了便捷的数据支持。
背景与挑战
背景概述
SETA RL数据集隶属于CAMEL-AI的‘终端智能体环境扩展’项目,由Qijia Shen、Jay Rainton等研究人员于2026年创建。该数据集旨在通过全自动、可扩展的合成与验证流程,构建兼容Terminal-Bench任务格式的强化学习环境,以应对终端智能体在复杂、动态计算环境中执行多样化指令的核心研究问题。其生成框架融合了Docker容器化技术与可验证评估机制,为智能体在真实终端操作场景中的泛化能力与鲁棒性研究提供了标准化基准,对推动具身智能与自动化系统领域的发展具有显著影响力。
当前挑战
SETA RL数据集致力于解决终端智能体在开放式、结构化环境中执行多步骤指令的挑战,其核心在于模拟真实终端操作的复杂性与动态性,要求智能体具备跨任务迁移与长期规划能力。在构建过程中,研究人员面临环境合成的可扩展性难题,需确保自动化流程能够高效生成大量异构任务;同时,验证机制的设计需平衡评估的严格性与通用性,以保障生成环境的可靠性与任务定义的精确性,这涉及Docker容器定义、测试脚本编写与任务指令一致性的多重技术整合。
常用场景
经典使用场景
在强化学习与终端智能体研究领域,SETA RL数据集为训练和评估能够执行复杂终端命令的智能体提供了标准化环境。该数据集通过自动化合成与验证流程生成,每个任务包含指令、Docker容器定义及可验证的评估脚本,使得研究者能够系统性地测试智能体在多样化终端场景下的决策与执行能力,从而推动智能体在真实计算环境中的适应性研究。
解决学术问题
SETA RL数据集致力于解决强化学习智能体在开放终端环境中泛化能力不足的学术挑战。通过提供大规模、结构化的任务集合,该数据集支持对智能体进行跨任务迁移学习与鲁棒性评估,有助于探索智能体在动态、不确定环境中的策略优化问题,为构建可扩展、可靠的终端操作智能体奠定了实证基础。
实际应用
在实际应用层面,SETA RL数据集可被部署于自动化运维、系统管理及网络安全测试等场景。基于该数据集训练的智能体能够自主执行文件操作、软件配置、故障排查等终端任务,显著提升IT基础设施的自动化水平,降低人工干预成本,并为智能体在真实生产环境中的安全、高效集成提供验证平台。
数据集最近研究
最新研究方向
在终端智能体领域,SETA RL数据集作为CAMEL-AI项目的重要组成部分,正推动着自动化环境合成与验证的前沿探索。该数据集通过完全自动化的可扩展管道生成,兼容Terminal-Bench任务格式,为强化学习智能体在复杂终端操作场景中的训练与评估提供了标准化基础。当前研究热点聚焦于利用此类合成环境提升智能体的泛化能力与决策鲁棒性,特别是在跨平台系统管理与自动化任务执行方面。其影响深远,不仅加速了终端智能体的实际部署进程,也为构建可扩展、可验证的人工智能系统奠定了数据基石,相关技术报告与模型持续更新,预示着该方向在自主智能体研究中的核心地位。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作