AgentBench-EvoSyn

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/Elynden/AgentBench-EvoSyn

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含通过EvoSyn框架合成和过滤的高质量操作系统智能体任务。每个任务包括问题描述、系统初始化脚本和区分性测试脚本。我们将这些操作系统任务分为两类：一类要求模型提供最终结果——问答类型(QA)，另一类要求模型完成任务——执行类型(EXEC)。不同类型的测试逻辑各不相同。

创建时间：

2025-10-20

原始信息汇总

EvoSyn-AgentBench-OS: Evolutionary Synthesized OS Agent Tasks

数据集描述

包含使用EvoSyn框架合成和过滤的高质量操作系统代理任务
每个任务包含问题描述、系统初始化脚本和判别性测试脚本
操作系统任务分为两种类型：QA类型（要求模型提供最终结果）和EXEC类型（要求模型完成任务）

数据字段

instance_id (字符串)：任务实例的唯一标识符
description (字符串)：任务描述或问题
init (字符串)：用于初始化系统环境的Bash脚本
testing (字符串)：用于验证任务完成的Bash脚本
type (字符串)：任务类型（"QA"或"EXEC"）
comparison_method (字符串)：比较实际输出与预期输出的方法

技术特性

语言：英语
任务类别：问答、文本生成
标签：智能体、操作系统任务、bash、验证、进化合成
规模类别：n<1K

使用方法

python from datasets import load_dataset dataset = load_dataset("Elynden/AgentBench-EvoSyn")

引用信息

bibtex @misc{du2025evosyngeneralizableevolutionarydata, title={EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning}, author={He Du and Bowen Li and Aijun Yang and Siyang He and Qipeng Guo and Dacheng Tao}, year={2025}, eprint={2510.17928}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2510.17928}, }

搜集汇总

数据集介绍

构建方式

在操作系统代理任务领域，AgentBench-EvoSyn数据集通过EvoSyn框架采用进化合成技术构建而成。该框架通过多轮迭代生成候选任务，并利用严格的验证机制筛选出高质量样本，每个任务均包含环境初始化脚本和判别性测试脚本，确保数据集的可靠性与实用性。

特点

该数据集以操作系统代理任务为核心，涵盖问答型与执行型两类任务，具备明确的任务类型划分与验证逻辑。每个实例配备完整的初始化环境脚本和自动化测试方案，其精炼的规模与多维度验证机制为智能体能力评估提供了结构化基准。

使用方法

研究人员可通过HuggingFace数据集库直接加载该资源，利用初始化脚本构建标准化测试环境，结合任务描述与验证脚本对智能体进行系统性评估。该数据集支持对操作系统交互能力的多维度测试，为智能体泛化性能研究提供标准化实验平台。

背景与挑战

背景概述

在操作系统智能体研究领域，AgentBench-EvoSyn数据集作为EvoSyn框架的重要实践成果，由He Du等学者于2025年提出。该数据集聚焦于操作系统环境中智能体任务的自动化生成与验证，通过进化合成技术构建高质量任务集合，涵盖问答型与执行型两类核心任务。其创新性体现在将进化算法与系统验证机制相结合，为评估智能体在复杂系统环境中的推理与执行能力提供了标准化基准，显著推动了具身智能与操作系统交互研究的发展。

当前挑战

构建操作系统智能体数据集面临双重挑战：在领域问题层面，需解决智能体对动态系统状态的感知歧义性、多步骤操作中的错误累积效应，以及非确定性环境下的行为验证难题；在数据构建过程中，进化合成框架需平衡任务复杂度与可验证性的矛盾，确保自动生成的初始化脚本与测试脚本具备逻辑完备性，同时克服合成数据与真实系统环境间的语义鸿沟。

常用场景

经典使用场景

在智能体操作系统任务评估领域，AgentBench-EvoSyn数据集通过其精心设计的QA与EXEC两类任务，为评估智能体在复杂系统环境中的推理与执行能力提供了标准化测试平台。该数据集采用进化合成框架生成高质量任务，每个实例均配备环境初始化脚本与验证测试脚本，能够系统性地检验智能体对系统命令的理解、任务分解与执行验证等核心能力。

衍生相关工作

该数据集催生了多项智能体系统验证的重要研究，例如基于进化合成的数据增强方法在系统任务泛化中的应用探索。相关研究通过扩展任务类型与测试维度，进一步提升了智能体在跨平台系统环境中的适应能力。这些工作共同构成了智能体操作系统任务评估的理论框架，为后续研究提供了基础性支撑。

数据集最近研究