agent-diff-bench

Hugging Face2026-02-17 更新2026-02-18 收录

下载链接：

https://huggingface.co/datasets/hubertmarek/agent-diff-bench

下载链接

链接失效反馈

官方服务：

资源简介：

Agent-Diff Bench 是一个用于评估代理型大型语言模型（LLMs）在通过外部API执行真实世界任务时的性能的基准测试框架。数据集包含224个企业软件工作流任务，采用80/20的训练/测试分割。其独特之处在于引入了“状态差异合约”（state-diff contract），将过程与结果分离，任务成功的定义是环境状态的预期变化是否实现，而非模糊的跟踪或参数匹配。数据集涵盖的服务包括Slack、Linear、Box和Google Calendar。评估基于状态差异，比较沙盒环境的“之前”和“之后”快照。数据集特征包括问题、答案、测试ID、测试名称、服务、任务范围、操作类型、实体范围、信息可用性、提示歧义和信息等。适用于文本生成任务，特别是涉及API交互和代理行为的场景。

创建时间：

2026-02-11

搜集汇总

数据集介绍

构建方式

在智能体与工具调用领域，Agent-Diff Bench 数据集通过精心设计的流程构建而成。其核心在于模拟真实企业软件工作流，选取了 Slack、Box、Linear 和 Google Calendar 四种典型服务作为任务场景。数据构建采用了沙盒环境隔离技术，确保 API 调用在受控且安全的环境中进行。每个任务都伴随着明确的状态差分合约，该合约清晰定义了任务执行前后环境状态的预期变化，从而将过程与结果有效分离。数据集最终包含了 224 个任务实例，并按照 80/20 的比例划分为训练集与测试集，为评估智能体模型在复杂、动态环境中的表现提供了结构化基础。

特点

该数据集最显著的特征在于其创新的状态差分评估范式。不同于传统基于模糊轨迹或参数匹配的评估方式，它严格以任务执行前后沙盒环境状态的预期变化作为成功与否的判定标准，这极大地提升了评估的客观性与精确度。数据集涵盖了多样化的任务维度，包括任务范围、操作类型、实体范围、信息可用性以及提示模糊性，从而能够系统性地检验智能体在不同复杂度与不确定性条件下的鲁棒性与泛化能力。其任务均基于真实企业级 API 接口，确保了评估场景的高保真度与实用价值。

使用方法

使用该数据集进行评估，需依托其配套的 agent-diff SDK 框架。评估流程始于从数据集中获取特定测试套件及其包含的任务提示。对于每个任务，系统会在沙盒中初始化一个隔离的执行环境，并记录初始状态快照。随后，配置好的智能体模型（例如基于大型语言模型构建）将利用代码执行代理工具，在受控环境中解析提示并调用相应 API 完成任务。任务执行结束后，框架会自动对比环境的前后状态快照，依据状态差分合约计算出客观的评估分数。这一流程完整复现了智能体在真实软件生态中感知、决策与执行的闭环，为模型性能提供了可量化、可复现的衡量标准。

背景与挑战

背景概述

在人工智能领域，大型语言模型（LLM）代理的评估长期面临模拟环境与真实世界脱节的困境。Agent-Diff Bench数据集于2025年由Hubert Marek Pysklo等人提出，旨在构建一个基于真实企业级API接口的基准测试框架。该数据集聚焦于评估LLM代理在Slack、Box、Linear及Google Calendar等实际工作流中的代码执行与任务完成能力。其核心创新在于引入了“状态差异合约”，将任务成功定义为环境状态的预期变更，而非模糊的轨迹或参数匹配，从而为智能代理的实用化评估提供了更为严谨和可量化的标准。

当前挑战

该数据集致力于解决LLM代理在复杂、动态的真实企业环境中进行工具调用与工作流自动化所面临的评估挑战。具体而言，其构建过程需克服多重困难：一是如何安全地沙盒化真实API接口，确保评估过程既贴近实际又无破坏性风险；二是设计一种超越表面行为匹配的评估机制，即状态差异比较，这要求精确捕获并对比任务执行前后的系统状态快照；三是涵盖多样化的企业软件操作类型、任务范围和信息可用性，以全面反映代理在现实场景中可能遇到的异构性与不确定性。

常用场景

经典使用场景

在智能体与工具调用研究领域，Agent-Diff Bench数据集为评估大型语言模型在真实企业软件环境中的任务执行能力提供了标准化基准。其经典使用场景集中于通过沙盒化的外部API接口（如Slack、Box、Linear和Google Calendar），模拟复杂的多步骤工作流任务，要求智能体生成并执行代码以实现特定目标。研究者利用该数据集训练和测试智能体在代码生成、API调用及状态管理方面的性能，尤其侧重于验证智能体在隔离环境中处理企业级操作的有效性，从而推动智能体在实际应用中的可靠性和适应性发展。

实际应用

在实际应用层面，Agent-Diff Bench直接服务于企业自动化与办公效率提升场景。例如，开发团队可基于该数据集构建能够自动管理Slack频道、在Linear中创建和分配任务、于Box中组织文件或在Google Calendar中安排会议的智能助手。这些应用不仅降低了人工操作成本，还通过标准化测试确保了智能体在生产环境中的稳定性和安全性。数据集提供的沙盒化评估环境使得企业能够在部署前充分验证智能体行为的准确性与合规性，为智能体技术在企业软件生态中的集成与落地提供了关键支撑。

衍生相关工作

围绕Agent-Diff Bench数据集，已衍生出一系列专注于智能体代码执行与API交互的经典研究工作。例如，基于其状态差异评估机制，研究者开发了更细粒度的智能体性能分析工具，用于诊断智能体在长程任务中的错误传播模式。同时，该数据集激励了针对多工具协调、动态环境适应以及安全约束下代码生成的新模型架构探索。相关成果进一步扩展至跨平台智能体基准测试框架的构建，推动了智能体评估标准在学术界与工业界的统一，并为后续面向更复杂企业场景的智能体系统研发奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集