sop-bench

Name: sop-bench
Creator: Amazon Web Services
Published: 2026-05-21 23:50:35
License: 暂无描述

Hugging Face2026-05-21 更新2026-05-22 收录

下载链接：

https://huggingface.co/datasets/amazon/sop-bench

下载链接

链接失效反馈

官方服务：

资源简介：

SOP-Bench是一个综合基准测试集，用于评估基于大语言模型（LLM）的智能代理在复杂、多步骤工业标准操作程序（SOP）上的性能。该数据集基于12个工业领域（如医疗保健、物流、金融、内容审核、供应链、网络安全、航空等）的真实工业程序构建，包含超过2000个任务，由14个独立的基准配置（子集）组成，每个配置代表一个特定的工业领域，例如飞机检查、内容标记、客户服务、危险品分类等。每个基准配置包括测试集（含输出和不含输出）、自然语言编写的SOP文档、Python工具实现、工具规范和元数据文件。数据集规模在1K到10K之间，每个任务涉及10-50多个决策点的顺序推理，复杂度评级在7/10到10/10之间。它专为评估LLM代理在需要多步骤推理、工具协调、隐式知识应用和模糊性处理的工业自动化任务中的性能而设计，支持文本分类和问答任务，并配有完整的评估框架，提供任务成功率、执行完成率、条件任务成功率和工具准确率等指标。数据集由人类专家根据真实工业程序编写SOP，并通过人机协作框架创建测试用例，确保覆盖边界情况和现实复杂性，真实输出由人类专家生成。

SOP-Bench is a comprehensive benchmark for evaluating the performance of large language model (LLM)-based intelligent agents on complex, multi-step industrial standard operating procedures (SOPs). The dataset is built on real-world industrial procedures from 12 industrial domains (including healthcare, logistics, finance, content moderation, supply chain, cybersecurity, aviation, etc.), containing over 2000 tasks and consisting of 14 independent benchmark configurations (subsets), each representing a specific industrial domain, such as aircraft inspection, content flagging, customer service, dangerous goods classification, etc. Each benchmark configuration includes test sets (with and without outputs), natural language SOP documents, Python tool implementations, tool specifications, and metadata files. The dataset size ranges from 1K to 10K, with each task involving sequential reasoning over 10-50+ decision points and complexity ratings between 7/10 and 10/10. It is designed to evaluate the performance of LLM agents in industrial automation tasks requiring multi-step reasoning, tool coordination, implicit knowledge application, and ambiguity handling, supporting task categories like text classification and question answering. A complete evaluation framework is provided, with metrics such as task success rate (TSR), execution completion rate (ECR), conditional task success rate (C-TSR), and tool accuracy. The dataset is created by human experts based on real industrial procedures, with SOPs written by experts and test cases generated through a human-AI collaboration framework to ensure coverage of edge cases and real-world complexity, and real outputs are produced by human experts following SOPs using simulated tools.

提供机构：

Amazon Web Services

创建时间：

2026-05-21

原始信息汇总

数据集概述

SOP-Bench 是一个用于评估基于大语言模型（LLM）的智能体在执行复杂、多步骤标准操作流程（SOPs）方面能力的基准测试集。该基准测试集由亚马逊（Amazon）发布，专注于工业自动化领域。

发布日期/关联会议: KDD 2026 数据集与基准测试轨道 (Datasets and Benchmarks Track)。
许可证: CC-BY-NC-4.0 (Creative Commons Attribution-NonCommercial 4.0 International)。
数据集规模: 1,000 < n < 10,000 条数据。
任务类型: 文本分类 (text-classification) 和问答 (question-answering)。
语言: 英语 (English)。

数据集内容与特点

核心内容: 包含来自 12 个工业领域的 2,000 多个任务，每个任务都基于一个复杂的、多步骤的SOP。
覆盖领域: 航空、内容审核、客户服务、供应链（危险品）、零售、金融、医疗、欺诈检测、网络安全、自动驾驶、媒体和物流。
问题复杂性: 这些SOP涉及顺序推理（10-50+个决策点）、工具编排、隐性知识和模糊性处理。
评估重点: 衡量LLM智能体执行多步骤推理、工具使用和遵循结构化工业流程的能力。

数据集结构

数据集包含 14 个配置（子集），每个对应一个特定的工业领域基准。部分配置的任务数量和复杂度如下：

配置名称	领域	任务数量	复杂度 (1-10)
`aircraft_inspection`	航空	150	9/10
`content_flagging`	内容审核	226	9/10
`customer_service`	客户服务	208	8/10
`dangerous_goods`	供应链	327	7/10
`email_intent`	零售	122	7/10
`know_your_business`	金融	122	9/10
`patient_intake`	医疗	90	7/10
`video_annotation`	自动驾驶	168	10/10
`video_classification`	媒体	198	9/10
`warehouse_package_inspection`	物流	200	9/10

每个配置的数据文件包括：

test_set_with_outputs.csv：包含真实输出的测试用例。
test_set_without_outputs.csv：用于盲评估的测试用例。
sop.txt：标准操作流程文档。
tools.py：智能体可使用的Python工具实现。
toolspecs.json：JSON格式的工具规格说明。
metadata.json：输入/输出列定义。

数据来源与创建

来源: 所有SOP均由人类专家根据真实工业流程编写。
创建方法: 测试用例通过“人机协作框架”创建，以覆盖边缘案例和现实复杂性。
标注: 真实输出由人类专家在遵循SOP并使用模拟工具的情况下生成，确保准确性。

使用方式

可以通过 datasets 库直接加载数据集： python from datasets import load_dataset dataset = load_dataset("amazon/sop-bench", "customer_service")

也可以从Hugging Face Hub下载SOP文档、工具规格等辅助文件： python from huggingface_hub import hf_hub_download sop_path = hf_hub_download(repo_id="amazon/sop-bench", filename="data/customer_service/sop.txt", repo_type="dataset")

完整的评估框架可以在其GitHub仓库中找到。

评估指标

任务成功率 (TSR)：智能体做出正确决策的任务百分比。
执行完成率 (ECR)：无错误完成的任务百分比。
条件任务成功率 (C-TSR)：在执行完成的任务中，结果准确的比例 (TSR = ECR × C-TSR)。
工具正确率：正确工具调用的百分比。

早期发现

对11个前沿模型的评估初步发现：

Function-Calling 智能体：平均任务成功率为 ~64%。
ReAct 智能体：平均任务成功率为 ~55%。
高执行率 (95%+) 表明失败主要是推理问题，而非技术错误。
开源模型（如 DeepSeek-R1, Llama 3.3）的性能接近专有模型。

搜集汇总

数据集介绍

构建方式

SOP-Bench的构建过程融合了人类专家的深度参与与人工智能的高效辅助。数据集的基石是2000余项源自真实工业场景的标准操作程序，覆盖航空、医疗、物流、金融等12个领域，所有程序均由领域专家亲自撰写以确保专业性与真实性。测试案例则通过人机协作框架生成，专家依据SOP文档并借助模拟工具执行流程，从而产生正确的基准输出，这一设计确保了边缘案例的覆盖与真实复杂性的体现。每个领域配置均包含SOP文本、工具实现、元数据及测试集文件，构建了一个可复现、可扩展的评估体系。

使用方法

用户可通过HuggingFace Datasets库便捷加载任意领域子集，例如使用load_dataset('amazon/sop-bench', 'customer_service')命令获取客户服务模块的测试数据。支持文件如SOP文档与工具规格可通过huggingface_hub下载以辅助深入分析。完整的评估框架则托管于GitHub仓库，用户可克隆后通过命令行界面运行评估，例如执行'sop-bench evaluate content_flagging --agent function_calling'来评估指定代理在特定任务上的表现。该框架还具备可扩展性，允许用户按照既定目录结构添加自定义基准测试。

背景与挑战

背景概述

SOP-Bench是亚马逊科学团队于2026年在KDD会议上发布的一项基准测试，旨在评估基于大语言模型的智能体在复杂工业标准操作程序上的执行能力。该数据集由多位研究人员共同构建，涵盖了航空检查、内容审核、客户服务、医疗登记等12个工业领域的2000余项任务，每个任务均要求智能体遵循专家撰写的多步骤SOP进行推理与工具调用。SOP-Bench的出现填补了现有基准测试与真实工业流程复杂性之间的鸿沟，为衡量LLM智能体在顺序推理、工具编排及模糊情境处理方面的性能提供了标准化平台，对工业自动化与AI安全评估产生了重要影响。

当前挑战

该数据集所解决的领域挑战在于现有LLM评估多聚焦于单步任务或简单问答，而工业SOP要求智能体具备跨10至50个决策点的序列推理能力、从多个系统获取信息的工具编排能力以及对隐含知识与边缘案例的处理能力。构建过程中，研究团队采用人机协作框架生成测试用例，以确保覆盖真实场景的复杂度与边界情况，但受限于模拟工具返回确定性结果、SOP为简化版本等条件，基准表现与生产部署间存在差距。此外，如何设计适配不同模型的智能体架构（如函数调用与ReAct循环）以优化推理模型性能，亦构成技术挑战。

常用场景

经典使用场景

SOP-Bench作为评估大型语言模型（LLM）智能体在复杂工业标准操作程序（SOP）中执行多步推理与工具编排能力的基准测试，其经典应用场景集中于衡量智能体在航空安全检测、危险品分类、医疗患者登记、金融合规审查等12个工业领域的任务成功率。通过提供人类专家编写的操作流程和模拟工具接口，研究者可系统性地评估智能体在10至50余个决策节点上的顺序推理准确性，以及处理模糊边缘案例的鲁棒性。该数据集搭载了函数调用与ReAct两种智能体架构，支持对前沿模型进行条件化成功率与执行完成率的细粒度分析，从而揭示模型在工业自动化场景下的真实效能边界。

解决学术问题

SOP-Bench旨在弥合现有LLM评估基准与工业级流程复杂性之间的鸿沟，解决了学术领域中缺乏真实环境多步推理及工具协同评估框架的难题。传统基准多聚焦于孤立任务，而工业SOP要求智能体在隐式知识、歧义处理和系统性工具调用间动态权衡。该数据集通过2,000余个测试用例，首次系统性量化了模型在复杂流程中的推理缺陷——高达95%以上的执行完成率表明，失败根源在于推理决策而非技术执行。其评估体系间接推动了关于模型架构与提示工程协同设计理论的探索，例如发现深度推理模型在未经针对性优化时可能抑制ReAct智能体的效能。

实际应用

在实际工业应用中，SOP-Bench为智能体系统在自动化操作流程中的部署提供了关键的验证沙盒。航空安检领域可通过该数据集预训练智能体执行飞机巡检的合规性判断，降低人为疏忽风险；在医疗场景中，患者登记与保险核验的自动化能显著缩短前序处理时间；物流与供应链环节则借助危险品分类与订单履行流程的自动化提升运营效率。此外，内容审核与欺诈检测子集为互联网平台提供了自动化违规识别的能力。该数据集虽基于简化程序构造，但其评估框架为生产环境的落地提供了性能锚点，助力企业平衡自动化效率与安全合规要求。

数据集最近研究