SOP-Bench

github2026-02-23 更新2026-02-24 收录

下载链接：

https://github.com/amazon-science/SOP-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SOP-Bench是一个全面的基准数据集，用于评估基于LLM的代理在工业自动化中复杂多步骤标准操作程序（SOPs）上的表现。它包含2,000多个任务，覆盖12个工业领域（如医疗保健、物流、金融、内容审核等），旨在填补现有基准与实际程序复杂性之间的差距。

SOP-Bench is a comprehensive benchmark dataset for evaluating the performance of LLM-based agents on complex multi-step standard operating procedures (SOPs) in industrial automation. It contains over 2,000 tasks spanning 12 industrial sectors, including healthcare, logistics, finance, content moderation and more, and is designed to bridge the gap between existing benchmarks and the complexity of real-world operational procedures.

创建时间：

2026-02-02

原始信息汇总

SOP-Bench 数据集概述

数据集基本信息

数据集名称：SOP-Bench
核心目标：用于评估基于大语言模型（LLM）的智能体在复杂、多步骤工业标准操作程序（SOP）上的执行能力。
数据规模：包含超过 2,000 个任务。
覆盖领域：涵盖 12 个工业领域，包括内容审核、客户服务、供应链、航空、零售、金融、医疗保健、自动驾驶、媒体、物流等。
创建方式：通过人机协作框架构建，包含人类专家编写的 SOP。
许可证：CC BY-NC 4.0。

数据集内容与结构

任务构成

每个任务基于一个真实世界的标准操作程序（SOP），要求智能体按顺序执行多个步骤。任务包含：

SOP 指令：自然语言描述的多步骤操作流程。
任务输入：以 JSON 格式提供的初始数据。
预期行为：智能体需要正确编排工具调用并应用 SOP 中的决策逻辑。
真实输出：任务的标准答案。

示例任务（危险品分类领域）

SOP 指令摘要：检索产品安全数据表，检查是否包含第 3 类易燃液体，根据闪点进行分类等。
任务输入：{"product_id": "CHEM-2847", "shipment_type": "air_freight"}
预期工具调用序列：
1. get_safety_data_sheet(product_id="CHEM-2847")
2. check_hazard_class(sds_id="SDS-2847")
3. get_flash_point(sds_id="SDS-2847")
真实输出：packing_group: II

包含的基准测试

数据集包含多个已定义的基准测试，每个对应一个特定领域和任务集：

基准测试名称	领域	描述	任务数量	复杂度 (1-10)
content_flagging	内容审核	通过机器人检测、信任评分和违规评估来评估被标记的用户内容	226	9
customer_service	支持	使用系统诊断诊断和解决客户服务问题	208	8
dangerous_goods	供应链	使用安全数据表和评分系统对危险品进行分类	327	7
aircraft_inspection	交通运输	按照航空程序进行飞行前安全检查	150	9
email_intent	零售	对卖家支持电子邮件进行分类并适当路由	122	7
know_your_business	金融	验证商业实体以确保合规和风险评估	122	9
patient_intake	医疗保健	通过保险和医疗历史验证注册新患者	90	7
video_annotation	自动驾驶	在驾驶视频中检测和标注物体	168	10
video_classification	媒体	对用户生成的视频内容进行分类和审核	198	9
warehouse_inspection	物流	检查包裹的损坏和合规性	200	9

评估框架与指标

提供的智能体类型

ReAct 智能体（默认推荐）：使用 LangChain 的 create_react_agent / AgentExecutor，并自动处理所有 Bedrock 模型系列的停止序列。
函数调用智能体：使用 Bedrock 的 Converse API 进行原生函数调用。

核心评估指标

任务成功率：智能体做出正确决策的任务百分比。
执行完成率：未发生错误而完成执行的任务百分比。
条件任务成功率：在成功执行的任务中，决策准确的任务百分比。
工具准确率：正确的工具调用百分比。
指标关系：任务成功率 = 执行完成率 × 条件任务成功率。

使用与扩展

快速开始

安装：git clone https://github.com/amazon-science/SOP-Bench.git 并 pip install -e .。
配置 AWS：用于访问 Bedrock 模型。
运行评估：使用命令行工具 ./sop-bench evaluate 或 Python API from amazon_sop_bench import evaluate。

添加自定义基准测试

数据集框架支持扩展。用户可创建包含以下文件的新基准测试目录：

sop.txt：自然语言流程。
tools.py：工具实现。
toolspecs.json：LLM 工具模式。
data.csv：带有真实输出的测试用例。
metadata.json：配置。

关键研究发现（初步）

对 11 个前沿模型的评估显示：

函数调用智能体平均任务成功率约为 64%。
ReAct 智能体平均任务成功率约为 55%。
**高执行完成率（95%+）**表明失败主要源于推理问题，而非技术问题。
开源模型（如 DeepSeek-R1, Llama 3.3）的性能接近专有模型。
架构与模型协同设计很重要：较新的推理模型若未经针对性的提示工程，可能会降低 ReAct 的性能。

引用

如需在研究中引用 SOP-Bench，请使用提供的 BibTeX 条目。该数据集已提交至 KDD 2026 数据集与基准测试轨道。

搜集汇总

数据集介绍

构建方式

在工业自动化领域，标准操作程序（SOP）的复杂性对智能体评估提出了严峻挑战。SOP-Bench的构建采用了人机协同框架，由人类专家精心撰写了涵盖12个工业领域的2000余项任务，这些领域包括医疗保健、物流、金融及内容审核等。每个任务均配备了可执行的模拟工具接口与真实输出基准，确保了数据集的实用性与可复现性。通过结合专家知识与结构化工具规范，该数据集有效弥合了现有基准与真实世界程序复杂性之间的鸿沟。

使用方法

使用SOP-Bench时，研究者可通过命令行工具快速安装并配置环境，随后选择特定领域的基准任务进行评估。数据集支持顺序与并行执行模式，用户可灵活调整工作线程数以优化效率。评估过程中，智能体需依据自然语言SOP指令，调用模拟工具收集信息，并最终输出结构化决策。通过保存执行轨迹与结果文件，用户可以细致调试智能体行为，并利用内置的指标系统量化性能，从而推动工业级智能体在复杂程序执行能力上的进步。

背景与挑战

背景概述

随着大型语言模型在工业自动化领域的应用日益深入，评估其执行复杂标准操作流程的能力成为关键研究课题。亚马逊科学团队于2026年创建的SOP-Bench数据集，正是针对这一需求设计的综合性基准测试平台。该数据集汇聚了来自医疗健康、物流运输、金融服务等十二个工业领域的超过两千项任务，通过人机协作框架构建了真实场景下的多步骤决策流程。其核心研究目标在于弥合现有基准测试与真实工业流程复杂性之间的鸿沟，为评估LLM代理在工具调用、顺序推理和隐性知识应用等方面的综合能力提供标准化测试环境。该数据集的推出标志着工业自动化评估从单一任务向系统性流程执行的范式转变，对推动智能代理在关键业务场景的落地应用具有重要指导意义。

当前挑战

SOP-Bench所针对的核心挑战在于如何准确评估LLM代理执行复杂工业标准操作流程的能力。这些流程通常包含十至五十余个连续决策节点，要求代理在信息不完整的情况下进行工具编排与逻辑推理。构建过程中面临多重技术难题：首先需要将人类专家的隐性知识转化为可执行的标准化测试用例，这涉及对十二个专业领域操作流程的深度抽象与建模；其次需设计能够模拟真实工业系统的工具接口，确保评估过程既具备可重复性又保持场景真实性；最后还需建立跨领域统一的评估指标体系，以量化代理在顺序决策、工具调用准确性和逻辑推理等方面的综合表现。这些挑战共同构成了工业级智能代理能力评估的技术壁垒。

常用场景

经典使用场景

在工业自动化与智能代理研究领域，SOP-Bench数据集为评估大型语言模型（LLM）代理在复杂多步骤标准操作程序（SOP）上的执行能力提供了基准测试平台。其经典使用场景集中于模拟真实工业环境中的流程任务，例如在供应链管理中根据安全数据表对危险品进行分类，或在内容审核中通过机器人检测、信任评分和违规评估来审核用户生成内容。研究人员利用该数据集，能够系统性地测试代理在顺序推理、工具协调及模糊处理等方面的表现，从而深入理解模型在接近实际工业复杂度下的行为边界与局限性。

解决学术问题

SOP-Bench数据集主要解决了智能代理研究中理论与实际应用之间的显著差距。传统基准测试往往缺乏对工业环境中冗长、隐含知识依赖且多步骤决策过程的真实刻画，而该数据集通过涵盖12个工业领域、超过2000项由人类专家撰写SOP的任务，填补了这一空白。它使得学术界能够量化评估LLM代理在顺序推理、工具调用与逻辑应用等方面的综合能力，并揭示不同模型架构（如函数调用与ReAct代理）在复杂程序执行中的性能差异，从而推动更鲁棒、可解释的智能代理系统的设计与优化。

实际应用

在实际工业场景中，SOP-Bench数据集为开发能够自主执行标准操作程序的AI助手提供了关键的训练与评估基础。例如，在客户服务领域，代理可依据SOP诊断系统问题并路由解决方案；在航空安检中，代理能遵循预飞行检查流程进行合规性验证。这些应用不仅提升了操作流程的自动化水平与一致性，还通过减少对人工专家的依赖，显著降低了运营成本与人为错误风险。数据集提供的模拟工具与真实任务框架，使得企业能够在部署前充分验证代理的可靠性，确保其在实际生产环境中的安全与效能。

数据集最近研究