SAGE (Service Agent Graph-guided Evaluation)

Name: SAGE (Service Agent Graph-guided Evaluation)
Creator: 天津大学; 清华大学; 北京航空航天大学; 北京邮电大学; 香港中文大学
Published: 2026-04-10 20:55:23
License: 暂无描述

arXiv2026-04-10 更新2026-04-14 收录

下载链接：

https://anonymous.4open.science/r/SAGE-Bench-4CD3/

下载链接

链接失效反馈

官方服务：

资源简介：

SAGE是由天津大学等机构联合开发的客服领域多智能体评估基准，旨在通过动态对话图模型验证逻辑合规性。该数据集通过对抗意图分类和模块化扩展机制，支持6大工业场景的自动化对话合成。其核心是将非结构化标准操作流程(SOPs)转化为有向图，结合规则引擎和评判智能体实现双轴评估，解决了传统静态评测在逻辑覆盖和对抗测试上的不足，为客服代理的流程推理和对话质量提供精准诊断。

SAGE is a multi-agent evaluation benchmark for the customer service domain, jointly developed by Tianjin University and other institutions. It aims to verify logical compliance through dynamic conversation graph models. This dataset supports automated conversation synthesis across six major industrial scenarios via adversarial intent classification and modular expansion mechanisms. At its core, it converts unstructured standard operating procedures (SOPs) into directed graphs, and implements dual-axis evaluation by combining rule engines and judgment agents. This approach addresses the shortcomings of traditional static evaluations in terms of logical coverage and adversarial testing, providing accurate diagnosis for the process reasoning and conversation quality of customer service agents.

提供机构：

天津大学; 清华大学; 北京航空航天大学; 北京邮电大学; 香港中文大学

创建时间：

2026-04-10

搜集汇总

数据集介绍

构建方式

在智能客服领域，现有基准常受限于静态交互范式与单一维度评估，难以捕捉真实场景中用户行为的多样性与标准操作流程的逻辑复杂性。为应对这一挑战，SAGE数据集采用动态多轮对话图建模方法，将非结构化的标准操作流程转化为有向图结构，从而实现对逻辑合规性的自动化验证与全面路径覆盖。该构建过程通过对抗性意图分类法与模块化扩展机制，支持低成本跨领域部署，并促进了大规模对话数据的自动合成。

特点

SAGE数据集的核心特点在于其图引导的多智能体评估框架，该框架通过动态对话图形式化标准操作流程，确保了对服务代理逻辑合规性与对话质量的双轴评估。数据集涵盖了六个工业场景，从电商退款到航空退票，覆盖了从简单查询到复杂对抗性谈判的全谱系业务逻辑。其对抗性用户意图分类模拟了从零对抗到强对抗的不同用户行为强度，有效揭示了模型在高压环境下的逻辑脆弱性与同理心韧性现象。

使用方法

使用SAGE数据集时，研究者首先需将特定领域的标准操作流程形式化为有向图，并配置用户代理的意图与人格模板。评估框架通过用户代理与服务代理的动态交互生成对话轨迹，随后由法官智能体与规则引擎协作进行双轴评估：法官智能体负责语义理解与对话质量评分，规则引擎则基于图结构生成确定性的逻辑真值。该模块化设计支持快速适配新场景，同时其自动化评估机制为大规模客服语言模型的训练与诊断提供了高效工具。

背景与挑战

背景概述

随着大语言模型在智能客服领域的广泛应用，对其性能进行系统性评估的需求日益凸显。SAGE（Service Agent Graph-guided Evaluation）基准由天津大学、清华大学、北京航空航天大学等多所高校的研究团队于2026年联合提出，旨在解决现有评估方法在动态交互与多维度度量上的不足。该数据集通过将非结构化的标准操作流程建模为动态对话图，实现了对服务代理逻辑合规性与对话质量的双轴自动化评估，其核心研究问题聚焦于如何在大规模多轮对话中精确验证智能体对复杂业务逻辑的遵循能力。SAGE的提出为智能客服系统的性能诊断与优化提供了标准化工具，推动了该领域从静态测试向动态仿真评估的范式转变。

当前挑战

SAGE数据集致力于解决智能客服领域中对服务代理进行多维度、动态化评估的挑战。在领域问题层面，其核心挑战在于如何准确衡量智能体在遵循复杂标准操作流程时的逻辑合规性，尤其是在面对多样化用户行为（如对抗性意图）时保持稳定的决策能力；同时，需克服现有评估中对话质量与逻辑执行割裂的局限，实现双轴协同度量。在构建过程中，主要挑战包括将非结构化业务文档转化为可计算的动态图模型，确保路径覆盖的完备性与评估的确定性；此外，设计可扩展的对抗性用户意图分类体系与模块化场景扩展机制，以支持低成本、跨领域的基准迁移与大规模对话数据合成，亦是关键难点。

常用场景

经典使用场景

在智能客服领域，SAGE数据集通过将非结构化标准操作流程（SOP）建模为动态对话图，为大型语言模型（LLM）在复杂业务逻辑下的性能评估提供了经典框架。该数据集模拟了从电子商务退款到航空票务处理等六个工业场景，利用多智能体交互机制生成对抗性用户意图，从而系统化地测试服务代理在严格遵循SOP路径与处理多轮对话方面的能力。其核心在于通过图引导的评估体系，实现对逻辑合规性与对话质量的双轴量化，为自动化客服系统的基准测试设立了新范式。

实际应用

在实际应用中，SAGE数据集已被广泛应用于企业级智能客服系统的开发与优化。其模块化设计支持快速部署至电信、物流、在线教育等多个垂直领域，帮助企业低成本构建符合自身SOP的自动化评估流程。例如，在电商退款场景中，系统能够模拟用户从查询到强对抗投诉的全流程，精准测试代理在处理多分支逻辑与情绪管理时的表现。此外，该框架衍生的自动化对话数据合成功能，为客服模型的训练提供了高质量语料，显著提升了工业场景中服务代理的部署效率与可靠性。

衍生相关工作

SAGE数据集的创新框架催生了一系列相关研究，特别是在图引导评估与多智能体交互领域。其动态图建模方法启发了如SOPBench等后续工作，进一步深化了对LLM在结构化流程中工具调用序列的评估。同时，该数据集采用的对抗意图分类机制为DialogBench、ECom-Bench等客服对话基准提供了用户行为模拟的新思路。在评估体系方面，其双轴指标设计影响了后续研究对逻辑合规与语言质量分离衡量的探索，例如在AgentBench等智能体评估工作中被借鉴，推动了多维度评估标准在复杂任务中的普及与应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集