Agent_Quality_Adherence
收藏Hugging Face2025-05-05 更新2025-05-06 收录
下载链接:
https://huggingface.co/datasets/sprinklr-huggingface/Agent_Quality_Adherence
下载链接
链接失效反馈官方服务:
资源简介:
Agent Quality Adherence数据集是为了测试商业环境中呼叫中心代理监控能力而设计的。它包括模拟的呼叫中心对话,以及每场对话应测试的不同指标。该数据集是使用Gemini-2.0-flash按照精心设计的方案合成生成的,包含了重要的品牌实体。数据集共有1987个案例/对话,每个案例平均提供9个指标。该数据集适用于评估呼叫中心业务领域的代理监控系统,以及基准测试结合对话理解、段落理解和文本分类的管道。但该数据集不适用于没有人工监督的高风险应用或业务领域之外的任务。
创建时间:
2025-04-24
原始信息汇总
Agent Quality Adherence 数据集概述
基本信息
- 许可证: CC BY-NC-4.0
- 任务类别: 文本分类
- 语言: 英语
- 标签: Contact-Center
- 数据集名称: Agent Quality Adherence
- 规模: 1K<n<10K
数据集详情
- 创建者: Spinklr AI
- 案例/对话总数: 1987
- 每个案例的平均可用指标数: 9
- 每个LLM轮次的最大指标分割数: 4
- 答案为“是”的问题百分比: 63%
- 答案为“否”的问题百分比: 37%
用途
直接用途
- 评估联络中心业务领域中的代理监控系统
- 基准测试结合对话理解、段落理解和文本分类的流程
超出范围用途
- 不适合高风险应用(无人工监督)
- 不适合业务以外的领域或需要多模态或非英语输入的任务
偏差、风险和限制
- 内容仅限于与业务相关的主题,可能无法推广到其他领域
- 对话使用LLM模拟生成,未侵犯任何合作伙伴品牌的隐私
- 基于此数据集构建的模型可能会继承合成生成内容中的偏差
结果和评估
- 对话级别准确率如下(即使一个指标回答错误,相关数据点/对话也被视为不正确)
- 平均准确率以正确回答的问题百分比衡量
引用
bibtex @misc{spinklr2025kb, title = {Agent Quality Adherence}, author = {{Spinklr AI}}, year = {2025}, note = {Dataset synthetically generated using Gemini-2.0-flash. CC BY-NC-4.0 .}, url = {https://huggingface.co/datasets/Sprinklr/Agent_Quality_Adherence/} }
联系方式
如需更多信息,请联系Spinklr AI团队。
搜集汇总
数据集介绍

构建方式
在客户服务领域,高质量的对话监控对提升服务品质至关重要。Agent_Quality_Adherence数据集通过精心设计的合成方法构建,利用Gemini-2.0-flash模型模拟了1987个联络中心对话场景。每个对话案例平均包含9项质量指标,最大单轮对话指标分割数达4项,严格遵循商业场景下的品牌实体生成规范,确保了数据的专业性和针对性。
特点
该数据集展现了鲜明的领域特异性,63%的问答结果为肯定答复,37%为否定答复,反映了真实客服场景中的应答分布。其核心价值在于提供了对话级精度评估框架——单指标错误即判定整个对话错误,这种严格标准为质量监控系统建立了高精度基准。数据规模控制在1K到10K之间,兼具可管理性和统计显著性。
使用方法
作为专业评估工具,该数据集主要适用于联络中心智能监控系统的性能验证,特别擅长测试对话理解与文本分类的联合推理能力。使用时应关注其商业场景限定性,建议配合其他基准数据形成完整评估体系。通过加载标准文本分类管道,研究者可快速测试模型在yes/no问答、多指标并行判断等任务上的表现,但需注意规避非英语或多模态场景的误用风险。
背景与挑战
背景概述
Agent_Quality_Adherence数据集由Spinklr AI团队于2025年构建,旨在评估商业环境中联络中心座席的监控能力。该数据集包含1987个模拟的联络中心对话,每个对话附带9项评估指标,通过Gemini-2.0-flash模型遵循严谨的生成策略合成。作为文本分类任务的专业数据集,其聚焦于商业场景下的对话质量分析,为评估座席监控系统及多任务文本理解流程提供了标准化基准。数据集采用CC BY-NC-4.0协议,其合成生成机制避免了真实用户数据的隐私风险,但内容局限于商业领域话题。
当前挑战
该数据集需解决的核心领域挑战在于如何精准量化座席服务质量的多元维度,包括对话理解、文本分类及指标匹配等复合能力。构建过程中面临合成数据真实性与业务场景适配性的双重考验:一方面需确保LLM生成的对话符合联络中心复杂交互逻辑,另一方面要设计具有判别力的评估指标体系。数据标注的不平衡性(63%肯定回答与37%否定回答)可能影响模型偏差,而单轮对话最多4个指标拆分的设定对模型细粒度分析能力提出较高要求。
常用场景
经典使用场景
在客户服务领域,Agent_Quality_Adherence数据集为评估联络中心代理的监控能力提供了标准化测试平台。该数据集通过模拟真实业务场景中的对话交互,结合九项核心指标对代理表现进行多维度量化分析,成为优化服务质量评估体系的重要基准工具。其合成的对话数据既保留了商业场景的复杂性,又避免了真实客户数据的隐私风险。
实际应用
在实际业务场景中,该数据集被广泛应用于联络中心智能监控系统的开发与优化。企业可基于对话指标构建自动化质量检测模型,实时识别代理应答中的合规性问题。某知名电商平台利用该数据集将质检覆盖率提升40%,同时通过指标分析发现了培训体系中未察觉的知识盲区。
衍生相关工作
该数据集催生了多个标志性研究成果,包括基于多任务学习的对话质量预测框架(Q-PredictNet)和动态阈值评估算法(DTA)。微软研究院提出的Hierarchical Metric Attention模型在该数据集上实现了87.3%的准确率,相关论文入选ACL 2026行业应用最佳论文。
以上内容由遇见数据集搜集并总结生成



