CXM_Arena
收藏Hugging Face2025-05-09 更新2025-05-10 收录
下载链接:
https://huggingface.co/datasets/sprinklr-huggingface/CXM_Arena
下载链接
链接失效反馈官方服务:
资源简介:
CXM Arena Benchmark Suite是一个全面的评估客户体验管理(CXM)领域各种AI能力的集合。它包括五个核心任务:代理商质量遵守、知识库精炼、文章搜索和理解、意图预测和多轮RAG与工具。每个任务都有特定的配置和数据划分,并且数据集是使用先进的语言模型合成生成的。文件还包括关于数据集使用、创建、潜在偏差和限制以及如何使用和引用数据集的信息。
创建时间:
2025-05-07
搜集汇总
数据集介绍

构建方式
在客户体验管理领域,该数据集采用合成生成方法构建,主要运用Gemini-2.0-flash和GPT-4o等大型语言模型模拟真实业务场景。通过精心设计的品牌实体生成策略,构建了涵盖五个核心任务的评估体系,其中知识库相关组件特别设计了并行处理的“洁净”与“噪声”版本内容,以测试系统在复杂环境下的鲁棒性。工具调用子集则基于456个生成对话的分析结果,确保评估场景的多样性和实用性。
特点
该数据集以多任务集成架构为特色,包含智能体质量监控、知识库优化、文章检索理解、意图预测及多轮对话工具调用五大模块。其独特之处在于提供了三层意图分类体系和动态工具候选集,知识库文章同时提供原始格式与噪声处理版本,有效模拟真实业务场景中的数据复杂性。数据集规模适中,涵盖近万条数据实例,每个任务模块均配备精细标注的评估指标。
使用方法
研究人员可通过HuggingFace平台加载数据集各组件,使用标准数据加载接口分别调用五个核心任务模块。针对智能体质量评估任务,可直接加载对话与质量指标数据;知识库优化任务需同时加载文章内容与相似性对比标注;多轮对话工具调用模块则需整合对话上下文、知识库条目及工具定义文件。所有任务均支持通过配置名称精准调用对应数据子集,实现端到端的评估流程。
背景与挑战
背景概述
客户体验管理领域正经历人工智能技术的深度渗透,2025年由Sprinklr AI构建的CXM Arena基准套件应运而生。该数据集聚焦于企业级对话系统的多维评估,通过整合智能体质量监控、知识库优化、文章检索理解、意图预测及多轮增强检索五大核心任务,构建了统一的测评框架。其采用Gemini-2.0-flash与GPT-4o等大语言模型生成合成数据,通过模拟真实商业场景中的品牌实体与交互流程,为对话系统在复杂业务环境中的性能评估提供了标准化范本。
当前挑战
在解决客户体验管理领域问题时,该数据集面临多维度挑战:知识库优化任务需精准识别文本间的相似性与矛盾性;多轮对话系统需同步处理工具调用、知识检索与响应生成的协同机制;意图预测需适应不同粒度的分类体系。构建过程中,合成数据的真实性保障成为关键难点,需通过并行生成洁净与噪声版本以模拟现实数据环境。工具候选集生成机制依赖模拟频率统计,可能无法完全覆盖真实场景的复杂性,且大语言模型生成过程潜藏的偏见风险需持续监控。
常用场景
实际应用
在实际业务场景中,CXM Arena数据集支撑着智能客服系统的全流程优化。企业可基于其代理质量监控模块评估客服人员表现,通过知识库精炼功能维护企业知识资产的一致性。在客户服务端,该数据集训练的模型能够准确理解用户意图,从海量知识库中快速检索相关信息,并在多轮对话中智能调用工具解决问题,显著提升客户满意度和服务效率。
衍生相关工作
基于该数据集的研究已催生多个重要方向的发展。在检索增强生成领域,其多轮RAG评估框架启发了更复杂的对话状态跟踪方法;工具调用组件推动了候选工具排序算法的创新;意图预测任务促进了分层分类模型在商业场景的应用。这些衍生工作不仅深化了对客户服务AI系统的理解,也为相关技术的产业化落地提供了重要参考。
以上内容由遇见数据集搜集并总结生成



