CXM_Arena

Hugging Face2025-05-09 更新2025-05-10 收录

下载链接：

https://huggingface.co/datasets/sprinklr-huggingface/CXM_Arena

下载链接

链接失效反馈

官方服务：

资源简介：

CXM Arena Benchmark Suite是一个全面的评估客户体验管理(CXM)领域各种AI能力的集合。它包括五个核心任务：代理商质量遵守、知识库精炼、文章搜索和理解、意图预测和多轮RAG与工具。每个任务都有特定的配置和数据划分，并且数据集是使用先进的语言模型合成生成的。文件还包括关于数据集使用、创建、潜在偏差和限制以及如何使用和引用数据集的信息。

创建时间：

2025-05-07

搜集汇总

数据集介绍

构建方式

在客户体验管理领域，该数据集采用合成生成方法构建，主要运用Gemini-2.0-flash和GPT-4o等大型语言模型模拟真实业务场景。通过精心设计的品牌实体生成策略，构建了涵盖五个核心任务的评估体系，其中知识库相关组件特别设计了并行处理的“洁净”与“噪声”版本内容，以测试系统在复杂环境下的鲁棒性。工具调用子集则基于456个生成对话的分析结果，确保评估场景的多样性和实用性。

特点

该数据集以多任务集成架构为特色，包含智能体质量监控、知识库优化、文章检索理解、意图预测及多轮对话工具调用五大模块。其独特之处在于提供了三层意图分类体系和动态工具候选集，知识库文章同时提供原始格式与噪声处理版本，有效模拟真实业务场景中的数据复杂性。数据集规模适中，涵盖近万条数据实例，每个任务模块均配备精细标注的评估指标。

使用方法

研究人员可通过HuggingFace平台加载数据集各组件，使用标准数据加载接口分别调用五个核心任务模块。针对智能体质量评估任务，可直接加载对话与质量指标数据；知识库优化任务需同时加载文章内容与相似性对比标注；多轮对话工具调用模块则需整合对话上下文、知识库条目及工具定义文件。所有任务均支持通过配置名称精准调用对应数据子集，实现端到端的评估流程。

背景与挑战

背景概述

客户体验管理领域正经历人工智能技术的深度渗透，2025年由Sprinklr AI构建的CXM Arena基准套件应运而生。该数据集聚焦于企业级对话系统的多维评估，通过整合智能体质量监控、知识库优化、文章检索理解、意图预测及多轮增强检索五大核心任务，构建了统一的测评框架。其采用Gemini-2.0-flash与GPT-4o等大语言模型生成合成数据，通过模拟真实商业场景中的品牌实体与交互流程，为对话系统在复杂业务环境中的性能评估提供了标准化范本。

当前挑战

在解决客户体验管理领域问题时，该数据集面临多维度挑战：知识库优化任务需精准识别文本间的相似性与矛盾性；多轮对话系统需同步处理工具调用、知识检索与响应生成的协同机制；意图预测需适应不同粒度的分类体系。构建过程中，合成数据的真实性保障成为关键难点，需通过并行生成洁净与噪声版本以模拟现实数据环境。工具候选集生成机制依赖模拟频率统计，可能无法完全覆盖真实场景的复杂性，且大语言模型生成过程潜藏的偏见风险需持续监控。

常用场景

实际应用

在实际业务场景中，CXM Arena数据集支撑着智能客服系统的全流程优化。企业可基于其代理质量监控模块评估客服人员表现，通过知识库精炼功能维护企业知识资产的一致性。在客户服务端，该数据集训练的模型能够准确理解用户意图，从海量知识库中快速检索相关信息，并在多轮对话中智能调用工具解决问题，显著提升客户满意度和服务效率。

衍生相关工作

基于该数据集的研究已催生多个重要方向的发展。在检索增强生成领域，其多轮RAG评估框架启发了更复杂的对话状态跟踪方法；工具调用组件推动了候选工具排序算法的创新；意图预测任务促进了分层分类模型在商业场景的应用。这些衍生工作不仅深化了对客户服务AI系统的理解，也为相关技术的产业化落地提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集