CRMArena

Name: CRMArena
Creator: Salesforce
Published: 2024-11-05 13:12:26
License: 暂无描述

Hugging Face2024-11-05 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Salesforce/CRMArena

下载链接

链接失效反馈

官方服务：

资源简介：

CRMArena是一个用于评估大型语言模型（LLM）代理在现实环境中执行实际工作任务能力的基准。该基准包含16个常用的工业对象，这些对象具有高度的互联性，并包含潜在变量以模拟现实数据分布。每个实例包含标准答案、任务名称、查询/任务的元数据和LLM代理应响应的查询。

CRMArena is a benchmark for evaluating the capability of Large Language Model (LLM) agents to perform real-world operational tasks in realistic environments. This benchmark includes 16 commonly used industrial objects, which are highly interconnected and incorporate latent variables to simulate real-world data distributions. Each instance contains the standard answer, task name, metadata of the query/task, and the query that the LLM agent should respond to.

提供机构：

Salesforce

创建时间：

2024-10-27

原始信息汇总

CRMArena 数据集概述

基本信息

语言: 英语
许可证: Apache 2.0
多语言性: 单语种
数据规模: 1K<n<10K
标签:
- agent
- LLM
- work-benchmark
- evaluation

数据集描述

CRMArena 是一个用于评估大型语言模型（LLM）代理在现实环境中执行实际工作任务能力的基准。该基准包含16个常用的工业对象（如账户、订单、知识文章、案例），并具有高度的互联性，以及潜在变量（如投诉习惯、政策违规），以模拟现实数据分布。

数据字段

answer: 标准答案
task: 任务名称
metadata: 查询/任务的元数据，应作为系统提示的一部分
query: LLM 代理应响应的查询

引用

@misc{huang-etal-2024-crmarena, title = "CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments", author = "Huang, Kung-Hsiang and Prabhakar, Akshara and Dhawan, Sidharth and Mao, Yixin and Wang, Huan and Savarese, Silvio and Xiong, Caiming and Laban, Philippe and Wu, Chien-Sheng", year = "2024", archivePrefix = "arXiv", eprint={2411.02305}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

CRMArena数据集的构建旨在评估大型语言模型（LLM）代理在真实环境中执行专业客户关系管理（CRM）任务的能力。该数据集通过引入16个常用的工业对象（如账户、订单、知识文章、案例等）及其高互联性，结合潜在变量（如投诉习惯、政策违规等），模拟了真实的数据分布。每个实例包含任务名称、查询、元数据和真实答案，确保数据集的多样性和复杂性。

特点

CRMArena数据集的特点在于其高度仿真的工业场景和复杂的任务设计。数据集不仅涵盖了多种CRM任务，还通过潜在变量和对象之间的互联性，模拟了真实世界中的不确定性。这种设计使得数据集能够全面评估LLM代理在处理复杂、多维度任务时的表现。此外，数据集的元数据部分为系统提示提供了重要信息，进一步增强了任务的挑战性。

使用方法

CRMArena数据集的使用方法主要包括加载数据集、解析任务和查询，以及评估LLM代理的表现。用户可以通过HuggingFace平台直接加载数据集，并使用提供的元数据作为系统提示。通过分析LLM代理对查询的响应，用户能够评估其在处理复杂CRM任务时的能力。此外，数据集还支持与相关论文和代码库的链接，便于用户进行更深入的研究和实验。

背景与挑战

背景概述

CRMArena数据集由Salesforce的研究团队于2024年推出，旨在评估大型语言模型（LLM）代理在真实环境中执行专业客户关系管理（CRM）任务的能力。该数据集基于论文《CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments》提出，涵盖了16种常用的工业对象（如账户、订单、知识文章、案例）及其高互联性，同时引入了潜在变量（如投诉习惯、政策违规）以模拟真实数据分布。CRMArena的推出为LLM在CRM领域的应用提供了重要的基准测试工具，推动了相关领域的研究进展。

当前挑战

CRMArena数据集在解决LLM代理执行CRM任务的能力评估时，面临多重挑战。首先，CRM任务通常涉及复杂的业务流程和高度互联的数据对象，如何准确模拟这些任务并生成具有代表性的测试数据是一大难题。其次，数据集构建过程中需要引入潜在变量以模拟真实环境，这对数据的多样性和复杂性提出了更高要求。此外，评估LLM代理在真实环境中的表现时，如何设计合理的评价指标以确保评估结果的客观性和有效性，也是亟待解决的问题。这些挑战不仅考验了数据集的构建质量，也对LLM在CRM领域的实际应用提出了更高的技术需求。

常用场景

经典使用场景

CRMArena数据集主要用于评估大型语言模型（LLM）代理在真实环境中执行专业客户关系管理（CRM）任务的能力。通过模拟包含16种常用工业对象及其高互联性的复杂场景，该数据集为研究者提供了一个标准化的测试平台，用于衡量LLM在处理实际工作任务中的表现。

解决学术问题

CRMArena数据集解决了在自然语言处理领域中，如何有效评估LLM在复杂、真实环境中的任务执行能力的学术问题。通过引入潜在变量（如投诉习惯、政策违规等），该数据集能够模拟真实数据分布，帮助研究者深入理解LLM在处理专业CRM任务时的局限性和优势。

衍生相关工作

CRMArena数据集的发布催生了一系列相关研究，特别是在LLM代理的性能评估和优化领域。基于该数据集的研究工作不仅推动了LLM在CRM任务中的应用，还为其他领域的任务评估提供了新的方法论和基准。例如，研究者们利用CRMArena数据集开发了新的评估框架和模型优化策略，进一步提升了LLM在复杂任务中的表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集