five

CRMArena

收藏
Hugging Face2024-11-05 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Salesforce/CRMArena
下载链接
链接失效反馈
官方服务:
资源简介:
CRMArena是一个用于评估大型语言模型(LLM)代理在现实环境中执行实际工作任务能力的基准。该基准包含16个常用的工业对象,这些对象具有高度的互联性,并包含潜在变量以模拟现实数据分布。每个实例包含标准答案、任务名称、查询/任务的元数据和LLM代理应响应的查询。

CRMArena is a benchmark for evaluating the capability of Large Language Model (LLM) agents to perform real-world operational tasks in realistic environments. This benchmark includes 16 commonly used industrial objects, which are highly interconnected and incorporate latent variables to simulate real-world data distributions. Each instance contains the standard answer, task name, metadata of the query/task, and the query that the LLM agent should respond to.
提供机构:
Salesforce
创建时间:
2024-10-27
原始信息汇总

CRMArena 数据集概述

基本信息

  • 语言: 英语
  • 许可证: Apache 2.0
  • 多语言性: 单语种
  • 数据规模: 1K<n<10K
  • 标签:
    • agent
    • LLM
    • work-benchmark
    • evaluation

数据集描述

CRMArena 是一个用于评估大型语言模型(LLM)代理在现实环境中执行实际工作任务能力的基准。该基准包含16个常用的工业对象(如账户、订单、知识文章、案例),并具有高度的互联性,以及潜在变量(如投诉习惯、政策违规),以模拟现实数据分布。

数据字段

  • answer: 标准答案
  • task: 任务名称
  • metadata: 查询/任务的元数据,应作为系统提示的一部分
  • query: LLM 代理应响应的查询

相关论文

  • 论文标题: CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments
  • 论文链接: https://arxiv.org/abs/2411.02305
  • 代码库: https://github.com/SalesforceAIResearch/CRMArena/
  • 排行榜: https://huggingface.co/spaces/Salesforce/CRMArena-Leaderboard

引用

@misc{huang-etal-2024-crmarena, title = "CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments", author = "Huang, Kung-Hsiang and Prabhakar, Akshara and Dhawan, Sidharth and Mao, Yixin and Wang, Huan and Savarese, Silvio and Xiong, Caiming and Laban, Philippe and Wu, Chien-Sheng", year = "2024", archivePrefix = "arXiv", eprint={2411.02305}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
CRMArena数据集的构建旨在评估大型语言模型(LLM)代理在真实环境中执行专业客户关系管理(CRM)任务的能力。该数据集通过引入16个常用的工业对象(如账户、订单、知识文章、案例等)及其高互联性,结合潜在变量(如投诉习惯、政策违规等),模拟了真实的数据分布。每个实例包含任务名称、查询、元数据和真实答案,确保数据集的多样性和复杂性。
特点
CRMArena数据集的特点在于其高度仿真的工业场景和复杂的任务设计。数据集不仅涵盖了多种CRM任务,还通过潜在变量和对象之间的互联性,模拟了真实世界中的不确定性。这种设计使得数据集能够全面评估LLM代理在处理复杂、多维度任务时的表现。此外,数据集的元数据部分为系统提示提供了重要信息,进一步增强了任务的挑战性。
使用方法
CRMArena数据集的使用方法主要包括加载数据集、解析任务和查询,以及评估LLM代理的表现。用户可以通过HuggingFace平台直接加载数据集,并使用提供的元数据作为系统提示。通过分析LLM代理对查询的响应,用户能够评估其在处理复杂CRM任务时的能力。此外,数据集还支持与相关论文和代码库的链接,便于用户进行更深入的研究和实验。
背景与挑战
背景概述
CRMArena数据集由Salesforce的研究团队于2024年推出,旨在评估大型语言模型(LLM)代理在真实环境中执行专业客户关系管理(CRM)任务的能力。该数据集基于论文《CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments》提出,涵盖了16种常用的工业对象(如账户、订单、知识文章、案例)及其高互联性,同时引入了潜在变量(如投诉习惯、政策违规)以模拟真实数据分布。CRMArena的推出为LLM在CRM领域的应用提供了重要的基准测试工具,推动了相关领域的研究进展。
当前挑战
CRMArena数据集在解决LLM代理执行CRM任务的能力评估时,面临多重挑战。首先,CRM任务通常涉及复杂的业务流程和高度互联的数据对象,如何准确模拟这些任务并生成具有代表性的测试数据是一大难题。其次,数据集构建过程中需要引入潜在变量以模拟真实环境,这对数据的多样性和复杂性提出了更高要求。此外,评估LLM代理在真实环境中的表现时,如何设计合理的评价指标以确保评估结果的客观性和有效性,也是亟待解决的问题。这些挑战不仅考验了数据集的构建质量,也对LLM在CRM领域的实际应用提出了更高的技术需求。
常用场景
经典使用场景
CRMArena数据集主要用于评估大型语言模型(LLM)代理在真实环境中执行专业客户关系管理(CRM)任务的能力。通过模拟包含16种常用工业对象及其高互联性的复杂场景,该数据集为研究者提供了一个标准化的测试平台,用于衡量LLM在处理实际工作任务中的表现。
解决学术问题
CRMArena数据集解决了在自然语言处理领域中,如何有效评估LLM在复杂、真实环境中的任务执行能力的学术问题。通过引入潜在变量(如投诉习惯、政策违规等),该数据集能够模拟真实数据分布,帮助研究者深入理解LLM在处理专业CRM任务时的局限性和优势。
衍生相关工作
CRMArena数据集的发布催生了一系列相关研究,特别是在LLM代理的性能评估和优化领域。基于该数据集的研究工作不仅推动了LLM在CRM任务中的应用,还为其他领域的任务评估提供了新的方法论和基准。例如,研究者们利用CRMArena数据集开发了新的评估框架和模型优化策略,进一步提升了LLM在复杂任务中的表现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作