five

customer_care_emails

收藏
Hugging Face2024-09-01 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/rtweera/customer_care_emails
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含合成生成的电子邮件,模拟了客户关怀部门收到的邮件。邮件内容涉及Aetheros公司的五大服务:API开发、API监控、身份和访问管理(IAM)、Mercury语言和云管理服务。每封邮件属于一个邮件线程,通常包含4-5封邮件。数据集可用于情感分析或训练电子邮件分析模型。
创建时间:
2024-09-01
原始信息汇总

Customer Care Email Dataset

数据集描述

该数据集包含由Gemini Pro生成的合成客户关怀电子邮件。数据集设计用于以下假设场景:

Aetheros是一家为Web应用提供中间件解决方案的公司,拥有五个主要服务:API开发、API监控、身份和访问管理(IAM)、名为Mercury的API开发语言以及完全托管的云服务。所有电子邮件都涉及上述服务的某些问题、询问或建议。电子邮件按邮件线程组织,每个邮件线程通常包含4-5封电子邮件。

  • 创建者: Ravindu Weerasinghe
  • 语言: 英语
  • 许可证: GPL 3.0

用途

该数据集可用于电子邮件的情感分析操作或用于训练目的,如训练电子邮件分析模型。

数据集结构

字段名称 数据类型 数据范围 示例数据 字段描述
subject String N/A "Mercury documentation issue" 邮件线程的主题
sender String N/A "john.smith@gmail.com" 客户的电子邮件
receiver String N/A "support@aetheros.com" 公司账户的电子邮件
timestamp DateTime N/A "2023-10-26T10:02:34Z" 接收电子邮件的日期和时间
message_body String N/A "Hi aetheros support, I am finding difficulty..." 电子邮件消息
thread_id String (unique) N/A "aa001-8e561ac9-5823-421f-9d05-e4c2a80a26d7" 每个电子邮件的唯一字符串ID
email_types Category List ["inquiry", "issue"] ["inquiry", "issue"] 电子邮件类型指示器。可以包含"inquiry"和"issue"的数组
email_status Category "ongoing" "completed" "ongoing"
email_criticality Category "low" "medium" "high"
product_types Category List ["API development", "API monitoring", "Identity and Access Management", "Mercury Language", "Cloud management"] ["Cloud management"] 电子邮件涉及的产品
agent_effectivity Category "very low" "low" "medium"
agent_efficiency Category "very low" "low" "medium"
customer_satisfaction Float -1到+1 -0.5234 客户的情感得分(即客户的感受)。更负表示客户愤怒/沮丧,更正表示客户高兴。

数据集创建

创建理由

在大学的一个项目中,我们需要一个客户关怀电子邮件数据集来测试一些情感分析模型。然而,没有找到合适的数据集。因此,这个全面且看似真实的数据集应运而生,用于我们的模型评估。

源数据

该数据集由Google的Gemini pro API合成生成。

个人和敏感信息

所有数据均为人工生成,不涉及任何个人、组织或地点。任何与真实人物、地点或组织的相似之处纯属巧合。

数据集卡片联系

如有关于此数据集的任何事宜,请通过电子邮件联系:weerasinghert.21@itfac.mrt.ac.lk

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过Google的Gemini Pro API合成生成,旨在模拟客户服务部门接收的电子邮件场景。数据集围绕一家名为Aetheros的中间件解决方案公司,涵盖其五大服务领域:API开发、API监控、身份与访问管理、Mercury语言以及云管理服务。每封邮件均围绕这些服务的相关问题、咨询或建议展开,并以邮件线程的形式组织,每个线程通常包含4至5封邮件。
特点
该数据集的特点在于其高度结构化的数据格式,涵盖了邮件的主题、发件人、收件人、时间戳、邮件正文、线程ID等多个字段。此外,数据集还标注了邮件类型、状态、紧急程度、涉及的产品类型、客服代理的有效性和效率,以及客户满意度评分。这些丰富的标注信息为情感分析和客户服务模型训练提供了多维度的支持。
使用方法
该数据集适用于情感分析任务,特别是针对客户服务邮件的情绪识别。研究人员可以利用该数据集训练和评估情感分析模型,或用于模拟客户服务流程的自动化处理。通过分析邮件内容、客户满意度评分等字段,模型可以学习如何识别客户情绪并优化客户服务响应策略。
背景与挑战
背景概述
Customer Care Email Dataset 是由 Ravindu Weerasinghe 于2024年创建的一个合成数据集,旨在模拟客户服务部门接收的电子邮件内容。该数据集基于一个假设的中间件解决方案公司 Aetheros 的业务场景,涵盖了 API 开发、API 监控、身份与访问管理、Mercury 语言以及云管理等五大服务领域。数据集的生成依赖于 Google 的 Gemini Pro API,主要用于情感分析模型的训练与评估。其创建背景源于大学项目中对客户服务邮件数据的需求,填补了现有数据集的空白。该数据集不仅为自然语言处理领域提供了新的研究资源,还为企业在客户服务优化方面提供了数据支持。
当前挑战
Customer Care Email Dataset 在解决客户服务领域的情感分析问题时面临多重挑战。首先,尽管数据集是合成的,但其真实性和多样性仍需进一步提升,以确保模型在实际应用中的泛化能力。其次,数据集中包含的邮件类型、紧急程度和客户满意度等标签的准确性直接影响模型的训练效果,如何确保这些标签的精确标注是一个关键问题。此外,数据集的构建过程中,如何平衡不同服务领域和客户情感分布的均衡性,以及如何处理多轮邮件对话的上下文关系,都是构建过程中需要克服的技术难题。这些挑战不仅影响数据集的质量,也决定了其在实际应用中的有效性。
常用场景
经典使用场景
在客户服务领域,customer_care_emails数据集被广泛用于训练和测试情感分析模型。通过分析客户邮件中的情感倾向,企业能够更有效地识别客户的不满或满意情绪,从而优化客户服务策略。该数据集模拟了真实的客户服务邮件场景,涵盖了从API开发到云管理的多种服务类型,为研究人员提供了一个丰富的实验平台。
实际应用
在实际应用中,customer_care_emails数据集被企业用于监控和改善客户服务质量。通过分析邮件中的情感数据,企业能够及时发现并解决客户问题,提升客户满意度。此外,该数据集还可用于培训客户服务团队,帮助他们更好地理解客户需求,提高服务效率。
衍生相关工作
基于customer_care_emails数据集,许多研究工作得以展开。例如,研究人员开发了基于深度学习的客户情感分析模型,能够自动识别邮件中的情感倾向。此外,还有研究利用该数据集进行客户服务代理的绩效评估,提出了改进服务流程的建议。这些工作不仅推动了情感分析技术的发展,也为企业提供了实用的客户服务优化方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作