Email Intent and Sentiment Classification Dataset

github2024-11-25 更新2024-11-26 收录

下载链接：

https://github.com/10619082/email-intent-sentiment-llm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于生成多样化和现实的旅行社电子邮件示例，涵盖广泛的场景和边缘案例。它确保分类提示在鲁棒性和准确性方面得到严格测试。

This dataset is designed to generate diverse and realistic sample travel agency emails, covering a wide range of scenarios and edge cases. It enables the rigorous testing of classification prompts with regard to both robustness and accuracy.

创建时间：

2024-11-19

原始信息汇总

Email Intent and Sentiment Classification using LLMs

数据集概述

该数据集用于开发、测试和评估基于提示的工作流程，以分析旅行机构的电子邮件。主要目标是使用大型语言模型（LLMs）对电子邮件的意图、情感和复杂性进行分类。

关键特性

1. 数据集创建

生成方法: 使用各种提示生成多样化和现实的电子邮件示例，涵盖广泛场景和边缘案例。
文档: 详细信息参见 Dataset Documentation.md。
代码: 数据集生成使用 Dataset generator.ipynb，包含基于提示的生成逻辑和线程优化API调用。

2. 提示开发和测试

分类提示: 开发了多个迭代以优化电子邮件分类。prompt_01 在数据集上取得了最高准确率。
评估提示: 设计用于评分和评估分类输出的准确性和鲁棒性。
提示存储: 所有开发的提示存储在 prompts 文件夹中。
评估结果: 所有实验结果存储在 evaluation_results 文件夹中。

3. 管道开发

CI/CD实践: 通过提示更新触发的自动化测试和评估。
准确性指标: 跨多个数据集的阈值测试，确保一致性能。
数据集集成: 统一和多样化的数据集用于全面评估。

4. 模型选择

分类和评估模型: 使用 gpt4o-mini 模型，确保成本效率同时保持合理准确性。
数据集生成模型: 使用 gpt4o 模型，因其更高的生成能力，确保合成电子邮件示例的多样性和质量。

使用方法

数据集生成:
- 使用 dataset_generator.ipynb 生成新数据集。
- 参考 Dataset Documentation.md 了解数据集结构和类别。
提示测试:
- 修改 prompts/ 文件夹中的提示以测试新想法。
- 使用 run_evaluation.py 中的管道评估提示性能。
评估框架:
- 使用 evaluation_prompt_01 验证分类提示的输出。
- 使用 Evaluation Pipeline Documentation.md 中的指标分析结果。

关键洞察

无地面真值评估: 数据集不包含电子邮件分类的地面真值标签，完全由LLM评分驱动。
统一数据集方法: 简化测试，将多个数据集类别合并为一个统一数据集。

未来工作

探索结合数值准确性指标和LLM驱动评分的混合评估方法。
通过包含真实世界示例（如匿名客户电子邮件）增加数据集多样性。

搜集汇总

数据集介绍

构建方式

该数据集通过使用多种提示生成多样化和现实的电子邮件示例，涵盖了广泛的场景和边缘案例。数据集的生成过程利用了`Dataset generator.ipynb`脚本，该脚本包含了基于提示的生成逻辑和线程优化API调用，以确保分类提示的鲁棒性和准确性。详细的生成方法和数据集结构可在[Dataset Documentation.md](https://github.com/10619082/email-intent-sentiment-llm/raw/main/Documentation/Dataset%20Documentation.md)中找到。

特点

该数据集的主要特点在于其多样性和现实性，通过多种提示生成的电子邮件示例覆盖了广泛的意图、情感和复杂性。此外，数据集的生成过程采用了线程优化API调用，以提高效率。数据集不包含地面真值标签，评估完全由LLM评分驱动，减少了手动标注的需求，节省了时间和资源。

使用方法

使用该数据集时，用户可以通过`dataset_generator.ipynb`生成新的数据集进行提示测试，并参考`Dataset Documentation.md`了解数据集的结构和类别。在提示测试阶段，用户可以修改`prompts/`文件夹中的提示，并使用`run_evaluation.py`提供的管道评估提示性能。评估框架则通过`evaluation_prompt_01`验证分类提示的输出，并使用`Evaluation Pipeline Documentation.md`中的指标进行结果分析。

背景与挑战

背景概述

在现代通信技术迅速发展的背景下，电子邮件作为企业和客户之间沟通的重要桥梁，其内容的自动分类与情感分析显得尤为关键。Email Intent and Sentiment Classification Dataset由一支专注于大型语言模型（LLMs）应用的研究团队创建，旨在通过构建一个全面的框架，对旅行机构收到的电子邮件进行意图、情感和复杂度的分类。该数据集的创建不仅涵盖了多样化的真实场景和边缘案例，还通过系统化的评估框架确保分类模型的准确性和鲁棒性。这一研究对提升客户服务自动化水平、优化业务流程具有重要意义。

当前挑战

尽管Email Intent and Sentiment Classification Dataset在电子邮件分类领域展现了显著的潜力，但其构建和应用过程中仍面临诸多挑战。首先，数据集的生成依赖于合成数据，如何确保这些数据的真实性和代表性是一个关键问题。其次，由于缺乏真实标签，评估过程完全依赖于LLM的评分，这可能导致评估结果的可靠性不足。此外，模型选择和成本效益之间的平衡也是一大挑战，如何在保证分类准确性的同时控制计算成本，是未来研究需要解决的重要课题。

常用场景

经典使用场景

在旅游行业的电子邮件处理中，Email Intent and Sentiment Classification Dataset 被广泛用于分类电子邮件的意图、情感和复杂性。通过使用大型语言模型（LLMs），该数据集能够系统地评估和改进分类提示，确保在处理多样化邮件场景时的准确性和鲁棒性。这一经典应用场景不仅提升了邮件处理的自动化水平，还为旅游机构提供了更为精准的客户服务支持。

衍生相关工作

基于Email Intent and Sentiment Classification Dataset，研究者们开发了多种相关的经典工作。例如，通过该数据集，研究者们设计了多种分类和评估提示，优化了邮件处理的准确性。此外，该数据集还启发了混合评估方法的研究，结合大型语言模型和模式匹配技术，进一步提升了评估的可靠性。这些衍生工作不仅丰富了自然语言处理领域的研究内容，还为实际应用提供了更多可能性。

数据集最近研究