Email Intent and Sentiment Classification Dataset
收藏github2024-11-25 更新2024-11-26 收录
下载链接:
https://github.com/10619082/email-intent-sentiment-llm
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于生成多样化和现实的旅行社电子邮件示例,涵盖广泛的场景和边缘案例。它确保分类提示在鲁棒性和准确性方面得到严格测试。
This dataset is designed to generate diverse and realistic sample travel agency emails, covering a wide range of scenarios and edge cases. It enables the rigorous testing of classification prompts with regard to both robustness and accuracy.
创建时间:
2024-11-19
原始信息汇总
Email Intent and Sentiment Classification using LLMs
数据集概述
该数据集用于开发、测试和评估基于提示的工作流程,以分析旅行机构的电子邮件。主要目标是使用大型语言模型(LLMs)对电子邮件的意图、情感和复杂性进行分类。
关键特性
1. 数据集创建
- 生成方法: 使用各种提示生成多样化和现实的电子邮件示例,涵盖广泛场景和边缘案例。
- 文档: 详细信息参见 Dataset Documentation.md。
- 代码: 数据集生成使用
Dataset generator.ipynb,包含基于提示的生成逻辑和线程优化API调用。
2. 提示开发和测试
- 分类提示: 开发了多个迭代以优化电子邮件分类。
prompt_01在数据集上取得了最高准确率。 - 评估提示: 设计用于评分和评估分类输出的准确性和鲁棒性。
- 提示存储: 所有开发的提示存储在
prompts文件夹中。 - 评估结果: 所有实验结果存储在
evaluation_results文件夹中。
3. 管道开发
- CI/CD实践: 通过提示更新触发的自动化测试和评估。
- 准确性指标: 跨多个数据集的阈值测试,确保一致性能。
- 数据集集成: 统一和多样化的数据集用于全面评估。
4. 模型选择
- 分类和评估模型: 使用 gpt4o-mini 模型,确保成本效率同时保持合理准确性。
- 数据集生成模型: 使用 gpt4o 模型,因其更高的生成能力,确保合成电子邮件示例的多样性和质量。
使用方法
-
数据集生成:
- 使用
dataset_generator.ipynb生成新数据集。 - 参考
Dataset Documentation.md了解数据集结构和类别。
- 使用
-
提示测试:
- 修改
prompts/文件夹中的提示以测试新想法。 - 使用
run_evaluation.py中的管道评估提示性能。
- 修改
-
评估框架:
- 使用
evaluation_prompt_01验证分类提示的输出。 - 使用
Evaluation Pipeline Documentation.md中的指标分析结果。
- 使用
关键洞察
- 无地面真值评估: 数据集不包含电子邮件分类的地面真值标签,完全由LLM评分驱动。
- 统一数据集方法: 简化测试,将多个数据集类别合并为一个统一数据集。
未来工作
- 探索结合数值准确性指标和LLM驱动评分的混合评估方法。
- 通过包含真实世界示例(如匿名客户电子邮件)增加数据集多样性。
搜集汇总
数据集介绍

构建方式
该数据集通过使用多种提示生成多样化和现实的电子邮件示例,涵盖了广泛的场景和边缘案例。数据集的生成过程利用了`Dataset generator.ipynb`脚本,该脚本包含了基于提示的生成逻辑和线程优化API调用,以确保分类提示的鲁棒性和准确性。详细的生成方法和数据集结构可在[Dataset Documentation.md](https://github.com/10619082/email-intent-sentiment-llm/raw/main/Documentation/Dataset%20Documentation.md)中找到。
特点
该数据集的主要特点在于其多样性和现实性,通过多种提示生成的电子邮件示例覆盖了广泛的意图、情感和复杂性。此外,数据集的生成过程采用了线程优化API调用,以提高效率。数据集不包含地面真值标签,评估完全由LLM评分驱动,减少了手动标注的需求,节省了时间和资源。
使用方法
使用该数据集时,用户可以通过`dataset_generator.ipynb`生成新的数据集进行提示测试,并参考`Dataset Documentation.md`了解数据集的结构和类别。在提示测试阶段,用户可以修改`prompts/`文件夹中的提示,并使用`run_evaluation.py`提供的管道评估提示性能。评估框架则通过`evaluation_prompt_01`验证分类提示的输出,并使用`Evaluation Pipeline Documentation.md`中的指标进行结果分析。
背景与挑战
背景概述
在现代通信技术迅速发展的背景下,电子邮件作为企业和客户之间沟通的重要桥梁,其内容的自动分类与情感分析显得尤为关键。Email Intent and Sentiment Classification Dataset由一支专注于大型语言模型(LLMs)应用的研究团队创建,旨在通过构建一个全面的框架,对旅行机构收到的电子邮件进行意图、情感和复杂度的分类。该数据集的创建不仅涵盖了多样化的真实场景和边缘案例,还通过系统化的评估框架确保分类模型的准确性和鲁棒性。这一研究对提升客户服务自动化水平、优化业务流程具有重要意义。
当前挑战
尽管Email Intent and Sentiment Classification Dataset在电子邮件分类领域展现了显著的潜力,但其构建和应用过程中仍面临诸多挑战。首先,数据集的生成依赖于合成数据,如何确保这些数据的真实性和代表性是一个关键问题。其次,由于缺乏真实标签,评估过程完全依赖于LLM的评分,这可能导致评估结果的可靠性不足。此外,模型选择和成本效益之间的平衡也是一大挑战,如何在保证分类准确性的同时控制计算成本,是未来研究需要解决的重要课题。
常用场景
经典使用场景
在旅游行业的电子邮件处理中,Email Intent and Sentiment Classification Dataset 被广泛用于分类电子邮件的意图、情感和复杂性。通过使用大型语言模型(LLMs),该数据集能够系统地评估和改进分类提示,确保在处理多样化邮件场景时的准确性和鲁棒性。这一经典应用场景不仅提升了邮件处理的自动化水平,还为旅游机构提供了更为精准的客户服务支持。
衍生相关工作
基于Email Intent and Sentiment Classification Dataset,研究者们开发了多种相关的经典工作。例如,通过该数据集,研究者们设计了多种分类和评估提示,优化了邮件处理的准确性。此外,该数据集还启发了混合评估方法的研究,结合大型语言模型和模式匹配技术,进一步提升了评估的可靠性。这些衍生工作不仅丰富了自然语言处理领域的研究内容,还为实际应用提供了更多可能性。
数据集最近研究
最新研究方向
在电子邮件意图和情感分类领域,最新的研究方向主要集中在利用大型语言模型(LLMs)进行高效的分类和评估。研究者们致力于开发和测试基于提示的工作流程,以确保在处理旅行机构电子邮件时的高准确性和鲁棒性。此外,研究还涉及构建统一的评估框架,通过自动化测试和持续集成/持续部署(CI/CD)实践,提升分类系统的性能。未来,研究可能进一步探索结合数值精度指标和LLM驱动评分的方法,以及增加数据集的多样性,包括真实世界的电子邮件示例,以提升分类系统的实际应用价值。
以上内容由遇见数据集搜集并总结生成



