BizzTune Dataset

github2024-06-17 更新2024-07-01 收录

下载链接：

https://github.com/ChrisTho23/bizztune

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集模拟了德国一家中型电子公司的客户支持部门面临的任务，具体包括客户支持票的分类，涉及标题、描述、用户、日期、类别、子类别和紧急程度等字段。

This dataset simulates the tasks faced by the customer support department of a medium-sized electronics company in Germany. Specifically, it involves the classification of customer support tickets, with fields including title, description, user, date, category, subcategory, and urgency.

创建时间：

2024-06-02

原始信息汇总

BizzTune 数据集概述

数据集生成

任务描述: 模拟一个非平凡的现实世界任务，该任务可以通过大型语言模型（LLM）解决，特别是客户支持部门面临的任务。
数据内容: 数据集包含一家中型德国电子公司的客户支持票，需要准确分类以确保及时和适当的响应。
关键挑战: 将每个票分类到正确的类别、子类别和紧急程度，以便进行高效的下游处理。
数据结构: 数据集包含以下键：标题、描述、用户、日期、类别、子类别和紧急程度。
示例: json { "title": "Verspätete Lieferung", "description": "Meine Bestellung sollte vor einer Woche ankommen, aber sie ist immer noch nicht da. Können Sie den Lieferstatus überprüfen? Meine Bestellnummer ist 54321.", "user": "Michael König", "date": "2024-05-26", "category": "Bestellverwaltung", "subcategory": "Lieferverzögerungen", "urgency": "Mittel" }
数据规模: 目前数据集包含110个样本，涵盖5个类别和10个子类别，以及10个不相关的样本。

指令数据集创建

数据转换: 使用ChatML将数据库转换为指令数据集，用于任务特定的微调。
示例: json [ { role: user, content: "You are an AI model trained to categorize customer support tickets for a German consumer electronics company. Your task is to determine the most appropriate category and subcategory for the support ticket provided below, and also classify the urgency of the ticket.

Provide the result in a JSON format with the following fields:

category: The main category of the ticket
subcategory: The subcategory of the ticket
urgency: The urgency level of the ticket

The possible categories, subcategories, and urgency levels are as follows:

Categories and subcategories: Technischer Support

Geräte-Setup-Probleme
Softwarefehler

Abrechnung und Zahlungen

Zahlungsprobleme
Rückerstattungsanfragen

Produktinformationen

Produktspezifikationen
Garantieinformationen

Bestellverwaltung

Bestellverfolgung
Lieferverzögerungen

Allgemeine Anfragen

Unternehmensrichtlinien
Feedback und Vorschläge

Ungewiss

Kein Zusammenhang

Urgency Levels: - Hoch - Mittel - Niedrig === Support Ticket === Title: Smartphone erkennt SIM-Karte nicht Description: Ich habe das neue SmartX Ultra gekauft und beim Einrichten erkennt das Smartphone meine SIM-Karte nicht. Es zeigt ständig Keine SIM-Karte. Ich habe bereits verschiedene SIM-Karten ausprobiert, aber das Problem bleibt bestehen. Name: Laura Schmidt Date: 2024-06-01 " }, { role: assistant, content: "{category: Technischer Support, subcategory: Geräte-Setup-Probleme, urgency: Hoch}" } ]

基准测试

模型性能: 对当前最先进的基础模型（OpenAI的GPT3.5、GPT4和Mistral 7B）在保留数据集上的性能进行了基准测试。
结果:

模型类别准确率子类别准确率紧急程度准确率

GPT-3.5 0.7 0.65 0.53

GPT-4 0.75 0.72 0.51

Mistral 7B 0.8 0.83 0.64

任务特定微调

微调方法: 使用QLoRA框架对开源LLM进行任务特定的微调。
微调细节: 模型首先进行双重量化（权重为4位NF4，第一级常数也量化），然后在所有注意力和部分前馈层（o_proj, gate_proj）上设置LoRA，alpha = r = 8。最后，使用余弦学习率调度器在训练集上训练1个周期。
硬件要求: 微调在两个Nvidia L4 GPU（每个24GB VRAM，大约使用5GB进行微调）的集群上进行。

微调模型基准测试

微调模型性能: 微调后的模型将在保留验证集上与基础模型进行基准测试。
结果:

模型类别准确率子类别准确率紧急程度准确率

Mistral 7B 0.73 (+3%) 0.64 (-0.7%) 0.64 (+20%)

搜集汇总

数据集介绍

构建方式

BizzTune数据集的构建旨在模拟现实世界中客户支持部门面临的复杂任务。具体而言，该数据集通过OpenAI的GPT4o模型生成，旨在模拟一家德国中型电子公司的客户支持票。每个票证包含标题、描述、用户、日期、类别、子类别和紧急程度等关键信息。数据集的设计考虑了客户查询的语言和细节的多样性，要求模型能够准确分类票证，以提高客户支持的效率和客户满意度。目前，数据集包含110个样本，涵盖5个类别和10个子类别，并包含10个与任务无关的样本。

特点

BizzTune数据集的主要特点在于其高度模拟现实世界任务的复杂性。数据集不仅涵盖了多个类别和子类别，还引入了紧急程度分类，这使得任务更具挑战性。此外，数据集中的样本多样性高，能够有效测试模型在处理不同语言和细节查询时的表现。通过引入与任务无关的样本，数据集还评估了模型的泛化能力。

使用方法

使用BizzTune数据集时，用户可以通过运行bizztune/main.py脚本进行端到端的微调和评估。首先，用户需要克隆项目并安装依赖项，然后设置环境变量以包含API密钥。通过运行create_dataset脚本，用户可以生成数据集，而benchmark脚本则用于评估数据集。配置文件位于bizztune/config.py中，用户可以根据需要调整配置。

背景与挑战

背景概述

BizzTune数据集旨在探讨任务特定微调是否能显著提升基础大型语言模型（LLMs）在复杂、非平凡的自然语言处理（NLP）任务中的性能，特别是与商业相关的任务。该项目由主要研究人员或机构在近期创建，专注于使用QLoRA这一参数高效微调方法，对开源模型进行微调，以模拟解决现实世界中的问题。其核心研究问题在于评估微调模型与未微调的开源和闭源最先进模型之间的性能差异。该数据集的生成和应用对提升客户支持操作效率、减少响应时间和改善客户满意度具有重要影响。

当前挑战

BizzTune数据集面临的挑战包括：1) 生成一个能够准确模拟现实世界中客户支持部门面临的复杂任务的数据集，这需要理解客户查询的细微差别，并将其分配到预定义的类别和子类别中；2) 在构建过程中，如何确保数据集的多样性和代表性，以避免模型在特定类型的数据上过拟合；3) 在微调过程中，如何有效利用有限的计算资源，特别是在处理大型模型时，确保微调的效率和效果。此外，数据集的生成和微调过程还需要考虑如何处理非相关样本，以提高分类系统的鲁棒性。

常用场景

经典使用场景

在自然语言处理领域，BizzTune数据集的经典使用场景主要集中在任务特定的微调上。该数据集通过模拟德国一家中型电子公司的客户支持部门所面临的实际问题，生成了一系列支持票数据。这些数据需要被准确分类到预定义的类别、子类别和紧急程度，以确保高效的下游处理。通过使用QLoRA方法对基础大型语言模型（LLMs）进行微调，研究人员可以显著提升模型在复杂、非平凡的NLP任务上的表现。

实际应用

在实际应用中，BizzTune数据集主要用于优化客户支持系统的自动化处理。通过训练模型对客户支持票进行准确分类，企业可以更快速地响应客户需求，提高服务质量。例如，一家德国电子公司可以使用该数据集训练的模型来自动分类和优先处理客户支持票，从而减少人工干预，提高工作效率。此外，该数据集还可应用于其他需要复杂文本分类的领域，如法律文书分类、医疗记录管理等。

衍生相关工作

BizzTune数据集的发布催生了一系列相关研究和工作。首先，研究者们利用该数据集进行了一系列任务特定的微调实验，探索了不同微调方法对模型性能的影响。其次，该数据集还激发了对大型语言模型在特定任务上表现的研究，推动了参数高效微调技术的发展。此外，基于BizzTune数据集的研究成果，一些企业开始尝试将这些技术应用于实际业务中，进一步验证了其在提升客户服务质量和效率方面的潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

模型	类别准确率	子类别准确率	紧急程度准确率
GPT-3.5	0.7	0.65	0.53
GPT-4	0.75	0.72	0.51
Mistral 7B	0.8	0.83	0.64