BizzTune Dataset
收藏BizzTune 数据集概述
数据集生成
-
任务描述: 模拟一个非平凡的现实世界任务,该任务可以通过大型语言模型(LLM)解决,特别是客户支持部门面临的任务。
-
数据内容: 数据集包含一家中型德国电子公司的客户支持票,需要准确分类以确保及时和适当的响应。
-
关键挑战: 将每个票分类到正确的类别、子类别和紧急程度,以便进行高效的下游处理。
-
数据结构: 数据集包含以下键:标题、描述、用户、日期、类别、子类别和紧急程度。
-
示例: json { "title": "Verspätete Lieferung", "description": "Meine Bestellung sollte vor einer Woche ankommen, aber sie ist immer noch nicht da. Können Sie den Lieferstatus überprüfen? Meine Bestellnummer ist 54321.", "user": "Michael König", "date": "2024-05-26", "category": "Bestellverwaltung", "subcategory": "Lieferverzögerungen", "urgency": "Mittel" }
-
数据规模: 目前数据集包含110个样本,涵盖5个类别和10个子类别,以及10个不相关的样本。
指令数据集创建
- 数据转换: 使用ChatML将数据库转换为指令数据集,用于任务特定的微调。
- 示例: json [ { role: user, content: "You are an AI model trained to categorize customer support tickets for a German consumer electronics company. Your task is to determine the most appropriate category and subcategory for the support ticket provided below, and also classify the urgency of the ticket.
Provide the result in a JSON format with the following fields:
- category: The main category of the ticket
- subcategory: The subcategory of the ticket
- urgency: The urgency level of the ticket
The possible categories, subcategories, and urgency levels are as follows:
Categories and subcategories: Technischer Support
- Geräte-Setup-Probleme
- Softwarefehler
Abrechnung und Zahlungen
- Zahlungsprobleme
- Rückerstattungsanfragen
Produktinformationen
- Produktspezifikationen
- Garantieinformationen
Bestellverwaltung
- Bestellverfolgung
- Lieferverzögerungen
Allgemeine Anfragen
- Unternehmensrichtlinien
- Feedback und Vorschläge
Ungewiss
- Kein Zusammenhang
Urgency Levels: - Hoch - Mittel - Niedrig === Support Ticket === Title: Smartphone erkennt SIM-Karte nicht Description: Ich habe das neue SmartX Ultra gekauft und beim Einrichten erkennt das Smartphone meine SIM-Karte nicht. Es zeigt ständig Keine SIM-Karte. Ich habe bereits verschiedene SIM-Karten ausprobiert, aber das Problem bleibt bestehen. Name: Laura Schmidt Date: 2024-06-01 " }, { role: assistant, content: "{category: Technischer Support, subcategory: Geräte-Setup-Probleme, urgency: Hoch}" } ]
基准测试
- 模型性能: 对当前最先进的基础模型(OpenAI的GPT3.5、GPT4和Mistral 7B)在保留数据集上的性能进行了基准测试。
- 结果:
模型 类别准确率 子类别准确率 紧急程度准确率 GPT-3.5 0.7 0.65 0.53 GPT-4 0.75 0.72 0.51 Mistral 7B 0.8 0.83 0.64
任务特定微调
- 微调方法: 使用QLoRA框架对开源LLM进行任务特定的微调。
- 微调细节: 模型首先进行双重量化(权重为4位NF4,第一级常数也量化),然后在所有注意力和部分前馈层(o_proj, gate_proj)上设置LoRA,alpha = r = 8。最后,使用余弦学习率调度器在训练集上训练1个周期。
- 硬件要求: 微调在两个Nvidia L4 GPU(每个24GB VRAM,大约使用5GB进行微调)的集群上进行。
微调模型基准测试
- 微调模型性能: 微调后的模型将在保留验证集上与基础模型进行基准测试。
- 结果:
模型 类别准确率 子类别准确率 紧急程度准确率 Mistral 7B 0.73 (+3%) 0.64 (-0.7%) 0.64 (+20%)




