bitext/Bitext-customer-support-llm-chatbot-training-dataset

Name: bitext/Bitext-customer-support-llm-chatbot-training-dataset
Creator: bitext
Published: 2024-07-18 18:19:33
License: 暂无描述

Hugging Face2024-07-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bitext/Bitext-customer-support-llm-chatbot-training-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Bitext - 基于LLM的虚拟助手客户服务标记训练数据集是一个混合合成数据集，旨在用于微调大型语言模型（如GPT、Mistral和OpenELM），并展示了如何通过两步法实现客户支持领域的垂直化/领域适应。数据集包含27个意图，分为10个类别，共有26872个问答对，每个意图大约有1000个问答对。此外，数据集还包含30个实体/槽类型和12种不同类型的语言生成标签。数据集涵盖了多个垂直领域，如汽车、零售银行、教育等。数据集的每个条目包含多个字段，如flags、instruction、category、intent和response。数据集还详细描述了语言生成标签，这些标签反映了不同语言现象的变化，如口语化或冒犯性语言。

Bitext - LLM-based Virtual Assistant Customer Service Tagging Training Dataset is a hybrid synthetic dataset intended for fine-tuning large language models (e.g., GPT, Mistral, and OpenELM), and it demonstrates how to achieve verticalization/domain adaptation in the customer support domain via a two-step approach. The dataset contains 27 intents categorized into 10 categories, with a total of 26,872 question-answer pairs, approximately 1,000 pairs per intent. In addition, the dataset includes 30 entity/slot types and 12 distinct types of language generation tags. The dataset covers multiple vertical sectors such as automotive, retail banking, education, and more. Each entry in the dataset contains multiple fields, such as flags, instruction, category, intent, and response. The dataset also provides detailed descriptions of the language generation tags, which reflect variations in different linguistic phenomena, such as colloquial or offensive language.

提供机构：

bitext

原始信息汇总

Bitext - Customer Service Tagged Training Dataset for LLM-based Virtual Assistants

概述

该数据集用于训练大型语言模型，如GPT、Llama2和Falcon，适用于微调和领域适应。

数据集规格

使用案例：意图检测
垂直领域：客户服务
27个意图，分配给10个类别
26,872个问答对，约每意图1000个
30种实体/槽类型
12种语言生成标签类型

数据集内容

字段:
- flags: 标签
- instruction: 客户服务领域的用户请求
- category: 意图的高级语义类别
- intent: 对应用户指令的意图
- response: 虚拟助手的预期示例响应

类别和意图

类别包括：ACCOUNT, CANCELLATION_FEE, DELIVERY, FEEDBACK, INVOICE, NEWSLETTER, ORDER, PAYMENT, REFUND, SHIPPING_ADDRESS
具体意图如：create_account, delete_account, check_cancellation_fee, delivery_options等。

实体

实体如：{{Order Number}}, {{Invoice Number}}, {{Online Order Interaction}}等，分布在多个意图中。

语言生成标签

标签用于表示语言变化，如口语化、语法结构变化、礼貌变化等。
具体标签如：M - 形态变化, L - 语义变化, B - 基本句法结构等。

数据集大小

数据集包含3.57百万个令牌，适用于训练AI对话、AI生成和问答模型。

搜集汇总

数据集介绍

构建方式

在客户服务领域，构建高质量的对话数据集对于训练精准的虚拟助手至关重要。Bitext客户服务数据集采用混合合成方法生成，其核心流程始于从自然文本中提取语义种子，随后运用自然语言处理与生成技术对这些种子进行扩展与丰富。整个过程由计算语言学家精心策划与监督，确保了语言表达的多样性与真实性。数据集最终囊括了26872对问答实例，均匀覆盖了27种用户意图，这些意图源自二十个垂直领域的共性需求，体现了跨行业客户支持的通用模式。

特点

该数据集在客户服务对话建模中展现出鲜明的结构化特征。其内容围绕十个高层语义类别展开，如账户管理、订单处理与支付问题等，并细致标注了三十种实体槽位，例如订单号与发票编号，以支持精准的意图与槽位填充任务。尤为突出的是，数据集引入了十二类语言生成标签，系统刻画了从形态变异、句法结构到语体风格（如口语化、礼貌表达乃至拼写错误）的丰富语言现象，使得模型能够适应不同用户群体的多样化表达习惯，从而增强对话系统的鲁棒性与个性化能力。

使用方法

该数据集专为大型语言模型的垂直领域微调而设计。使用者可首先利用该数据集对通用模型进行初步领域适应训练，以掌握客户服务场景下的通用意图与回答模式。随后，结合企业自身少量的专有对话数据，进行第二阶段的精细化微调，即可高效构建出定制化的企业级虚拟助手。数据集中的结构化字段，如指令、回应、意图及丰富的语言标签，为监督式微调提供了清晰的监督信号，支持模型在意图识别、实体抽取与自然语言生成等多任务上的协同优化。

背景与挑战

背景概述

在人工智能与自然语言处理领域，客户服务对话系统的垂直化与领域适应已成为关键研究方向。Bitext公司于2024年发布的客户支持LLM聊天机器人训练数据集，旨在通过混合合成方法，为大语言模型如GPT、Mistral等提供精细调优资源。该数据集覆盖零售、银行、医疗等20个垂直领域，包含27种意图与30类实体，共计约2.7万条问答对，核心研究问题聚焦于如何通过意图检测与语言生成标签，实现跨领域客户服务场景的高效模型适配，推动企业级生成式AI应用的精准化与个性化发展。

当前挑战

该数据集致力于解决客户服务场景中意图识别与语言生成的复杂性问题，其挑战主要体现在领域泛化与语言多样性处理上。意图类别需涵盖多行业共通需求，同时保持语义边界的清晰性，避免交叉混淆。构建过程中，采用混合合成方法虽能规模化生成数据，但需确保生成文本的自然性与真实性，克服合成数据可能存在的表达僵化或语境偏离。此外，语言标签系统需精准捕捉 colloquial、offensive 等语言现象，以应对真实对话中的非正式表达、拼写错误等变异，这对标注一致性与计算语言学设计提出了较高要求。

常用场景

经典使用场景

在客户服务领域，智能虚拟助手的精准响应能力至关重要。Bitext客户服务数据集通过涵盖账户管理、订单处理、支付问题等27种意图的对话对，为大型语言模型的微调提供了丰富语料。其经典应用场景在于训练模型理解并生成符合商业规范的客服回复，尤其在零售、银行等垂直行业中，能够有效模拟真实用户查询与标准化服务流程，从而提升对话系统的意图识别与响应生成质量。

实际应用

在实际商业部署中，该数据集可直接用于构建企业级智能客服系统。例如，电商平台可基于其标注的订单与退款意图训练专属助手，自动化处理客户查询；金融机构则能利用其账户管理类数据优化在线服务流程。数据集涵盖的30类实体与12种语言变体标签，更支持系统适应不同用户群体的表达习惯，从而在降低人工成本的同时提升服务覆盖范围与客户满意度。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在垂直领域语言模型优化方向。研究者利用其多层次标注体系开发了面向客服场景的意图分类增强方法，并结合实体识别技术构建了端到端的任务型对话框架。部分工作进一步探索了基于语言变体标签的个性化响应生成模型，为跨行业虚拟助手提供了可迁移的微调范式，推动了对话AI在零售、医疗等二十余个垂直领域的落地应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集