polite-guard

Name: polite-guard
Creator: Intel
Published: 2025-01-16 13:13:58
License: 暂无描述

Hugging Face2025-01-16 更新2025-01-17 收录

下载链接：

https://huggingface.co/datasets/Intel/polite-guard

下载链接

链接失效反馈

官方服务：

资源简介：

Polite Guard数据集是一个用于文本分类任务的合成和注释数据集，主要任务是将文本分类为礼貌、有些礼貌、中立和不礼貌四个类别。数据集由50,000个通过Few-Shot提示生成的样本、50,000个通过Chain-of-Thought提示生成的样本以及200个来自企业培训的注释样本组成。合成数据被分为训练集（80%）、验证集（10%）和测试集（10%），每个集合都根据标签进行了平衡。注释数据仅用于评估。每个样本包含文本输入、分类标签、生成文本的语言模型来源以及生成文本时的推理过程。数据集涵盖了多个行业的客户服务互动，包括金融、旅游、餐饮、零售、体育俱乐部、文化和教育以及专业发展。

提供机构：

Intel

创建时间：

2025-01-15

搜集汇总

数据集介绍

构建方式

Polite Guard数据集的构建采用了合成与标注相结合的方式。其中，50,000个样本通过Few-Shot提示生成，另外50,000个样本则通过Chain-of-Thought（CoT）提示生成。此外，数据集还包含了200个来自企业培训的去标识化标注样本。合成数据被划分为训练集（80%）、验证集（10%）和测试集（10%），并确保每个集合的标签分布均衡。真实标注数据仅用于评估目的。数据生成过程中，使用了多种提示和大型语言模型（如Llama 3.1 8B-Instruct、Gemma 2 9B-It和Mixtral 8x7B-Instruct-v0.1），以确保数据的多样性和正则化。

特点

Polite Guard数据集的特点在于其专注于文本的礼貌性分类，涵盖了四个类别：礼貌、较为礼貌、中立和不礼貌。数据集中的文本主要来自客户服务互动，涉及金融、旅游、餐饮、零售等多个领域。每个样本包含文本输入、分类标签、生成来源以及语言模型生成文本时的推理过程。这种结构不仅为开发者提供了丰富的训练数据，还为模型的解释性提供了支持。此外，数据集的合成部分通过多种提示和模型生成，确保了数据的多样性和广泛适用性。

使用方法

使用Polite Guard数据集时，开发者可以通过Hugging Face的`datasets`库轻松加载数据。加载后，数据集可直接用于训练和评估文本分类模型，特别是那些专注于礼貌性分类的任务。开发者还可以利用数据集中提供的推理信息，进一步优化模型的解释性和鲁棒性。此外，数据集的合成部分可用于Few-Shot学习和Chain-of-Thought提示的实验，帮助开发者在不同场景下测试和改进模型性能。

背景与挑战

背景概述

Polite Guard数据集由英特尔公司开发，旨在通过自然语言处理技术对文本进行礼貌性分类。该数据集创建于2023年，基于BERT模型进行微调，专注于将文本分类为礼貌、较为礼貌、中立和不礼貌四种类别。其核心研究问题在于如何通过大规模合成数据和少量真实标注数据，提升模型在礼貌性分类任务中的表现。Polite Guard不仅为开发者提供了一个可扩展的模型开发管道，还首次引入了礼貌性分类的基准测试，推动了相关领域的研究进展，尤其在提升客户服务体验和增强系统鲁棒性方面具有重要意义。

当前挑战

Polite Guard数据集在构建和应用过程中面临多重挑战。首先，礼貌性分类任务本身具有高度主观性，不同文化背景和语境下对礼貌的定义可能存在显著差异，这导致模型在泛化能力上受到限制。其次，数据集的合成数据生成依赖于Few-Shot和Chain-of-Thought提示技术，尽管这些方法能够生成多样化的文本，但仍需确保生成数据的质量和一致性。此外，真实标注数据的稀缺性也限制了模型的进一步优化和验证。最后，数据集的应用场景主要集中在客户服务和公司内部沟通领域，如何将其扩展到更广泛的社会语境中仍是一个亟待解决的问题。

常用场景

经典使用场景

Polite Guard数据集在自然语言处理领域中的经典使用场景主要集中在文本分类任务上，尤其是对文本的礼貌性进行分类。该数据集通过将文本划分为礼貌、较为礼貌、中立和不礼貌四个类别，为研究人员和开发者提供了一个标准化的评估平台。这一分类任务不仅适用于学术研究，还在实际应用中具有广泛的价值，尤其是在需要精确控制语言表达的领域，如客户服务和社交媒体监控。

实际应用

在实际应用中，Polite Guard数据集被广泛用于提升客户服务体验和社交媒体监控。通过自动识别和分类文本的礼貌性，企业可以更好地管理客户互动，确保沟通的礼貌性和专业性。例如，在客户服务聊天机器人中，该数据集可以帮助系统自动调整回复的语气，以提供更加友好和尊重的服务。此外，该数据集还可用于社交媒体平台，帮助识别和过滤不礼貌或攻击性言论，维护健康的在线社区环境。

衍生相关工作

Polite Guard数据集衍生了许多相关的研究工作，特别是在礼貌性分类和对抗性攻击防御领域。基于该数据集，研究人员开发了多种改进的文本分类模型，进一步提升了模型的鲁棒性和准确性。此外，该数据集还激发了关于如何利用合成数据进行模型训练的研究，特别是在少样本学习和链式思维提示（Chain-of-Thought prompting）方面的应用。这些研究工作不仅推动了礼貌性分类技术的发展，还为其他文本分类任务提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集