toxigen/toxigen-data

Name: toxigen/toxigen-data
Creator: toxigen
Published: 2024-06-17 16:35:29
License: 暂无描述

Hugging Face2024-06-17 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/toxigen/toxigen-data

下载链接

链接失效反馈

官方服务：

资源简介：

ToxiGen数据集是一个用于隐式仇恨言论检测的数据集。所有实例都是使用GPT-3生成的，并且生成方法在相关论文中有详细描述。数据集包含多个配置，每个配置有不同的特征和分割。数据集的主要任务类别是文本分类，具体任务是仇恨言论检测。数据集的文本语言为英语。

提供机构：

toxigen

原始信息汇总

数据集概述

数据集名称： ToxiGen

数据集任务： 文本分类 - 仇恨言论检测

数据集特征：

语言： 单语种（英语）
数据集大小： 100K<n<1M
数据来源： 原始数据
注释创建者： 专家生成
语言创建者： 机器生成

数据集详细信息

配置名称：annotated

特征：
- text: 字符串
- target_group: 字符串
- factual?: 字符串
- ingroup_effect: 字符串
- lewd: 字符串
- framing: 字符串
- predicted_group: 字符串
- stereotyping: 字符串
- intent: float64
- toxicity_ai: float64
- toxicity_human: float64
- predicted_author: 字符串
- actual_method: 字符串
分割：
- test: 940个样本，364518字节
- train: 8960个样本，3238381字节
下载大小： 768996字节
数据集大小： 3602899字节

配置名称：prompts

特征：
- text: 字符串
分割： 多个子集，每个子集包含1000个样本，大小从342243字节到914319字节不等
下载大小： 1698170字节
数据集大小： 16667706字节

配置名称：train

特征：
- prompt: 字符串
- generation: 字符串
- generation_method: 字符串
- group: 字符串
- prompt_label: int64
- roberta_prediction: float64
分割：
- train: 250951个样本，169400442字节
下载大小： 18784380字节
数据集大小： 169400442字节

搜集汇总

数据集介绍

构建方式

在仇恨言论检测领域，ToxiGen数据集的构建体现了前沿的生成式人工智能应用。该数据集通过GPT-3模型，结合ALICE与TopK两种生成方法，大规模地自动生成了针对13个特定社会群体的文本。生成过程以精心设计的提示词为基础，这些提示词明确区分了仇恨性与中立性内容，确保了数据生成的定向性与可控性。随后，所有生成的文本均经过专家的人工标注，对毒性、刻板印象、意图等多个维度进行了精细评估，从而构建了一个兼具规模与深度的机器生成数据集。

特点

ToxiGen数据集的核心特点在于其专注于检测隐性与对抗性仇恨言论，这填补了传统数据集多关注显性辱骂的空白。数据集规模庞大，包含超过25万条生成文本，并覆盖了从族裔、性别到宗教信仰、身心障碍等广泛的社会群体，具有显著的多样性与代表性。其数据结构丰富，不仅包含原始文本，还提供了详尽的元数据与多维度的人工标注标签，如毒性分数、群体目标、事实性判断等，为模型的细粒度分析与鲁棒性评估提供了坚实基础。

使用方法

该数据集主要服务于自然语言处理中的文本分类任务，特别是隐性与对抗性仇恨言论的检测模型开发与评估。研究人员可通过加载‘annotated’配置，直接获取带有标注的训练集与测试集，用于模型的监督学习。此外，独立的‘prompts’与‘train’配置则提供了原始的生成提示与未标注的生成文本，支持数据生成方法的研究或半监督学习。使用前需通过指定表单申请访问权限，在模型训练中，可重点利用‘toxicity_human’、‘intent’等人工标注字段作为监督信号，以提升模型对复杂、隐含仇恨表达的识别能力。

背景与挑战

背景概述

在自然语言处理领域，仇恨言论检测是保障在线社交环境健康的关键任务。ToxiGen数据集由微软研究院等机构的学者于2022年创建，其核心研究问题聚焦于识别隐性与对抗性仇恨言论，这些言论往往通过间接或伪装的形式表达，对传统检测模型构成严峻挑战。该数据集通过大规模机器生成与专家标注相结合的方式，构建了涵盖多种目标群体的文本样本，显著推动了细粒度仇恨言论分析的研究进展，并为开发更鲁棒的检测模型提供了重要基准。

当前挑战

ToxiGen数据集旨在应对隐性与对抗性仇恨言论检测的难题，这类言论常以隐喻、讽刺或合理化形式出现，使得基于表面特征的分类器极易失效。在构建过程中，挑战主要体现在生成内容的多样性与真实性平衡上，需确保机器生成的文本既覆盖广泛的仇恨言论策略，又保持语言的自然流畅；同时，标注工作涉及复杂的语义与意图判断，要求标注者具备深厚的文化与社会洞察力，以准确识别细微的偏见与歧视表达。

常用场景

经典使用场景

在仇恨言论检测领域，ToxiGen数据集以其大规模机器生成的隐含仇恨言论文本而著称，为模型训练与评估提供了独特资源。该数据集通过GPT-3生成针对13个少数群体的文本，并辅以专家标注，其经典使用场景在于训练和测试能够识别隐晦、对抗性仇恨言论的自然语言处理模型。研究者利用其丰富的标注维度，如毒性程度、刻板印象和意图等，系统评估模型在复杂语境下的鲁棒性与泛化能力，推动了检测技术从显式内容向隐含表达的深化。

衍生相关工作

围绕ToxiGen数据集，已衍生出多项经典研究工作。例如，原论文提出的ALICE生成方法被广泛引用，用于探索对抗性样本构建技术；后续研究基于其标注体系开发了多任务学习框架，以同时预测毒性与社会偏见。该数据集还促进了跨模型比较研究，如评估BERT、RoBERTa等预训练模型在隐含仇恨检测上的性能差异，并激发了关于生成模型伦理与安全性的深入讨论，推动了自然语言处理领域向更负责任的方向发展。

数据集最近研究