ParaDeHate
收藏Hugging Face2025-05-28 更新2025-05-29 收录
下载链接:
https://huggingface.co/datasets/ScaDSAI/ParaDeHate
下载链接
链接失效反馈官方服务:
资源简介:
PARADEHATE是一个并行数据集,专为仇恨言论脱毒任务设计,包含8276对有毒(仇恨言论)和非有毒(非仇恨言论)的文本样本。这些样本通过一个包含GPT-4o-mini模型的语言模型循环管道自动生成,将仇恨言论转换为语义上等效的非有毒文本。数据集来源于四个现有的仇恨言论数据集,主要针对英语社交媒体内容,如Twitter和Reddit。
创建时间:
2025-05-27
原始信息汇总
PARADEHATE数据集概述
基本信息
- 语言: 英语
- 许可证: MIT
- 数据规模: 1K<n<10K
- 任务类型:
- 文本分类
- 文本生成
- 标签:
- 仇恨言论
- 去毒化
- 风格迁移
- 自然语言处理
数据集描述
- 论文: LLM in the Loop: Creating the PARADEHATE Dataset for Hate Speech Detoxification
- 联系人:
- Shuzhou Yuan (shuzhou.yuan@tu-dresden.de)
- Ercong Nie (nie@cis.lmu.de)
数据集摘要
ParaDeHate是一个用于仇恨言论去毒化的平行数据集,包含8,276对有毒(仇恨言论)和去毒化(非仇恨)文本样本。该数据集通过LLM-in-the-loop流程(使用GPT-4o-mini)自动将仇恨言论重写为非毒性、语义等效的文本。数据来源于四个现有的仇恨言论数据集(CreHate、HateXplain、Davidson和Founta),主要来自Twitter和Reddit的英语社交媒体内容。
数据集结构
数据实例
每个实例包含一对文本:有毒(仇恨言论)输入及其去毒化版本。例如: json { "toxic_text": "But at least they let me know...ur a faggot if u keep those type of twitter secrets", "detoxified_text": "But at least they let me know...youre not being open if you keep those types of Twitter secrets" }
特征
- 原始文本: 字符串类型
- 转换文本: 字符串类型
数据分割
- 训练集:
- 字节数: 2,052,594
- 实例数: 8,276
下载信息
- 下载大小: 1,380,282字节
- 数据集大小: 2,052,594字节
搜集汇总
数据集介绍

构建方式
ParaDeHate数据集通过创新的LLM-in-the-loop流程构建,采用GPT-4o-mini模型对原始仇恨言论进行自动化改写,形成语义等效的非仇恨文本对。该数据集整合了CreHate、HateXplain等四个权威仇恨语音数据源的英文社交媒体内容,经过严格的筛选和转换流程,最终生成8,276组平行文本,覆盖Twitter和Reddit等平台的典型网络语言表达。
特点
该数据集的核心价值在于其高质量的平行文本结构,每组数据均包含原始仇恨言论与经过专业处理的去毒版本,为仇恨语音净化研究提供精准的对照样本。文本内容真实反映社交媒体语言特征,包含俚语、意识形态表述等复杂语言现象,特别适合研究网络环境下的语义保持式风格迁移。数据规模适中且标注一致性强,有效平衡了研究深度与处理效率的需求。
使用方法
研究者可通过HuggingFace平台直接加载数据集,其标准化的JSON格式确保与主流NLP框架无缝对接。典型应用场景包括:作为训练集用于仇恨语音净化模型开发,通过Seq2Seq架构学习文本风格迁移;或作为评估基准,测试模型在保持语义同时消除仇恨内容的能力。数据拆分建议采用交叉验证方式,充分利用有限样本进行模型优化。
背景与挑战
背景概述
ParaDeHate数据集由Shuzhou Yuan和Ercong Nie等研究人员于2024年提出,旨在解决社交媒体中仇恨言论的净化问题。该数据集基于GPT-4o-mini构建的LLM-in-the-loop流程,通过自动化方式将仇恨言论重写为语义相同但非仇恨的文本。数据集整合了CreHate、HateXplain、Davidson和Founta四个现有仇恨言论数据集,专注于英语社交媒体内容,主要来源于Twitter和Reddit平台。ParaDeHate的推出为自然语言处理领域中的仇恨言论净化研究提供了重要资源,推动了风格迁移技术在社交媒体内容治理中的应用。
当前挑战
ParaDeHate数据集面临的挑战主要体现在两个方面:在领域问题层面,仇恨言论净化任务需平衡语义保持与毒性消除的冲突,尤其当涉及意识形态敏感内容时,模型容易产生过度净化或语义失真;在构建过程层面,自动化生成流程依赖LLM的改写能力,可能引入隐性偏见或文化误判,且社交媒体文本的多样性和非规范性增加了数据清洗和标注的复杂度。此外,源数据集间的标注标准和领域差异也为数据整合带来挑战。
常用场景
经典使用场景
在社交媒体内容审核领域,ParaDeHate数据集为仇恨言论检测与净化研究提供了关键资源。该数据集通过构建原始仇恨文本与净化后文本的平行语料,使研究者能够深入分析语言风格转换的机制,特别是在保留语义的同时消除仇恨成分的技术路径。数据集包含的8276对文本样本来自主流社交平台,真实反映了网络仇恨言论的语言特征和传播模式。
衍生相关工作
ParaDeHate催生了多项重要研究,包括慕尼黑大学提出的双重注意力净化模型(DADM),以及德累斯顿理工大学开发的语义约束强化学习框架。这些工作均在ACL和EMNLP会议上发表,推动了基于大语言模型的仇恨言论处理技术发展。数据集还启发了跨语言仇恨言论转换的后续研究项目。
数据集最近研究
最新研究方向
在仇恨言论净化领域,ParaDeHate数据集的推出为基于大语言模型的风格迁移技术提供了重要支撑。该数据集通过GPT-4o-mini构建的自动化改写管道,实现了对社交媒体仇恨言论的语义保持性去毒,这一技术路径正在成为自然语言处理领域的热点。当前研究主要聚焦于三个维度:探索多模态大模型在仇恨言论检测与改写中的迁移学习能力,开发兼顾语义一致性和风格转换效果的评估指标体系,以及研究跨平台社交媒体内容的去毒泛化性能。随着欧盟《数字服务法案》等网络内容监管政策的实施,此类数据集在构建合规内容过滤系统方面展现出独特价值。
以上内容由遇见数据集搜集并总结生成



