Hate-speech-CNERG/hatexplain

Name: Hate-speech-CNERG/hatexplain
Creator: Hate-speech-CNERG
Published: 2024-01-18 11:05:02
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/Hate-speech-CNERG/hatexplain

下载链接

链接失效反馈

官方服务：

资源简介：

hatexplain是一个用于仇恨言论检测的基准数据集，涵盖了仇恨言论的多个方面。每个帖子都从三个不同的角度进行了注释：基本的3类分类（仇恨、冒犯性或正常）、目标社区（即帖子中成为仇恨/冒犯性言论受害者的社区）以及注释者做出标签决定的理由（即帖子中哪些部分导致了他们的标签决策）。数据集包含来自Twitter和Gab的帖子，并通过Amazon Mechanical Turk进行人工注释。数据集的结构包括唯一的帖子ID、注释者列表、标签、目标社区、理由和帖子标记。数据集分为训练集、验证集和测试集，比例为8:1:1。

提供机构：

Hate-speech-CNERG

原始信息汇总

数据集概述

数据集描述

数据集名称: Hatexplain
语言: 英语
许可证: CC BY 4.0
多语言性: 单语种
数据集大小: 10K<n<100K
源数据集: 原始数据
任务类别: 文本分类
标签: 仇恨言论检测

数据集结构

数据字段

id: 字符串类型，每个帖子的唯一ID
annotators: 列表类型，每个标注者的标注信息
- label: 类别标签，可能值为 hatespeech (0), normal (1), offensive (2)
- annotator_id: 整数类型，每个标注者的唯一ID
- target: 字符串列表，帖子中存在的目标社区
rationales: 列表类型，标注者选择的理由，每个理由是一个包含0或1的列表，1表示该词是标注者选择的理由
post_tokens: 字符串列表，表示被标注的帖子中的词

数据分割

训练集: 15383个样本，7114730字节
验证集: 1922个样本，884940字节
测试集: 1924个样本，884784字节

数据集创建

数据收集和规范化

源数据: 从Twitter和Gab收集
数据处理: 合并多个词典，去除重复和转发，确保帖子不包含链接、图片或视频，保留表情符号

标注过程

标注类型:
1. 文本是否为仇恨言论、攻击性言论或正常
2. 文本中的目标社区
3. 文本被多数标注者视为仇恨或攻击性言论的部分
标注者: 通过Amazon Mechanical Turk进行标注，要求标注者具有高批准率和大量批准的HITs

个人和敏感信息

匿名处理: 用户名被替换为 <user> 标记

使用数据的注意事项

数据集的社会影响

潜在益处: 有助于开发更可解释和较少偏见的模型

已知限制

缺乏外部上下文: 数据集缺乏用户个人资料、性别、帖子历史等外部上下文
单语种: 数据集仅包含英语，缺乏多语言仇恨言论

附加信息

数据集创建者

Binny Mathew - IIT Kharagpur, India
Punyajoy Saha - IIT Kharagpur, India
Seid Muhie Yimam - Universität Hamburg, Germany
Chris Biemann - Universität Hamburg, Germany
Pawan Goyal - IIT Kharagpur, India
Animesh Mukherjee - IIT Kharagpur, India

许可证信息

MIT License

引用信息

bibtex @article{mathew2020hatexplain, title={HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection}, author={Binny Mathew and Punyajoy Saha and Seid Muhie Yimam and Chris Biemann and Pawan Goyal and Animesh Mukherjee}, year={2021}, conference={AAAI conference on artificial intelligence} }

搜集汇总

数据集介绍

构建方式

Hate-speech-CNERG/hatexplain数据集通过众包方式构建，汇集了来自Twitter和Gab的帖子。数据集的构建过程包括初始数据收集、去重、去除包含链接、图片或视频的帖子，并保留了表情符号。每个帖子经过三名标注者的标注，标注内容包括帖子是否为仇恨言论、攻击性言论或正常言论，目标社区以及标注者选择的理由。标注过程分为试点标注和主标注两个阶段，确保标注质量。最终数据集包含9,055条Twitter帖子和11,093条Gab帖子，Krippendorff's alpha值为0.46，表明标注一致性较高。

使用方法

Hate-speech-CNERG/hatexplain数据集适用于文本分类任务，特别是仇恨言论检测。用户可以通过访问数据集的GitHub仓库获取数据，并使用提供的训练、验证和测试集进行模型训练和评估。数据集的标注信息包括帖子ID、标注者信息、标注标签、目标社区和理由，用户可以根据这些信息进行多层次的分析和模型构建。此外，数据集还提供了详细的标注指南和示例，帮助用户更好地理解和使用数据。

背景与挑战

背景概述

Hate-speech-CNERG/hatexplain数据集是由IIT Kharagpur和Universität Hamburg的研究团队于2020年创建的，旨在解决仇恨言论检测中的多维度问题。该数据集首次引入了多视角的标注方法，不仅包括常见的三类分类（仇恨言论、正常言论、冒犯性言论），还涵盖了目标社区的标注以及标注决策的理据。这一创新使得研究者能够更深入地理解仇恨言论的构成及其背后的动机，从而推动了可解释性和无偏模型的发展。该数据集的发布对仇恨言论检测领域产生了深远影响，为相关研究提供了新的基准。

当前挑战

Hate-speech-CNERG/hatexplain数据集在构建过程中面临了多重挑战。首先，仇恨言论的定义和分类本身具有主观性和复杂性，不同标注者可能对同一内容有不同的理解，导致标注一致性问题。其次，数据集的构建需要从Twitter和Gab等社交平台收集大量数据，并进行去重和规范化处理，确保数据的质量和一致性。此外，标注过程中需要考虑标注者的背景和偏见，以减少数据集中的潜在偏差。最后，数据集的局限性在于其仅支持英语，缺乏多语言的仇恨言论数据，且未包含外部上下文信息，如用户历史或个人资料，这些信息可能对分类任务有重要影响。

常用场景

经典使用场景

Hate-speech-CNERG/hatexplain数据集主要用于检测和分类网络上的仇恨言论，其经典使用场景包括构建和评估仇恨言论检测模型。该数据集不仅提供了基本的仇恨言论、正常言论和攻击性言论的三分类标签，还详细标注了每个帖子的目标群体以及标注者做出判断的依据，即文本中的关键部分。这种多维度的标注方式使得研究者能够更深入地理解仇恨言论的构成和传播机制，从而开发出更为精准和可解释的检测模型。

解决学术问题

该数据集解决了现有仇恨言论检测数据集中普遍缺乏标注理由和目标群体信息的问题。通过提供详细的标注理由和目标群体信息，Hate-speech-CNERG/hatexplain数据集为研究者提供了一个更为全面的视角，帮助他们理解仇恨言论的复杂性。这不仅有助于提高模型的检测精度，还为研究仇恨言论的社会影响和心理动机提供了宝贵的数据支持，推动了相关领域的学术研究进展。

实际应用

在实际应用中，Hate-speech-CNERG/hatexplain数据集可用于开发社交媒体平台的自动仇恨言论检测系统。这些系统能够实时监控和过滤仇恨言论，保护用户免受有害内容的侵害。此外，该数据集还可用于培训社区管理员，帮助他们更有效地识别和处理仇恨言论，从而维护网络社区的健康环境。通过这些应用，数据集在提升网络环境的安全性和友好性方面发挥了重要作用。

数据集最近研究