HateXplain

Name: HateXplain
Creator: 印度理工学院卡拉格普尔分校
Published: 2022-04-12 21:26:33
License: 暂无描述

arXiv2022-04-12 更新2024-06-21 收录

下载链接：

https://github.com/punyajoy/HateXplain

下载链接

链接失效反馈

官方服务：

资源简介：

HateXplain是首个针对可解释仇恨言论检测的基准数据集，由印度理工学院卡拉格普尔分校和汉堡大学共同创建。该数据集包含20,148条来自Twitter和Gab的帖子，每条帖子都从三个不同角度进行标注：基本的三类分类（仇恨、攻击性或正常）、目标社区（帖子中仇恨言论/攻击性言论的受害者社区）以及理由（标注决策所依据的帖子部分）。数据集的创建过程涉及使用Amazon Mechanical Turk进行标注，确保了数据的质量和多样性。HateXplain数据集的应用领域主要集中在提高仇恨言论检测模型的解释性和减少对目标社区的意外偏见，为未来的仇恨言论研究提供了一个基础资源。

HateXplain is the first benchmark dataset for explainable hate speech detection, co-created by the Indian Institute of Technology Kharagpur and the University of Hamburg. This dataset contains 20,148 posts from Twitter and Gab. Each post is annotated from three distinct perspectives: a basic three-category classification (hate speech, offensive language, or normal), the target community (the victimized community targeted by hate or offensive speech in the post), and rationales (the specific segments of the post that serve as the basis for the annotators' labeling decisions). The dataset's creation process involved using Amazon Mechanical Turk for annotation, which ensures the quality and diversity of the data. The application fields of the HateXplain dataset mainly focus on improving the interpretability of hate speech detection models and reducing unintended biases against target communities, providing a foundational resource for future hate speech research.

提供机构：

印度理工学院卡拉格普尔分校

创建时间：

2020-12-18

搜集汇总

数据集介绍

构建方式

HateXplain 数据集的构建过程采用了多角度标注策略。首先，从 Twitter 和 Gab 两个社交平台上收集了约 20K 条帖子，并使用 Amazon Mechanical Turk (MTurk) 众包平台进行标注。每个帖子都被标注为仇恨、冒犯或正常言论，并指明帖子中提及的目标群体。此外，对于被标注为仇恨或冒犯的帖子，标注人员还被要求突出显示能够支持其分类决策的文本片段，即“理由”。这些理由的标注允许研究者进一步探索仇恨或冒犯性言论的表现形式，并为模型的可解释性提供了重要的参考。

特点

HateXplain 数据集的特点在于其多角度标注和多任务学习。数据集不仅包含了传统的三分类标注（仇恨、冒犯、正常），还标注了每个帖子中提及的目标群体和理由。这种多角度标注使得数据集能够更好地反映仇恨言论的复杂性和多样性，并为模型的可解释性和公平性提供了重要的数据基础。此外，数据集还包含了多种评价指标，包括性能指标、偏差指标和可解释性指标，能够全面评估模型的各个方面。

使用方法

HateXplain 数据集可以用于多种任务，包括仇恨言论检测、冒犯性言论检测、正常言论检测、目标群体识别和理由预测。为了使用数据集，首先需要将其加载到 NLP 模型中，并进行适当的预处理。然后，可以使用数据集进行模型训练、评估和测试。在训练过程中，可以采用多种模型，包括 CNN-GRU、BiRNN、BiRNN-Attention 和 BERT 等。在评估和测试过程中，可以使用数据集中的评价指标来评估模型的性能、偏差和可解释性。

背景与挑战

背景概述

网络仇恨言论的泛滥对在线社交平台构成了重大威胁，它可能导致针对少数群体的犯罪行为。为了应对这一问题，仇恨言论检测技术近年来得到了广泛关注。HateXplain 数据集正是在这一背景下诞生的，它由印度理工学院加尔各答分校和汉堡大学的学者于 2021 年创建，旨在提供一个包含仇恨言论解释的基准数据集。该数据集涵盖了仇恨言论问题的多个方面，包括基本的 3 类分类（仇恨、冒犯或正常）、目标社区（在帖子中被仇恨言论/冒犯性言论攻击的社区）和推理（即帖子中用于支持其标签（仇恨、冒犯或正常）的文本部分）。HateXplain 数据集的创建填补了现有仇恨言论数据集在解释性和可解释性方面的空白，为未来仇恨言论检测研究提供了重要的数据基础。

当前挑战

HateXplain 数据集在解决仇恨言论检测领域问题的同时也面临着一些挑战。首先，仇恨言论检测模型的性能和可解释性之间存在权衡。虽然一些模型在分类任务上表现出色，但它们在解释性指标（如模型合理性忠实度）上的表现却不尽如人意。其次，仇恨言论检测模型容易对特定群体产生无意识的偏见。例如，一些模型可能会将包含某些常见攻击性身份（如同性恋、黑人、穆斯林）的评论错误地分类为有毒言论，即使这些评论没有冒犯的意图。此外，HateXplain 数据集主要针对英语语言，未来需要扩展到多语言仇恨言论检测领域。

常用场景

经典使用场景

HateXplain 数据集作为首个涵盖多个方面的仇恨言论检测基准数据集，旨在解决当前仇恨言论检测模型在可解释性和偏差方面存在的问题。该数据集包含来自 Twitter 和 Gab 的约 20K 条帖子，每条帖子都从三个不同的角度进行标注：基本的 3 类分类（仇恨、攻击性或正常）、目标社区（帖子中被仇恨言论/攻击性言论针对的社区）和理由（支持其分类决策的帖子部分）。HateXplain 数据集被广泛应用于仇恨言论检测模型的训练和评估，旨在提高模型的准确性和可解释性，并减少对目标社区的潜在偏见。

衍生相关工作

HateXplain 数据集的发布促进了相关研究的开展。例如，一些研究人员利用该数据集评估了不同仇恨言论检测模型的性能，并发现了一些模型的潜在偏差问题。此外，一些研究人员还利用该数据集研究了仇恨言论的传播机制和影响因素，以更好地理解仇恨言论问题。

数据集最近研究