Hate Speech Dataset from a White Supremacy Forum
收藏github2020-05-22 更新2024-05-31 收录
下载链接:
https://github.com/libbyh/hate-speech-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从白人至上主义论坛Stormfront提取的文本,这些文本被随机抽样并分割成句子,然后根据特定的标注指南手动标记为包含仇恨言论或不包含。
This dataset comprises texts extracted from the white supremacist forum Stormfront, which were randomly sampled and segmented into sentences. These sentences were then manually annotated according to specific labeling guidelines to indicate whether they contain hate speech or not.
创建时间:
2019-05-21
原始信息汇总
数据集概述
数据集名称
Hate speech dataset from a white supremacist forum
数据来源
数据集包含从Stormfront论坛提取的文本,该论坛是一个白人至上主义论坛。
数据处理
- 从多个子论坛中随机抽样论坛帖子,并将其分割成句子。
- 根据特定的标注指南,对这些句子进行了人工标注,标记为含有仇恨言论或不含有仇恨言论。
数据集结构
数据集包含以下文件和文件夹:
-
all_files
- 包含所有论坛帖子的文件夹。每个文件包含一个句子,文件名格式为commentID_sentenceNumber.txt。
-
sampled_train
- 从all_files中抽取的平衡数据集(包含"hate"和"noHate"类别),用于实验。
-
sampled_test
- 从all_files中抽取的平衡数据集(包含"hate"和"noHate"类别),用于实验。
-
annotations_metadata.csv
- 包含上述文件夹中每个文件的实际标签,以及标注者做出决定所需的额外上下文量、用户ID和子论坛ID。
数据集详细信息
更多关于数据集的详细信息,请参考: O. de Gibert, N. Pérez, A. García-Pablos, M. Cuadros, 2018. Hate Speech Dataset from a White Supremacy Forum. In ALW2: 2nd Workshop on Abusive Language Online.
搜集汇总
数据集介绍

构建方式
该数据集构建自Stormfront这一白人至上主义论坛的文本数据。研究人员从多个子论坛中随机抽取了论坛帖子,并将其分割成句子。随后,依据特定的标注指南,这些句子被人工标注为包含仇恨言论或不包含仇恨言论。为确保数据的多样性和代表性,数据集在构建过程中进行了平衡采样,最终形成了训练集和测试集。
特点
该数据集的特点在于其专注于仇恨言论的识别,尤其是白人至上主义论坛中的仇恨言论。数据集中的每个句子都经过人工标注,确保了标签的准确性。此外,数据集还提供了丰富的元数据,包括标注者在决策时所需的额外上下文信息、用户ID以及子论坛ID,这些信息为研究提供了更深入的分析维度。数据集的平衡采样设计使得其在训练和测试过程中能够有效避免类别不平衡问题。
使用方法
该数据集的使用方法较为直观。用户可以通过`all_files`文件夹访问所有论坛帖子,每个文件包含一个句子,文件名格式为`commentID_sentenceNumber.txt`,便于追踪同一评论的不同句子。`sampled_train`和`sampled_test`文件夹分别提供了平衡的训练集和测试集,可直接用于模型训练和评估。`annotations_metadata.csv`文件则提供了每个文件的标签及其相关元数据,用户可通过该文件进一步分析标注者的决策过程和数据分布。
背景与挑战
背景概述
Hate Speech Dataset from a White Supremacy Forum 数据集由O. de Gibert等人于2018年创建,旨在研究网络仇恨言论的识别与分类问题。该数据集提取自Stormfront,一个白人至上主义论坛,研究人员从多个子论坛中随机抽取帖子并将其分割成句子,随后根据特定标注指南手动标注这些句子是否包含仇恨言论。该数据集在2018年的ALW2: 2nd Workshop on Abusive Language Online会议上首次发布,为自然语言处理领域中的仇恨言论检测提供了重要的数据支持,推动了相关算法的开发与优化。
当前挑战
该数据集在构建与应用过程中面临多重挑战。首先,仇恨言论的界定具有高度主观性,标注过程中需依赖人工判断,可能导致标注不一致性。其次,数据集中的文本内容涉及极端敏感话题,标注者在处理这些内容时可能面临心理压力,影响标注质量。此外,由于仇恨言论的表达方式多样且隐晦,模型在识别时容易受到上下文依赖性的影响,增加了分类难度。最后,数据集的平衡性要求使得采样过程复杂,可能影响模型的泛化能力。
常用场景
经典使用场景
该数据集主要用于自然语言处理领域中的仇恨言论检测研究。通过对来自白人至上主义论坛的帖子进行句子级别的标注,研究人员可以训练和评估机器学习模型,以识别和分类仇恨言论。这种细粒度的标注方式使得模型能够在复杂的语境中准确区分仇恨言论与非仇恨言论,从而提升检测的精确度。
解决学术问题
该数据集解决了仇恨言论检测中的关键问题,即如何在复杂的网络语境中准确识别仇恨言论。通过提供大量经过人工标注的句子,数据集为研究人员提供了高质量的训练和测试数据,推动了仇恨言论检测算法的开发与优化。此外,数据集还揭示了仇恨言论的多样性和隐蔽性,为相关研究提供了重要的实证基础。
衍生相关工作
该数据集衍生了许多经典的自然语言处理研究,特别是在仇恨言论检测和情感分析领域。例如,基于该数据集的研究提出了多种深度学习模型,如卷积神经网络和循环神经网络,用于提高仇恨言论检测的准确性。此外,该数据集还被用于研究仇恨言论的传播模式及其对社会的影响,推动了相关领域的跨学科研究。
以上内容由遇见数据集搜集并总结生成



