Hate Speech Dataset from a White Supremacy Forum

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/aitor-garcia-p/hate-speech-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从白人至上主义论坛Stormfront提取的文本，随机抽样自多个子论坛的帖子，并被分割成句子。这些句子根据特定的标注指南被手动标注为包含仇恨言论或不包含。

This dataset comprises text extracted from the white supremacist forum Stormfront, randomly sampled from posts across multiple sub-forums and segmented into sentences. These sentences have been manually annotated according to specific guidelines to indicate whether they contain hate speech or not.

创建时间：

2018-08-30

原始信息汇总

数据集概述

数据集名称

Hate Speech Dataset from a White Supremacy Forum

数据来源

数据集包含从Stormfront论坛中提取的文本，该论坛是一个白人至上主义论坛。

数据处理

从多个子论坛中随机抽样论坛帖子，并将其分割成句子。
根据特定的标注指南，这些句子被手动标注为包含仇恨言论或不包含。

数据集结构

all_files: 包含所有论坛帖子的文件夹，每个文件包含一个句子。文件名格式为commentID_sentenceNumber.txt。
sampled_train: 从all_files中抽取的平衡数据集，用于训练，包含"hate"和"noHate"两类。
sampled_test: 从all_files中抽取的平衡数据集，用于测试，包含"hate"和"noHate"两类。
annotations_metadata.csv: 包含上述文件夹中每个文件的实际标签，以及标注者做出决策所需的额外上下文信息、用户ID和子论坛ID。

引用信息

@inproceedings{gibert2018hate, title = "{Hate Speech Dataset from a White Supremacy Forum}", author = "de Gibert, Ona and Perez, Naiara and Garc{\i}a-Pablos, Aitor and Cuadros, Montse", booktitle = "Proceedings of the 2nd Workshop on Abusive Language Online ({ALW}2)", month = oct, year = "2018", address = "Brussels, Belgium", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/W18-5102", doi = "10.18653/v1/W18-5102", pages = "11--20", }

许可证

数据集资源根据Creative Commons Attribution-ShareAlike 3.0 Spain License授权。

搜集汇总

数据集介绍

构建方式

该数据集源自Stormfront，一个著名的白人至上主义论坛，通过随机抽样多个子论坛的帖子并将其分割成句子。这些句子随后根据特定的标注指南被手动标注为包含仇恨言论或不包含仇恨言论。此过程确保了数据集的多样性和代表性，从而为研究提供了丰富的语料库。

特点

此数据集的显著特点在于其专注于白人至上主义论坛的内容，这使得它成为研究极端主义言论的独特资源。此外，数据集的标注过程严格遵循特定的指南，确保了标注的一致性和可靠性。数据集的结构包括训练集和测试集，均为平衡样本，便于实验和模型训练。

使用方法

使用该数据集时，用户可以从'all_files'文件夹中获取所有论坛帖子，每个文件包含一个句子。训练和测试数据分别存储在'sampled_train'和'sampled_test'文件夹中。'annotations_metadata.csv'文件提供了每个文件的实际标签，以及标注者所需的额外上下文信息。用户应遵循Creative Commons Attribution-ShareAlike 3.0 Spain License进行使用，并在引用时注明出处。

背景与挑战

背景概述

在2018年，由Ona de Gibert、Naiara Perez、Aitor García-Pablos和Montse Cuadros组成的团队创建了‘Hate Speech Dataset from a White Supremacy Forum’数据集。该数据集的核心研究问题在于从白人至上主义论坛中提取并标注仇恨言论，以支持针对在线滥用语言的研究。通过从Stormfront论坛中随机抽取的帖子，并将其分割成句子，研究人员手动标注了这些句子是否包含仇恨言论。这一数据集的创建不仅为研究者提供了一个宝贵的资源，以探索和分析仇恨言论的特征，还对推动在线社区的健康发展具有重要意义。

当前挑战

该数据集在构建过程中面临了多个挑战。首先，从白人至上主义论坛中提取数据本身就涉及敏感和复杂的伦理问题。其次，手动标注仇恨言论需要严格的指导原则和高度专业化的知识，以确保标注的准确性和一致性。此外，数据集的平衡性也是一个重要挑战，因为仇恨言论在实际论坛中的分布可能不均匀，这要求研究人员在采样过程中进行精细调整。最后，数据集的使用和传播也需谨慎，以避免不当的二次传播和潜在的社会影响。

常用场景

经典使用场景

在自然语言处理领域，Hate Speech Dataset from a White Supremacy Forum 数据集的经典使用场景主要集中在仇恨言论的自动检测与分类。通过分析从白人至上主义论坛Stormfront提取的文本数据，研究者能够训练和验证各种机器学习模型，以识别和区分含有仇恨言论的句子与普通言论。这种应用不仅有助于提升模型的准确性，还能为社交媒体平台提供技术支持，以自动过滤和监控潜在的仇恨言论。

解决学术问题

该数据集解决了在仇恨言论检测领域中，如何有效区分和识别仇恨言论与普通言论的学术研究问题。通过提供大量经过人工标注的句子，研究者能够深入探讨不同模型在处理此类数据时的表现，从而推动相关算法的发展。此外，该数据集还为跨文化、跨语言的仇恨言论检测研究提供了宝贵的资源，具有重要的学术意义和影响力。

衍生相关工作

基于Hate Speech Dataset from a White Supremacy Forum 数据集，研究者们开展了多项经典工作。例如，有研究通过该数据集训练深度学习模型，显著提升了仇恨言论检测的准确率。此外，还有学者利用该数据集进行跨文化比较研究，探讨不同文化背景下仇恨言论的表达差异。这些衍生工作不仅丰富了仇恨言论检测的理论体系，还为实际应用提供了更为坚实的技术基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集