Hate Speech Dataset from a White Supremacy Forum
收藏github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/Vicomtech/hate-speech-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从白人至上主义论坛Stormfront提取的文本,这些文本被分割成句子并手动标注是否包含仇恨言论。数据集用于研究仇恨言论的识别和分析。
This dataset comprises texts extracted from the white supremacist forum Stormfront, which have been segmented into sentences and manually annotated for the presence of hate speech. The dataset is utilized for research on the identification and analysis of hate speech.
创建时间:
2018-08-30
原始信息汇总
Hate Speech Dataset from a White Supremacist Forum
数据集描述
- 来源:数据集包含从Stormfront论坛提取的文本,该论坛是一个白人至上主义论坛。
- 内容:随机抽样的论坛帖子被分割成句子,并根据特定的标注指南手动标注为包含仇恨言论或不包含。
数据集结构
- all_files:包含所有论坛帖子的文件夹。每个文件包含一个句子,文件名格式为commentID_sentenceNumber.txt。
- sampled_train:从all_files中抽取的平衡数据集(包含"hate"和"noHate"类别),用于实验。
- sampled_test:从all_files中抽取的平衡数据集(包含"hate"和"noHate"类别),用于实验。
- annotations_metadata.csv:包含上述文件夹中每个文件的实际标签,以及标注者做出决策所需的额外上下文量、用户ID和子论坛ID。
引用信息
若在工作中使用此数据集,请按以下方式引用:
@inproceedings{gibert2018hate, title = "{Hate Speech Dataset from a White Supremacy Forum}", author = "de Gibert, Ona and Perez, Naiara and Garc{\i}a-Pablos, Aitor and Cuadros, Montse", booktitle = "Proceedings of the 2nd Workshop on Abusive Language Online ({ALW}2)", month = oct, year = "2018", address = "Brussels, Belgium", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/W18-5102", doi = "10.18653/v1/W18-5102", pages = "11--20", }
搜集汇总
数据集介绍

构建方式
该数据集源自Stormfront,一个白人至上主义论坛,通过从多个子论坛中随机抽取论坛帖子,并将其分割成句子。这些句子随后根据特定的标注指南被手动标注为包含仇恨言论或不包含仇恨言论。此过程确保了数据集的多样性和代表性,为后续的分析和研究提供了坚实的基础。
特点
该数据集的显著特点在于其来源的特殊性和标注的细致性。首先,数据来源于一个具有高度争议性的白人至上主义论坛,这使得数据集在研究仇恨言论方面具有独特的价值。其次,通过手动标注,确保了每个句子标签的准确性和一致性,从而提高了数据集在模型训练和评估中的可靠性。
使用方法
使用该数据集时,研究者可以利用提供的训练和测试子集进行实验,这些子集已平衡了‘仇恨’和‘非仇恨’类别。此外,annotations_metadata.csv文件提供了每个文件的实际标签,以及标注者所需的额外上下文信息,用户ID和子论坛ID,这些信息有助于更深入地理解数据集的构建和标注过程。
背景与挑战
背景概述
在2018年,由Ona de Gibert、Naiara Perez、Aitor García-Pablos和Montse Cuadros组成的团队创建了‘Hate Speech Dataset from a White Supremacy Forum’数据集。该数据集源自Stormfront,一个白人至上主义论坛,旨在通过随机抽样的论坛帖子来研究仇恨言论的识别与分类。研究人员将帖子分割成句子,并根据特定的标注指南手动标注为是否包含仇恨言论。这一数据集的创建不仅为研究仇恨言论提供了宝贵的资源,还推动了在线滥用语言检测技术的发展,具有重要的学术和实际应用价值。
当前挑战
该数据集在构建过程中面临多项挑战。首先,仇恨言论的定义和边界模糊,导致标注过程复杂且主观性强。其次,从白人至上主义论坛中提取数据涉及伦理和隐私问题,需谨慎处理。此外,数据集的平衡性问题,即仇恨言论与非仇恨言论样本的比例,也是一大挑战。最后,由于论坛内容的动态变化,数据集的时效性和更新频率需持续关注,以确保其研究价值和应用效果。
常用场景
经典使用场景
在自然语言处理领域,Hate Speech Dataset from a White Supremacy Forum 数据集被广泛用于检测和分类仇恨言论。该数据集通过从Stormfront白人至上主义论坛中提取的帖子,经过人工标注,区分出包含仇恨言论的句子和不包含仇恨言论的句子。这一数据集的经典使用场景包括构建和评估仇恨言论检测模型,通过机器学习算法识别和分类文本中的仇恨言论,从而为社交媒体平台提供自动化的内容审核工具。
实际应用
在实际应用中,Hate Speech Dataset from a White Supremacy Forum 数据集被用于开发和部署仇恨言论检测系统。这些系统广泛应用于社交媒体平台、新闻网站和在线论坛,以自动识别和过滤仇恨言论,维护网络环境的和谐与安全。通过使用该数据集训练的模型,平台能够更有效地监控和管理用户生成内容,减少仇恨言论的传播,保护用户免受有害信息的侵害。
衍生相关工作
基于Hate Speech Dataset from a White Supremacy Forum 数据集,研究者们开展了一系列相关工作。其中包括开发更高效的仇恨言论检测算法、探索多语言环境下的仇恨言论识别、以及研究仇恨言论的情感和语义特征。这些衍生工作不仅丰富了仇恨言论检测的研究领域,还为实际应用提供了更多技术选择和优化方案,推动了相关技术的不断进步和创新。
以上内容由遇见数据集搜集并总结生成



