Hate Speech Twitter Dataset
收藏github2023-08-26 更新2024-05-31 收录
下载链接:
https://github.com/laxmimerit/hate_speech_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自Twitter的推文,旨在识别和分类含有仇恨言论和攻击性语言的内容。数据集中的每条推文都由CrowdFlower用户进行标记,标记内容包括推文是否包含仇恨言论、攻击性语言或两者都不包含。
This dataset comprises tweets sourced from Twitter, designed to identify and categorize content containing hate speech and offensive language. Each tweet within the dataset has been annotated by CrowdFlower users, with annotations indicating whether the tweet contains hate speech, offensive language, or neither.
创建时间:
2020-08-01
原始信息汇总
数据集概述
数据字段说明
- count:参与每条推文标注的CrowdFlower用户数量,最小值为3,当判断结果被认为不可靠时,会有更多用户参与标注。
- hate_speech:判断推文为仇恨言论的CrowdFlower用户数量。
- offensive_language:判断推文为冒犯性语言的CrowdFlower用户数量。
- neither:判断推文既非冒犯性也非非冒犯性的CrowdFlower用户数量。
- class:根据CrowdFlower用户多数判断结果的分类标签。
- 0:仇恨言论
- 1:冒犯性语言
- 2:既非冒犯性也非非冒犯性
搜集汇总
数据集介绍

构建方式
Hate Speech Twitter Dataset的构建基于CrowdFlower平台上的众包标注。每条推文由至少三名用户进行标注,以确保数据的可靠性。当标注结果存在不一致时,会引入更多用户进行复核。标注内容包括推文是否属于仇恨言论、冒犯性语言或两者皆非。最终,每条推文的类别标签由多数用户的判断决定,形成0(仇恨言论)、1(冒犯性语言)和2(两者皆非)三类标签。
特点
该数据集的特点在于其标注过程的严谨性和多样性。每条推文经过多名用户的独立判断,确保了数据的客观性和可靠性。数据集涵盖了仇恨言论、冒犯性语言以及中性内容,反映了社交媒体中语言使用的复杂性。此外,标注结果的多样性为研究提供了丰富的分析维度,能够支持对仇恨言论和冒犯性语言的深入探讨。
使用方法
使用Hate Speech Twitter Dataset时,研究者可通过分析每条推文的标注结果,探索仇恨言论和冒犯性语言的特征及其在社交媒体中的分布。数据集中的类别标签可直接用于训练和评估自然语言处理模型,如文本分类和情感分析。此外,研究者还可结合推文的文本内容,进一步挖掘语言模式与社会行为之间的关系,为社交媒体内容管理提供数据支持。
背景与挑战
背景概述
Hate Speech Twitter Dataset 是一个专注于社交媒体中仇恨言论检测的数据集,由CrowdFlower平台上的众包用户标注而成。该数据集的创建旨在解决社交媒体平台上日益严重的仇恨言论问题,为自然语言处理领域的研究者提供了一个重要的基准。通过众包标注的方式,数据集涵盖了仇恨言论、冒犯性语言以及中性言论的分类,为相关算法的开发与评估提供了丰富的数据支持。该数据集的研究背景与社交媒体内容审核、情感分析等领域密切相关,推动了仇恨言论检测技术的发展。
当前挑战
Hate Speech Twitter Dataset 在构建与应用过程中面临多重挑战。首先,仇恨言论的界定具有主观性,不同标注者可能对同一文本的判定存在分歧,导致数据标注的一致性问题。其次,社交媒体文本的多样性与复杂性增加了数据清洗与预处理的难度,例如缩写、俚语和表情符号的使用可能影响模型的准确理解。此外,数据集的规模与多样性限制了模型的泛化能力,尤其是在面对新兴的仇恨言论表达方式时,模型的鲁棒性可能不足。这些挑战不仅影响了数据集的构建质量,也对后续算法的开发提出了更高的要求。
常用场景
经典使用场景
Hate Speech Twitter Dataset 主要用于社交媒体内容分析,特别是在识别和分类仇恨言论、冒犯性语言以及中性内容方面。研究人员通过该数据集可以训练和评估自然语言处理模型,以自动检测和过滤社交媒体平台上的不当言论。
解决学术问题
该数据集解决了社交媒体内容监管中的关键问题,尤其是在自动识别仇恨言论和冒犯性语言方面。通过提供多用户标注的推特数据,它为研究者提供了可靠的基准,帮助开发更精确的文本分类算法,从而提升内容审核系统的效率和准确性。
衍生相关工作
基于该数据集,许多经典的研究工作得以展开,例如开发更先进的自然语言处理模型和深度学习算法。这些工作不仅提升了文本分类的准确性,还推动了社交媒体内容审核技术的发展,为后续的研究提供了宝贵的参考和基础。
以上内容由遇见数据集搜集并总结生成



