tdavidson/hate_speech_offensive
收藏Hugging Face2024-01-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tdavidson/hate_speech_offensive
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于检测仇恨言论和冒犯性语言的标注数据集,主要基于推文数据。数据集的语言为英语,数据规模在10K到100K之间,属于单语种数据集。数据集的结构包括多个字段,如推文内容、仇恨言论标注、冒犯性语言标注等。数据集的创建过程涉及专家生成和众包标注,但具体的标注过程和来源数据的信息未详细说明。数据集的使用可能涉及社会影响和偏见问题,但具体讨论未提供。
This is an annotated dataset developed for detecting hate speech and offensive language, primarily sourced from tweet data. It is a monolingual English dataset with a scale ranging from 10K to 100K samples. The dataset structure includes multiple fields such as tweet content, hate speech annotation labels, and offensive language annotation labels. The dataset's creation process incorporates both expert generation and crowdsourced annotation, yet specific details regarding the annotation procedure and source data remain unspecified. Potential social impact and bias-related issues may emerge during the usage of this dataset, but no specific discussion on these aspects has been offered.
提供机构:
tdavidson
原始信息汇总
数据集概述
- 名称: Hate Speech and Offensive Language
- 语言: 英语 (
en) - 许可: 未知
- 多语言性: 单语种
- 大小: 10K<n<100K
- 来源: 原始数据
- 任务类别: 文本分类
- 标签: 仇恨言论检测
数据集结构
数据实例
json { "count": 3, "hate_speech_annotation": 0, "offensive_language_annotation": 0, "neither_annotation": 3, "label": 2, # "neither" "tweet": "!!! RT @mayasolovely: As a woman you shouldnt complain about cleaning up your house. & as a man you should always take the trash out..." }
数据字段
- count: 整数,标记每个推文的用户数(最小为3)
- hate_speech_annotation: 整数,标记为仇恨言论的推文用户数
- offensive_language_annotation: 整数,标记为攻击性语言的推文用户数
- neither_annotation: 整数,标记为既非攻击性也非非攻击性的推文用户数
- label: 类别标签,多数用户的大类标签(0: hate-speech, 1: offensive-language 或 2: neither)
- tweet: 字符串,推文内容
数据分割
- 训练集: 24783个样本,数据大小为3207814字节
数据集创建
注释
- 创建者: 专家生成和众包
- 个人和敏感信息: 用户名未匿名化
使用数据集的考虑
许可证信息
- 许可证: MIT License
引用信息
bibtex @inproceedings{hateoffensive, title = {Automated Hate Speech Detection and the Problem of Offensive Language}, author = {Davidson, Thomas and Warmsley, Dana and Macy, Michael and Weber, Ingmar}, booktitle = {Proceedings of the 11th International AAAI Conference on Web and Social Media}, series = {ICWSM 17}, year = {2017}, location = {Montreal, Canada}, pages = {512-515} }
搜集汇总
数据集介绍

构建方式
在社交媒体内容分析领域,仇恨言论与冒犯性语言检测数据集通过系统化方法构建。该数据集源自Twitter平台,原始推文经由众包与专家生成相结合的方式进行标注。每条推文由至少三名标注者独立评判,依据多数原则确定最终类别归属,涵盖仇恨言论、冒犯性语言及中性内容三类标签。数据收集过程注重样本多样性,确保覆盖不同语境下的语言表达,为模型训练提供了扎实的语料基础。
特点
该数据集在自然语言处理任务中展现出鲜明的结构特征。每条数据实例不仅包含推文文本与最终类别标签,还详细记录了标注者的投票分布,如仇恨言论、冒犯性语言及中性内容的标注计数,这为研究标注一致性及模型不确定性提供了丰富信息。数据集规模适中,包含约2.4万条英文推文,专注于单语种文本分类,适用于多类别情感与内容安全分析。其字段设计兼顾了机器学习输入需求与标注过程的可追溯性。
使用方法
在文本分类模型开发中,该数据集可直接应用于仇恨言论检测任务。使用者可通过HuggingFace平台加载数据,利用预定义的训练分割进行模型训练与评估。数据字段中的'tweet'列作为输入文本,'class'列作为目标标签,支持准确率、F1分数等多项指标计算。鉴于数据未进行匿名化处理,在实际应用中需注意隐私保护与伦理规范,确保研究符合社会影响评估要求。
背景与挑战
背景概述
在社交媒体内容审核与自然语言处理领域,仇恨言论与冒犯性语言的自动检测已成为一项紧迫的研究课题。由Thomas Davidson等人于2017年创建的Hate Speech and Offensive Language数据集,旨在通过标注的推特文本,为相关算法提供训练与评估基准。该数据集由专家与众包人员共同标注,聚焦于区分仇恨言论、冒犯性语言及中性内容三类,其发布推动了社交媒体内容安全分析技术的发展,并为后续研究提供了重要的数据基础。
当前挑战
该数据集致力于解决仇恨言论检测中的文本分类挑战,其核心难点在于仇恨言论与冒犯性语言之间界限的模糊性,以及语境依赖带来的语义歧义。在构建过程中,标注者主观差异导致标注一致性难以保障,且推特数据的动态性与非正式表达增加了标注复杂度。此外,数据集中用户信息未匿名化,可能引发隐私伦理问题,限制了其在某些应用场景中的使用。
常用场景
经典使用场景
在社交媒体内容审核领域,该数据集作为基准资源,广泛应用于仇恨言论与冒犯性语言的自动检测研究。通过提供大量标注的推特文本,它支持机器学习模型进行多类别文本分类,区分仇恨言论、冒犯性语言及中性内容,为算法性能评估提供了标准化测试平台。
解决学术问题
该数据集有效解决了自然语言处理中仇恨言论检测的标注数据稀缺问题,通过众包与专家标注结合的方式,构建了细粒度分类体系。其意义在于推动了社交媒体有害内容识别的算法创新,促进了计算社会科学领域对在线言语行为的量化分析,为网络空间治理提供了理论依据。
衍生相关工作
围绕该数据集衍生的经典工作包括基于深度学习的多任务分类模型、跨平台仇恨言论迁移学习框架,以及结合语境感知的细粒度检测算法。这些研究不仅提升了检测精度,还深入探讨了文化差异对言论界定的影响,推动了伦理化人工智能在内容审核领域的应用探索。
以上内容由遇见数据集搜集并总结生成



