five

ucberkeley-dlab/measuring-hate-speech

收藏
Hugging Face2025-12-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ucberkeley-dlab/measuring-hate-speech
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个公开发布的数据集,包含39,565条评论,由7,912名注释者标注,共计135,556行数据。主要的结果变量是“仇恨言论分数”,但10个构成的有序标签(情感、(不)尊重、侮辱、羞辱、低等地位、暴力、非人化、种族灭绝、攻击/防御、仇恨言论基准)也可以作为结果变量。数据集包括8个目标身份群体(种族/民族、宗教、国籍/公民身份、性别、性取向、年龄、残疾、政治意识形态)和42个目标身份子群体,以及6个注释者人口统计信息和40个子群体。仇恨言论分数通过估计注释者对标注指南解释的差异,结合IRT调整。

This is a publicly available dataset consisting of 39,565 comments annotated by 7,912 annotators, with a total of 135,556 data rows. The primary outcome variable is the Hate Speech Score, while ten constituent ordered labels including sentiment, (dis)respect, insult, humiliation, inferior status, violence, dehumanization, genocide, attack/defense, and hate speech baseline can also serve as outcome variables. The dataset covers 8 target identity groups (race/ethnicity, religion, nationality/citizenship, gender, sexual orientation, age, disability, political ideology) and 42 target identity subgroups, in addition to 6 annotator demographic characteristics and 40 subgroups. The Hate Speech Score is calibrated using Item Response Theory (IRT) by estimating the discrepancies in annotators' interpretations of the annotation guidelines.
提供机构:
ucberkeley-dlab
原始信息汇总

数据集概述

基本信息

  • 名称: Measuring Hate Speech
  • 语言: 英语
  • 许可证: CC-BY-4.0
  • 数据来源: 原始数据
  • 任务类别: 文本分类
  • 任务ID:
    • 仇恨言论检测
    • 情感分类
    • 多标签分类

数据集描述

  • 数据集大小: 包含39,565条评论,由7,912名标注者完成,总计135,556行数据。
  • 主要变量: 仇恨言论得分,以及10个构成的序数标签(情感、尊重、侮辱、羞辱、低等地位、暴力、非人化、种族灭绝、攻击/防御、仇恨言论基准)。
  • 目标身份组: 8个(种族/民族、宗教、国籍/公民身份、性别、性取向、年龄、残疾、政治意识形态)及42个子组。
  • 标注者人口统计: 6个及40个子组。
  • 仇恨言论得分调整: 通过估计标注者对标注指南解释的变异进行IRT调整。

关键数据列

  • hate_speech_score: 连续的仇恨言论测量,数值越高表示越仇恨,低于-1表示反对或支持言论,-1至+0.5表示中性或模糊。
  • text: 社交媒體帖子的轻度处理文本。
  • comment_id: 每个评论的唯一ID。
  • annotator_id: 每个标注者的唯一ID。
  • sentiment: 序数标签,合并到连续得分中。
  • respect: 序数标签,合并到连续得分中。
  • insult: 序数标签,合并到连续得分中。
  • humiliate: 序数标签,合并到连续得分中。
  • status: 序数标签,合并到连续得分中。
  • dehumanize: 序数标签,合并到连续得分中。
  • violence: 序数标签,合并到连续得分中。
  • genocide: 序数标签,合并到连续得分中。
  • attack_defend: 序数标签,合并到连续得分中。
  • hatespeech: 序数标签,合并到连续得分中。
  • annotator_severity: 标注者估计的调查解释偏差。

数据集下载

使用以下Python代码下载数据集: python import datasets dataset = datasets.load_dataset(ucberkeley-dlab/measuring-hate-speech, binary)
df = dataset[train].to_pandas() df.describe()

引用信息

@article{kennedy2020constructing, title={Constructing interval variables via faceted Rasch measurement and multitask deep learning: a hate speech application}, author={Kennedy, Chris J and Bacon, Geoff and Sahn, Alexander and von Vacano, Claudia}, journal={arXiv preprint arXiv:2009.10277}, year={2020} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由加州大学伯克利分校的DLab团队构建,通过众包方式收集了39,565条社交媒体评论,并由7,912名标注者进行标注。数据集的核心是'仇恨言论评分',该评分结合了10个序数标签(如情感、尊重、侮辱等),并通过IRT调整来估计标注者对标注指南的解释差异。此外,数据集还包含了8个目标身份群体和42个子群体的信息,以及6个标注者人口统计学特征和40个子群体的数据。
使用方法
研究者可以通过Python代码直接下载并加载该数据集,使用datasets库中的load_dataset函数即可。数据集的'train'部分可以转换为Pandas DataFrame进行进一步的描述性统计分析。研究者可以利用该数据集进行仇恨言论检测、情感分类和多标签分类等任务,同时也可以探索标注者偏差对评分的影响,以及不同身份群体在仇恨言论中的表现差异。
背景与挑战
背景概述
在当今社会,仇恨言论的识别与量化已成为一个紧迫的研究课题。ucberkeley-dlab/measuring-hate-speech数据集由加州大学伯克利分校的Chris Kennedy、Geoff Bacon、Alexander Sahn和Claudia von Vacano等人于2020年创建,旨在通过大规模的众包注释来量化社交媒体上的仇恨言论。该数据集包含39,565条评论,由7,912名注释者进行标注,共计135,556条记录。其核心研究问题是如何通过多任务深度学习和Rasch测量理论,构建一个连续的仇恨言论评分系统,以更精确地识别和分类仇恨言论。这一研究不仅推动了文本分类和情感分析领域的发展,还为政策制定者和社交媒体平台提供了有力的数据支持。
当前挑战
尽管ucberkeley-dlab/measuring-hate-speech数据集在仇恨言论的量化方面取得了显著进展,但其构建过程中仍面临诸多挑战。首先,仇恨言论的定义和边界模糊,不同注释者可能存在主观偏差,导致数据标注的一致性问题。其次,数据集涉及多个目标身份群体和子群体,如何确保这些群体的敏感性和多样性在标注过程中得到充分考虑,是一个复杂的问题。此外,注释者的背景和偏见可能影响其对仇恨言论的判断,如何通过IRT调整来减少这种偏差,是数据集构建中的另一大挑战。最后,数据集的规模和复杂性要求高效的算法和模型来处理和分析,这对计算资源和算法设计提出了高要求。
常用场景
经典使用场景
在社会语言学与计算社会科学的交汇点上,ucberkeley-dlab/measuring-hate-speech数据集以其独特的多标签分类和情感分析能力,成为研究网络仇恨言论的基石。该数据集通过整合10个序数标签,如情感、尊重、侮辱等,构建了一个连续的仇恨言论评分体系,使得研究者能够量化和分析社交媒体上的仇恨言论。这种精细化的评分机制不仅提升了仇恨言论检测的准确性,还为多维度分析提供了可能,从而在学术界和业界引起了广泛关注。
解决学术问题
ucberkeley-dlab/measuring-hate-speech数据集在解决仇恨言论量化这一学术难题上展现了其独特价值。传统的仇恨言论检测方法往往依赖于二元分类,难以捕捉言论的复杂性和多样性。该数据集通过引入IRT(项目反应理论)调整,有效估计了标注者对标签指南的解释差异,从而提高了评分的信度和效度。这一创新不仅推动了仇恨言论研究的方法论进步,还为其他领域的多标签分类问题提供了新的思路和工具。
实际应用
在实际应用中,ucberkeley-dlab/measuring-hate-speech数据集为社交媒体平台和政策制定者提供了强有力的工具。通过精确量化和分类仇恨言论,平台可以更有效地监控和过滤有害内容,保护用户免受网络暴力的侵害。同时,政策制定者可以利用该数据集的分析结果,制定更有针对性的法规和政策,以应对日益严重的网络仇恨问题。此外,该数据集还可用于培训和评估仇恨言论检测算法,进一步提升自动化系统的性能。
数据集最近研究
最新研究方向
在社会语言学与计算社会科学的交叉领域,ucberkeley-dlab/measuring-hate-speech数据集的最新研究方向聚焦于通过多任务深度学习与Rasch测量理论的结合,以提升仇恨言论检测的精确度与解释性。该数据集不仅包含了丰富的文本数据,还引入了基于IRT(项目反应理论)的注释者偏差调整,从而在量化仇恨言论的同时,考虑了注释者个体差异的影响。这一研究方向不仅有助于开发更为精准的仇恨言论检测模型,还为理解社会偏见与言论自由的边界提供了新的视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作