five

silvia-casola/BREXIT

收藏
Hugging Face2024-05-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/silvia-casola/BREXIT
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含1120条与移民、种族主义、伊斯兰恐惧症和仇外心理相关的推文,这些推文是在英国脱欧在线讨论的背景下收集的。每条推文由6位标注者进行标注,其中3位属于被歧视内容针对的群体(在英国生活的移民和穆斯林),另外3位属于“控制”群体,不被直接针对。数据集以分散的方式发布,每一行对应一个标注者的标注。数据集可用于训练和测试NLP和ML系统,以自动分类仇恨言论、攻击性、冒犯性和刻板印象内容,以及分析标注者之间的分歧和极化。

该数据集包含1120条与移民、种族主义、伊斯兰恐惧症和仇外心理相关的推文,这些推文是在英国脱欧在线讨论的背景下收集的。每条推文由6位标注者进行标注,其中3位属于被歧视内容针对的群体(在英国生活的移民和穆斯林),另外3位属于“控制”群体,不被直接针对。数据集以分散的方式发布,每一行对应一个标注者的标注。数据集可用于训练和测试NLP和ML系统,以自动分类仇恨言论、攻击性、冒犯性和刻板印象内容,以及分析标注者之间的分歧和极化。
提供机构:
silvia-casola
原始信息汇总

数据集概述

  • 数据集名称: BREXIT
  • 数据集大小: 1120条推文,属于1K<n<10K类别
  • 语言: 英语(en)
  • 许可: CC-BY-SA-4.0
  • 标签: 分歧、视角主义、仇恨言论、冒犯性、攻击性、刻板印象、移民、仇外、脱欧、伊斯兰恐惧症

数据集内容

  • 内容描述: 包含与移民、种族主义、伊斯兰恐惧症和仇外情绪相关的推文,这些推文是在脱欧在线讨论的背景下收集的。
  • 注释细节: 每条推文由6名注释者注释,其中3名为目标群体(在英国的移民和穆斯林注释者),另外3名为控制组。
  • 数据发布方式: 以分歧方式发布,每行对应单个注释者的注释。

数据集结构

  • 数据集字段:
    • tweet: 推文文本
    • instance_id: 推文的唯一ID
    • annotator_group: 目标或控制组
    • annotator_id: 注释者ID
    • hs: 注释者判断推文是否包含仇恨言论
    • offensiveness: 注释者判断推文是否具有冒犯性
    • stereotype: 注释者判断推文是否包含刻板印象
    • aggressiveness: 注释者判断推文是否具有攻击性

数据集用途

  • 直接用途:

    • 用于训练和测试NLP和ML系统,以自动分类仇恨言论、攻击性、冒犯性和刻板内容
    • 用于训练和测试从分歧数据中学习的NLP和ML系统
    • 分析注释者之间的分歧和极化
    • 分析仇恨言论、攻击性、冒犯性和刻板内容
  • 超出范围的用途: 不用于生成冒犯性或歧视性内容或类似误用。

数据集创建

  • 创建动机: 为了更好地研究注释者之间的一致性分歧,特别是在注释者群体受到歧视性内容影响的情况下。
  • 源数据: 数据从Twitter下载,使用#Brexit标签和一系列移民、伊斯兰恐惧症和仇外情绪关键词进行筛选。
  • 注释过程: 由6名注释者进行,每位注释者提供单一的二元标签(仇恨言论、冒犯性、攻击性和刻板印象)。

数据集注意事项

  • 敏感信息: 数据已匿名化,直接用户提及已被替换为"<user>"标记。
  • 偏见、风险和限制: 数据集包含贬损内容,包括种族主义和伊斯兰恐惧症的侮辱。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作