silvia-casola/BREXIT

Name: silvia-casola/BREXIT
Creator: silvia-casola
Published: 2024-05-07 12:59:51
License: 暂无描述

Hugging Face2024-05-07 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/silvia-casola/BREXIT

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1120条与移民、种族主义、伊斯兰恐惧症和仇外心理相关的推文，这些推文是在英国脱欧在线讨论的背景下收集的。每条推文由6位标注者进行标注，其中3位属于被歧视内容针对的群体（在英国生活的移民和穆斯林），另外3位属于“控制”群体，不被直接针对。数据集以分散的方式发布，每一行对应一个标注者的标注。数据集可用于训练和测试NLP和ML系统，以自动分类仇恨言论、攻击性、冒犯性和刻板印象内容，以及分析标注者之间的分歧和极化。

提供机构：

silvia-casola

原始信息汇总

数据集概述

数据集名称： BREXIT
数据集大小： 1120条推文，属于1K<n<10K类别
语言： 英语（en）
许可： CC-BY-SA-4.0
标签： 分歧、视角主义、仇恨言论、冒犯性、攻击性、刻板印象、移民、仇外、脱欧、伊斯兰恐惧症

数据集内容

内容描述： 包含与移民、种族主义、伊斯兰恐惧症和仇外情绪相关的推文，这些推文是在脱欧在线讨论的背景下收集的。
注释细节： 每条推文由6名注释者注释，其中3名为目标群体（在英国的移民和穆斯林注释者），另外3名为控制组。
数据发布方式： 以分歧方式发布，每行对应单个注释者的注释。

数据集结构

数据集字段：
- tweet： 推文文本
- instance_id： 推文的唯一ID
- annotator_group： 目标或控制组
- annotator_id： 注释者ID
- hs： 注释者判断推文是否包含仇恨言论
- offensiveness： 注释者判断推文是否具有冒犯性
- stereotype： 注释者判断推文是否包含刻板印象
- aggressiveness： 注释者判断推文是否具有攻击性

数据集用途

直接用途：
- 用于训练和测试NLP和ML系统，以自动分类仇恨言论、攻击性、冒犯性和刻板内容
- 用于训练和测试从分歧数据中学习的NLP和ML系统
- 分析注释者之间的分歧和极化
- 分析仇恨言论、攻击性、冒犯性和刻板内容
超出范围的用途： 不用于生成冒犯性或歧视性内容或类似误用。

数据集创建

创建动机： 为了更好地研究注释者之间的一致性分歧，特别是在注释者群体受到歧视性内容影响的情况下。
源数据： 数据从Twitter下载，使用#Brexit标签和一系列移民、伊斯兰恐惧症和仇外情绪关键词进行筛选。
注释过程： 由6名注释者进行，每位注释者提供单一的二元标签（仇恨言论、冒犯性、攻击性和刻板印象）。

数据集注意事项

敏感信息： 数据已匿名化，直接用户提及已被替换为"<user>"标记。
偏见、风险和限制： 数据集包含贬损内容，包括种族主义和伊斯兰恐惧症的侮辱。

5,000+

优质数据集

54 个

任务类型

进入经典数据集