silvia-casola/BREXIT
收藏Hugging Face2024-05-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/silvia-casola/BREXIT
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1120条与移民、种族主义、伊斯兰恐惧症和仇外心理相关的推文,这些推文是在英国脱欧在线讨论的背景下收集的。每条推文由6位标注者进行标注,其中3位属于被歧视内容针对的群体(在英国生活的移民和穆斯林),另外3位属于“控制”群体,不被直接针对。数据集以分散的方式发布,每一行对应一个标注者的标注。数据集可用于训练和测试NLP和ML系统,以自动分类仇恨言论、攻击性、冒犯性和刻板印象内容,以及分析标注者之间的分歧和极化。
该数据集包含1120条与移民、种族主义、伊斯兰恐惧症和仇外心理相关的推文,这些推文是在英国脱欧在线讨论的背景下收集的。每条推文由6位标注者进行标注,其中3位属于被歧视内容针对的群体(在英国生活的移民和穆斯林),另外3位属于“控制”群体,不被直接针对。数据集以分散的方式发布,每一行对应一个标注者的标注。数据集可用于训练和测试NLP和ML系统,以自动分类仇恨言论、攻击性、冒犯性和刻板印象内容,以及分析标注者之间的分歧和极化。
提供机构:
silvia-casola
原始信息汇总
数据集概述
- 数据集名称: BREXIT
- 数据集大小: 1120条推文,属于1K<n<10K类别
- 语言: 英语(en)
- 许可: CC-BY-SA-4.0
- 标签: 分歧、视角主义、仇恨言论、冒犯性、攻击性、刻板印象、移民、仇外、脱欧、伊斯兰恐惧症
数据集内容
- 内容描述: 包含与移民、种族主义、伊斯兰恐惧症和仇外情绪相关的推文,这些推文是在脱欧在线讨论的背景下收集的。
- 注释细节: 每条推文由6名注释者注释,其中3名为目标群体(在英国的移民和穆斯林注释者),另外3名为控制组。
- 数据发布方式: 以分歧方式发布,每行对应单个注释者的注释。
数据集结构
- 数据集字段:
- tweet: 推文文本
- instance_id: 推文的唯一ID
- annotator_group: 目标或控制组
- annotator_id: 注释者ID
- hs: 注释者判断推文是否包含仇恨言论
- offensiveness: 注释者判断推文是否具有冒犯性
- stereotype: 注释者判断推文是否包含刻板印象
- aggressiveness: 注释者判断推文是否具有攻击性
数据集用途
-
直接用途:
- 用于训练和测试NLP和ML系统,以自动分类仇恨言论、攻击性、冒犯性和刻板内容
- 用于训练和测试从分歧数据中学习的NLP和ML系统
- 分析注释者之间的分歧和极化
- 分析仇恨言论、攻击性、冒犯性和刻板内容
-
超出范围的用途: 不用于生成冒犯性或歧视性内容或类似误用。
数据集创建
- 创建动机: 为了更好地研究注释者之间的一致性分歧,特别是在注释者群体受到歧视性内容影响的情况下。
- 源数据: 数据从Twitter下载,使用#Brexit标签和一系列移民、伊斯兰恐惧症和仇外情绪关键词进行筛选。
- 注释过程: 由6名注释者进行,每位注释者提供单一的二元标签(仇恨言论、冒犯性、攻击性和刻板印象)。
数据集注意事项
- 敏感信息: 数据已匿名化,直接用户提及已被替换为"<user>"标记。
- 偏见、风险和限制: 数据集包含贬损内容,包括种族主义和伊斯兰恐惧症的侮辱。



