five

The 'Call me sexist but' Dataset (CMSB)

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/The_Call_me_sexist_but_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
来自心理量表的推文和项目,用于通过反事实示例进行性别歧视检测。该数据集包含三种类型的“短文本”内容:社交媒体帖子(推文)心理调查项目,以及前两类的合成对抗性修改。推文数据可以根据其来源进一步分为 3 个单独的数据集:1.1 敌对性别歧视数据集、1.2 仁慈性别歧视数据集和 1.3 callme 性别歧视数据集。 1.1 和 1.2 是从 Waseem, Z., & Hovy, D. (2016) 和 Jha, A., & Mamidi, R. (2017) 获得的预先存在的数据集,我们重新注释了(参见我们的论文和数据声明更多信息)。具体包括这些数据集的理由是,它们在真实的对话(社交媒体)环境中具有各种性别歧视表达。特别是,它们的表现形式从通过负面刻板印象(1.1)公开反对少数性别到利用积极刻板印象巧妙地将其视为能力不足和脆弱(1.2)。 callme 性别歧视数据集 (1.3) 是我们根据推文中“call me sexist but”短语的存在收集的。这种查询选择背后的基本原理是,一些 Twitter 用户认为潜在的性别歧视评论和信号,因此使用这个短语的存在,这可以说是对性别歧视意见的免责声明。调查项目 (2) 属于态度调查,旨在衡量参与者的性别歧视态度和性别偏见。我们在论文中详细介绍了我们的选择程序。最后,对抗性示例由来自 Amazon Mechanical Turk 的众包通过对推文和缩放项目进行最小更改来生成,以便将性别歧视示例更改为非性别歧视示例。我们希望这些示例将帮助我们控制非性别歧视数据(例如主题、文明)中的典型混淆,并产生具有更少偏见的数据集,从而使我们能够训练更强大的机器学习模型。出于道德原因,我们只要求将性别歧视的例子变成非性别歧视的例子,反之亦然。对数据集进行注释以捕获文本因内容(说话者所相信的内容)或措辞(说话者选择的词)而具有性别歧视的情况。我们在论文中解释了这个密码本的基本原理。
提供机构:
OpenDataLab
创建时间:
2022-09-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作