five

DIFAIR

收藏
arXiv2023-10-22 更新2024-06-21 收录
下载链接:
https://github.com/mzakizadeh/difair_public
下载链接
链接失效反馈
官方服务:
资源简介:
DIFAIR是一个手工策划的语言建模数据集,旨在同时测量预训练语言模型中的公平性和性能。该数据集包含2506个精心筛选的性别特定和性别中性句子,主要从英文维基百科和Reddit社区中抽取。数据集的创建过程包括从原始文本中抽取句子,然后根据性别相关性进行分类和标注。DIFAIR数据集的应用领域主要集中在评估和减少语言模型中的性别偏见,同时确保模型能够保留和正确使用性别相关的事实信息。

DIFAIR is a manually curated language modeling dataset designed to simultaneously measure fairness and performance in pre-trained language models. It contains 2,506 carefully filtered gender-specific and gender-neutral sentences, primarily extracted from English Wikipedia and Reddit communities. The dataset creation process involves extracting sentences from raw text, followed by classification and annotation based on gender relevance. The primary application scenarios of the DIFAIR dataset focus on evaluating and mitigating gender bias in language models, while ensuring that models can retain and correctly utilize gender-related factual information.
提供机构:
德黑兰高等研究院(TeIAS)
创建时间:
2023-10-22
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作