genter

Hugging Face2025-01-31 更新2025-02-10 收录

性别偏见

自然语言处理

数据链接：

https://huggingface.co/datasets/aieng-lab/genter 数据链接链接失效反馈

官方服务：

资源简介：

GENTER数据集是一个基于BookCorpus的过滤版本，专门包含名字与其正确第三人称单数代词（he/she）关联的句子。这些句子被转换为模板句子（masked），包含两个模板键：[NAME]和[PRONOUN]。该数据集可用于生成不同名字的句子，并插入正确的代词。数据集的结构包括原始文本、模板文本、性别标签、原始名字、原始代词和代词出现次数等字段。数据集的创建目的是为了训练一个性别偏见模型（GRADIEND模型），以评估与性别相关的梯度信息。数据集的来源是BookCorpus，经过过滤和提取模板结构生成。数据集的创建过程包括过滤BookCorpus的条目，确保每个句子包含至少50个字符、一个名字、正确的代词，并且排除了其他名字、反身代词、所有格代词和性别名词。最终数据集包含83772个句子，并通过BERT模型进一步筛选，确保代词预测的准确性。数据集被分为训练集（87.5%）、验证集（2.5%）和测试集（10%）。

创建时间：

2025-01-28

原始信息汇总

GENTER 数据集概述

数据集简介

GENTER（GEnder Name TEmplates with pRonouns）数据集是一个包含模板句子的数据集，这些句子将名字（[NAME]）与第三人称单数代词（[PRONOUN]）关联起来。该数据集是从BookCorpus中筛选出来的，仅包含名字与其正确的第三人称单数代词（he/she）同时出现的句子。通过这些句子，生成了包含两个模板键（[NAME]和[PRONOUN]）的模板句子（masked），从而可以生成包含不同名字和相应代词的多样化句子。

数据集结构

text: BookCorpus中的原始句子。
masked: 带有模板掩码的句子版本，即包含名字（[NAME]）和代词（[PRONOUN]）的模板。
label: 原始名字的性别标签（F表示女性，M表示男性）。
name: 原始句子中的名字，在masked中被掩码为[NAME]。
pronoun: 原始句子中的代词，在masked中被掩码为[PRONOUN]（he/she）。
pronoun_count: 代词在句子中出现的次数（通常为1，最多为4）。

数据集划分

train: 23,653个样本，大小为5,047,914字节。
validation: 675个样本，大小为144,116字节。
test: 2,703个样本，大小为579,900字节。

数据集来源

原始数据: BookCorpus
论文: arXiv:2502.01406
代码库: github.com/aieng-lab/gradiend

数据集创建

筛选标准

每个句子至少包含50个字符。
句子中仅包含一个来自aieng-lab/namexact的名字。
句子中不包含其他名字。
句子中至少包含一次与名字性别匹配的第三人称代词（he/she）。
所有代词出现在名字之后。
句子中不包含反身代词（himself/herself）和所有格代词（his/her/him/hers）。
排除性别相关的名词（如actor/actress）。

数据处理

使用BERT模型（bert-base-uncased）作为判断模型，确保模型能够正确预测代词。最终筛选出27,031个句子，并将其划分为训练集（87.5%）、验证集（2.5%）和测试集（10%）。

数据集限制

由于源自BookCorpus，所有句子均为小写。

引用

bibtex @misc{drechsel2025gradiendmonosemanticfeaturelearning, title={{GRADIEND}: Monosemantic Feature Learning within Neural Networks Applied to Gender Debiasing of Transformer Models}, author={Jonathan Drechsel and Steffen Herbold}, year={2025}, eprint={2502.01406}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2502.01406}, }

数据集作者

jdrechsel

搜集汇总

数据集介绍

构建方式

GENTER数据集的构建基于BookCorpus的筛选，专门选取包含人名及对应第三人称单数代词的句子。通过模板化的处理，将句子中的名字和代词分别用[NAME]和[PRONOUN]进行标记，形成模板句子，进而构建出可用于训练和评估性别相关梯度信息的性别名称代词关联数据集。

使用方法

使用GENTER数据集时，用户可以根据需要加载训练、验证或测试子集。数据集以HuggingFace的格式提供，可以直接利用HuggingFace的库函数进行加载和预处理。用户可以通过替换[NAME]和[PRONOUN]来生成不同的句子，以用于模型训练或性别偏见的评估研究。

背景与挑战

背景概述

GENTER数据集，全称为GEnder Name TEmplates with pRonouns，是一项专注于性别名称与第三人称代词之间关联的文本数据集。该数据集创建于2025年，主要研究人员为Jonathan Drechsel和Steffen Herbold，旨在为性别偏见的GRADIEND模型训练提供支持。数据集来源于BookCorpus，经过精细筛选，仅包含有明确性别代词的姓名句子。GENTER数据集对相关领域的贡献在于，它能够辅助研究性别偏见，并为自然语言处理中的性别相关任务提供重要的基础数据。

当前挑战

GENTER数据集面临的挑战主要包括：如何在保持数据质量的同时，有效覆盖多样化的姓名与代词搭配；如何在构建过程中确保数据的性别平衡，避免引入新的偏见；以及如何处理由于源数据集本身的限制（如仅包含小写字母）带来的数据表示问题。此外，数据集的构建还必须考虑避免包含噪声或模糊的术语，确保每个句子中代词的使用准确无误。

常用场景

经典使用场景

GENTER数据集的构建旨在为性别偏见评估提供基准，其经典使用场景在于生成包含人名和相应第三人称代词的模板句子，进而用于训练语言模型以识别和消除性别偏见。通过替换模板中的名字和代词，研究者能够生成多样化的句子，以评估模型对性别相关梯度信息的处理能力。

解决学术问题

该数据集解决了模型在处理人名与性别代词关联时的偏见问题，有助于学术界研究性别偏见在自然语言处理模型中的存在和影响，推动性别平等的人工智能发展。通过精确匹配人名与对应的代词，GENTER数据集为研究提供了无噪声的实验环境，有助于模型训练和评估的准确性。

实际应用

在实际应用中，GENTER数据集可以用于增强聊天机器人、语音助手等自然语言处理系统的性别意识，促进其与用户交流时的准确性和适宜性。此外，该数据集也可用于教育领域，帮助学习者更好地理解语言中的性别指涉和语法用法。

数据集最近研究