geneutral

Hugging Face2025-01-30 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/aieng-lab/geneutral

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是BookCorpus的过滤版本，仅包含性别中立的词汇。它适用于训练和评估语言模型，特别是在评估性别偏见和性别中立模型在掩码语言建模（MLM）任务中的表现时。数据集的创建过程包括从BookCorpus数据集中过滤出满足特定条件的条目，如每个条目至少包含50个字符，不包含特定性别代词和名词等。

This dataset is a filtered version of the BookCorpus corpus, containing only gender-neutral vocabulary. It is suitable for training and evaluating language models, particularly for assessing gender bias and the performance of gender-neutral models in Masked Language Modeling (MLM) tasks. The dataset was developed by filtering eligible entries from the original BookCorpus dataset, with specific criteria including each entry containing at least 50 characters and excluding specific gender pronouns and nouns.

创建时间：

2025-01-28

原始信息汇总

数据集概述

数据集基本信息

数据集名称： aieng-lab/geneutral
语言： 英文
数据集特征：
- 特征名称：text
- 数据类型：字符串
数据划分：
- 训练集
  - 字节大小：722,953,083 bytes
  - 示例数量：7,896,455
下载大小： 462,066,705 bytes
数据集大小： 722,953,083 bytes
配置：
- 配置名称：default
- 数据文件路径：data/train-*
标签： NLP
许可证： cc-by-4.0

数据集详细信息

存储库： github.com/aieng-lab/gradiend
论文：
原始数据： BookCorpus

使用场景

适用于训练和评估语言模型，特别是在性别偏见和性别中性模型中进行掩码语言建模（MLM）任务。

数据集创建

通过过滤BookCorpus数据集创建，仅保留满足以下条件的条目：
- 每个条目至少包含50个字符
- 不包含aieng-lab/namextend中的名称
- 不包含性别特定的代词（如he/she/him/her/his/hers/himself/herself）
- 不包含根据gendered-word dataset中的2421个复数扩展条目所定义的性别特定名词

引用

BibTeX：

@misc{drechsel2025gradiendmonosemanticfeaturelearning, title={{GRADIEND}: Monosemantic Feature Learning within Neural Networks Applied to Gender Debiasing of Transformer Models}, author={Jonathan Drechsel and Steffen Herbold}, year={2025}, eprint={2502.01406}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2502.01406}, }

搜集汇总

数据集介绍

构建方式

该数据集的构建是通过从BookCorpus中筛选出仅包含性别中性词汇的条目而实现的。具体筛选标准包括：每个条目至少包含50个字符，不包含特定的人名、性别特定的代词以及根据某个性别化词汇数据集中的2421个复数扩展条目所定义的性别特定名词。

特点

该数据集的特点在于其去除了性别相关的词汇，这使得它在训练和评估语言模型时，特别是在进行性别偏见的评估方面具有独特的优势。数据集的构建旨在促进对语言模型在性别偏见和性别中性建模能力上的评估。

使用方法

使用该数据集时，用户需要通过Hugging Face的`load_dataset`函数下载并加载整个BookCorpus数据集及相应的索引。加载后，这些索引被用来从BookCorpus中构建出GENEUTRAL数据集，以便进行后续的语言模型训练和评估任务。

背景与挑战

背景概述

geneutral数据集，作为BookCorpus的过滤版本，专注于仅包含性别中性词汇的文本。该数据集由aieng-lab团队创建，旨在为自然语言处理领域提供一种新的资源，以促进语言模型在无性别偏向方面的训练与评估。其核心研究问题是减少语言模型中的性别偏见，对于推动性别平等和提升模型公正性具有重要的研究价值。自发布以来，该数据集在学术界和工业界产生了广泛的影响，成为性别偏见研究的一个重要基准。

当前挑战

该数据集在构建过程中面临的挑战主要包括：如何精确地识别并过滤掉性别特定的词汇和代词，同时确保文本的语义完整性；如何高效地从大规模原始数据集中提取性别中性文本，以保证数据集的质量和可用性。在使用上，该数据集对于评估和训练语言模型在性别偏见方面的表现提出了挑战，需要模型能够处理无性别标记的文本，并在各种任务中保持公正无偏的态度。

常用场景

经典使用场景

在自然语言处理领域，geneutral数据集以其独特的性别中性词汇特性，被广泛应用于训练和评估语言模型。该数据集的核心使用场景在于，通过其在性别相关词汇上的缺失，为研究者在进行掩码语言模型任务时提供了一种独立的性别偏见评估手段。

实际应用

在实际应用中，geneutral数据集可用于开发更加公正的人工智能系统，特别是在需要避免性别歧视的文本生成和推荐系统中。例如，在招聘网站的职位描述生成或社交媒体的内容推荐中，使用该数据集可以帮助减少潜在的不公平现象。

衍生相关工作

geneutral数据集的衍生工作包括了对性别偏见在语言模型中的深入分析和性别去偏策略的研究。这些研究进一步推动了性别平等在人工智能领域的实践，如开发新的无偏见训练方法和对现有模型进行性别偏见评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集