namexact

Hugging Face2025-01-31 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/aieng-lab/namexact

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为NAMEXACT，包含仅与单一性别相关联且没有歧义含义的名字。数据集分为训练集、验证集和测试集，每个集包含1398个样本。数据集的特征包括名字、性别、计数、概率和分割。数据集的创建过程包括从原始数据集中过滤出最常见的1697个名字，然后进一步排除性别和含义不明确的名字，最终得到1398个名字。数据集来源于多个国家的政府公开数据，涵盖了1880年至2019年的数据。

创建时间：

2025-01-30

搜集汇总

数据集介绍

构建方式

namexact数据集的构建是通过筛选和过滤原始的Gender by Name数据集实现的。首先，移除了计数小于20000的所有名称，保留了最常见的1697个名称。然后，去除了性别模糊的名称，如Skyler和Sidney，最终手动检查剩余的名称，排除了具有模糊含义的名称，如Christian和Drew，最终形成了包含1398个明确性别的名称的数据集。

特点

namexact数据集的特点在于其严格筛选出的名称均具有明确的性别指向，无任何模糊含义，适用于需要高确定性名称的任务。数据集分为训练集、验证集和测试集，各占85%、5%和10%，包含了名称、性别、计数和概率等信息。此外，该数据集遵循cc-by-4.0的开放许可，鼓励共享与再利用。

使用方法

使用namexact数据集时，用户可以通过HuggingFace的datasets库轻松加载整个数据集。具体操作为：从aieng-lab/genter加载所需的split，例如使用split='all'来加载整个数据集。这种方法使得数据集的接入和使用变得直观而便捷。

背景与挑战

背景概述

NAMEXACT数据集，旨在构建一个仅包含明确指向单一性别且不含模糊含义的名字的集合。该数据集的创建，是为了满足那些需要使用高确定性名字的任务需求。它是在2025年由Jonathan Drechsel和Steffen Herbold等研究人员通过对原始的[Gender by Name](https://archive.ics.uci.edu/dataset/591/gender+by+name)数据集进行筛选和清洗后构建而成的。该数据集的构建对于性别分类和去偏研究等领域具有重要的影响力。

当前挑战

在构建过程中，研究团队面临了诸多挑战，包括如何精确筛选出无性别歧义的名字，以及如何处理和平衡名字的普遍性和特异性。数据集的创建涉及了数据选择标准、过滤和归一化方法的确定，以及如何手动检查每个名字以确保其不含模糊含义。此外，数据集在性别分布的代表性、文化多样性以及可能存在的偏差风险等方面也面临着挑战。

常用场景

经典使用场景

在性别识别与分类任务中，namexact数据集以其精确性而显得尤为重要。该数据集仅包含明确指向单一性别的名称，且不含任何模棱两可的语义，这使得它在构建和训练性别分类模型时，成为了一个不可或缺的资源。

衍生相关工作

基于namexact数据集，研究者们可以开展一系列相关的工作，如性别偏见分析、语言模型性别倾向的消除等。该数据集的精确性为性别研究领域的深入探索提供了坚实的基础，并衍生出了一系列具有启发性的研究成果。

数据集最近研究