Persian Gender Detection by Name

github2025-03-01 更新2025-02-11 收录

下载链接：

https://github.com/farbodbj/persian-gender-by-name

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于根据波斯名字确定性别的综合数据集，包含大约27,000个条目，每个条目包括一个波斯名字、相应的性别和英文转写。

A comprehensive dataset for gender determination from Persian given names, containing approximately 27,000 entries. Each entry includes a Persian name, its corresponding gender, and an English transliteration of the name.

创建时间：

2025-02-06

原始信息汇总

Persian Gender Detection by Name 数据集概述

概览

Persian Gender Detection by Name 数据集是一个用于根据波斯语姓名判断性别的全面数据集，包含约 27,000 条记录。每条记录包括一个波斯语姓名、相应的性别以及英文转写。此数据集旨在促进准确的性别检测并通过多种姓名表示形式增强可搜索性。

特点

数据丰富：约27,000个姓名-性别-英文元组。
多种表示：每个姓名的多种拼写和格式，以提高搜索灵活性。
高质量：从可靠来源汇总并经过精心手工清洗以确保准确性。
可扩展：计划在未来加入更多姓名和数据源。

数据来源

此数据集从以下主要来源汇总信息：

此外，还抓取和手工清洗了补充数据，以确保一致性和完整性。

数据结构

数据集以CSV格式组织，包含以下列：

Name：波斯语姓名。
Gender：分配的性别（例如，男，女）。
English Representation：波斯语姓名的转写版本。

示例：

Name	Gender	English Representation
علی	M	Ali
زهرا	F	Zahra

用途

此数据集适合用于：

基于波斯语姓名开发性别预测模型。
语言学、性别研究及自然语言处理领域的学术研究。
通过多语言姓名表示增强搜索算法。

未来改进

未来的更新将专注于：

扩展数据集，加入更多姓名和性别关联。
引入更多样化的来源，覆盖更广泛的姓名。
通过持续清洗和验证过程提高数据质量。

引用

@dataset{bijary_persian_gender_by_name_2024, author = {Farbod Bijary}, title = {Persian Gender Detection by Name}, year = {2024}, publisher = {Hugging Face}, license = {Apache-2.0}, url = {https://huggingface.co/datasets/farbodbij/persian-gender-by-name}, }

搜集汇总

数据集介绍

构建方式

Persian Gender Detection by Name数据集的构建，是通过聚合伊朗名字数据库、Kaggle平台上的相关数据集，以及额外的补充数据源，经人工清洗和校验以确保数据质量与一致性。该数据集包含约27,000个条目，每个条目由波斯语名字、对应性别以及英文转写构成，旨在提供性别检测的准确性并增强搜索的灵活性。

特点

该数据集的特点在于其广泛性、多表示性、高质量和可扩展性。它不仅包含了大量的名字-性别-英文三元组，而且提供了每个名字的不同拼写和格式，以便于提高搜索的灵活性。数据集经过仔细的手动清洗，保证了高准确度，并计划在未来纳入更多名字和数据源以进一步扩充。

使用方法

使用Persian Gender Detection by Name数据集，研究者可以开发基于波斯名字的性别预测模型，进行语言学、性别研究以及自然语言处理领域的学术研究，或改进支持多语言名字表示的搜索算法。数据集以CSV格式组织，用户可以直接加载并应用于相关的研究和开发工作。

背景与挑战

背景概述

在计算机科学和人文学科的交叉领域，性别识别研究逐渐成为热点话题。 Persia Gender Detection by Name数据集，创建于2024年，由Farbod Bijary主导，旨在解决基于波斯姓名的性别识别问题。该数据集汇集了约27,000个姓名、性别及英文化对应的条目，不仅为性别预测模型的开发提供了坚实基础，而且对于语言学、性别研究以及自然语言处理等学术领域具有显著的推动作用。

当前挑战

数据集构建过程中，研究人员面临了诸多挑战。首先，波斯姓名的多样性和复杂性为数据收集与分类带来了困难。其次，确保数据的质量与一致性，特别是多名称表述和英语转写的一致性，是数据清洗和验证过程中的关键挑战。此外，数据集的扩展性和覆盖范围的提升，也对未来工作提出了更高的要求。

常用场景

经典使用场景

在性别识别研究领域，Persian Gender Detection by Name数据集以其庞大的数据量及多元的名称表述，成为构建和训练性别预测模型的基础资源。该数据集通过提供27,000个包含波斯语姓名、性别及英文字母转写的条目，使得研究者能够开发出更为精确的性别检测算法，同时通过不同的名称表述增强了搜索的灵活性。

衍生相关工作

基于该数据集，已经衍生出多项相关工作，包括构建性别预测模型、进行性别与姓名文化关联性的深入研究，以及开发多语言姓名处理工具等。这些工作进一步扩展了数据集的应用范围，并在学术界和工业界产生了广泛的影响。

数据集最近研究