PNGT-26K
收藏arXiv2025-09-14 更新2025-09-17 收录
下载链接:
https://huggingface.co/datasets/farbodbij/persian-gender-by-name
下载链接
链接失效反馈官方服务:
资源简介:
PNGT-26K是一个包含约26,000个波斯名字、它们通常相关的性别以及它们的英文音译的全面数据集。该数据集旨在解决波斯名字在自然语言处理应用中,尤其是在性别检测和数字身份创建方面的独特挑战。波斯语由于其音译不一致和文化特定的命名模式,对自然语言处理应用提出了独特的挑战。现有的工具在处理波斯名字时性能显著下降,而全面数据集的稀缺性进一步加剧了这些限制。PNGT-26K数据集通过系统地收集波斯名字的音译变体,旨在解决音译瓶颈问题。数据集可用于开发更公平的自然语言处理工具,并支持性别检测和用户名生成等应用。
PNGT-26K is a comprehensive dataset containing approximately 26,000 Persian given names, their typically associated genders, and their English transliterations. This dataset aims to address the unique challenges posed by Persian names in natural language processing (NLP) applications, particularly in gender detection and digital identity creation. The Persian language poses unique challenges to NLP applications due to inconsistent transliteration practices and culture-specific naming conventions. Existing tools experience significant performance degradation when processing Persian names, and the scarcity of comprehensive datasets further exacerbates these limitations. The PNGT-26K dataset aims to resolve the transliteration bottleneck by systematically collecting transliteration variants of Persian names. This dataset can be used to develop more equitable NLP tools and support applications such as gender detection and username generation.
提供机构:
阿米尔卡比尔理工大学计算机工程系
创建时间:
2025-09-14
原始信息汇总
Persian Gender Detection by Name 数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 波斯语 (fa)、英语 (en)
- 名称: Persian Gender Detection by Name
- 规模: 10K<n<100K(约27,000条条目)
数据集描述
该数据集是同类中最大的波斯语姓名性别检测数据集,包含约27,000条条目。每条条目包括波斯语姓名、对应性别及英语音译,旨在促进准确的性别检测并通过多种姓名表示增强可搜索性。
主要特征
- 广泛数据: 约27,000个姓名-性别-英语元组
- 多重表示: 每个姓名有多种拼写和格式以提高搜索灵活性
- 高质量: 从可靠来源汇总并经过精心手工清理以确保准确性
- 可扩展: 计划未来纳入更多姓名和数据源
数据来源
- Iranian Names Database By Gender (https://github.com/nikahd99/iranian-Names-Database-By-Gender)
- Persian Names Gender Dataset on Kaggle (https://www.kaggle.com/datasets/misssahar75/persian-names-gender)
- Persian Names with Gender and Transliteration Data (https://www.kaggle.com/datasets/titanz123/persian-names)
- 额外补充数据通过抓取和手动清理以确保一致性和完整性
数据结构
数据集采用CSV格式,包含以下列:
- Name: 波斯语姓名
- Gender: 指定性别(例如:M、F)
- English Representation: 波斯语姓名的音译版本
示例:
| Name | Gender | English Representation |
|---|---|---|
| علی | M | Ali |
| زهرا | F | Zahra |
用途
- 基于波斯语姓名开发性别预测模型
- 语言学、性别研究和自然语言处理领域的学术研究
- 通过多语言姓名表示增强搜索算法
未来增强计划
- 扩展数据集,增加更多姓名和性别关联
- 纳入更多多样化来源以覆盖更广泛的姓名范围
- 通过持续清理和验证流程完善数据质量
引用
@dataset{bijary_persian_gender_by_name_2024, author = {Farbod Bijary}, title = {Persian Gender Detection by Name}, year = {2024}, publisher = {Hugging Face}, license = {Apache-2.0}, url = {https://huggingface.co/datasets/farbodbij/persian-gender-by-name}, }
致谢
感谢原始数据集的贡献者以及协助数据汇总和清理的人员。
搜集汇总
数据集介绍

构建方式
PNGT-26K数据集的构建采用了多源数据整合与系统化验证的方法。研究团队从Kaggle和GitHub等平台筛选了三个波斯语姓名数据集(iranian-Names-Database-By-Gender、persian-names和persian-names-gender),通过随机抽样和母语者人工验证确保数据质量。利用Hazm库进行波斯语字符标准化处理,解决Unicode多表示问题,并通过DeepSeek-R1-Distill-Qwen-32B大模型标注潜在错误条目,最终合并去重并人工修正,形成包含约26,000条姓名-性别-音译三元组的高质量数据集。
使用方法
数据集可直接应用于跨文化NLP研究与系统开发。通过标准化接口加载数据后,可利用字符串相似度算法(如归一化Levenshtein距离)进行姓名匹配与性别推断;也可作为训练数据用于构建深度学习模型,学习波斯语姓名的形态学特征。其模块化设计支持替换为其他语言数据集,便于扩展至多语言场景。
背景与挑战
背景概述
波斯语命名体系在自然语言处理领域长期面临独特挑战,其复杂的音韵结构和文化特异性导致传统性别检测工具准确率不足82%。2025年,阿米尔卡比尔理工大学的Farbod Bijary与Mohsen Ebadpour团队联合发布了PNGT-26K数据集,该资源包含2.6万个波斯语姓名及其性别标签与英文转写,旨在解决波斯语数字身份识别中的转写标准化与数据稀缺问题。该数据集通过系统化整合多个开源数据源,并采用本地化大语言模型辅助校验,显著提升了波斯语NLP应用的跨文化适应性,为中东地区语言技术发展提供了重要基础支撑。
当前挑战
波斯语姓名处理存在双重挑战:领域层面需解决非拉丁文字转写歧义导致的性别识别偏差,例如单个波斯姓名可能对应十余种合法英文拼写变体;构建过程需克服 Unicode 字符多重表示引发的数据重复,以及文化特定命名模式(如男性姓名复合构词)造成的性别分布失衡。此外,现有公开资源规模有限且缺乏系统化转写规范,需通过多源数据融合与本土语言专家验证确保数据质量。
常用场景
经典使用场景
在自然语言处理领域,PNGT-26K数据集为波斯语姓名性别识别任务提供了重要支撑。该数据集通过系统化收集约2.6万个波斯语姓名及其性别标签和英文转写形式,成为训练和评估性别分类模型的基准资源。研究者可利用该数据集开发基于字符级机器学习模型,通过分析姓名后缀、前缀等形态特征来提升波斯语性别检测的准确率,有效弥补了非西方姓名处理的技术短板。
解决学术问题
该数据集显著缓解了波斯语自然语言处理中的转写不一致性和数据稀缺性问题。通过提供标准化转写方案和大规模标注数据,解决了传统方法在波斯姓名处理中因转写变体导致的性能下降问题。其意义在于建立了首个公开的大规模波斯姓名资源库,为开发跨文化公平的NLP工具提供了数据基础,推动了计算语言学在低资源语言领域的算法公平性研究。
实际应用
在实际应用层面,PNGT-26K支撑了多模态性别检测系统的开发,可集成到社交媒体平台和数字身份管理系统中。基于该数据集构建的Open Gender Detection框架能够结合用户档案图片和姓名信息进行概率性别预测,显著提升了波斯语用户群体的服务体验。同时为跨国企业的人力资源管理和市场分析提供了可靠的波斯语姓名处理工具。
数据集最近研究
最新研究方向
在自然语言处理领域,波斯语姓名因独特的文化特征和转写不一致性长期面临技术挑战。PNGT-26K数据集的发布推动了多模态性别检测与智能数字身份生成的前沿研究。当前研究聚焦于融合姓名文本与视觉特征的跨模态推理框架,通过结合CLIP视觉编码与归一化编辑距离算法,显著提升了非拉丁语系姓别的检测精度。同时,基于智能体架构的用户名生成系统正成为数字人类学研究热点,其通过规则转换与大语言模型创造性生成的混合机制,为跨文化语境下的数字身份构建提供了新范式。这些进展不仅弥补了波斯语NLP资源缺口,更为全球多语言环境的公平算法设计提供了重要参考。
相关研究论文
- 1Agentic Username Suggestion and Multimodal Gender Detection in Online Platforms: Introducing the PNGT-26K Dataset阿米尔卡比尔理工大学计算机工程系 · 2025年
以上内容由遇见数据集搜集并总结生成



