An Open Dataset of Chinese Name-to-Gender Associations for Gender Prediction in Broad Scientific Research
收藏DataCite Commons2025-01-08 更新2025-04-15 收录
下载链接:
https://dataverse.harvard.edu/citation?persistentId=doi:10.7910/DVN/UAARYY
下载链接
链接失效反馈官方服务:
资源简介:
A novel dataset comprising 1,051,891 names in Chinese characters and 96,797 corresponding names in Pinyin from over thirty million Chinese individuals.
本新型数据集涵盖1,051,891个汉字姓名与96,797条与之对应的汉语拼音(Pinyin)标注姓名,其数据来源于超过三千万中国个体。
提供机构:
Harvard Dataverse
创建时间:
2025-01-04
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个包含超过一百万中文姓名及其性别关联的开放数据集,旨在为广泛的科学研究提供性别预测支持。数据集不仅包含中文字符姓名,还提供了对应的拼音姓名,并按20年为一个出生年代分组,提供了性别预测结果和频率统计。
以上内容由遇见数据集搜集并总结生成



