five

Global Popular Names Dataset|名字研究数据集|文化分析数据集

收藏
github2024-04-27 更新2024-05-31 收录
名字研究
文化分析
下载链接:
https://github.com/axelnt/Global-Popular-Names-Dataset
下载链接
链接失效反馈
资源简介:
全球流行名字数据集包含45,769个独特的名字,分为55个来源。该数据集不包含世界上所有国家,但包含了最知名的国家和一些包含多个国家的其他来源。每个数据集条目包含以下列:名字、性别、来源。该数据集适用于分析不同国家和地区的名字流行度,研究命名趋势、文化对名字的影响以及名字与性别的关联。

The Global Popular Names dataset comprises 45,769 unique names, categorized into 55 sources. While it does not encompass every country globally, it includes the most well-known nations and other sources that cover multiple countries. Each entry in the dataset contains the following columns: name, gender, and source. This dataset is suitable for analyzing the popularity of names across different countries and regions, studying naming trends, the influence of culture on names, and the association between names and gender.
创建时间:
2024-04-27
原始信息汇总

Global Popular Names Dataset 概述

数据集描述

  • 名称: Global Popular Names Dataset
  • 包含内容: 45,769个独特的名字,分为55个起源。
  • 数据集结构:
    • name: 名字本身。
    • gender: 性别标识,包括7种不同的值:
      • M: 男性名字
      • 1M: 若名字的首部分,则为男性名字;否则,表示主要与男性相关的名字。
      • ?M: 主要为男性名字,实质上是中性名字,但更倾向于与男性相关。
      • F: 女性名字
      • 1F: 若名字的首部分,则为女性名字;否则,表示主要与女性相关的名字。
      • ?F: 主要为女性名字,实质上是中性名字,但更倾向于与女性相关。
      • ?: 中性名字,不明显偏向于任何性别。
    • origin: 名字的起源。

数据集来源

  • 原始数据: 来源于Jörg MICHAEL在2007-2008年编制的“List of first names and gender”。
  • 原始数据格式: 文本格式(.txt)。
  • 当前数据格式: CSV格式(.csv)和JSON格式(.json)。

数据集文件

  • 原始数据文件: original_data.txt
  • 转换后的数据文件:
    • global_popular_names.csv
    • global_popular_names.json
    • global_popular_names_min.csv(起源列值缩短)
    • global_popular_names_min.json(起源列值缩短)

数据转换

  • 转换工具: 使用TypeScript编写的脚本,需要Node.js环境。
  • 转换步骤:
    1. 克隆仓库。
    2. 安装依赖。
    3. 运行转换脚本,可选择输入文件路径、输出文件路径、是否缩短起源列值等参数。

联系方式

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Jörg MICHAEL于2007-2008年间编纂的'List of first names and gender',最初以GNU自由文档许可证发布。原始数据集以文本格式存储,后经转换为CSV和JSON格式,以便于处理和分析。数据集包含45,769个独特名字,分类为55个起源,涵盖了多个国家和地区。每个条目包含名字、性别和起源三个字段,性别字段进一步细分为七种不同的值,以反映名字的性别倾向。
特点
该数据集的显著特点在于其广泛的地理覆盖和细致的性别分类。尽管数据集并非涵盖全球所有国家,但它包含了最知名的国家和地区,以及一些包含多个国家的起源。性别字段的七种分类值提供了对名字性别倾向的深入理解,使得数据集在研究命名趋势、文化影响和性别关联方面具有独特的价值。
使用方法
用户可以直接使用提供的CSV和JSON格式文件进行数据分析。若需转换原始数据,可通过提供的TypeScript脚本进行,该脚本支持将数据转换为CSV或JSON格式,并可选择性地缩短起源列的值以减少数据集大小。使用前需确保系统已安装Node.js,并通过npm安装相关依赖。转换过程中,用户可根据需要指定输入文件路径、输出文件路径及是否缩短起源列值。
背景与挑战
背景概述
全球流行名字数据集(Global Popular Names Dataset)是一个包含45,769个独特名字的数据集,这些名字被分类为55个不同的起源。该数据集由Jörg MICHAEL在2007-2008年间编纂,最初以GNU自由文档许可证发布。尽管数据集的年代较为久远,但它仍然为研究不同国家和地区的命名趋势、文化对名字的影响以及性别与名字的关联提供了宝贵的见解。该数据集的核心研究问题集中在名字的流行度、文化多样性及其性别关联性上,对社会学、人类学和语言学等领域具有重要影响。
当前挑战
尽管全球流行名字数据集提供了丰富的名字信息,但其构建和使用过程中仍面临若干挑战。首先,数据集的年代较为久远,可能无法准确反映当前的命名趋势。其次,数据集的原始格式为文本文件,需要转换为CSV或JSON格式以方便处理和分析,这一过程可能引入数据转换错误。此外,数据集中的性别分类较为复杂,包含七种不同的性别标识,这增加了数据处理的复杂性。最后,数据集的起源分类虽然广泛,但并未涵盖全球所有国家,这可能限制了其在某些研究中的应用。
常用场景
经典使用场景
在全球化背景下,Global Popular Names Dataset 为研究者提供了一个独特的视角,以探索不同文化和地区中名字的流行趋势。该数据集的经典使用场景包括分析名字的性别关联、研究名字的文化起源及其在全球范围内的传播,以及探讨名字多样性在不同社会中的表现。通过这些分析,研究者能够揭示名字背后的社会文化动态,并为跨文化交流提供有价值的见解。
实际应用
在实际应用中,Global Popular Names Dataset 具有广泛的应用前景。例如,在人口统计学领域,该数据集可用于分析不同地区的人口结构变化,特别是在移民和跨国婚姻日益增多的背景下。此外,市场营销专家可以利用该数据集来研究消费者偏好,特别是在婴儿用品和儿童教育产品领域。名字研究还可以应用于法律和政策制定,帮助政府和机构更好地理解和管理名字多样性带来的挑战。
衍生相关工作
Global Popular Names Dataset 的发布激发了众多相关研究工作。例如,一些学者利用该数据集开发了名字预测模型,以预测未来名字的流行趋势。此外,该数据集还被用于构建跨文化名字数据库,以支持全球范围内的名字研究。在教育领域,研究人员利用该数据集开发了跨文化名字识别工具,帮助教师和学生更好地理解不同文化背景下的名字含义。这些衍生工作不仅丰富了名字研究的理论框架,还为实际应用提供了新的工具和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

NHANES

NHANES(National Health and Nutrition Examination Survey)是美国国家健康与营养调查的数据集,旨在评估美国人口的健康和营养状况。数据集包括健康检查、实验室测试、问卷调查等多方面的信息。

www.cdc.gov 收录

CCNC

CCNC是一个包含365万姓名样本的大型中文姓名语料库,数据来源于姓名大全和中文人名语料库,经过处理和注音,用于中文姓名研究和实体识别。

github 收录

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

LPW

Labeled Pedestrian in the Wild (LPW) 是一个行人检测数据集,其中包含三个不同场景中的 2,731 名行人,每个带注释的身份由 2 到 4 个摄像头捕获。 LPW 具有 7,694 个轨迹的显着规模,包含超过 590,000 张图像以及轨迹的清洁度。它在三个方面区别于现有数据集:大规模清洁、自动检测边界框以及更拥挤的场景和更大的年龄跨度。该数据集提供了更现实和更具挑战性的基准,有助于进一步探索更强大的算法。

OpenDataLab 收录