five

Global Popular Names Dataset|名字研究数据集|文化分析数据集

收藏
github2024-04-27 更新2024-05-31 收录
名字研究
文化分析
下载链接:
https://github.com/axelnt/Global-Popular-Names-Dataset
下载链接
链接失效反馈
资源简介:
全球流行名字数据集包含45,769个独特的名字,分为55个来源。该数据集不包含世界上所有国家,但包含了最知名的国家和一些包含多个国家的其他来源。每个数据集条目包含以下列:名字、性别、来源。该数据集适用于分析不同国家和地区的名字流行度,研究命名趋势、文化对名字的影响以及名字与性别的关联。

The Global Popular Names dataset comprises 45,769 unique names, categorized into 55 sources. While it does not encompass every country globally, it includes the most well-known nations and other sources that cover multiple countries. Each entry in the dataset contains the following columns: name, gender, and source. This dataset is suitable for analyzing the popularity of names across different countries and regions, studying naming trends, the influence of culture on names, and the association between names and gender.
创建时间:
2024-04-27
原始信息汇总

Global Popular Names Dataset 概述

数据集描述

  • 名称: Global Popular Names Dataset
  • 包含内容: 45,769个独特的名字,分为55个起源。
  • 数据集结构:
    • name: 名字本身。
    • gender: 性别标识,包括7种不同的值:
      • M: 男性名字
      • 1M: 若名字的首部分,则为男性名字;否则,表示主要与男性相关的名字。
      • ?M: 主要为男性名字,实质上是中性名字,但更倾向于与男性相关。
      • F: 女性名字
      • 1F: 若名字的首部分,则为女性名字;否则,表示主要与女性相关的名字。
      • ?F: 主要为女性名字,实质上是中性名字,但更倾向于与女性相关。
      • ?: 中性名字,不明显偏向于任何性别。
    • origin: 名字的起源。

数据集来源

  • 原始数据: 来源于Jörg MICHAEL在2007-2008年编制的“List of first names and gender”。
  • 原始数据格式: 文本格式(.txt)。
  • 当前数据格式: CSV格式(.csv)和JSON格式(.json)。

数据集文件

  • 原始数据文件: original_data.txt
  • 转换后的数据文件:
    • global_popular_names.csv
    • global_popular_names.json
    • global_popular_names_min.csv(起源列值缩短)
    • global_popular_names_min.json(起源列值缩短)

数据转换

  • 转换工具: 使用TypeScript编写的脚本,需要Node.js环境。
  • 转换步骤:
    1. 克隆仓库。
    2. 安装依赖。
    3. 运行转换脚本,可选择输入文件路径、输出文件路径、是否缩短起源列值等参数。

联系方式

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Jörg MICHAEL于2007-2008年间编纂的'List of first names and gender',最初以GNU自由文档许可证发布。原始数据集以文本格式存储,后经转换为CSV和JSON格式,以便于处理和分析。数据集包含45,769个独特名字,分类为55个起源,涵盖了多个国家和地区。每个条目包含名字、性别和起源三个字段,性别字段进一步细分为七种不同的值,以反映名字的性别倾向。
特点
该数据集的显著特点在于其广泛的地理覆盖和细致的性别分类。尽管数据集并非涵盖全球所有国家,但它包含了最知名的国家和地区,以及一些包含多个国家的起源。性别字段的七种分类值提供了对名字性别倾向的深入理解,使得数据集在研究命名趋势、文化影响和性别关联方面具有独特的价值。
使用方法
用户可以直接使用提供的CSV和JSON格式文件进行数据分析。若需转换原始数据,可通过提供的TypeScript脚本进行,该脚本支持将数据转换为CSV或JSON格式,并可选择性地缩短起源列的值以减少数据集大小。使用前需确保系统已安装Node.js,并通过npm安装相关依赖。转换过程中,用户可根据需要指定输入文件路径、输出文件路径及是否缩短起源列值。
背景与挑战
背景概述
全球流行名字数据集(Global Popular Names Dataset)是一个包含45,769个独特名字的数据集,这些名字被分类为55个不同的起源。该数据集由Jörg MICHAEL在2007-2008年间编纂,最初以GNU自由文档许可证发布。尽管数据集的年代较为久远,但它仍然为研究不同国家和地区的命名趋势、文化对名字的影响以及性别与名字的关联提供了宝贵的见解。该数据集的核心研究问题集中在名字的流行度、文化多样性及其性别关联性上,对社会学、人类学和语言学等领域具有重要影响。
当前挑战
尽管全球流行名字数据集提供了丰富的名字信息,但其构建和使用过程中仍面临若干挑战。首先,数据集的年代较为久远,可能无法准确反映当前的命名趋势。其次,数据集的原始格式为文本文件,需要转换为CSV或JSON格式以方便处理和分析,这一过程可能引入数据转换错误。此外,数据集中的性别分类较为复杂,包含七种不同的性别标识,这增加了数据处理的复杂性。最后,数据集的起源分类虽然广泛,但并未涵盖全球所有国家,这可能限制了其在某些研究中的应用。
常用场景
经典使用场景
在全球化背景下,Global Popular Names Dataset 为研究者提供了一个独特的视角,以探索不同文化和地区中名字的流行趋势。该数据集的经典使用场景包括分析名字的性别关联、研究名字的文化起源及其在全球范围内的传播,以及探讨名字多样性在不同社会中的表现。通过这些分析,研究者能够揭示名字背后的社会文化动态,并为跨文化交流提供有价值的见解。
实际应用
在实际应用中,Global Popular Names Dataset 具有广泛的应用前景。例如,在人口统计学领域,该数据集可用于分析不同地区的人口结构变化,特别是在移民和跨国婚姻日益增多的背景下。此外,市场营销专家可以利用该数据集来研究消费者偏好,特别是在婴儿用品和儿童教育产品领域。名字研究还可以应用于法律和政策制定,帮助政府和机构更好地理解和管理名字多样性带来的挑战。
衍生相关工作
Global Popular Names Dataset 的发布激发了众多相关研究工作。例如,一些学者利用该数据集开发了名字预测模型,以预测未来名字的流行趋势。此外,该数据集还被用于构建跨文化名字数据库,以支持全球范围内的名字研究。在教育领域,研究人员利用该数据集开发了跨文化名字识别工具,帮助教师和学生更好地理解不同文化背景下的名字含义。这些衍生工作不仅丰富了名字研究的理论框架,还为实际应用提供了新的工具和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

BC-MRI-SEG

BC-MRI-SEG是一个专注于乳腺癌MRI肿瘤分割的基准数据集,由中佛罗里达大学计算机视觉研究中心创建。该数据集整合了四个公开的MRI数据集,包括RIDER、ISPY1、BreastDM和DUKE,总计包含1320名患者的数据。这些数据集在MRI扫描仪的使用、配置及数据处理方法上各有不同,提供了多样化的数据来源。数据集的创建旨在解决医学影像领域中标记数据缺乏的问题,并推动开发适用于临床环境的稳健且适应性强的模型。BC-MRI-SEG的应用领域主要集中在乳腺癌的诊断和治疗评估,通过深度学习方法提高肿瘤分割的准确性和效率。

arXiv 收录

CBIS-DDSM

该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录