the-economist-baby-names|婴儿名字数据集|社会统计数据集

github2025-03-24 更新2025-03-25 收录

婴儿名字

社会统计

下载链接：

https://github.com/TheEconomist/the-economist-baby-names

下载链接

链接失效反馈

资源简介：

该数据集包含了美国和英国过去143年的婴儿名字数据，分析了名字的流行度、多样性以及特定含义的演变。数据集包括名字、性别、出现次数、年份、每年总出生数、每年百分比、名字字符数、五个主要含义、缺失数据标志、原始含义文本以及多个广泛含义类别（如智力、美丽、力量、财富、爱、快乐、宗教和传统）。

创建时间：

2025-03-20

原始信息汇总

数据集概述

数据集名称

Whats in a name?

数据集内容

包含美国和英国过去143年婴儿名字趋势分析的R脚本。
分析名字的流行度、多样性及特定含义的演变。
通过可视化和统计指标展示文化变迁。

数据来源

SSA Baby Names（美国数据）
ONS Data（英国数据）
ChatGPT4（用于含义分析）
Word2Vec（用于含义的维度映射）

数据文件

美国数据

文件路径：output-data/us_names_with_popularity_and_connotations.csv
时间范围：1880–2023年
列描述：
- name：名字
- sex：性别（M为男性，F为女性）
- n：该年份中名字的出现次数
- year：记录年份
- per_year：该年份的总出生人数
- percent_per_year：名字出现次数占总出生人数的百分比
- nchar：名字的字符数
- connotation_1到connotation_5：名字的五个主要含义
- flag：布尔值，表示是否缺少任何含义数据
- connotation_raw：原始含义文本
- intelligence到tradition：布尔列，表示名字是否与特定含义类别相关

英国数据

文件路径：output-data/uk_names_with_popularity_and_connotations.csv
时间范围：1996–2023年

含义分析

通过OpenAI的API调用ChatGPT4获取名字的五个主要含义。
含义类别通过手动和LLM识别同义词定义。

注意事项

美国数据仅包含每年出现五次及以上的名字。
英国数据仅包含每年出现三次及以上的名字。
名字的含义可能随时间变化，使用时需谨慎。

联系方式

Sondre Solstad：sondresolstad@economist.com

引用建议

The Economist and Solstad, S. (corresponding author), 2025. Whats in a name? [online] The Economist. Available at: www.economist.com/interactive/culture/2025/03/20/what-is-in-a-name. First published in the article "The importance of being Earnest", The Economist, March 20th, 2025.

AI搜集汇总

数据集介绍

构建方式

在社会科学与文化研究领域，姓名演变往往折射出深刻的社会变迁。该数据集通过系统采集美国社会保障总署(SSA)和英国国家统计局(ONS)的官方数据，构建了横跨143年的英美新生儿姓名数据库。研究团队采用自动化脚本整合原始数据，并创新性地引入ChatGPT4进行语义分析，通过API调用获取每个姓名对应的五大内涵特征。为确保数据质量，团队设置了完整性校验标志，并建立包含智力、美丽、力量等8个维度的分类体系，通过人工与大语言模型协同完成特征标注。

特点

作为跨文化研究的珍贵样本，该数据集最显著的特点是实现了量化分析与语义特征的有机融合。除包含姓名、性别、年份、出现频次等基础字段外，独创性地引入内涵特征维度，通过词向量技术构建语义空间映射。数据集采用双重质量控制机制，既保留原始语义文本，又提供结构化特征标签，支持从社会语言学、文化传播学等多角度研究。特别值得注意的是，数据涵盖美国1880-2023年及英国1996-2023年的完整记录，为纵向比较研究提供了理想素材。

使用方法

研究者可通过R语言生态体系充分发挥该数据集的价值。配套分析脚本提供从数据清洗到可视化的一站式解决方案，特别适合开展命名趋势的时空分析。利用Jensen-Shannon距离和赫芬达尔指数等指标，可量化评估姓名多样性的演变规律。内涵特征矩阵支持构建复杂的社会语义网络，配合时间序列分析能有效追踪文化价值取向的变迁。需要注意的是，由于数据采集存在最低频次阈值，进行小样本研究时应考虑数据覆盖度问题。所有分析脚本均遵循模块化设计原则，便于研究者根据具体需求进行定制化调整。

背景与挑战

背景概述

《经济学家》婴儿名字数据集由《经济学家》杂志及其研究员Sondre Solstad于2025年创建，旨在通过量化分析揭示美英两国143年来婴儿命名趋势背后的社会文化演变。该数据集整合了美国社会安全管理局（1880-2023）和英国国家统计局（1996-2023）的官方数据，创新性地引入自然语言处理技术，通过ChatGPT4生成名字的语义联想标签（如智慧、美丽等），并采用Jensen-Shannon距离、赫芬达尔指数等计量方法追踪命名多样性变化。作为首个将大规模历史人口数据与AI语义分析相结合的研究，该数据集为社会学、文化传播学提供了研究命名文化嬗变与价值观变迁的重要实证基础。

当前挑战

该数据集面临双重挑战：在研究层面，名字语义联想的时效性偏差构成核心难题——当代AI对历史名字的语义标注可能无法准确反映其原始文化内涵，特别是'传统''宗教'等随时间演变的抽象概念。在构建层面，数据覆盖度受官方统计阈值限制（美国年使用量<5次、英国<3次的名字被剔除），导致边缘文化群体的命名特征可能被系统性忽略；此外，基于大语言模型的语义标注存在主观性风险，尽管研究者通过人工校验定义概念组别，但标签生成过程仍依赖模型对开放式问题的非确定性回答。

常用场景

经典使用场景

在社会科学与文化研究领域，the-economist-baby-names数据集为分析命名趋势提供了丰富素材。研究者通过该数据集能够追踪美英两国143年间婴儿命名习惯的演变，揭示文化价值观与社会变迁的深层联系。命名多样性指标与语义联想分析相结合，为文化传播研究提供了量化依据。

衍生相关工作

基于该数据集衍生的经典研究包括《命名语义与社会阶层相关性分析》，该工作建立了命名联想特征与社会经济地位的映射模型。另有学者开发了Name2Vec算法，将命名语义特征嵌入向量空间，支持跨文化命名比较。近期研究则聚焦命名趋势预测模型的构建，结合深度学习提升文化演变预测准确率。

数据集最近研究

最新研究方向

近年来，the-economist-baby-names数据集在社会科学和计算语言学领域引起了广泛关注。该数据集通过分析美国和英国143年来的婴儿命名趋势，揭示了文化变迁与社会价值观的演变。前沿研究主要集中在利用自然语言处理技术挖掘名字背后的隐含意义，例如通过ChatGPT4生成的名字内涵标签，探讨性别、社会阶层和文化认同的关联性。热点方向包括名字多样性的量化分析，以及名字内涵与社会经济指标的相关性研究。这些研究为理解文化传播、社会流动性以及群体身份认同提供了新的数据支持，具有重要的学术价值和社会意义。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

围岩和掘进工况识别建模数据集

围岩和掘进工况识别建模数据集以操作参数掘进优化决策建模数据集为基础，结合地质勘探信息和围岩台账，基于关键特征进行数据转换融合，选取能反映开挖围岩困难，可作为TBM的开挖负荷的刀盘扭矩和总推进力；选取能表明不同围岩下TBM开挖效率的掘进速度和刀盘转速；以桩号为基准确定各掘进循环的围岩岩性，构成数据集特征空间。

国家基础学科公共科学数据中心收录

MeSH

MeSH（医学主题词表）是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念，用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息，广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

中国逐日格点降水数据集V2（1960–2024，0.1°）

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据，并纳入11个降水相关变量，用于表征降水的相关性。数据集采用改进的反距离加权方法，并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集（包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS）表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证，发现该数据集显著提高了降水测量精度，降低了降水事件的高估，为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据，覆盖整个中国大陆（18°N–54°N，72°E–136°E）。该数据集涵盖1960–2024年，并将每年持续更新。日值数据以NetCDF格式提供，为了方便用户，我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录