the-economist-baby-names|婴儿名字数据集|社会统计数据集
收藏数据集概述
数据集名称
Whats in a name?
数据集内容
- 包含美国和英国过去143年婴儿名字趋势分析的R脚本。
- 分析名字的流行度、多样性及特定含义的演变。
- 通过可视化和统计指标展示文化变迁。
数据来源
- SSA Baby Names(美国数据)
- ONS Data(英国数据)
- ChatGPT4(用于含义分析)
- Word2Vec(用于含义的维度映射)
数据文件
美国数据
- 文件路径:
output-data/us_names_with_popularity_and_connotations.csv
- 时间范围:1880–2023年
- 列描述:
name
:名字sex
:性别(M为男性,F为女性)n
:该年份中名字的出现次数year
:记录年份per_year
:该年份的总出生人数percent_per_year
:名字出现次数占总出生人数的百分比nchar
:名字的字符数connotation_1
到connotation_5
:名字的五个主要含义flag
:布尔值,表示是否缺少任何含义数据connotation_raw
:原始含义文本intelligence
到tradition
:布尔列,表示名字是否与特定含义类别相关
英国数据
- 文件路径:
output-data/uk_names_with_popularity_and_connotations.csv
- 时间范围:1996–2023年
含义分析
- 通过OpenAI的API调用ChatGPT4获取名字的五个主要含义。
- 含义类别通过手动和LLM识别同义词定义。
注意事项
- 美国数据仅包含每年出现五次及以上的名字。
- 英国数据仅包含每年出现三次及以上的名字。
- 名字的含义可能随时间变化,使用时需谨慎。
联系方式
- Sondre Solstad:sondresolstad@economist.com
引用建议
The Economist and Solstad, S. (corresponding author), 2025. Whats in a name? [online] The Economist. Available at: www.economist.com/interactive/culture/2025/03/20/what-is-in-a-name. First published in the article "The importance of being Earnest", The Economist, March 20th, 2025.

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
围岩和掘进工况识别建模数据集
围岩和掘进工况识别建模数据集以操作参数掘进优化决策建模数据集为基础,结合地质勘探信息和围岩台账,基于关键特征进行数据转换融合,选取能反映开挖围岩困难,可作为TBM的开挖负荷的刀盘扭矩和总推进力;选取能表明不同围岩下TBM开挖效率的掘进速度和刀盘转速;以桩号为基准确定各掘进循环的围岩岩性,构成数据集特征空间。
国家基础学科公共科学数据中心 收录
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
中国逐日格点降水数据集V2(1960–2024,0.1°)
CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。
国家青藏高原科学数据中心 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录