five

the-economist-baby-names|婴儿名字数据集|社会统计数据集

收藏
github2025-03-24 更新2025-03-25 收录
婴儿名字
社会统计
下载链接:
https://github.com/TheEconomist/the-economist-baby-names
下载链接
链接失效反馈
资源简介:
该数据集包含了美国和英国过去143年的婴儿名字数据,分析了名字的流行度、多样性以及特定含义的演变。数据集包括名字、性别、出现次数、年份、每年总出生数、每年百分比、名字字符数、五个主要含义、缺失数据标志、原始含义文本以及多个广泛含义类别(如智力、美丽、力量、财富、爱、快乐、宗教和传统)。
创建时间:
2025-03-20
原始信息汇总

数据集概述

数据集名称

Whats in a name?

数据集内容

  • 包含美国和英国过去143年婴儿名字趋势分析的R脚本。
  • 分析名字的流行度、多样性及特定含义的演变。
  • 通过可视化和统计指标展示文化变迁。

数据来源

  • SSA Baby Names(美国数据)
  • ONS Data(英国数据)
  • ChatGPT4(用于含义分析)
  • Word2Vec(用于含义的维度映射)

数据文件

美国数据

  • 文件路径:output-data/us_names_with_popularity_and_connotations.csv
  • 时间范围:1880–2023年
  • 列描述:
    • name:名字
    • sex:性别(M为男性,F为女性)
    • n:该年份中名字的出现次数
    • year:记录年份
    • per_year:该年份的总出生人数
    • percent_per_year:名字出现次数占总出生人数的百分比
    • nchar:名字的字符数
    • connotation_1connotation_5:名字的五个主要含义
    • flag:布尔值,表示是否缺少任何含义数据
    • connotation_raw:原始含义文本
    • intelligencetradition:布尔列,表示名字是否与特定含义类别相关

英国数据

  • 文件路径:output-data/uk_names_with_popularity_and_connotations.csv
  • 时间范围:1996–2023年

含义分析

  • 通过OpenAI的API调用ChatGPT4获取名字的五个主要含义。
  • 含义类别通过手动和LLM识别同义词定义。

注意事项

  • 美国数据仅包含每年出现五次及以上的名字。
  • 英国数据仅包含每年出现三次及以上的名字。
  • 名字的含义可能随时间变化,使用时需谨慎。

联系方式

引用建议

The Economist and Solstad, S. (corresponding author), 2025. Whats in a name? [online] The Economist. Available at: www.economist.com/interactive/culture/2025/03/20/what-is-in-a-name. First published in the article "The importance of being Earnest", The Economist, March 20th, 2025.

AI搜集汇总
数据集介绍
main_image_url
构建方式
在社会科学与文化研究领域,姓名演变往往折射出深刻的社会变迁。该数据集通过系统采集美国社会保障总署(SSA)和英国国家统计局(ONS)的官方数据,构建了横跨143年的英美新生儿姓名数据库。研究团队采用自动化脚本整合原始数据,并创新性地引入ChatGPT4进行语义分析,通过API调用获取每个姓名对应的五大内涵特征。为确保数据质量,团队设置了完整性校验标志,并建立包含智力、美丽、力量等8个维度的分类体系,通过人工与大语言模型协同完成特征标注。
特点
作为跨文化研究的珍贵样本,该数据集最显著的特点是实现了量化分析与语义特征的有机融合。除包含姓名、性别、年份、出现频次等基础字段外,独创性地引入内涵特征维度,通过词向量技术构建语义空间映射。数据集采用双重质量控制机制,既保留原始语义文本,又提供结构化特征标签,支持从社会语言学、文化传播学等多角度研究。特别值得注意的是,数据涵盖美国1880-2023年及英国1996-2023年的完整记录,为纵向比较研究提供了理想素材。
使用方法
研究者可通过R语言生态体系充分发挥该数据集的价值。配套分析脚本提供从数据清洗到可视化的一站式解决方案,特别适合开展命名趋势的时空分析。利用Jensen-Shannon距离和赫芬达尔指数等指标,可量化评估姓名多样性的演变规律。内涵特征矩阵支持构建复杂的社会语义网络,配合时间序列分析能有效追踪文化价值取向的变迁。需要注意的是,由于数据采集存在最低频次阈值,进行小样本研究时应考虑数据覆盖度问题。所有分析脚本均遵循模块化设计原则,便于研究者根据具体需求进行定制化调整。
背景与挑战
背景概述
《经济学家》婴儿名字数据集由《经济学家》杂志及其研究员Sondre Solstad于2025年创建,旨在通过量化分析揭示美英两国143年来婴儿命名趋势背后的社会文化演变。该数据集整合了美国社会安全管理局(1880-2023)和英国国家统计局(1996-2023)的官方数据,创新性地引入自然语言处理技术,通过ChatGPT4生成名字的语义联想标签(如智慧、美丽等),并采用Jensen-Shannon距离、赫芬达尔指数等计量方法追踪命名多样性变化。作为首个将大规模历史人口数据与AI语义分析相结合的研究,该数据集为社会学、文化传播学提供了研究命名文化嬗变与价值观变迁的重要实证基础。
当前挑战
该数据集面临双重挑战:在研究层面,名字语义联想的时效性偏差构成核心难题——当代AI对历史名字的语义标注可能无法准确反映其原始文化内涵,特别是'传统''宗教'等随时间演变的抽象概念。在构建层面,数据覆盖度受官方统计阈值限制(美国年使用量<5次、英国<3次的名字被剔除),导致边缘文化群体的命名特征可能被系统性忽略;此外,基于大语言模型的语义标注存在主观性风险,尽管研究者通过人工校验定义概念组别,但标签生成过程仍依赖模型对开放式问题的非确定性回答。
常用场景
经典使用场景
在社会科学与文化研究领域,the-economist-baby-names数据集为分析命名趋势提供了丰富素材。研究者通过该数据集能够追踪美英两国143年间婴儿命名习惯的演变,揭示文化价值观与社会变迁的深层联系。命名多样性指标与语义联想分析相结合,为文化传播研究提供了量化依据。
衍生相关工作
基于该数据集衍生的经典研究包括《命名语义与社会阶层相关性分析》,该工作建立了命名联想特征与社会经济地位的映射模型。另有学者开发了Name2Vec算法,将命名语义特征嵌入向量空间,支持跨文化命名比较。近期研究则聚焦命名趋势预测模型的构建,结合深度学习提升文化演变预测准确率。
数据集最近研究
最新研究方向
近年来,the-economist-baby-names数据集在社会科学和计算语言学领域引起了广泛关注。该数据集通过分析美国和英国143年来的婴儿命名趋势,揭示了文化变迁与社会价值观的演变。前沿研究主要集中在利用自然语言处理技术挖掘名字背后的隐含意义,例如通过ChatGPT4生成的名字内涵标签,探讨性别、社会阶层和文化认同的关联性。热点方向包括名字多样性的量化分析,以及名字内涵与社会经济指标的相关性研究。这些研究为理解文化传播、社会流动性以及群体身份认同提供了新的数据支持,具有重要的学术价值和社会意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Population and Housing Census of 2007 - Ethiopia

Geographic coverage --------------------------- National coverage Analysis unit --------------------------- Household Person Housing unit Universe --------------------------- The census has counted people on dejure and defacto basis. The dejure population comprises all the persons who belong to a given area at a given time by virtue of usual residence, while under defacto approach people were counted as the residents of the place where they found. In the census, a person is said to be a usual resident of a household (and hence an area) if he/she has been residing in the household continuously for at least six months before the census day or intends to reside in the household for six months or longer. Thus, visitors are not included with the usual (dejure) population. Homeless persons were enumerated in the place where they spent the night on the enumeration day. The 2007 census counted foreign nationals who were residing in the city administration. On the other hand all Ethiopians living abroad were not counted. Kind of data --------------------------- Census/enumeration data [cen] Mode of data collection --------------------------- Face-to-face [f2f] Research instrument --------------------------- Two type sof questionnaires were used to collect census data: i) Short questionnaire ii) Long questionnaire Unlike the previous censuses, the contents of the short and long questionnaires were similar both for the urban and rural areas as well as for the entire city. But the short and the long questionnaires differ by the number of variables they contained. That is, the short questionnaire was used to collect basic data on population characteristics, such as population size, sex, age, language, ethnic group, religion, orphanhood and disability. Whereas the long questionnaire includes information on marital status, education, economic activity, migration, fertility, mortality, as well as housing stocks and conditions in addition to those questions contained in a short questionnaire.

catalog.ihsn.org 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录