five

Baby Names in The USA from 1880 to 2022|名字趋势数据集|文化研究数据集

收藏
github2023-07-18 更新2024-05-31 收录
名字趋势
文化研究
下载链接:
https://github.com/acohenstat/datasets
下载链接
链接失效反馈
资源简介:
该数据集包含从1880年到2022年的近200万个名字,由美国社会保障局提供。包含以下变量:年份、性别、名字、当年该性别下名为name的婴儿数量。

This dataset comprises nearly 2 million names from 1880 to 2022, provided by the United States Social Security Administration. It includes the following variables: year, gender, name, and the number of babies of that gender named 'name' in the respective year.
创建时间:
2019-07-29
原始信息汇总

数据集概述

1. Baby Names in The USA from 1880 to 2022

  • 数据集名称: bbnames.csv
  • 数据来源: 美国社会保障局
  • 数据量: 约200万个名字
  • 时间范围: 1880年至2022年
  • 变量:
    • year: 出生年份
    • sex: 性别(Female或Male)
    • name: 婴儿名字
    • n: 该年份该性别下名为"name"的婴儿数量

2. Pilot Certification Data

  • 数据集名称: pilotsCertFAA2023.csv
  • 数据来源: 美国联邦航空管理局(FAA)
  • 获取时间: 2023年6月
  • 内容: 飞行员认证记录
  • 变量:
    • Pilot ID: 飞行员ID
    • CertLevel: 认证级别(Airline, Commercial, Student, Sport, Private, Recreational)
    • STATE: 美国州份
    • MedClass: 医疗级别
    • MedExpMonth: 医疗证书到期月份
    • MedExpYear: 医疗证书到期年份
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集‘Baby Names in The USA from 1880 to 2022’由美国社会保障局提供,涵盖了从1880年至2022年的近200万个婴儿名字数据。数据集的构建基于每年的出生记录,详细记录了每个名字在特定年份和性别下的出现次数。通过这种方式,数据集不仅反映了名字的流行趋势,还揭示了社会文化变迁对命名习惯的影响。
特点
此数据集的显著特点在于其时间跨度长、数据量大且信息详尽。它包含了四个主要变量:年份、性别、名字以及该名字在当年特定性别中的出现次数。这种结构使得研究者能够进行多维度的分析,如名字的流行趋势、性别命名差异以及特定年份的文化特征等。
使用方法
该数据集适用于多种研究场景,包括但不限于社会学、人口统计学和数据分析。用户可以通过筛选特定年份、性别或名字来获取详细数据,进行趋势分析或比较研究。此外,数据集的CSV格式便于导入各种数据分析工具,如Python、R等,进行进一步的统计分析和可视化展示。
背景与挑战
背景概述
美国婴儿姓名数据集(Baby Names in The USA from 1880 to 2022)是由美国社会保障局提供的一个涵盖1880年至2022年间的婴儿姓名数据集,包含了近200万个姓名记录。该数据集的核心研究问题在于揭示美国社会在过去一个多世纪中婴儿命名趋势的变化,以及性别在命名选择中的影响。通过分析这些数据,研究人员可以探索文化变迁、社会趋势以及语言演变对命名习惯的影响,为社会学、语言学和人口统计学等领域提供了宝贵的研究资源。
当前挑战
该数据集在构建和分析过程中面临多项挑战。首先,数据的时间跨度长达140多年,涵盖了多个社会、文化和政治变革时期,这使得命名趋势的分析变得复杂。其次,数据中包含的变量如性别和年份,虽然简单,但在实际应用中需要进行精细的分类和处理,以确保分析结果的准确性。此外,数据集的规模庞大,处理和存储这些数据对计算资源提出了较高要求。最后,如何从海量数据中提取有意义的模式和趋势,并将其转化为可解释的洞见,是该数据集面临的主要分析挑战。
常用场景
经典使用场景
Baby Names in The USA from 1880 to 2022数据集的经典使用场景主要集中在社会学、人口学以及文化研究领域。研究者可以利用该数据集分析美国婴儿名字的流行趋势,探讨不同年代、性别以及社会文化背景对名字选择的影响。例如,通过分析特定年份的名字流行度,可以揭示社会变迁、文化潮流以及人口结构的变化。
实际应用
在实际应用中,Baby Names in The USA from 1880 to 2022数据集被广泛用于市场营销、教育以及娱乐产业。例如,父母在选择婴儿名字时,可以参考该数据集来避免选择过于流行或不常见的名字。此外,该数据集还被用于开发名字推荐系统,帮助用户根据流行趋势和个人偏好选择合适的名字。
衍生相关工作
基于该数据集,研究者们开展了多项经典工作,包括名字流行趋势的预测模型、性别角色与名字选择的关联研究,以及跨文化名字比较分析。这些研究不仅丰富了社会学和人口学的理论框架,还为相关领域的实证研究提供了重要的数据支持。此外,该数据集还激发了多个跨学科的研究项目,如结合历史数据和现代社交媒体数据,探讨名字在数字时代的演变。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录