five

Baby Names in The USA from 1880 to 2022|名字趋势数据集|文化研究数据集

收藏
github2023-07-18 更新2024-05-31 收录
名字趋势
文化研究
下载链接:
https://github.com/acohenstat/datasets
下载链接
链接失效反馈
资源简介:
该数据集包含从1880年到2022年的近200万个名字,由美国社会保障局提供。包含以下变量:年份、性别、名字、当年该性别下名为name的婴儿数量。

This dataset comprises nearly 2 million names from 1880 to 2022, provided by the United States Social Security Administration. It includes the following variables: year, gender, name, and the number of babies of that gender named 'name' in the respective year.
创建时间:
2019-07-29
原始信息汇总

数据集概述

1. Baby Names in The USA from 1880 to 2022

  • 数据集名称: bbnames.csv
  • 数据来源: 美国社会保障局
  • 数据量: 约200万个名字
  • 时间范围: 1880年至2022年
  • 变量:
    • year: 出生年份
    • sex: 性别(Female或Male)
    • name: 婴儿名字
    • n: 该年份该性别下名为"name"的婴儿数量

2. Pilot Certification Data

  • 数据集名称: pilotsCertFAA2023.csv
  • 数据来源: 美国联邦航空管理局(FAA)
  • 获取时间: 2023年6月
  • 内容: 飞行员认证记录
  • 变量:
    • Pilot ID: 飞行员ID
    • CertLevel: 认证级别(Airline, Commercial, Student, Sport, Private, Recreational)
    • STATE: 美国州份
    • MedClass: 医疗级别
    • MedExpMonth: 医疗证书到期月份
    • MedExpYear: 医疗证书到期年份
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集‘Baby Names in The USA from 1880 to 2022’由美国社会保障局提供,涵盖了从1880年至2022年的近200万个婴儿名字数据。数据集的构建基于每年的出生记录,详细记录了每个名字在特定年份和性别下的出现次数。通过这种方式,数据集不仅反映了名字的流行趋势,还揭示了社会文化变迁对命名习惯的影响。
特点
此数据集的显著特点在于其时间跨度长、数据量大且信息详尽。它包含了四个主要变量:年份、性别、名字以及该名字在当年特定性别中的出现次数。这种结构使得研究者能够进行多维度的分析,如名字的流行趋势、性别命名差异以及特定年份的文化特征等。
使用方法
该数据集适用于多种研究场景,包括但不限于社会学、人口统计学和数据分析。用户可以通过筛选特定年份、性别或名字来获取详细数据,进行趋势分析或比较研究。此外,数据集的CSV格式便于导入各种数据分析工具,如Python、R等,进行进一步的统计分析和可视化展示。
背景与挑战
背景概述
美国婴儿姓名数据集(Baby Names in The USA from 1880 to 2022)是由美国社会保障局提供的一个涵盖1880年至2022年间的婴儿姓名数据集,包含了近200万个姓名记录。该数据集的核心研究问题在于揭示美国社会在过去一个多世纪中婴儿命名趋势的变化,以及性别在命名选择中的影响。通过分析这些数据,研究人员可以探索文化变迁、社会趋势以及语言演变对命名习惯的影响,为社会学、语言学和人口统计学等领域提供了宝贵的研究资源。
当前挑战
该数据集在构建和分析过程中面临多项挑战。首先,数据的时间跨度长达140多年,涵盖了多个社会、文化和政治变革时期,这使得命名趋势的分析变得复杂。其次,数据中包含的变量如性别和年份,虽然简单,但在实际应用中需要进行精细的分类和处理,以确保分析结果的准确性。此外,数据集的规模庞大,处理和存储这些数据对计算资源提出了较高要求。最后,如何从海量数据中提取有意义的模式和趋势,并将其转化为可解释的洞见,是该数据集面临的主要分析挑战。
常用场景
经典使用场景
Baby Names in The USA from 1880 to 2022数据集的经典使用场景主要集中在社会学、人口学以及文化研究领域。研究者可以利用该数据集分析美国婴儿名字的流行趋势,探讨不同年代、性别以及社会文化背景对名字选择的影响。例如,通过分析特定年份的名字流行度,可以揭示社会变迁、文化潮流以及人口结构的变化。
实际应用
在实际应用中,Baby Names in The USA from 1880 to 2022数据集被广泛用于市场营销、教育以及娱乐产业。例如,父母在选择婴儿名字时,可以参考该数据集来避免选择过于流行或不常见的名字。此外,该数据集还被用于开发名字推荐系统,帮助用户根据流行趋势和个人偏好选择合适的名字。
衍生相关工作
基于该数据集,研究者们开展了多项经典工作,包括名字流行趋势的预测模型、性别角色与名字选择的关联研究,以及跨文化名字比较分析。这些研究不仅丰富了社会学和人口学的理论框架,还为相关领域的实证研究提供了重要的数据支持。此外,该数据集还激发了多个跨学科的研究项目,如结合历史数据和现代社交媒体数据,探讨名字在数字时代的演变。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录