bls-us-tech-employment-monthly
收藏Hugging Face2026-03-10 更新2026-03-11 收录
下载链接:
https://huggingface.co/datasets/cfahlgren1/bls-us-tech-employment-monthly
下载链接
链接失效反馈官方服务:
资源简介:
BLS美国科技就业月度数据集提供了美国劳工统计局(BLS)当前就业统计(CES)中六个行业的月度就业数据,这些数据常被用作“科技就业”的代理指标。数据集包括:1)各行业系列的月度长格式数据;2)带有各行业映射顶级职业的增强版月度数据;3)六个行业系列的总和月度数据;4)宽格式月度数据(每行包含各组件和总和);5)2024年各行业顶级职业数据。所有就业数据均经过季节性调整,以千个工作岗位为单位。数据集适用于时间序列预测和经济分析任务,特别关注美国科技就业趋势。
创建时间:
2026-03-07
原始信息汇总
BLS US Tech Employment Monthly 数据集概述
数据集基本信息
- 数据集名称:BLS US Tech Employment Monthly
- 许可证:cc0-1.0
- 任务类别:时间序列预测
- 标签:bls, labor, employment, economics, united-states
配置与数据文件
数据集包含以下配置,每个配置均包含一个训练集分割:
- monthly_components_enriched (默认配置):数据文件路径为
data/monthly_tech_employment_components_enriched.csv - monthly_components:数据文件路径为
data/monthly_tech_employment_components.csv - monthly_total:数据文件路径为
data/monthly_tech_employment_total.csv - monthly_wide:数据文件路径为
data/monthly_tech_employment_wide.csv - industry_top_occupations_2024:数据文件路径为
data/industry_top_occupations_2024.csv
数据集内容描述
该数据集包含美国劳工统计局(BLS)当前就业统计(CES)中常被用作“科技就业”代理的六个行业系列的月度薪资就业数据,以及这六个行业的简单月度汇总。
包含的数据子集:
monthly_tech_employment_components:每个行业系列的月度长格式数据。monthly_tech_employment_components_enriched:月度成分数据,并为每个行业映射了主要职业。monthly_tech_employment_total:所有六个成分系列的月度总和。monthly_tech_employment_wide:每月一行,每个成分和总和作为单独的列。industry_top_occupations_2024:使用BLS OEWS 2024年5月行业职业数据,为每个跟踪行业列出前10个职业。
所有就业值均经过季节性调整,以千个工作岗位表示,与BLS CES国家系列一致。该总和是六个成分系列的自定义总和,并非官方BLS系列。
源数据系列
包含的六个月度CES系列如下:
| 显示标签 | BLS系列ID | BLS行业代码 | 官方BLS标题 |
|---|---|---|---|
| Software Publishers | CES5051320001 |
50-513200 |
Software publishers |
| Custom Computer Programming Services | CES6054151101 |
60-541511 |
Custom computer programming services |
| Computer Systems Design Services | CES6054151201 |
60-541512 |
Computer systems design services |
| Computing Infrastructure, Data Processing, Web Hosting, & Related | CES5051800001 |
50-518000 |
Computing infrastructure providers, data processing, web hosting, and related services |
| Web Search Portals and All Other Information Services | CES5051929001 |
50-519290 |
Web search portals and all other information services |
| Streaming Services, Social Networks, & Related | CES5051620001 |
50-516200 |
Media streaming distribution services, social networks, and other media networks and content providers |
数据列说明
- 成分数据行包含列:
date,year,month,category,bls_series_id,bls_industry_code,bls_title,employment_thousands,employment_jobs,yoy_change_thousands,yoy_change_jobs,source,seasonal_adjustment。 - 增强成分数据行额外包含列:
top_occupation_reference_year,top_occupation_reference_naics,top_occupation_reference_industry_title,top_occupation_mapping_type,top_occupation_title,top_occupation_employment,top_occupation_share_of_top10,top_occupation_source。 - 汇总数据行包含列:
date,year,month,category,component_count,component_count_present,is_complete_month,employment_thousands,employment_jobs,yoy_change_thousands,yoy_change_jobs,source,seasonal_adjustment。 - 职业增强数据行包含列:
category,oews_reference_year,oews_reference_naics,oews_reference_industry_title,oews_mapping_type,occupation_rank,occupation_title,occupation_employment,occupation_employment_share_of_top10,source。
方法
- 从BLS公共数据API v2获取每个系列。
- 如果匿名API配额耗尽,则回退到BLS系列报告表单端点。
- 仅保留月度观测值。
- 计算
yoy_change_*为与12个月前同月的差值。 - 对六个成分系列求和以生成自定义总和。
- 仅保留所有六个成分系列都存在的汇总月份。
- 为跟踪的行业添加BLS OEWS 2024年5月主要职业元数据。
注意事项
- 这些是行业就业系列,不是职业或工作岗位计数。
- 职业增强数据是年度(2024年5月)OEWS数据,不是月度数据。
Custom Computer Programming Services和Computer Systems Design Services均映射到更广泛的OEWS541500 Computer Systems Design and Related Services职业概况,因为BLS没有为541511和541512发布单独的OEWS职业表。Web Search Portals and All Other Information Services映射到更广泛的OEWS519200 Web Search Portals, Libraries, Archives, and Other Information Services职业概况。- CES系列定义在2022年NAICS修订版下发生了变化。BLS在当前CES标识符下提供历史月度系列,但确切的长期类别连续性仍取决于BLS的重新分类选择。
- 自定义总和对于趋势分析很有用,但不应该被视为官方的BLS“科技行业”定义。
数据来源
- https://www.bls.gov/ces/
- https://www.bls.gov/bls/api_features.htm
- https://www.bls.gov/ces/naics/naics-2022.htm
- https://www.bls.gov/oes/2024/may/ind_emp_chart/ind_emp_chart_data.htm
搜集汇总
数据集介绍

构建方式
在劳动经济学与信息技术产业交叉领域,BLS US Tech Employment Monthly数据集通过系统化流程构建而成。其核心方法包括从美国劳工统计局(BLS)公共数据API v2获取六个关键行业的月度就业序列,若匿名API配额耗尽则回退至BLS系列报告表单端点。数据处理环节仅保留月度观测值,并计算同比变化量,即当前月份与十二个月前同一月份的就业差值。随后对六个组件序列进行求和,生成自定义的月度总就业量,且仅在所有组件数据齐全的月份保留聚合结果。最终,数据集进一步整合了BLS职业就业统计(OEWS)2024年5月的顶级职业元数据,为各追踪行业补充了年度职业分布信息,从而形成多维度、时序连贯的就业观测体系。
特点
该数据集在表征美国科技就业动态方面展现出若干显著特征。其核心在于囊括了软件出版、定制计算机编程服务、计算机系统设计服务等六个BLS当前就业统计(CES)行业序列,这些序列常被用作科技就业的代理指标。所有就业数值均经过季节性调整并以千职位为单位呈现,与BLS CES国家序列保持一致。数据集提供了多种数据视图,包括长格式的组件数据、宽格式的月度汇总以及行业顶级职业的年度剖面,其中自定义的月度总就业量为跨行业趋势分析提供了便利。尤为重要的是,数据集通过映射机制将月度行业就业数据与年度职业数据关联起来,尽管这种关联受限于OEWS数据的年度性和行业分类的宽泛对应,但仍为理解科技劳动力的职业构成提供了有价值的参考。
使用方法
该数据集主要服务于时间序列预测及劳动经济分析等任务。使用者可通过加载不同的配置项来访问特定数据视图,例如`monthly_components_enriched`配置提供了包含顶级职业映射的月度行业数据,而`monthly_total`配置则直接提供跨六个行业的月度就业总和。在应用时,分析师可依据`date`、`category`等字段进行数据筛选与聚合,利用`employment_thousands`和`yoy_change_thousands`等指标进行趋势描绘、波动分析和预测建模。需要留意的是,数据集中的自定义总就业量并非BLS官方定义的“科技板块”指标,适用于宏观趋势观察但需谨慎用于精确的部门界定。此外,职业丰富化数据为年度截面信息,与月度就业序列结合使用时应注意其时序频率差异。
背景与挑战
背景概述
在数字经济蓬勃发展的宏观背景下,精确追踪科技行业的就业动态成为理解经济结构转型与劳动力市场演变的关键。BLS US Tech Employment Monthly数据集应运而生,它由数据研究社区基于美国劳工统计局(BLS)的官方数据构建,旨在通过整合六个关键的当前就业统计(CES)行业序列,为“科技就业”提供一个高频率的月度代理指标。该数据集的核心研究问题聚焦于如何系统性地量化并监测美国科技相关行业的就业水平与变化趋势,其创建不仅为经济学家、政策分析者及行业研究者提供了标准化的时间序列分析基础,也推动了劳动力市场研究与产业经济分析在数据颗粒度与时效性上的显著提升。
当前挑战
该数据集致力于解决科技就业领域量化与趋势预测的挑战,其核心在于如何从庞杂的官方行业分类中精确定义并持续追踪“科技”这一动态概念所涵盖的就业范围。在构建过程中,挑战主要体现在数据整合与概念映射的复杂性上:首先,需要协调不同BLS数据源(如CES与OEWS)在发布频率、行业分类粒度上的差异,并进行季节性调整与跨期可比性处理;其次,将行业就业数据与职业信息进行跨数据集关联时,面临分类代码变更(如NAICS 2022修订)以及细分行业缺乏独立职业档案所带来的映射模糊性问题,这要求构建者做出合理的近似处理,可能引入概念边界的不确定性。
常用场景
经典使用场景
在劳动经济学与产业分析领域,BLS US Tech Employment Monthly数据集常被用作科技就业趋势的代理指标。研究者利用其月度时间序列数据,追踪六个关键科技行业的就业波动,如软件出版、计算机系统设计等,以揭示宏观经济周期中科技劳动力的动态变化。该数据集支持纵向比较与季节性调整分析,为理解科技产业对整体就业市场的贡献提供了量化基础。
衍生相关工作
围绕该数据集,学术界衍生出多项经典研究,例如基于其时间序列的科技就业预测模型、行业波动与宏观经济指标的关联分析,以及科技政策评估的实证研究。这些工作深化了对科技劳动力市场结构的理解,并推动了劳动经济学与产业组织理论的交叉发展。
数据集最近研究
最新研究方向
在数字经济与劳动力市场动态交叉领域,BLS美国科技就业月度数据集为前沿研究提供了关键支撑。当前研究聚焦于利用该数据集的时间序列特性,结合机器学习模型如Transformer架构,对科技行业就业趋势进行高精度预测,以评估宏观经济波动、产业政策及技术革新对就业结构的即时与滞后影响。热点事件如人工智能技术突破与远程办公常态化,促使学者深入分析数据集中的细分行业数据,探究其对特定职业需求与区域就业分布的冲击。这类研究不仅深化了对科技驱动型经济转型的理解,也为政策制定者提供了基于实证的决策依据,具有显著的学术与实践意义。
以上内容由遇见数据集搜集并总结生成



