Indeed Hiring Lab Job Postings Index, World Economic Forum Future of Jobs Report
收藏arXiv2025-10-27 更新2025-10-29 收录
下载链接:
https://github.com/hiring-lab/job_postings_tracker
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由Indeed Hiring Lab Job Postings Index和World Economic Forum Future of Jobs Report两部分组成,提供了美国和全球范围内的高频职位发布数据和AI相关职业的年度就业趋势预测。数据集涵盖了医疗保健、IT、物流和教育等55个行业,包含了从2020年到2025年的每日职位发布数量和年度AI相关职业的就业趋势预测,共计229,460条数据。这些数据可用于评估大型语言模型(LLM)在预测劳动力市场趋势方面的能力,支持未来对劳动力预测、提示设计和基于LLM的经济推理的研究。
This dataset comprises two parts: the Indeed Hiring Lab Job Postings Index and the World Economic Forum Future of Jobs Report. It provides high-frequency job posting data across the United States and globally, as well as annual employment trend forecasts for AI-related occupations. Covering 55 industries including healthcare, IT, logistics, education and other sectors, the dataset contains daily job posting counts from 2020 to 2025 and annual employment trend forecasts for AI-related occupations, totaling 229,460 data records. These data can be used to evaluate the capability of Large Language Models (LLMs) in forecasting labor market trends, and support future research on labor forecasting, prompt design, and LLM-based economic reasoning.
提供机构:
德克萨斯大学奥斯汀分校
创建时间:
2025-10-27
原始信息汇总
Indeed职位发布指数数据集概述
数据集基本信息
- 数据集名称:Indeed Job Postings Index
- 数据频率:每日
- 更新周期:每周刷新
- 数据来源:Indeed Hiring Lab
- 许可证:Creative Commons Attribution 4.0 International License
方法论说明
- 数据表示自2020年2月1日起经季节性调整的职位发布百分比变化,采用七日移动平均值
- 2020年2月1日被设定为疫情前基准线
- 读数101表示职位发布总体水平比2020年2月1日高1%
- 使用德意志联邦银行开发的每日时间序列数据季节性调整方法
- 职业部门基于规范化职位标题的Indeed分类
数据结构与文件组织
国家层面数据
- 文件名格式:
aggregate_job_postings_{country_code}.csv - 包含字段:
- date:观察日期
- jobcountry:ISO 3166-1 alpha-2国家代码
- indeed_job_postings_index_SA:自2020年2月1日起经季节性调整的职位发布百分比变化
- indeed_job_postings_index_NSA:自2020年2月1日起未经季节性调整的职位发布百分比变化
- variable:总职位发布或新职位发布(在Indeed上发布7天或更短时间)
部门层面数据
- 文件名格式:
job_postings_by_sector_{country_code}.csv - 包含字段:
- date:观察日期
- jobcountry:ISO 3166-1 alpha-2国家代码
- indeed_job_postings_index:自2020年2月1日起经季节性调整的职位发布百分比变化
- variable:总职位发布或新职位发布
- display_name:职业部门标签
- 备注:不提供爱尔兰的部门数据
区域层面数据
美国市场
- 大都市区:
metro_job_postings_us.csv(人口至少50万的美国大都市区) - 州级数据:
state_job_postings_us.csv(美国各州和哥伦比亚特区)
加拿大市场
- 省级数据:
provincial_postings_ca.csv(加拿大各省)
英国市场
- 区域数据:
regional_postings_gb.csv(英国地区) - 城市数据:
city_postings_gb.csv(英国城市)
数据字段定义
所有区域级数据文件均包含以下核心字段:
- date:观察日期
- 地理标识字段(CBSA Title/cbsa_code/state/province/region/cities)
- indeed_job_postings_index:自2020年2月1日起经季节性调整的职位发布百分比变化
使用要求
数据可自由用于公共用途,但必须注明Indeed Hiring Lab为数据来源
搜集汇总
数据集介绍

构建方式
该数据集整合了Indeed Hiring Lab的职位发布指数与世界经论坛未来就业报告,构建过程遵循多源异构数据融合策略。Indeed数据通过持续爬取数百万条招聘信息,采用季节性调整算法消除周期性波动,形成以2020年2月为基准的日度职位需求指数;世界经论坛数据则基于对全球千余家企业的年度调研,结合LinkedIn等平台数据验证,系统追踪人工智能相关职位的就业趋势。两类数据分别以周度和年度频率更新,通过标准化行业分类与时间对齐处理,构建出覆盖55个行业领域、跨越5年周期的面板数据集。
特点
数据集具有多维度时空特征,体现在三个核心层面:其一,高频与低频数据的互补性,Indeed数据以周度更新捕捉劳动力市场瞬时波动,世界经论坛数据则从年度视角揭示结构性变迁;其二,行业覆盖的全面性,涵盖从软件开发、医疗保健到物流零售等55个细分领域,同时聚焦AI工程师、数据分析师等新兴职业;其三,数据质量的可靠性,Indeed数据经过德意志联邦银行时序方法校验,世界经论坛数据依托跨国企业调研网络,确保指标具有国际可比性。这种双重粒度设计使数据集能同时支持短期就业预测与长期趋势分析。
使用方法
研究者可通过三种核心路径利用该数据集:在基准测试层面,将历史就业序列输入大语言模型,评估其跨行业就业趋势预测能力;在提示策略比较中,采用直接预测、相对乘数预测和事件推理三种框架,检验不同提示工程对预测稳定性的影响;在实证分析场景下,结合严格时间分割策略防止数据泄露,通过均方误差等指标量化模型在短期季度预测与长期年度预测中的表现。数据集支持角色扮演实验设计,允许模拟人力资源经理、政策研究者等不同视角的预测行为,为劳动力市场智能分析提供标准化评估基础。
背景与挑战
背景概述
人工智能技术正在重塑全球劳动力市场格局,德克萨斯大学圣安东尼奥分校研究团队于2025年构建的劳动力预测基准数据集,整合了Indeed招聘实验室高频职位发布指数与世界经论坛未来就业报告。该数据集聚焦人工智能对就业市场的结构性影响,通过融合实时职位发布数据与全球AI采用趋势,为评估大语言模型在劳动力需求预测中的表现提供了标准化测试平台。其创新性在于构建了时间序列与文本信号的双重验证机制,既涵盖AI密集型岗位的专项分析,又兼顾整体经济部门的就业波动监测,为政策制定者与企业战略规划提供了数据驱动的决策依据。
当前挑战
该数据集面临的核心挑战体现在预测任务与构建过程两个维度。在预测任务层面,传统时间序列方法难以捕捉AI技术演进带来的非线性就业冲击,而大语言模型需在有限历史数据中平衡技术扩散规律与宏观经济周期的影响。构建过程中需解决多源异构数据的时空对齐问题,包括高频日度职位数据与年度全球报告的粒度匹配,同时需严格防范模型训练中的时序泄露风险。此外,数据集还需克服标注稀疏性与行业异质性带来的建模困难,确保预测结果在不同经济部门间保持稳健性。
常用场景
经典使用场景
在人工智能重塑劳动力市场的背景下,该数据集被广泛应用于评估大型语言模型预测就业趋势的能力。研究者通过整合高频职位发布数据与全球AI就业预测报告,构建了包含时间序列划分的预测任务框架,有效避免了信息泄露风险。经典应用场景包括采用任务导向型提示、角色驱动型提示及混合策略,系统测试模型在不同行业和预测周期中的表现,为理解AI对就业市场的直接与间接影响提供了标准化评估基准。
实际应用
该数据集为政策制定者与企业战略规划提供了动态劳动力需求洞察。通过实时追踪各行业职位发布指数与AI技术渗透趋势,辅助政府设计职业技能培训计划,帮助企业优化人力资源配置。例如,在医疗、物流、教育等领域,该数据支持预测特定岗位需求变化,为应对技术变革带来的结构性就业冲击提供决策依据。
衍生相关工作
基于该数据集衍生的研究聚焦于提示策略优化与经济推理机制探索。例如,结合事件推理的预测框架被扩展至宏观经济指标分析,角色提示设计方法启发了多领域专业知识的融合应用。相关研究进一步开发了泄漏控制评估协议与跨行业预测模型,推动了LLM在金融、政策评估等场景的迁移应用。
以上内容由遇见数据集搜集并总结生成



