Job-SDF|职业技能预测数据集|人力资源分析数据集

arXiv2024-06-17 更新2024-06-20 收录

职业技能预测

人力资源分析

下载链接：

https://github.com/Job-SDF/benchmark

下载链接

链接失效反馈

资源简介：

Job-SDF数据集是由中国科学技术大学等机构联合创建，旨在为职业技能需求预测研究提供支持。该数据集基于2021年至2023年间从中国主要在线招聘平台收集的1035万条公开职位广告构建，涵盖了2324种技能、52个职业、521家公司和7个地区。数据集通过提取职位广告文本中的技能术语，量化了不同粒度（职业、公司、地区）的每月技能需求。Job-SDF数据集的应用领域包括人力资源策略制定、区域政策制定等，旨在解决技能需求预测的准确性和效率问题。

提供机构：

中国科学技术大学

创建时间：

2024-06-17

AI搜集汇总

数据集介绍

构建方式

Job-SDF数据集构建于2021年至2023年间中国主要在线招聘平台收集的1035万条公开职位广告数据。通过命名实体识别（NER）模型从职位需求文本中提取技能术语，量化了521家公司、52个职业和7个地区在月度粒度上的技能需求。数据集包含2,324种标准化技能，并通过时间序列方法构建多粒度技能需求预测任务。数据收集后经过去重和标准化处理，确保数据的唯一性和一致性。

特点

Job-SDF数据集具有多粒度特性，支持职业、公司和地区等不同层次的技能需求预测。数据集中的技能需求呈现长尾分布，部分技能需求低频但具有重要市场潜力。此外，数据集中存在结构性断点现象，即技能需求时间序列在统计特性上发生显著变化，这为研究技能需求动态变化提供了独特挑战。数据集还包含技能共现图，揭示了不同技能之间的关联模式，为多变量时间序列预测提供了先验知识。

使用方法

Job-SDF数据集可用于训练和评估多种时间序列预测模型，包括统计模型、基于RNN、Transformer、MLP的方法以及图神经网络和傅里叶基模型。使用时需按照9:1:2的比例将数据按时间顺序划分为训练集、验证集和测试集。预测任务支持单步和多步预测，典型设置为6个月历史数据预测未来3个月需求。评估指标包括MAE、RMSE等传统指标，以及针对低需求技能的SMAPE和RRMSE。数据集还支持技能需求比例预测任务，为研究技能在职业中的相对重要性提供额外维度。

背景与挑战

背景概述

Job-SDF数据集由BOSS直聘职业科学实验室、中国科学技术大学等机构的研究团队于2024年提出，旨在解决快速变化的就业市场中技能需求预测的关键问题。该数据集基于2021至2023年间从中国主要在线招聘平台收集的1035万条公开职位广告，涵盖521家公司的2324种技能需求，支持职业、企业和区域层面的多粒度分析。作为首个公开的细粒度技能需求时序数据集，Job-SDF通过标准化技能词典构建和结构化时间序列表示，填补了劳动经济学与计算社会科学领域的数据空白，为人力资源战略制定和教育政策调整提供了量化研究基础。

当前挑战

Job-SDF面临的核心挑战体现在两个维度：首先在领域问题层面，技能需求预测需解决长尾分布（高频核心技能与低频新兴技能并存）和结构性断点（技术迭代导致的技能需求突变）的建模难题；其次在构建过程中，技能术语标准化面临同义多表达（如"Python编程"与"Py开发"）和跨领域歧义（如"Java"指编程语言或咖啡品类）的语义消歧挑战。此外，多源招聘文本的异质性（不同企业的职位描述风格差异）和时空维度耦合（区域产业政策对企业技能需求的影响）进一步增加了数据清洗与特征工程的复杂度。

常用场景

经典使用场景

Job-SDF数据集在劳动力市场分析领域具有广泛的应用价值，尤其在职业技能需求预测方面表现突出。该数据集通过整合中国主要在线招聘平台2021至2023年的1035万条公开职位广告，构建了涵盖521家企业、52个职业和2324种技能的多粒度时间序列数据。研究人员可利用该数据集进行职业技能需求的时空建模，分析不同区域、行业和企业规模的技能需求差异，为劳动力市场的动态变化提供数据支持。

衍生相关工作

基于Job-SDF数据集已衍生出多个创新性研究。在方法层面，研究者开发了融合图神经网络的动态预测模型（如Pre-DyGAE），通过构建技能共现关系图提升预测精度；在应用层面，产生了技能供需匹配、职业转型路径推荐等延伸研究。数据集支持的多粒度分析框架，更催生了企业级人力资本分析与区域政策评估的结合研究，推动了劳动经济学与计算社会科学的跨学科融合。

数据集最近研究