Job-SDF|职业技能预测数据集|人力资源分析数据集
收藏arXiv2024-06-17 更新2024-06-20 收录
下载链接:
https://github.com/Job-SDF/benchmark
下载链接
链接失效反馈资源简介:
Job-SDF数据集是由中国科学技术大学等机构联合创建,旨在为职业技能需求预测研究提供支持。该数据集基于2021年至2023年间从中国主要在线招聘平台收集的1035万条公开职位广告构建,涵盖了2324种技能、52个职业、521家公司和7个地区。数据集通过提取职位广告文本中的技能术语,量化了不同粒度(职业、公司、地区)的每月技能需求。Job-SDF数据集的应用领域包括人力资源策略制定、区域政策制定等,旨在解决技能需求预测的准确性和效率问题。
提供机构:
中国科学技术大学
创建时间:
2024-06-17
AI搜集汇总
数据集介绍

构建方式
Job-SDF数据集构建于2021年至2023年间中国主要在线招聘平台收集的1035万条公开职位广告数据。通过命名实体识别(NER)模型从职位需求文本中提取技能术语,量化了521家公司、52个职业和7个地区在月度粒度上的技能需求。数据集包含2,324种标准化技能,并通过时间序列方法构建多粒度技能需求预测任务。数据收集后经过去重和标准化处理,确保数据的唯一性和一致性。
特点
Job-SDF数据集具有多粒度特性,支持职业、公司和地区等不同层次的技能需求预测。数据集中的技能需求呈现长尾分布,部分技能需求低频但具有重要市场潜力。此外,数据集中存在结构性断点现象,即技能需求时间序列在统计特性上发生显著变化,这为研究技能需求动态变化提供了独特挑战。数据集还包含技能共现图,揭示了不同技能之间的关联模式,为多变量时间序列预测提供了先验知识。
使用方法
Job-SDF数据集可用于训练和评估多种时间序列预测模型,包括统计模型、基于RNN、Transformer、MLP的方法以及图神经网络和傅里叶基模型。使用时需按照9:1:2的比例将数据按时间顺序划分为训练集、验证集和测试集。预测任务支持单步和多步预测,典型设置为6个月历史数据预测未来3个月需求。评估指标包括MAE、RMSE等传统指标,以及针对低需求技能的SMAPE和RRMSE。数据集还支持技能需求比例预测任务,为研究技能在职业中的相对重要性提供额外维度。
背景与挑战
背景概述
Job-SDF数据集由BOSS直聘职业科学实验室、中国科学技术大学等机构的研究团队于2024年提出,旨在解决快速变化的就业市场中技能需求预测的关键问题。该数据集基于2021至2023年间从中国主要在线招聘平台收集的1035万条公开职位广告,涵盖521家公司的2324种技能需求,支持职业、企业和区域层面的多粒度分析。作为首个公开的细粒度技能需求时序数据集,Job-SDF通过标准化技能词典构建和结构化时间序列表示,填补了劳动经济学与计算社会科学领域的数据空白,为人力资源战略制定和教育政策调整提供了量化研究基础。
当前挑战
Job-SDF面临的核心挑战体现在两个维度:首先在领域问题层面,技能需求预测需解决长尾分布(高频核心技能与低频新兴技能并存)和结构性断点(技术迭代导致的技能需求突变)的建模难题;其次在构建过程中,技能术语标准化面临同义多表达(如"Python编程"与"Py开发")和跨领域歧义(如"Java"指编程语言或咖啡品类)的语义消歧挑战。此外,多源招聘文本的异质性(不同企业的职位描述风格差异)和时空维度耦合(区域产业政策对企业技能需求的影响)进一步增加了数据清洗与特征工程的复杂度。
常用场景
经典使用场景
Job-SDF数据集在劳动力市场分析领域具有广泛的应用价值,尤其在职业技能需求预测方面表现突出。该数据集通过整合中国主要在线招聘平台2021至2023年的1035万条公开职位广告,构建了涵盖521家企业、52个职业和2324种技能的多粒度时间序列数据。研究人员可利用该数据集进行职业技能需求的时空建模,分析不同区域、行业和企业规模的技能需求差异,为劳动力市场的动态变化提供数据支持。
衍生相关工作
基于Job-SDF数据集已衍生出多个创新性研究。在方法层面,研究者开发了融合图神经网络的动态预测模型(如Pre-DyGAE),通过构建技能共现关系图提升预测精度;在应用层面,产生了技能供需匹配、职业转型路径推荐等延伸研究。数据集支持的多粒度分析框架,更催生了企业级人力资本分析与区域政策评估的结合研究,推动了劳动经济学与计算社会科学的跨学科融合。
数据集最近研究
最新研究方向
随着劳动力市场的快速演变,技能需求预测已成为政策制定和企业战略规划的核心议题。Job-SDF数据集的推出填补了该领域缺乏全面公开数据的空白,为多粒度技能需求预测研究提供了重要基准。近期研究聚焦于三个前沿方向:一是探索时序模型在结构性断点场景下的鲁棒性优化,如FiLM模型通过傅里叶变换有效缓解市场突变带来的预测偏差;二是针对低频技能预测的评估框架创新,采用SMAPE和RRMSE等尺度无关指标提升模型在长尾分布中的表现;三是基于技能共现图谱的时空关联挖掘,如EvolveGCN等图神经网络方法在细粒度预测中展现出显著优势。这些进展不仅推动了动态劳动力市场分析的理论突破,更为教育资源配置和区域人才政策制定提供了量化依据。
相关研究论文
- 1Job-SDF: A Multi-Granularity Dataset for Job Skill Demand Forecasting and Benchmarking中国科学技术大学 · 2024年
以上内容由AI搜集并总结生成
