five

Job-SDF|职业技能预测数据集|人力资源分析数据集

收藏
arXiv2024-06-17 更新2024-06-20 收录
职业技能预测
人力资源分析
下载链接:
https://github.com/Job-SDF/benchmark
下载链接
链接失效反馈
资源简介:
Job-SDF数据集是由中国科学技术大学等机构联合创建,旨在为职业技能需求预测研究提供支持。该数据集基于2021年至2023年间从中国主要在线招聘平台收集的1035万条公开职位广告构建,涵盖了2324种技能、52个职业、521家公司和7个地区。数据集通过提取职位广告文本中的技能术语,量化了不同粒度(职业、公司、地区)的每月技能需求。Job-SDF数据集的应用领域包括人力资源策略制定、区域政策制定等,旨在解决技能需求预测的准确性和效率问题。
提供机构:
中国科学技术大学
创建时间:
2024-06-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
Job-SDF数据集构建于2021年至2023年间中国主要在线招聘平台收集的1035万条公开职位广告数据。通过命名实体识别(NER)模型从职位需求文本中提取技能术语,量化了521家公司、52个职业和7个地区在月度粒度上的技能需求。数据集包含2,324种标准化技能,并通过时间序列方法构建多粒度技能需求预测任务。数据收集后经过去重和标准化处理,确保数据的唯一性和一致性。
特点
Job-SDF数据集具有多粒度特性,支持职业、公司和地区等不同层次的技能需求预测。数据集中的技能需求呈现长尾分布,部分技能需求低频但具有重要市场潜力。此外,数据集中存在结构性断点现象,即技能需求时间序列在统计特性上发生显著变化,这为研究技能需求动态变化提供了独特挑战。数据集还包含技能共现图,揭示了不同技能之间的关联模式,为多变量时间序列预测提供了先验知识。
使用方法
Job-SDF数据集可用于训练和评估多种时间序列预测模型,包括统计模型、基于RNN、Transformer、MLP的方法以及图神经网络和傅里叶基模型。使用时需按照9:1:2的比例将数据按时间顺序划分为训练集、验证集和测试集。预测任务支持单步和多步预测,典型设置为6个月历史数据预测未来3个月需求。评估指标包括MAE、RMSE等传统指标,以及针对低需求技能的SMAPE和RRMSE。数据集还支持技能需求比例预测任务,为研究技能在职业中的相对重要性提供额外维度。
背景与挑战
背景概述
Job-SDF数据集由BOSS直聘职业科学实验室、中国科学技术大学等机构的研究团队于2024年提出,旨在解决快速变化的就业市场中技能需求预测的关键问题。该数据集基于2021至2023年间从中国主要在线招聘平台收集的1035万条公开职位广告,涵盖521家公司的2324种技能需求,支持职业、企业和区域层面的多粒度分析。作为首个公开的细粒度技能需求时序数据集,Job-SDF通过标准化技能词典构建和结构化时间序列表示,填补了劳动经济学与计算社会科学领域的数据空白,为人力资源战略制定和教育政策调整提供了量化研究基础。
当前挑战
Job-SDF面临的核心挑战体现在两个维度:首先在领域问题层面,技能需求预测需解决长尾分布(高频核心技能与低频新兴技能并存)和结构性断点(技术迭代导致的技能需求突变)的建模难题;其次在构建过程中,技能术语标准化面临同义多表达(如"Python编程"与"Py开发")和跨领域歧义(如"Java"指编程语言或咖啡品类)的语义消歧挑战。此外,多源招聘文本的异质性(不同企业的职位描述风格差异)和时空维度耦合(区域产业政策对企业技能需求的影响)进一步增加了数据清洗与特征工程的复杂度。
常用场景
经典使用场景
Job-SDF数据集在劳动力市场分析领域具有广泛的应用价值,尤其在职业技能需求预测方面表现突出。该数据集通过整合中国主要在线招聘平台2021至2023年的1035万条公开职位广告,构建了涵盖521家企业、52个职业和2324种技能的多粒度时间序列数据。研究人员可利用该数据集进行职业技能需求的时空建模,分析不同区域、行业和企业规模的技能需求差异,为劳动力市场的动态变化提供数据支持。
衍生相关工作
基于Job-SDF数据集已衍生出多个创新性研究。在方法层面,研究者开发了融合图神经网络的动态预测模型(如Pre-DyGAE),通过构建技能共现关系图提升预测精度;在应用层面,产生了技能供需匹配、职业转型路径推荐等延伸研究。数据集支持的多粒度分析框架,更催生了企业级人力资本分析与区域政策评估的结合研究,推动了劳动经济学与计算社会科学的跨学科融合。
数据集最近研究
最新研究方向
随着劳动力市场的快速演变,技能需求预测已成为政策制定和企业战略规划的核心议题。Job-SDF数据集的推出填补了该领域缺乏全面公开数据的空白,为多粒度技能需求预测研究提供了重要基准。近期研究聚焦于三个前沿方向:一是探索时序模型在结构性断点场景下的鲁棒性优化,如FiLM模型通过傅里叶变换有效缓解市场突变带来的预测偏差;二是针对低频技能预测的评估框架创新,采用SMAPE和RRMSE等尺度无关指标提升模型在长尾分布中的表现;三是基于技能共现图谱的时空关联挖掘,如EvolveGCN等图神经网络方法在细粒度预测中展现出显著优势。这些进展不仅推动了动态劳动力市场分析的理论突破,更为教育资源配置和区域人才政策制定提供了量化依据。
相关研究论文
  • 1
    Job-SDF: A Multi-Granularity Dataset for Job Skill Demand Forecasting and Benchmarking中国科学技术大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

neuralcatcher/hateful_memes

The Hateful Memes Challenge数据集由Facebook AI创建,专注于检测多模态表情包中的仇恨言论,旨在推动和衡量多模态推理和理解方面的进展。数据集包含多种类型的训练和测试数据,每个示例包含文本、图像路径和标签,评估使用AUROC指标。

hugging_face 收录

CMU-MOSEI

CMU Multimodal Opinion Sentiment and Emotion Intensity (CMU-MOSEI) is the largest dataset of sentence-level sentiment analysis and emotion recognition in online videos. CMU-MOSEI contains over 12 hours of annotated video from over 1000 speakers and 250 topics.

Papers with Code 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录