five

Industrial and Professional Occupation Dataset (IPOD)

收藏
arXiv2020-04-25 更新2024-06-21 收录
下载链接:
https://github.com/junhua/ipod
下载链接
链接失效反馈
官方服务:
资源简介:
工业与职业数据集(IPOD)是由新加坡科技设计大学和国家大学合作创建的大型职业数据集,包含192,295个职位,涉及56,648名LinkedIn用户。数据集内容丰富,涵盖职位名称、责任级别、工作领域和地理位置等详细信息。创建过程中,数据由专业人员手动标注,确保了标签的准确性和一致性。IPOD数据集主要用于职业数据挖掘和分析,如预测员工流动、职业轨迹建模等,为企业和研究机构提供了宝贵的数据资源。

Industrial and Occupational Dataset (IPOD) is a large-scale occupational dataset co-created by the Singapore University of Technology and Design and the National University of Singapore. It contains 192,295 job positions and involves 56,648 LinkedIn users. The dataset has rich content, covering detailed information such as job titles, responsibility levels, work domains and geographic locations. During its creation, the data was manually annotated by professionals, ensuring the accuracy and consistency of the labels. The IPOD dataset is mainly used for occupational data mining and analysis, such as predicting employee turnover and modeling career trajectories, providing valuable data resources for enterprises and research institutions.
提供机构:
新加坡科技设计大学
创建时间:
2020-04-25
搜集汇总
数据集介绍
main_image_url
构建方式
在职业数据挖掘领域,构建高质量数据集是推动研究进展的关键。IPOD数据集通过从LinkedIn平台爬取56,648名用户的公开职业档案,系统性地收集了192,295个职位头衔。为确保数据的准确性与结构化,研究团队邀请三位具有丰富行业经验的专业人士——人力资源专员、高级招聘主管和企业主——对高频出现的1,500个单字词进行人工标注,依据责任层级、职能范畴和地理位置三大维度进行标签化处理。标注过程采用严格的评估机制,基于百分比一致性和科恩卡帕系数的评估显示标注者间具有高度一致性,从而保障了数据标注的可靠性。
特点
IPOD数据集展现出多方面的显著特征,其规模在公开职业数据集中居于领先地位,覆盖了广泛的行业与地域分布,其中美国与亚洲用户占比分别为56.7%与43.3%。数据集不仅提供原始职位头衔,还附带了精细的人工标注标签,包括责任层级中的管理级别、操作角色与资历深度,职能范畴内的部门归属、工作范围与内容领域,以及地理位置上的区域与国家城市信息。此外,数据集配套发布了基于深度双向语言模型生成的Title2vec嵌入表示,为职位头衔的语义分析提供了强大的计算基础,支持跨公司职位相似性理解与职业轨迹预测等多种高阶任务。
使用方法
IPOD数据集为职业数据挖掘研究提供了丰富的应用场景。研究者可利用其标注标签进行职业命名实体识别任务,通过责任、职能与地理位置等专业标签深化对职位结构的理解,尤其适用于分析新兴职位与国际职场文化差异。数据集附带的Title2vec嵌入能够直接用于构建预测模型,例如员工离职预测、职业路径建模及简历智能筛选等。用户可通过公开的GitHub仓库访问原始数据、标注信息与嵌入向量,结合机器学习或自然语言处理技术,开发针对人力资源管理与职业发展分析的应用方案。
背景与挑战
背景概述
随着职业数据挖掘与分析在人力资源领域的应用日益广泛,其已成为预测员工流动、建模职业轨迹及简历筛选等任务的核心技术。然而,该领域长期面临公开数据稀缺的困境,多数研究依赖私有数据集,阻碍了学术与产业的协同发展。为应对这一挑战,新加坡科技设计大学与新加坡国立大学的研究团队于2020年共同构建了工业与职业数据集(IPOD),该数据集涵盖来自5.6万领英用户的19.2万个职位头衔,并辅以资深程度、工作领域及地理位置的人工标注。作为当前规模最大的公开职业数据集,IPOD不仅填补了领域数据空白,更通过提供职位嵌入向量(Title2vec)推动了职业命名实体识别等前沿研究,为人力资源智能化提供了关键基础设施。
当前挑战
在职业数据挖掘领域,核心挑战在于如何从异构且动态变化的职位头衔中精准提取结构化信息,以支持员工行为预测、职业路径建模等复杂任务。IPOD数据集针对此问题,需解决职位语义的跨文化差异解析、新兴职位类别的识别以及多维度标签体系的构建等难题。在数据集构建过程中,研究团队面临三大挑战:一是数据采集需平衡规模与隐私伦理,确保公开数据不涉及用户敏感信息;二是标注体系设计需融合人力资源管理经验,涵盖职责层级、职能范畴与地理维度,并依靠专业标注者达成高一致性(科恩卡帕系数0.778);三是职位嵌入的生成需克服自然语言稀疏性,通过深度双向语言模型实现语义空间的细粒度映射。
常用场景
经典使用场景
在职业数据挖掘领域,IPOD数据集为研究人员提供了大规模、公开可用的职业信息资源。该数据集通过整合LinkedIn平台上的19.2万个职位头衔,并辅以人工标注的职责层级、工作领域与地理位置标签,为职业轨迹建模、员工离职预测等经典任务奠定了数据基础。其嵌入表示Title2vec进一步支持了职位相似性计算与语义分析,使得跨公司、跨文化的职业模式比较成为可能,推动了职业数据挖掘的标准化进程。
实际应用
在企业人力资源管理与职业规划实践中,IPOD数据集展现出广泛的应用潜力。企业可利用该数据集进行简历智能筛选,通过职位头衔的嵌入表示快速匹配候选人与岗位需求;同时,其标注信息有助于构建员工职业发展模型,为企业人才留存与晋升策略提供数据支撑。此外,跨地域的职业模式分析能够辅助跨国公司理解不同市场的职位体系差异,优化全球化人力资源配置,提升组织效能与竞争力。
衍生相关工作
基于IPOD数据集,学术界衍生出一系列聚焦职业数据挖掘的经典研究工作。例如,利用Title2vec嵌入表示开发的职业轨迹预测模型,能够分析个体职业路径的演化规律;结合职责与功能标签的职业实体识别系统,提升了职位头衔在跨语言与文化语境下的解析精度。这些工作不仅拓展了数据集的应用边界,还推动了职业网络分析、人才流动预测等子领域的发展,形成了以IPOD为核心的研究生态体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作