CLIMB数据集
收藏arXiv2025-09-19 更新2025-09-23 收录
下载链接:
https://datasets.com/
下载链接
链接失效反馈官方服务:
资源简介:
CLIMB数据集是用于构建数据驱动的职业分类体系的数据集。该数据集包含来自不同地区和规模的三个真实世界数据集,包括巴勒斯坦、博茨瓦纳和美国的职位发布信息。这些数据集用于训练和评估CLIMB框架的性能。CLIMB框架旨在自动化地构建高质量、数据驱动的分类体系,从而更好地组织职位发布信息、引导求职者、分析劳动力市场趋势,并为企业和政府提供工作规划和支持。
The CLIMB dataset is a dataset for building data-driven occupational classification systems. This dataset contains three real-world datasets from different regions and scales, including job posting information from Palestine, Botswana, and the United States. These datasets are used to train and evaluate the performance of the CLIMB framework. The CLIMB framework aims to automatically construct high-quality, data-driven classification systems, so as to better organize job posting information, guide job seekers, analyze labor market trends, and provide workforce planning and support for enterprises and governments.
提供机构:
根特大学电子与信息系统系IDLab
创建时间:
2025-09-19
搜集汇总
数据集介绍

构建方式
在劳动力市场动态演进的背景下,CLIMB数据集通过多阶段自动化流程构建而成。该框架首先对原始招聘公告进行语义嵌入和全局聚类,采用XGBoost分类器学习基于HR专家标注的细粒度职业相似度度量,进而通过Affinity Propagation算法生成基础职业簇。随后利用大语言模型对簇内职位进行抽象归纳,生成规范化的叶节点标题与描述,并通过语义去重确保节点唯一性。最后通过生成-评估多智能体框架逐层构建层次结构,生成器提出父节点概念,评估器进行逻辑一致性校验,迭代优化直至形成完整分类体系。
特点
作为数据驱动的职业分类体系,CLIMB数据集的核心特征体现在其区域适应性逻辑。该数据集通过自底向上的构建机制,能够捕捉特定劳动力市场的独特结构,如巴勒斯坦数据集中凸显的人道主义工作层级、博茨瓦纳的钻石产业细分等地域性特征。其层次结构具有语义连贯性,评估显示随着分类层级的提升,标注者间一致性显著增强,印证了概念从具体到抽象的合理递进。相较于静态分类标准,该数据集在覆盖率和标签利用率间取得平衡,既能有效归类97%以上的职位,又避免产生冗余节点,体现了分类体系的紧凑性与实用性。
使用方法
该数据集的应用需遵循其层次化架构特性。研究人员可基于JSON格式的树状结构数据,通过叶节点到根节点的路径分析职业关联性,或利用层级间的父子关系进行语义泛化研究。在实践层面,用户可将待分类职位描述输入评估流程,由大语言模型标注器根据分类体系进行多粒度匹配,既支持精确的叶节点归类,也允许通过父节点处理模糊案例。对于劳动力市场分析,建议结合不同区域数据集对比研究,观察分类体系对经济结构的映射规律,同时可利用其动态构建特性,通过增量数据更新分类树以追踪职业演变趋势。
背景与挑战
背景概述
职业分类体系作为劳动力市场信息组织的重要工具,在求职推荐、政策制定等领域具有关键作用。CLIMB数据集由比利时根特大学IDLab研究团队于2025年提出,旨在通过自动化方法构建数据驱动的职业分类体系。该研究聚焦于解决传统分类方法在动态区域劳动力市场中的适应性不足问题,采用自底向上的多阶段框架,结合语义聚类与多智能体协作技术,实现了从原始招聘信息到层次化分类体系的端到端生成。该数据集的创新性体现在其完全摆脱了对预定义种子分类的依赖,能够捕捉特定区域市场的独特职业特征,为劳动力市场分析提供了高度定制化的解决方案。
当前挑战
职业分类领域面临的核心挑战在于如何从嘈杂的非结构化文本中提炼出具有全局一致性的基础概念,并构建逻辑严密的层次结构。具体而言,CLIMB数据集需解决语义聚类阶段对职业相似性度量的精细化建模问题,避免传统余弦相似性在职业判读上的局限性。在层次构建过程中,多智能体框架需克服单次大语言模型推理可能导致的逻辑不一致性,通过生成-评估迭代机制确保父子节点关系的合理性。此外,数据预处理阶段还需应对招聘信息中无关文本的干扰,通过轻量级分类器实现核心职业信息的高效提取。
常用场景
经典使用场景
在劳动市场智能分析领域,CLIMB数据集通过自动化构建职业分类体系,为研究区域劳动力结构提供了关键支撑。该数据集最经典的应用场景体现在动态生成多层次职业分类树,能够从原始招聘文本中提炼出具有语义一致性的核心职业簇,并通过多智能体协作框架实现层次结构的迭代优化。这种自底向上的构建方法特别适用于分析新兴行业或区域特异性职业分布,为劳动力市场研究提供了可扩展的数据驱动解决方案。
实际应用
在实际应用层面,CLIMB数据集已被证明能够精准反映区域经济特征。例如在巴勒斯坦数据中自动识别出人道主义援助专业岗位,在博茨瓦纳数据中捕捉钻石加工与旅游向导等特色职业,在美国数据中准确划分K-12与高等教育体系。这些成果直接服务于政府劳动力政策制定、企业人才战略规划以及求职平台智能推荐系统,实现了从学术研究到产业应用的闭环价值转化。
衍生相关工作
该数据集催生了多个重要研究方向,包括基于反射机制的层次结构优化算法、跨语言职业嵌入表示学习等。相关经典工作如TnT-LLM的批量处理框架与CLIMB的全局聚类形成方法论对比,而ESCO专家分类体系的评估基准作用则推动了自动化方法与人工标注的融合研究。这些衍生工作共同构成了职业分类学从静态知识库到动态认知系统的演进脉络。
以上内容由遇见数据集搜集并总结生成



