oksomu/role-radar-dataset

Name: oksomu/role-radar-dataset
Creator: oksomu
Published: 2026-05-02 04:50:50
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/oksomu/role-radar-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Role Radar — 职位-档案匹配数据集是一个用于本地优先的职位-候选人匹配评分模型的训练数据集，专注于印度英语市场。数据集包含2,500个来自印度城市的真实职位发布，640个候选人档案（其中438个是合成的，202个是从公开简历中提取的），以及22,465个职位-档案配对标签，带有技能、资历、领域、位置和综合评分。此外，还有108对人工审核的黄金评估对，用于模型评估。数据集覆盖了15个职位家族和12个城市，适用于技术和非技术职位，涵盖多个资历级别。

Role Radar — Job-Profile Matching Dataset is a training dataset for a local-first job-candidate fit scoring model, focused on the Indian English-language market. The dataset includes 2,500 real job postings from Indian cities, 640 candidate profiles (438 synthetic and 202 extracted from public resumes), and 22,465 profile-job pairs labeled with dimension scores (skills, seniority, domain, location, and composite). Additionally, there are 108 human-reviewed gold evaluation pairs for model assessment. The dataset covers 15 role families and 12 cities, suitable for both tech and non-tech roles across multiple seniority levels.

提供机构：

oksomu

搜集汇总

数据集介绍

构建方式

该数据集构建流程分为三大模块：首先，从印度12个主要城市采集2,500条真实职位发布信息，覆盖15种角色家族及多种职级，形成结构化岗位库。其次，通过合成与公开简历提取两种方式构建640份候选人档案，其中438份为合成数据，202份源自公开简历。最后，将岗位与档案配对生成22,465个标注样本，采用Gemini 2.5 Flash Lite模型对技能维度进行评分，同时运用确定性算法对资历、领域及地理位置等维度进行量化打分，并额外提供108个人工审核的高质量评估对以保障数据可靠性。

特点

该数据集以印度本土就业市场为核心，兼具技术与非技术岗位的广泛覆盖性，支持从初级到高管的多职级匹配。其核心特色在于多维度评分体系，包含技能、资历、领域和地理位置的细粒度打分，并融合为加权综合分数。此外，数据集中包含108个人工审核的黄金评估对，确保模型验证的严谨性。数据集规模适中，总计超过22,000个标注样本，为本地化岗位匹配模型训练提供高质量、领域聚焦的基准资源。

使用方法

使用者可通过加载JSON格式的结构化文件直接调用数据，具体操作包括读取scraped_jobs.json获取岗位信息，synthetic_profiles.json获取候选人档案，以及phase3_labels.json获取配对标签与多维评分。该数据集专为训练岗位-候选人匹配评分模型设计，适用于深度监督学习或迁移学习框架，开发者可按需提取技能、资历等子维度分数作为独立预测目标，或使用复合分数进行整体拟合度评估。

背景与挑战

背景概述

在人才招聘与职业匹配领域，精准评估候选人与职位之间的契合度是优化人力资源配置的核心挑战。传统的简历筛选依赖于关键词匹配或人工评审，效率低下且易受主观偏见影响。为此，Role Radar数据集于近期由研究团队创建，聚焦印度职业市场，整合了2500条来自12个城市的真实职位信息与640份候选人简档（含合成与公开简历数据），并生成22,465个标注有技能、资历、领域及地理位置等多维度匹配得分的配对样本。该数据集旨在推动基于上下文的、本地化的候选人与职位匹配模型研究，尤其关注多元化角色族（涵盖15个族系）与多级别资历的精细化评分，为印度这一快速增长但数据稀缺的就业市场提供了标准化的基准评估资源。

当前挑战

Role Radar数据集的核心挑战在于解决印度职业市场中多维度匹配评估的复杂性与数据稀缺性。具体挑战包括：1) 职位与简历描述的异构性，即非结构化文本中技能表述的多样性（如“全栈开发”与“Java+React”）导致精确语义匹配困难；2) 构建过程中合成简档的真实性验证问题，需确保生成的438份合成简历能合理反映印度本土教育背景与行业经验分布；3) 多维度评分（技能、资历、地域等）的权重定义与一致性维护，尤其在混合使用大模型（Gemini 2.5 Flash Lite）自动标注与确定性规则打分时，需缓解模型偏见与规则冲突；4) 手工审核的黄金评估集仅包含108个样本，规模较小，对模型泛化能力的评估构成统计显著性的约束。

常用场景

经典使用场景

该数据集专为印度职业市场中岗位与候选人匹配度评分任务而设计，核心用途是构建基于文本的分类与排序模型。通过整合岗位描述、候选人档案以及多维度标注分数（如技能匹配、资历契合度、领域相关性和地理位置），研究者可训练出能综合评估人岗匹配程度的算法。这一场景尤其适合面向大型招聘平台或人力资源信息系统，开发无需依赖外部API的本地化智能推荐系统。

实际应用

在实际应用中，该数据集可直接用于构建招聘平台的智能简历筛选与候选人推荐系统。互联网企业的人力资源部门可依据技能、资历和地理位置等多维打分，快速筛选出与岗位高度契合的求职者；猎头公司与职业顾问则能通过模型反馈优化候选人定位策略。此外，数据集涵盖的12个印度主要城市与15种角色类型，使定制化区域招聘工具（如班加罗尔科技岗位匹配系统）的部署成为切实可行的商业化路径。

衍生相关工作

基于该数据集，学术界与工业界已衍生出多项关键技术探索，包括基于对比学习的多维度匹配度表示学习框架，将技能、资历和领域偏好编码为联合嵌入向量；针对岗位描述与简历的长文本语义对齐的注意力机制模型；以及面向非技术岗位（如销售、法务）的领域特定评分器。此外，部分工作聚焦于解决标注不平衡问题，通过数据增强策略提升评估金标准（gold eval）中稀有岗位类型的预测稳健性，进一步拓展了数据集在多样化职业匹配场景中的适用性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集