jobix-dataset
收藏github2026-01-15 更新2026-01-19 收录
下载链接:
https://github.com/Catherinemipt/jobix-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含超过146,000个俄罗斯劳动力市场的职位空缺分析,涵盖了组织熵、毒性风险和企业文化(CVF模型)等方面的数据。数据集分为原始数据集和经过处理的最终数据集,适用于统计分析和学术研究。
This dataset contains over 146,000 job vacancy analyses from the Russian labor market, covering data on dimensions including organizational entropy, toxicity risk, and corporate culture based on the Competing Values Framework (CVF model). It is divided into two parts: the raw dataset and the finalized processed dataset, and is suitable for statistical analysis and academic research.
创建时间:
2026-01-09
原始信息汇总
俄罗斯劳动力市场研究数据集概述
数据集基本信息
- 数据集名称:俄罗斯劳动力市场研究数据集
- 数据来源:俄罗斯公开招聘平台(
hh.ru、career.habr.com) - 数据规模:超过146,000个职位空缺
- 数据格式:JSON Lines (
.jsonl) - 主要文件:
hh_raw_vacancies.jsonl(原始数据集)jobix_golden_dataset_V5_5.jsonl(最终“黄金”数据集)
数据集内容与结构
1. 原始数据集 (hh_raw_vacancies.jsonl)
- 性质:未处理的原始数据
- 每条记录结构:
"id":来源平台上的唯一职位标识符"source":来源平台("hh"或"habr")"url":职位直接链接"name":原始职位名称"employer":原始公司名称"description":完整的HTML格式职位描述文本"download_status":技术下载状态(如"ok"、"closed_404")
2. 最终“黄金”数据集 (jobix_golden_dataset_V5_5.jsonl)
- 性质:研究主要成果,包含原始元数据和所有分析处理结果
- 每条记录结构:
"source_url":作为主键的唯一URL链接"meta":包含职位基本属性的对象(job_title、company_name、industry、grade、region)"screen_1_risks":定性语义分析结果对象"risk_tag":分配给职位的分类标签"points":已识别“信号”的对象数组(包含severity、title、text字段)"verdict":综合文本结论
"screen_2_culture":文化画像结果对象"profile":文化画像的向量表示(market、hierarchy、adhocracy、clan)"rationale":作为分类依据的词法示例对象数组"culture_verdict":关于主导文化类型的最终结论
"toxicity_index":通过将HRUSM模型算法应用于"screen_1_risks"块中的信号计算得出的综合风险指数(浮点数)"rating":基于"toxicity_index"值及其在数据集整体分布中的位置(百分位数校准)以编程方式计算的最终5分制评级(整数)"analyzed_at":Unix时间戳
研究方法论
数据处理流程
- 数据聚合与规范化:自动化收集和初步清理职位描述文本。
- 启发式语义分析:应用专有模型识别和分类与求职者潜在风险和优势相关的词汇标记。
- 文化画像:使用竞争价值框架模型的原型,基于职位文本的语义分析对公司进行聚类。
- 算法评分:基于风险与效用分层评估模型中开发的加权风险矩阵,计算每个职位的综合“风险指数”。
风险指数与评级计算
- 综合风险指数计算:使用分层风险与效用评分模型,计算为所有已识别负面和警告信号(
red和yellow)的加权和,并考虑文化背景调整。 - 最终评级校准:基于数据集中所有
toxicity_index值的百分位数分布,转换为标准化的5分制评级。
风险权重矩阵
| 风险类别(搜索标记) | 权重 |
|---|---|
текучка、плохие отзывы |
10 |
нечеткие kpi、отсутствие стратегии |
9 |
много шляп、смешение ролей、вакансия-комбайн |
8 |
5+ лет опыта для junior |
8 |
гибкость、ожидание переработок、горящие глаза |
7 |
оптимизации、снижение издержек |
7 |
мы как семья、нарушение границ |
6 |
рок-звезда、ниндзя |
5 |
| 无匹配的其他信号 | 3 |
文化共振矩阵
| 风险类别 | Hierarchy | Market | Clan | Adhocracy |
|---|---|---|---|---|
| 战略混乱 | 1.3 | 1.0 | 1.1 | 0.7 |
| 时间剥削 | 1.1 | 0.8 | 1.2 | 0.9 |
| 独角兽综合征 | 1.1 | 1.0 | 1.0 | 0.7 |
| 激进节约 | 1.0 | 1.1 | 1.3 | 1.2 |
| 忠诚度操纵 | 1.2 | 1.0 | 0.7 | 0.9 |
| 管理危机 | 1.2 | 1.1 | 1.1 | 1.0 |
| 初级陷阱 | 0.8 | 1.1 | 1.0 | 1.2 |
| 不切实际的英雄主义 | 1.2 | 0.8 | 1.0 | 1.0 |
评级校准量表
toxicity_index 范围 |
评级 | 解释 |
|---|---|---|
| 0 — 15.7 | 5 | 安全港(市场前10%) |
| 15.7 — 22.5 | 4 | 好交易(随后20%) |
| 22.5 — 27.5 | 3 | 沼泽(主要部分40%) |
| 27.8 — 32.5 | 2 | 研磨机(随后20%) |
| 32.5+ | 1 | 否决/地狱(最差10%) |
应用与工具
- 研究应用:该数据集适用于进一步的统计分析和学术出版。
- 衍生工具:研究结果和方法论是公开求职者工具 Jobix 的基础。
使用建议
- 文件为JSON Lines格式,支持逐行处理,无需将整个文件加载到内存。
- 提供了使用Python标准库和Pandas进行基本数据分析的代码示例。
搜集汇总
数据集介绍

构建方式
在劳动力市场分析领域,jobix-dataset的构建体现了从海量非结构化文本中提取量化洞见的系统化方法。该数据集通过自动化爬虫从俄罗斯主流招聘平台hh.ru和career.habr.com采集了超过14.6万条原始职位描述,形成初始语料库。随后,研究团队设计了一套多阶段处理流程:首先对文本进行清洗与标准化,继而运用专有语义分析模型识别职位描述中的风险与优势词汇标记,再基于竞争价值框架模型对组织文化进行聚类分析,最终通过层次化风险与效用评分模型为每条职位计算综合毒性指数与五级评级,从而将定性描述转化为结构化、可量化的评估数据。
特点
该数据集的核心特征在于其深度融合了语义分析、组织行为学理论与量化评分模型。每条记录不仅包含职位名称、公司、行业等元数据,更集成了语义风险标签、文化向量剖面、计算得出的毒性指数及校准后的评级。毒性指数的计算创新性地引入了文化共振矩阵,使得风险评估能够根据公司文化类型进行动态调整,增强了分析的语境敏感性。数据集采用JSON Lines格式存储,每条记录为自包含的JSON对象,支持流式处理与高效分析,为宏观劳动力市场趋势研究与企业微观文化诊断提供了兼具广度与深度的数据基础。
使用方法
研究者可利用该数据集进行多维度劳动力市场分析。通过Python标准库或Pandas等工具读取jsonl文件后,可便捷地进行统计探索,例如计算不同行业的职位分布、分析公司文化类型的市场占比或探究毒性指数与职位等级、地域等因素的相关性。数据集内嵌的毒性指数与评级可直接作为因变量,用于构建预测模型或进行因果推断研究。此外,原始HTML格式的职位描述字段为更精细的自然语言处理任务保留了可能性。使用时应遵循数据引用规范,并注意数据采集的时间背景以确保结论的时效性。
背景与挑战
背景概述
在数字化招聘时代,文本化的职位描述蕴含了丰富的组织行为与市场信号,亟待系统化解析。Jobix数据集于2025年末由俄罗斯研究团队创建,旨在对俄罗斯劳动力市场进行多层次分析。该数据集汇集了超过14.6万条来自HeadHunter和Habr Career等公开招聘平台的职位信息,核心研究问题在于将职位描述的定性评估转化为定量、结构化的分类体系。通过集成启发式语义分析、文化价值框架(CVF)聚类以及层次风险与效用评分模型(HRUSM),该数据集不仅为学术研究提供了大规模、高结构化的语料,还支撑了面向求职者的公开工具Jobix的开发,显著推动了计算人力资源管理与组织行为学交叉领域的实证研究进展。
当前挑战
该数据集致力于解决劳动力市场文本分析中职位质量与风险量化评估的挑战,其核心在于从非结构化的自然语言描述中自动识别潜在风险信号,如模糊的绩效指标、角色混淆或文化误导等,并构建一个稳健、可解释的评估指标。在构建过程中,研究团队面临多重挑战:首先,原始数据聚合与清洗涉及处理异构的HTML格式文本,需确保信息完整性同时消除噪声;其次,语义分析需设计能够捕捉俄语特定文化语境与行业术语的专有模型;再者,将定性的文化价值框架(如市场型、层级型)转化为可计算的聚类特征,并使其与风险评分模型动态耦合,在方法学上具有显著复杂性;最后,确保最终毒性指数与评级在跨组织与文化维度上保持公平性与可比性,亦是一项关键挑战。
常用场景
经典使用场景
在劳动力市场分析领域,Jobix数据集为研究者提供了大规模、结构化的文本分析基础。该数据集通过聚合超过14.6万条俄罗斯招聘平台的原始职位描述,并应用多阶段处理流程,实现了从原始文本到量化指标的转换。经典使用场景包括利用其语义分析结果,对职位描述中的风险信号进行自动识别与分类,进而支持市场宏观趋势研究,例如分析不同行业或地区的招聘实践差异。
实际应用
Jobix数据集的核心实际应用体现在求职辅助工具的开发上。基于该数据集的分析方法论,研究者构建了公开的在线平台Jobix,允许求职者对具体职位进行交互式审计。用户可借助平台评估特定职位的风险指数与文化适配度,从而在求职决策中获得数据驱动的参考,这直接提升了劳动力市场的信息透明度与求职者的议价能力。
衍生相关工作
围绕Jobix数据集衍生的经典工作主要集中于方法论的扩展与应用。其核心的层次化风险评分模型为后续研究提供了评估框架,可被适配用于分析其他语言或地区的招聘文本。此外,结合竞争价值框架的文化聚类分析,启发了关于组织文化与招聘文本语义关联的深入研究,推动了计算语言学与组织行为学的交叉领域发展。
以上内容由遇见数据集搜集并总结生成



