HR Analytics Job Change of Data Scientists

github2023-12-22 更新2024-05-31 收录

下载链接：

https://github.com/azaryasph/finpro-stigma-rakamin-ds-36

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于分析和预测数据科学家是否会更换工作，包含19,158个候选人的信息，共有14个特征，目标是预测哪些候选人会在接受公司提供的培训后离职。

This dataset is designed for analyzing and predicting whether data scientists will change jobs. It contains information on 19,158 candidates, featuring 14 distinct attributes. The primary objective is to forecast which candidates are likely to leave their positions after undergoing company-provided training.

创建时间：

2023-12-21

原始信息汇总

数据集概述

数据集基本信息

名称: HR Analytics Job Change of Data Scientists
来源: Kaggle
链接: HR Analytics Job Change of Data Scientists
大小: 19,158 rows × 14 columns
目标列: "target" (0 – Not looking for job change, 1 – Looking for a job change)
特点: 包含缺失值，无重复值

特征描述

特征	描述
enrollee_id	候选人唯一ID
city	城市代码
city_development_index	城市发展指数（标准化）
gender	候选人性别
relevent_experience	候选人的相关经验
enrolled_university	如果有的大学课程类型
education_level	候选人的教育水平
major_discipline	候选人的主要学科
experience	候选人总工作经验（年）
company_size	当前雇主公司员工数
company_type	当前雇主类型
last_new_job	前一份工作与当前工作的年数差异
training_hours	完成的培训小时数
target	是否寻求工作变动（0或1）

缺失值情况

列名	缺失值百分比
Company Type	32.05%
Company Size	30.99%
Gender	23.53%
Major Discipline	14.68%
Education Level	2.40%
Last Job Tenure	2.21%
Enrolled Status	2.01%
Experience	0.34%

问题与目标

问题: 19,158名接受免费培训的数据科学家候选人中，有4,777人（24.9%）未继续在公司工作，导致培训成本和时间损失。
目标: 开发机器学习预测模型，预测哪些候选人特征可能导致培训后离职。

业务指标

主要指标: 离职率
次要指标: 培训成本损失

数据集应用阶段

探索性数据分析 (EDA): 理解数据，发现模式，测试假设。
数据预处理: 清洗和转换数据，处理缺失值和类别变量。
模型构建: 构建和评估预测模型，选择最佳模型以提高预测准确性。

模型结果

最佳模型: GradientBoosting
最佳参数调整后的结果: 训练集召回率84%，测试集召回率85%。

业务影响模拟

模型实施前离职率: 24.9%
模型实施后离职率: 14.1%，减少10.8%。
培训成本节约: 从$1.2 million减少到$690K，节约$531,990。

业务建议

优先招聘来自发达城市、具有四年以上数据科学工作经验、STEM教育背景、近期毕业且未继续深造的候选人。
提供个性化培训和持续支持，建立系统的反馈机制，并在培训后要求候选人签订就业合同。

搜集汇总

数据集介绍

构建方式

HR Analytics Job Change of Data Scientists数据集来源于Kaggle平台，旨在分析数据科学家候选人在接受公司提供的免费培训后是否选择继续留任。该数据集包含19,158条记录和14个特征，涵盖了候选人的城市发展指数、性别、教育背景、工作经验、公司规模等信息。数据集的构建基于实际招聘和培训场景，通过收集候选人的多维度信息，旨在帮助公司预测候选人的留任概率，从而减少培训成本和时间损失。

使用方法

该数据集的使用方法主要分为三个阶段：数据探索性分析（EDA）、数据预处理和建模。首先，通过Jupyter Notebook运行`Stage_1_EDA_STIGMA.ipynb`进行数据探索，了解数据分布和特征关系。接着，使用`Stage_2_Preprocessing_STIGMA.ipynb`进行数据清洗和特征转换，处理缺失值和类别型特征。最后，通过`Stage_3_Modelling_STIGMA.ipynb`构建和评估多种树模型，如决策树、随机森林、XGBoost等，以预测候选人的留任概率。模型评估主要基于AUC和Recall指标，最终选择GradientBoosting模型作为最优模型。

背景与挑战

背景概述

HR Analytics Job Change of Data Scientists 数据集由 Kaggle 提供，旨在研究数据科学家在完成公司提供的培训后是否选择继续留任的问题。该数据集创建于2021年，主要研究人员为 STIGMA 团队，其核心研究问题聚焦于如何通过机器学习模型预测候选人在培训后的离职倾向，从而减少公司因员工流失而产生的培训成本损失。该数据集包含19,158条记录和14个特征，涵盖了候选人的城市发展指数、教育背景、工作经验、公司规模等多维度信息。该数据集为人力资源分析领域提供了重要的数据支持，尤其在员工流失预测和培训成本优化方面具有显著的应用价值。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，数据集中存在大量缺失值，例如公司类型、公司规模、性别等特征的缺失比例较高，这为数据预处理带来了较大难度。其次，目标变量存在类别不平衡问题，仅有24.9%的候选人表示有离职倾向，这可能导致模型在预测少数类时表现不佳。此外，构建过程中还需解决特征工程、类别编码、模型选择与优化等技术难题，以确保最终模型的预测准确性和稳定性。这些挑战要求研究者在数据清洗、特征处理和模型训练中采取精细化的策略，以提升模型的泛化能力和业务价值。

常用场景

经典使用场景

HR Analytics Job Change of Data Scientists 数据集在人力资源分析领域具有广泛的应用，尤其是在数据科学家职业变动预测方面。该数据集通过分析候选人的背景、教育经历、工作经验等特征，帮助企业和研究机构构建机器学习模型，预测数据科学家在接受培训后是否会继续留在公司。这一经典使用场景不仅为企业的招聘和培训策略提供了数据支持，还为学术界提供了丰富的研究素材。

解决学术问题

该数据集解决了人力资源管理中一个重要的学术问题：如何通过数据驱动的方法预测员工流失。通过分析候选人的特征与职业变动之间的关系，研究者可以深入探讨影响员工留任的关键因素，如城市发展指数、公司规模、教育背景等。这一研究不仅为员工流失预测提供了理论依据，还为相关领域的机器学习模型优化提供了实践参考。

实际应用

在实际应用中，该数据集被广泛用于优化企业的招聘和培训流程。通过构建预测模型，企业可以识别出那些在接受培训后可能离职的候选人，从而提前采取措施，如提供个性化培训或签订就业合同，以减少培训成本和时间损失。此外，该数据集还可用于制定更精准的招聘策略，优先选择那些更有可能长期留任的候选人。

数据集最近研究