HR_Analytics.csv

github2024-10-19 更新2024-10-20 收录

下载链接：

https://github.com/VictorBSR/HR_Analytics_Clustering

下载链接

链接失效反馈

官方服务：

资源简介：

一个来自虚构公司的HR数据集，用于分析和聚类，旨在追踪和解决员工流失问题。数据集包含2023年全年的员工数据，用于识别可能影响员工流失率的员工群体及其共同特征，并提出解决方案以减少员工流失率。

A human resources (HR) dataset from a fictional company, developed for analysis and clustering tasks, targets tracking and mitigating employee attrition. Covering full-year employee data across 2023, this dataset is used to identify employee cohorts and their shared characteristics that may impact employee attrition rates, and propose targeted solutions to reduce employee attrition rates.

创建时间：

2024-10-18

原始信息汇总

HR Analytics and Clustering 数据集概述

数据集来源

数据集来自 Kaggle，链接为：https://www.kaggle.com/datasets/anshika2301/hr-analytics-dataset

数据集描述

数据集包含2023年某大型公司员工的相关信息，用于分析员工流失率。
数据集文件名为 HR_Analytics.csv，包含1480条记录和38个特征。

特征列表

EmpID: 员工ID
Age: 年龄
AgeGroup: 年龄组
Attrition: 是否离职
BusinessTravel: 商务旅行频率
DailyRate: 日薪
Department: 部门
DistanceFromHome: 家到公司的距离
Education: 教育水平
EducationField: 教育领域
EmployeeCount: 员工数量
EmployeeNumber: 员工编号
EnvironmentSatisfaction: 环境满意度
Gender: 性别
HourlyRate: 小时工资
JobInvolvement: 工作参与度
JobLevel: 职位级别
JobRole: 职位
JobSatisfaction: 工作满意度
MaritalStatus: 婚姻状况
MonthlyIncome: 月收入
SalarySlab: 薪资等级
MonthlyRate: 月薪
NumCompaniesWorked: 工作过的公司数量
Over18: 是否超过18岁
OverTime: 是否加班
PercentSalaryHike: 薪资涨幅百分比
PerformanceRating: 绩效评级
RelationshipSatisfaction: 关系满意度
StandardHours: 标准工作小时
StockOptionLevel: 股票期权等级
TotalWorkingYears: 总工作年限
TrainingTimesLastYear: 去年培训次数
WorkLifeBalance: 工作与生活平衡
YearsAtCompany: 在公司工作年限
YearsInCurrentRole: 在当前职位工作年限
YearsSinceLastPromotion: 上次晋升后的年限
YearsWithCurrManager: 与当前经理共事年限

数据集目标

分析员工流失率是否异常，并识别相关模式。
提出并验证可能导致异常流失率的假设。
将员工分类为不同的群组，以提出定制化的解决方案。

数据处理步骤

加载数据
数据描述
数据预处理：清洗、探索性数据分析和特征工程
训练-测试数据集分割
机器学习模型构建
模型性能评估
模型部署
结论

数据集统计信息

数据集包含1480条记录，38个特征。
特征类型包括：1个浮点数类型，25个整数类型，12个对象类型。
数据集的基本统计信息包括：年龄、日薪、家到公司的距离、教育水平、月收入等特征的均值、标准差、最小值、最大值等。

搜集汇总

数据集介绍

构建方式

HR_Analytics.csv数据集的构建基于一家大型公司2023年全年的人力资源数据，涵盖了员工的各种特征和行为。数据来源于Kaggle平台，经过初步的数据清洗和特征工程处理，确保了数据的质量和一致性。数据集包含了38个字段，涵盖了员工的个人信息、工作环境、薪酬福利、职业发展等多个维度。通过这些数据，旨在帮助人力资源部门识别员工流失的潜在原因，并为制定针对性的留人策略提供数据支持。

特点

HR_Analytics.csv数据集具有多维度的特征，包括员工的年龄、性别、教育背景、工作满意度、薪酬水平等，这些特征为分析员工流失提供了丰富的信息基础。数据集中的'Attrition'字段是关键的目标变量，用于标识员工是否离职。此外，数据集还包含了多个定量和定性变量，如'MonthlyIncome'、'JobRole'等，这些变量有助于深入挖掘员工流失的潜在模式和原因。

使用方法

使用HR_Analytics.csv数据集时，首先需要加载数据并进行初步的数据探索，了解各字段的分布和相关性。随后，可以通过数据清洗、特征选择和工程化处理，为后续的机器学习模型构建做好准备。常用的分析方法包括相关性分析、回归分析和聚类分析，以识别与员工流失高度相关的特征。最终，分析结果可以通过PowerBI等工具进行可视化展示，为人力资源部门提供决策支持。

背景与挑战

背景概述

HR_Analytics.csv数据集由Victor Barros和S. dos Reis于2024年创建，旨在解决大型公司人力资源部门面临的员工流失率问题。该数据集包含了2023年全年员工的相关信息，涵盖了多个维度，如年龄、教育背景、工作满意度等。通过分析这些数据，研究人员希望识别出可能导致员工流失的特定群体及其共同特征，从而提出针对性的解决方案，以降低公司的员工流失率。这一研究不仅有助于提升员工的工作满意度，还对企业的长期稳定发展具有重要意义。

当前挑战

HR_Analytics.csv数据集在构建和分析过程中面临多项挑战。首先，数据集中的特征多样且复杂，包括定量和定性数据，这增加了数据预处理和特征工程的难度。其次，员工流失率的预测是一个典型的分类问题，但数据中可能存在类别不平衡的情况，这会影响模型的准确性。此外，数据集中的某些特征可能存在缺失值或异常值，需要进行有效的数据清洗和处理。最后，如何通过数据分析提出切实可行的解决方案，并确保这些方案能够有效实施，也是该研究面临的一大挑战。

常用场景

经典使用场景

在人力资源分析领域，HR_Analytics.csv数据集的经典使用场景主要集中在员工流失率的预测与分析。通过该数据集，研究者可以深入挖掘员工特征与离职倾向之间的关系，识别出高流失风险群体。具体方法包括使用机器学习模型如逻辑回归、决策树等，对员工数据进行分类，进而预测员工的离职可能性，为企业的留人策略提供科学依据。

解决学术问题

HR_Analytics.csv数据集解决了人力资源管理中一个核心的学术研究问题：如何量化和预测员工的离职倾向。通过分析员工的工作满意度、薪资水平、工作年限等多维度数据，研究者能够构建出有效的预测模型，揭示影响员工离职的关键因素。这不仅有助于学术界深化对员工行为动机的理解，也为企业制定针对性的人力资源策略提供了理论支持。

衍生相关工作

HR_Analytics.csv数据集的广泛应用催生了一系列相关研究和工作。例如，有研究利用该数据集开发了基于深度学习的员工流失预测模型，进一步提升了预测的准确性。此外，还有学者基于此数据集探讨了不同行业、不同职位员工的离职模式差异，为行业特定的人力资源管理提供了参考。这些衍生工作不仅丰富了人力资源分析的理论体系，也推动了相关技术的实际应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集