HR_Analytics.csv|人力资源分析数据集|员工流失数据集
收藏HR Analytics and Clustering 数据集概述
数据集来源
- 数据集来自 Kaggle,链接为:https://www.kaggle.com/datasets/anshika2301/hr-analytics-dataset
数据集描述
- 数据集包含2023年某大型公司员工的相关信息,用于分析员工流失率。
- 数据集文件名为
HR_Analytics.csv,包含1480条记录和38个特征。
特征列表
EmpID: 员工IDAge: 年龄AgeGroup: 年龄组Attrition: 是否离职BusinessTravel: 商务旅行频率DailyRate: 日薪Department: 部门DistanceFromHome: 家到公司的距离Education: 教育水平EducationField: 教育领域EmployeeCount: 员工数量EmployeeNumber: 员工编号EnvironmentSatisfaction: 环境满意度Gender: 性别HourlyRate: 小时工资JobInvolvement: 工作参与度JobLevel: 职位级别JobRole: 职位JobSatisfaction: 工作满意度MaritalStatus: 婚姻状况MonthlyIncome: 月收入SalarySlab: 薪资等级MonthlyRate: 月薪NumCompaniesWorked: 工作过的公司数量Over18: 是否超过18岁OverTime: 是否加班PercentSalaryHike: 薪资涨幅百分比PerformanceRating: 绩效评级RelationshipSatisfaction: 关系满意度StandardHours: 标准工作小时StockOptionLevel: 股票期权等级TotalWorkingYears: 总工作年限TrainingTimesLastYear: 去年培训次数WorkLifeBalance: 工作与生活平衡YearsAtCompany: 在公司工作年限YearsInCurrentRole: 在当前职位工作年限YearsSinceLastPromotion: 上次晋升后的年限YearsWithCurrManager: 与当前经理共事年限
数据集目标
- 分析员工流失率是否异常,并识别相关模式。
- 提出并验证可能导致异常流失率的假设。
- 将员工分类为不同的群组,以提出定制化的解决方案。
数据处理步骤
- 加载数据
- 数据描述
- 数据预处理:清洗、探索性数据分析和特征工程
- 训练-测试数据集分割
- 机器学习模型构建
- 模型性能评估
- 模型部署
- 结论
数据集统计信息
- 数据集包含1480条记录,38个特征。
- 特征类型包括:1个浮点数类型,25个整数类型,12个对象类型。
- 数据集的基本统计信息包括:年龄、日薪、家到公司的距离、教育水平、月收入等特征的均值、标准差、最小值、最大值等。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
PTB-Image
PTB-Image是一个包含扫描纸质心电图和相应数字信号的综合数据集,由越南河内VinUniversity College of Engineering and Computer Science和VinUni-Illinois Smart Health Center创建。该数据集旨在推动心电图数字化技术的研究,包含549个记录,每个记录由一位至五位患者的15个同步心电图信号组成,涵盖标准12导联心电图和Frank导联。数据集通过扫描原始PTB数据集的纸质心电图并打印部分信号制作而成,可用于心电图数字化、自动诊断及远程医疗等领域的应用研究。
arXiv 收录
LANDSLIDE DETECTION
该数据集专注于山体滑坡现象的识别与分类,旨在为改进YOLOv8模型提供高质量的训练数据。数据集包含1600幅图像,类别数量为1,具体类别为“LANDSLIDE”。数据集的构建考虑了山体滑坡的多样性与复杂性,确保模型在实际应用中具备良好的泛化能力。
github 收录
FACED
FACED数据集是由清华大学脑与智能实验室和智能技术与系统国家重点实验室共同创建,包含从123名参与者收集的32通道EEG信号,用于情感计算研究。数据集通过记录参与者观看28个情感诱发视频片段时的EEG信号构建,旨在通过EEG信号分析情感状态。创建过程中,数据经过标准化和统一预处理,设计了四个EEG分类任务。该数据集主要应用于情感识别和脑机接口领域,旨在解决情感计算中的分类问题,提高情感识别的准确性和效率。
arXiv 收录
