five

labor

收藏
github2019-10-02 更新2024-05-31 收录
下载链接:
https://github.com/ongxuanhong/Clustering-analysis-with-Labor-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含有关员工的信息,如休假天数、工作小时数、年度工资增长等,用于区分优秀员工和非优秀员工。数据集包含57个样本和17个属性。

This dataset contains information about employees, such as vacation days, working hours, annual salary increases, etc., used to distinguish between outstanding and non-outstanding employees. The dataset comprises 57 samples and 17 attributes.
创建时间:
2015-08-27
原始信息汇总

数据集概述

数据集名称

  • 名称: labor

数据集地址

数据集描述

数据集特征

  • 样本数量: 57
  • 属性数量: 17

属性详情

属性名称 属性类型 缺失值数量 缺失值比例
duration numeric 1 2%
wage increase in first year numeric 1 2%
wage increase in second year numeric 11 19%
wage increase in third year numeric 42 74%
cost of living allowance nominal 20 35%
working hours numeric 6 11%
pension nominal 30 53%
standby pay numeric 48 84%
shift differencial numeric 26 46%
education allowance nominal 35 61%
statutory holidays numeric 4 7%
vacation nominal 6 11%
longterm disabil nominal 29 51%
contribution towards the dental plan nominal 20 35%
bereavement nominal 27 47%
contribution towards the health plan nominal 20 35%

聚类分析

  • 算法: K-mean 和 Hierarchical Clustering (AGNES)
  • 数据处理: 使用 ReplaceMissingValues 过滤器处理缺失值
  • 聚类参数:
    • 组数: 2
    • 评估技术: Classes To Clusters
    • 距离度量: Euclidean

聚类结果

算法 错误聚类样本数 (未处理缺失值) 错误聚类样本数 (已处理缺失值)
SimpleKMeans 13.0 (22.807%) 13.0 (22.807%)
AGNES with Single Link 20.0 (35.0877%) 19.0 (33.333%)
AGNES with Complete Link 21.0 (36.8421%) 17.0 (29.824%)
AGNES with Adjusted Complete Link 21.0 (36.8421%) 19.0 (33.333%)
AGNES with Average Link 20.0 (35.0877%) 15.0 (26.315%)
AGNES with Mean Link 15.0 (26.3158%) 16.0 (28.070%)
AGNES with Centroid Link 25.0 (43.8596%) 19.0 (33.333%)
搜集汇总
数据集介绍
main_image_url
构建方式
数据集Labor通过搜集员工的各项工作相关信息,如休息天数、工作时间、年薪增长率等,旨在区分优秀员工与不佳员工。该数据集的构建涉及了17个属性,包括数值型和名义型属性,部分属性存在缺失值。构建过程中,研究者利用Weka工具对数据进行了预处理和聚类分析,采用K-means和层次聚类(AGNES)算法对数据进行了有效划分。
使用方法
用户可通过访问指定网址获取Labor数据集。数据集以ARFF格式存储,可以直接在Weka中使用。用户在进行聚类分析前,需要先处理缺失值,可以选择填充或者删除含有缺失值的记录。之后,设置聚类参数,如选择算法类型、设定聚类数目等,进行聚类操作。分析完成后,用户可对比不同算法和参数设置下的聚类结果,以评估最佳聚类方案。
背景与挑战
背景概述
在劳动谈判与人力资源管理领域,'labor'数据集的构建旨在通过分析员工的工作表现及其福利待遇等指标,对员工进行分类,以区分表现良好与不佳的员工。该数据集的创建未具体记载确切时间和主要研究人员或机构,但它提供了一个重要的研究案例,用于评估和预测员工的工作表现。数据集包含57个样本和17个属性,涵盖了工作时长、薪资增长、生活津贴等多个维度,对于人力资源管理和劳动谈判的研究具有重要的参考价值。
当前挑战
该数据集在研究领域中面临的挑战主要包括:数据缺失问题,如 wages increase in third year 属性中74%的数据缺失,这给数据分析带来了困难;其次,由于数据集样本量较小,可能导致模型泛化能力不足。在构建过程中,对于缺失值的处理、选择合适的聚类算法和参数设定,以及如何提高模型的准确性和鲁棒性,都是研究者需要解决的挑战。
常用场景
经典使用场景
在劳动谈判领域,labor数据集被广泛运用于聚类分析,旨在根据员工的工作时长、薪资增长、福利等多个维度,将员工划分为优秀与否的类别。该数据集的经典使用场景在于,研究者通过K-means和层次聚类算法(AGNES)对数据进行处理,以识别出影响员工分类的关键特征,从而为企业的人力资源管理提供数据支撑。
解决学术问题
labor数据集解决了如何有效利用聚类算法对员工进行分类的学术问题,特别是在处理具有缺失值的复杂数据时,如何选择合适的算法和参数设置以优化聚类效果。这为人力资源管理领域中的员工评估和分类提供了实证研究基础,对于提升企业劳动力的整体素质具有重要意义。
实际应用
在实际应用中,labor数据集的分析结果被用于指导企业制定更加合理的员工激励政策,以及优化人力资源配置。通过该数据集的聚类分析,企业能够识别出不同类别员工的特征,从而实施针对性的培训和管理策略,提升工作效率和员工满意度。
数据集最近研究
最新研究方向
在当前的数据挖掘与机器学习领域,聚类分析作为一种无监督学习方法,其在劳动人事管理中的应用引起了广泛关注。最新研究显示,通过对labor数据集的应用,学者们致力于探索如何利用K-means与层次聚类算法(AGNES)对员工的工作表现进行分类。该研究不仅关注算法本身的性能,如准确率和鲁棒性,还深入探讨了数据预处理的重要性,尤其是对缺失值的处理。此类研究对于企业的人力资源管理具有重要意义,它可以帮助企业更有效地识别高绩效员工与低绩效员工,进而优化人力资源配置,提高管理效率。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作