labor
收藏github2019-10-02 更新2024-05-31 收录
下载链接:
https://github.com/ongxuanhong/Clustering-analysis-with-Labor-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含有关员工的信息,如休假天数、工作小时数、年度工资增长等,用于区分优秀员工和非优秀员工。数据集包含57个样本和17个属性。
This dataset contains information about employees, such as vacation days, working hours, annual salary increases, etc., used to distinguish between outstanding and non-outstanding employees. The dataset comprises 57 samples and 17 attributes.
创建时间:
2015-08-27
原始信息汇总
数据集概述
数据集名称
- 名称: labor
数据集地址
- 地址: https://archive.ics.uci.edu/ml/machine-learning-databases/labor-negotiations/labor-negotiations.data
数据集描述
数据集特征
- 样本数量: 57
- 属性数量: 17
属性详情
| 属性名称 | 属性类型 | 缺失值数量 | 缺失值比例 |
|---|---|---|---|
| duration | numeric | 1 | 2% |
| wage increase in first year | numeric | 1 | 2% |
| wage increase in second year | numeric | 11 | 19% |
| wage increase in third year | numeric | 42 | 74% |
| cost of living allowance | nominal | 20 | 35% |
| working hours | numeric | 6 | 11% |
| pension | nominal | 30 | 53% |
| standby pay | numeric | 48 | 84% |
| shift differencial | numeric | 26 | 46% |
| education allowance | nominal | 35 | 61% |
| statutory holidays | numeric | 4 | 7% |
| vacation | nominal | 6 | 11% |
| longterm disabil | nominal | 29 | 51% |
| contribution towards the dental plan | nominal | 20 | 35% |
| bereavement | nominal | 27 | 47% |
| contribution towards the health plan | nominal | 20 | 35% |
聚类分析
- 算法: K-mean 和 Hierarchical Clustering (AGNES)
- 数据处理: 使用 ReplaceMissingValues 过滤器处理缺失值
- 聚类参数:
- 组数: 2
- 评估技术: Classes To Clusters
- 距离度量: Euclidean
聚类结果
| 算法 | 错误聚类样本数 (未处理缺失值) | 错误聚类样本数 (已处理缺失值) |
|---|---|---|
| SimpleKMeans | 13.0 (22.807%) | 13.0 (22.807%) |
| AGNES with Single Link | 20.0 (35.0877%) | 19.0 (33.333%) |
| AGNES with Complete Link | 21.0 (36.8421%) | 17.0 (29.824%) |
| AGNES with Adjusted Complete Link | 21.0 (36.8421%) | 19.0 (33.333%) |
| AGNES with Average Link | 20.0 (35.0877%) | 15.0 (26.315%) |
| AGNES with Mean Link | 15.0 (26.3158%) | 16.0 (28.070%) |
| AGNES with Centroid Link | 25.0 (43.8596%) | 19.0 (33.333%) |
搜集汇总
数据集介绍

构建方式
数据集Labor通过搜集员工的各项工作相关信息,如休息天数、工作时间、年薪增长率等,旨在区分优秀员工与不佳员工。该数据集的构建涉及了17个属性,包括数值型和名义型属性,部分属性存在缺失值。构建过程中,研究者利用Weka工具对数据进行了预处理和聚类分析,采用K-means和层次聚类(AGNES)算法对数据进行了有效划分。
使用方法
用户可通过访问指定网址获取Labor数据集。数据集以ARFF格式存储,可以直接在Weka中使用。用户在进行聚类分析前,需要先处理缺失值,可以选择填充或者删除含有缺失值的记录。之后,设置聚类参数,如选择算法类型、设定聚类数目等,进行聚类操作。分析完成后,用户可对比不同算法和参数设置下的聚类结果,以评估最佳聚类方案。
背景与挑战
背景概述
在劳动谈判与人力资源管理领域,'labor'数据集的构建旨在通过分析员工的工作表现及其福利待遇等指标,对员工进行分类,以区分表现良好与不佳的员工。该数据集的创建未具体记载确切时间和主要研究人员或机构,但它提供了一个重要的研究案例,用于评估和预测员工的工作表现。数据集包含57个样本和17个属性,涵盖了工作时长、薪资增长、生活津贴等多个维度,对于人力资源管理和劳动谈判的研究具有重要的参考价值。
当前挑战
该数据集在研究领域中面临的挑战主要包括:数据缺失问题,如 wages increase in third year 属性中74%的数据缺失,这给数据分析带来了困难;其次,由于数据集样本量较小,可能导致模型泛化能力不足。在构建过程中,对于缺失值的处理、选择合适的聚类算法和参数设定,以及如何提高模型的准确性和鲁棒性,都是研究者需要解决的挑战。
常用场景
经典使用场景
在劳动谈判领域,labor数据集被广泛运用于聚类分析,旨在根据员工的工作时长、薪资增长、福利等多个维度,将员工划分为优秀与否的类别。该数据集的经典使用场景在于,研究者通过K-means和层次聚类算法(AGNES)对数据进行处理,以识别出影响员工分类的关键特征,从而为企业的人力资源管理提供数据支撑。
解决学术问题
labor数据集解决了如何有效利用聚类算法对员工进行分类的学术问题,特别是在处理具有缺失值的复杂数据时,如何选择合适的算法和参数设置以优化聚类效果。这为人力资源管理领域中的员工评估和分类提供了实证研究基础,对于提升企业劳动力的整体素质具有重要意义。
实际应用
在实际应用中,labor数据集的分析结果被用于指导企业制定更加合理的员工激励政策,以及优化人力资源配置。通过该数据集的聚类分析,企业能够识别出不同类别员工的特征,从而实施针对性的培训和管理策略,提升工作效率和员工满意度。
数据集最近研究
最新研究方向
在当前的数据挖掘与机器学习领域,聚类分析作为一种无监督学习方法,其在劳动人事管理中的应用引起了广泛关注。最新研究显示,通过对labor数据集的应用,学者们致力于探索如何利用K-means与层次聚类算法(AGNES)对员工的工作表现进行分类。该研究不仅关注算法本身的性能,如准确率和鲁棒性,还深入探讨了数据预处理的重要性,尤其是对缺失值的处理。此类研究对于企业的人力资源管理具有重要意义,它可以帮助企业更有效地识别高绩效员工与低绩效员工,进而优化人力资源配置,提高管理效率。
以上内容由遇见数据集搜集并总结生成



