labor
收藏github2019-11-27 更新2024-05-31 收录
下载链接:
https://github.com/dominicoquocanh/Clustering-analysis-with-Labor-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含有关员工的信息,如休息天数、工作小时数、年度工资增长等,用于区分优秀员工和非优秀员工。数据集包含57个样本和17个属性。
This dataset contains employee-related information, including days off, working hours, annual salary increases, and other relevant details, and is used to distinguish between excellent employees and non-excellent ones. The dataset consists of 57 samples and 17 attributes.
创建时间:
2019-10-29
原始信息汇总
数据集概述
数据集名称
- 名称: labor
数据集地址
- 地址: https://archive.ics.uci.edu/ml/machine-learning-databases/labor-negotiations/labor-negotiations.data
数据集描述
- 描述地址: https://archive.ics.uci.edu/ml/machine-learning-databases/labor-negotiations/labor-negotiations.names
数据集详细信息
- 样本数量: 57
- 属性数量: 17
属性详情
| 属性名称 | 属性类型 | 缺失值数量 | 缺失值比例 |
|---|---|---|---|
| duration | numeric | 1 | 2% |
| wage increase in first year | numeric | 1 | 2% |
| wage increase in second year | numeric | 11 | 19% |
| wage increase in third year | numeric | 42 | 74% |
| cost of living allowance | nominal | 20 | 35% |
| working hours | numeric | 6 | 11% |
| pension | nominal | 30 | 53% |
| standby pay | numeric | 48 | 84% |
| shift differencial | numeric | 26 | 46% |
| education allowance | nominal | 35 | 61% |
| statutory holidays | numeric | 4 | 7% |
| vacation | nominal | 6 | 11% |
| longterm disabil | nominal | 29 | 51% |
| contribution towards the dental plan | nominal | 20 | 35% |
| bereavement | nominal | 27 | 47% |
| contribution towards the health plan | nominal | 20 | 35% |
聚类分析
- 算法: K-mean 和 Hierarchical Clustering (AGNES)
- 数据预处理: 使用 ReplaceMissingValues 处理缺失值
- 聚类参数:
- 聚类数量: 2
- 评估技术: Classes To Clusters
- 距离度量: Euclidean
聚类结果
| 算法 | 错误聚类样本数 (未处理缺失值) | 错误聚类样本数 (已处理缺失值) |
|---|---|---|
| SimpleKMeans | 13.0 (22.807%) | 13.0 (22.807%) |
| AGNES with Single Link | 20.0 (35.0877%) | 19.0 (33.333%) |
| AGNES with Complete Link | 21.0 (36.8421%) | 17.0 (29.824%) |
| AGNES with Adjusted Complete Link | 21.0 (36.8421%) | 19.0 (33.333%) |
| AGNES with Average Link | 20.0 (35.0877%) | 15.0 (26.315%) |
| AGNES with Mean Link | 15.0 (26.3158%) | 16.0 (28.070%) |
| AGNES with Centroid Link | 25.0 (43.8596%) | 19.0 (33.333%) |
以上是对数据集 labor 的详细概述。
搜集汇总
数据集介绍

构建方式
该数据集名为'labor',其构建基于对员工工作表现的分类需求。数据集包含17个属性,涵盖了员工的工作时长、工资增长、福利待遇等多个方面。数据集的构建过程中,采用了K-means和Hierarchical Clustering(AGNES)两种聚类算法,通过Weka工具进行实现。数据集的构建旨在通过聚类分析,区分出表现优秀的员工(good)和表现不佳的员工(bad)。
使用方法
使用该数据集时,首先需从UCI机器学习库下载数据,并导入Weka工具进行预处理。针对数据集中的缺失值,可选择使用ReplaceMissingValues过滤器进行处理。随后,用户可根据需求选择K-means或Hierarchical Clustering算法进行聚类分析,设定聚类数为2,并选择Euclidean距离作为度量标准。通过对比不同算法在处理缺失值前后的聚类效果,可以更全面地评估员工的工作表现。
背景与挑战
背景概述
在人力资源管理领域,评估员工绩效是一个关键任务。为了实现这一目标,研究人员开发了名为'labor'的数据集,该数据集包含了员工的工作时长、薪资增长、福利待遇等多维度信息。该数据集由UCI机器学习库提供,主要用于区分表现优秀的员工(good)和表现不佳的员工(bad)。通过应用K-means和层次聚类(AGNES)等算法,研究人员旨在探索如何通过数据分析来优化人力资源管理策略。该数据集的创建为学术界和企业界提供了一个宝贵的工具,以深入理解员工行为与绩效之间的关系。
当前挑战
尽管'labor'数据集在人力资源管理领域具有重要意义,但其构建和应用过程中仍面临诸多挑战。首先,数据集中存在大量缺失值,如第三年的薪资增长数据缺失率高达74%,这可能影响聚类分析的准确性。其次,数据集的样本量较小,仅有57个样本,可能导致模型泛化能力不足。此外,不同属性的数据类型和缺失率差异较大,增加了数据预处理的复杂性。最后,聚类结果的评估依赖于特定的算法和参数设置,如K-means和AGNES的不同链接方法,这使得结果的可解释性和稳定性受到挑战。
常用场景
经典使用场景
在人力资源管理领域,Labor数据集的经典使用场景主要集中在员工绩效评估与分类。通过分析员工的各项指标,如工作时长、薪资增长、福利待遇等,可以利用聚类算法(如K-means和层次聚类)将员工分为‘优秀’和‘普通’两类。这种分类有助于企业识别高绩效员工,从而制定更有针对性的激励政策和职业发展规划。
解决学术问题
Labor数据集在学术研究中主要解决了员工分类与绩效评估的问题。通过聚类分析,研究人员能够深入探讨不同员工群体的特征及其对组织绩效的影响。这不仅为学术界提供了关于员工行为和组织管理的新视角,还为实践中的员工管理策略提供了理论支持。
实际应用
在实际应用中,Labor数据集被广泛用于企业的人力资源管理。通过分析员工的各项数据,企业可以更准确地评估员工的工作表现,优化人力资源配置,提高员工满意度和工作效率。此外,该数据集还可用于制定和调整员工福利政策,确保企业能够在激烈的市场竞争中保持人力资源的优势。
数据集最近研究
最新研究方向
在劳动力管理领域,数据集Labor的最新研究方向主要集中在利用聚类分析技术来优化员工分类和绩效评估。通过应用K-means和层次聚类(AGNES)等算法,研究者们致力于在处理缺失数据的情况下,提高员工分类的准确性。这一研究不仅有助于企业更精准地识别和培养优秀员工,还能为劳动谈判和人力资源管理提供科学依据,从而在提升企业效率和员工满意度方面发挥重要作用。
以上内容由遇见数据集搜集并总结生成



