labor

github2019-11-27 更新2024-05-31 收录

下载链接：

https://github.com/dominicoquocanh/Clustering-analysis-with-Labor-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含有关员工的信息，如休息天数、工作小时数、年度工资增长等，用于区分优秀员工和非优秀员工。数据集包含57个样本和17个属性。

This dataset contains employee-related information, including days off, working hours, annual salary increases, and other relevant details, and is used to distinguish between excellent employees and non-excellent ones. The dataset consists of 57 samples and 17 attributes.

创建时间：

2019-10-29

原始信息汇总

数据集概述

数据集名称

名称: labor

数据集地址

地址: https://archive.ics.uci.edu/ml/machine-learning-databases/labor-negotiations/labor-negotiations.data

数据集描述

描述地址: https://archive.ics.uci.edu/ml/machine-learning-databases/labor-negotiations/labor-negotiations.names

数据集详细信息

样本数量: 57
属性数量: 17

属性详情

属性名称	属性类型	缺失值数量	缺失值比例
duration	numeric	1	2%
wage increase in first year	numeric	1	2%
wage increase in second year	numeric	11	19%
wage increase in third year	numeric	42	74%
cost of living allowance	nominal	20	35%
working hours	numeric	6	11%
pension	nominal	30	53%
standby pay	numeric	48	84%
shift differencial	numeric	26	46%
education allowance	nominal	35	61%
statutory holidays	numeric	4	7%
vacation	nominal	6	11%
longterm disabil	nominal	29	51%
contribution towards the dental plan	nominal	20	35%
bereavement	nominal	27	47%
contribution towards the health plan	nominal	20	35%

聚类分析

算法: K-mean 和 Hierarchical Clustering (AGNES)
数据预处理: 使用 ReplaceMissingValues 处理缺失值
聚类参数:
- 聚类数量: 2
- 评估技术: Classes To Clusters
- 距离度量: Euclidean

聚类结果

算法	错误聚类样本数 (未处理缺失值)	错误聚类样本数 (已处理缺失值)
SimpleKMeans	13.0 (22.807%)	13.0 (22.807%)
AGNES with Single Link	20.0 (35.0877%)	19.0 (33.333%)
AGNES with Complete Link	21.0 (36.8421%)	17.0 (29.824%)
AGNES with Adjusted Complete Link	21.0 (36.8421%)	19.0 (33.333%)
AGNES with Average Link	20.0 (35.0877%)	15.0 (26.315%)
AGNES with Mean Link	15.0 (26.3158%)	16.0 (28.070%)
AGNES with Centroid Link	25.0 (43.8596%)	19.0 (33.333%)

以上是对数据集 labor 的详细概述。

搜集汇总

数据集介绍

构建方式

该数据集名为'labor'，其构建基于对员工工作表现的分类需求。数据集包含17个属性，涵盖了员工的工作时长、工资增长、福利待遇等多个方面。数据集的构建过程中，采用了K-means和Hierarchical Clustering（AGNES）两种聚类算法，通过Weka工具进行实现。数据集的构建旨在通过聚类分析，区分出表现优秀的员工（good）和表现不佳的员工（bad）。

使用方法

使用该数据集时，首先需从UCI机器学习库下载数据，并导入Weka工具进行预处理。针对数据集中的缺失值，可选择使用ReplaceMissingValues过滤器进行处理。随后，用户可根据需求选择K-means或Hierarchical Clustering算法进行聚类分析，设定聚类数为2，并选择Euclidean距离作为度量标准。通过对比不同算法在处理缺失值前后的聚类效果，可以更全面地评估员工的工作表现。

背景与挑战

背景概述

在人力资源管理领域，评估员工绩效是一个关键任务。为了实现这一目标，研究人员开发了名为'labor'的数据集，该数据集包含了员工的工作时长、薪资增长、福利待遇等多维度信息。该数据集由UCI机器学习库提供，主要用于区分表现优秀的员工（good）和表现不佳的员工（bad）。通过应用K-means和层次聚类（AGNES）等算法，研究人员旨在探索如何通过数据分析来优化人力资源管理策略。该数据集的创建为学术界和企业界提供了一个宝贵的工具，以深入理解员工行为与绩效之间的关系。

当前挑战

尽管'labor'数据集在人力资源管理领域具有重要意义，但其构建和应用过程中仍面临诸多挑战。首先，数据集中存在大量缺失值，如第三年的薪资增长数据缺失率高达74%，这可能影响聚类分析的准确性。其次，数据集的样本量较小，仅有57个样本，可能导致模型泛化能力不足。此外，不同属性的数据类型和缺失率差异较大，增加了数据预处理的复杂性。最后，聚类结果的评估依赖于特定的算法和参数设置，如K-means和AGNES的不同链接方法，这使得结果的可解释性和稳定性受到挑战。

常用场景

经典使用场景

在人力资源管理领域，Labor数据集的经典使用场景主要集中在员工绩效评估与分类。通过分析员工的各项指标，如工作时长、薪资增长、福利待遇等，可以利用聚类算法（如K-means和层次聚类）将员工分为‘优秀’和‘普通’两类。这种分类有助于企业识别高绩效员工，从而制定更有针对性的激励政策和职业发展规划。

解决学术问题

Labor数据集在学术研究中主要解决了员工分类与绩效评估的问题。通过聚类分析，研究人员能够深入探讨不同员工群体的特征及其对组织绩效的影响。这不仅为学术界提供了关于员工行为和组织管理的新视角，还为实践中的员工管理策略提供了理论支持。

实际应用

在实际应用中，Labor数据集被广泛用于企业的人力资源管理。通过分析员工的各项数据，企业可以更准确地评估员工的工作表现，优化人力资源配置，提高员工满意度和工作效率。此外，该数据集还可用于制定和调整员工福利政策，确保企业能够在激烈的市场竞争中保持人力资源的优势。

数据集最近研究