labor

github2019-10-02 更新2024-05-31 收录

下载链接：

https://github.com/ongxuanhong/Clustering-analysis-with-Labor-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含有关员工的信息，如休假天数、工作小时数、年度工资增长等，用于区分优秀员工和非优秀员工。数据集包含57个样本和17个属性。

This dataset contains information about employees, such as vacation days, working hours, annual salary increases, etc., used to distinguish between outstanding and non-outstanding employees. The dataset comprises 57 samples and 17 attributes.

创建时间：

2015-08-27

原始信息汇总

数据集概述

数据集名称

名称: labor

数据集地址

地址: https://archive.ics.uci.edu/ml/machine-learning-databases/labor-negotiations/labor-negotiations.data

数据集描述

描述: https://archive.ics.uci.edu/ml/machine-learning-databases/labor-negotiations/labor-negotiations.names

数据集特征

样本数量: 57
属性数量: 17

属性详情

属性名称	属性类型	缺失值数量	缺失值比例
duration	numeric	1	2%
wage increase in first year	numeric	1	2%
wage increase in second year	numeric	11	19%
wage increase in third year	numeric	42	74%
cost of living allowance	nominal	20	35%
working hours	numeric	6	11%
pension	nominal	30	53%
standby pay	numeric	48	84%
shift differencial	numeric	26	46%
education allowance	nominal	35	61%
statutory holidays	numeric	4	7%
vacation	nominal	6	11%
longterm disabil	nominal	29	51%
contribution towards the dental plan	nominal	20	35%
bereavement	nominal	27	47%
contribution towards the health plan	nominal	20	35%

聚类分析

算法: K-mean 和 Hierarchical Clustering (AGNES)
数据处理: 使用 ReplaceMissingValues 过滤器处理缺失值
聚类参数:
- 组数: 2
- 评估技术: Classes To Clusters
- 距离度量: Euclidean

聚类结果

算法	错误聚类样本数 (未处理缺失值)	错误聚类样本数 (已处理缺失值)
SimpleKMeans	13.0 (22.807%)	13.0 (22.807%)
AGNES with Single Link	20.0 (35.0877%)	19.0 (33.333%)
AGNES with Complete Link	21.0 (36.8421%)	17.0 (29.824%)
AGNES with Adjusted Complete Link	21.0 (36.8421%)	19.0 (33.333%)
AGNES with Average Link	20.0 (35.0877%)	15.0 (26.315%)
AGNES with Mean Link	15.0 (26.3158%)	16.0 (28.070%)
AGNES with Centroid Link	25.0 (43.8596%)	19.0 (33.333%)

搜集汇总

数据集介绍

构建方式

数据集Labor通过搜集员工的各项工作相关信息，如休息天数、工作时间、年薪增长率等，旨在区分优秀员工与不佳员工。该数据集的构建涉及了17个属性，包括数值型和名义型属性，部分属性存在缺失值。构建过程中，研究者利用Weka工具对数据进行了预处理和聚类分析，采用K-means和层次聚类（AGNES）算法对数据进行了有效划分。

使用方法

用户可通过访问指定网址获取Labor数据集。数据集以ARFF格式存储，可以直接在Weka中使用。用户在进行聚类分析前，需要先处理缺失值，可以选择填充或者删除含有缺失值的记录。之后，设置聚类参数，如选择算法类型、设定聚类数目等，进行聚类操作。分析完成后，用户可对比不同算法和参数设置下的聚类结果，以评估最佳聚类方案。

背景与挑战

背景概述

在劳动谈判与人力资源管理领域，'labor'数据集的构建旨在通过分析员工的工作表现及其福利待遇等指标，对员工进行分类，以区分表现良好与不佳的员工。该数据集的创建未具体记载确切时间和主要研究人员或机构，但它提供了一个重要的研究案例，用于评估和预测员工的工作表现。数据集包含57个样本和17个属性，涵盖了工作时长、薪资增长、生活津贴等多个维度，对于人力资源管理和劳动谈判的研究具有重要的参考价值。

当前挑战

该数据集在研究领域中面临的挑战主要包括：数据缺失问题，如 wages increase in third year 属性中74%的数据缺失，这给数据分析带来了困难；其次，由于数据集样本量较小，可能导致模型泛化能力不足。在构建过程中，对于缺失值的处理、选择合适的聚类算法和参数设定，以及如何提高模型的准确性和鲁棒性，都是研究者需要解决的挑战。

常用场景

经典使用场景

在劳动谈判领域，labor数据集被广泛运用于聚类分析，旨在根据员工的工作时长、薪资增长、福利等多个维度，将员工划分为优秀与否的类别。该数据集的经典使用场景在于，研究者通过K-means和层次聚类算法（AGNES）对数据进行处理，以识别出影响员工分类的关键特征，从而为企业的人力资源管理提供数据支撑。

解决学术问题

labor数据集解决了如何有效利用聚类算法对员工进行分类的学术问题，特别是在处理具有缺失值的复杂数据时，如何选择合适的算法和参数设置以优化聚类效果。这为人力资源管理领域中的员工评估和分类提供了实证研究基础，对于提升企业劳动力的整体素质具有重要意义。

实际应用

在实际应用中，labor数据集的分析结果被用于指导企业制定更加合理的员工激励政策，以及优化人力资源配置。通过该数据集的聚类分析，企业能够识别出不同类别员工的特征，从而实施针对性的培训和管理策略，提升工作效率和员工满意度。

数据集最近研究