员工数据集|人力资源管理数据集|员工流失分析数据集
收藏数据集概述
数据集名称
To Oversample or Undersample
数据集目的
分析采样技术及其对分类建模预测质量的影响,特别是用于预测员工流失的最佳采样技术。
数据集内容
- 数据类型:人力资源数据集
- 包含信息:员工人口统计信息、薪酬、部门、公司内部任期
- 目标变量:员工流失,二元变量,指示员工是否已离开公司
数据处理方法
- 数据预处理:清洗数据,准备分析,包括移除无关变量、编码分类变量、数据集分割为训练和测试集。
- 采样技术:
- 随机过采样
- 随机欠采样
- Tomek链接
- SMOTE
- ADASYN
模型训练与评估
- 使用的模型:逻辑回归、随机森林、AdaBoost、支持向量机、K-最近邻、决策树
- 评估指标:准确率、精确度、召回率、AUC
分析结果
- 最佳采样技术:SMOTE,能够实现最高的准确率、精确度和AUC分数。
结论
采样技术对分类建模的预测质量有显著影响。SMOTE是一种适用于不平衡数据集的通用采样技术,可用于提高分类模型的性能。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
微博与抖音评论数据集
数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。
github 收录
World Bank - World Governance Indicators
世界银行的世界治理指标(World Governance Indicators, WGI)数据集提供了全球各国在六个治理维度上的评估数据,包括言论和问责、政治稳定和无暴力、政府效率、监管质量、法治以及腐败控制。这些指标基于多个来源的数据,旨在帮助政策制定者和研究人员了解和改善治理质量。
databank.worldbank.org 收录