five

layoffs|裁员数据集|公司数据数据集

收藏
github2024-11-12 更新2024-11-13 收录
裁员
公司数据
下载链接:
https://github.com/abdullahakintobi/Layoffs-Data-Cleaning-in-MySQL
下载链接
链接失效反馈
资源简介:
该数据集包含公司裁员的相关信息,包括公司名称、位置、行业、裁员人数、裁员百分比、裁员日期、公司阶段、国家以及筹集的资金(以百万计)。数据集经过清理和标准化,以确保数据的准确性和一致性。
创建时间:
2024-11-05
原始信息汇总

Layoffs Data Cleaning in MySQL

数据集概述

作者

  • 作者: Abdullah Akintobi
  • 数据库管理系统: MySQL
  • 发布日期: 2024年11月12日

项目目标

  • 使用MySQL清理和标准化layoffs数据集。
  • 主要过程包括数据建模、数据探索、数据清理和数据标准化。
  • 目标是创建一个干净、标准化的数据集,消除重复、不一致和空值,以便进行准确的裁员数据分析。

数据建模

数据库和表创建

  • 数据库: 创建了一个名为world_layoffs的专用数据库。 sql CREATE DATABASE world_layoffs;

  • 表结构: 创建了一个名为layoffs的表,包含以下列:

    • company: 公司名称
    • location: 公司所在地
    • industry: 行业
    • total_laid_off: 裁员人数
    • percentage_laid_off: 裁员百分比
    • date: 裁员日期
    • stage: 公司阶段
    • country: 公司所在国家
    • funds_raised_millions: 筹集资金(百万) sql CREATE TABLE layoffs ( company TEXT, location TEXT, industry TEXT, total_laid_off INT DEFAULT NULL, percentage_laid_off FLOAT DEFAULT NULL, date TEXT, stage TEXT, country TEXT, funds_raised_millions INT DEFAULT NULL );
  • 数据备份: 在任何转换之前,将原始数据集备份到layoffs_copy表中。 sql CREATE TABLE layoffs_copy LIKE layoffs; INSERT INTO layoffs_copy SELECT * FROM layoffs;

数据探索

基本数据洞察

  • 随机样本预览: 选择10个随机行以了解数据布局。 sql SELECT * FROM layoffs_copy ORDER BY RAND() LIMIT 10;

  • 行数验证: 验证总行数。 sql SELECT COUNT(*) AS row_num FROM layoffs_copy;

  • 重复检查: 使用窗口函数基于关键字段识别重复行。 sql WITH duplicate AS ( SELECT *, ROW_NUMBER() OVER ( PARTITION BY company, location, industry, total_laid_off, percentage_laid_off, date, stage, country, funds_raised_millions ) AS dub_row_num FROM layoffs_copy ) SELECT * FROM duplicate WHERE dub_row_num > 1;

数据清理

重复删除和列调整

  • 创建清理表: 创建新表layoffs_clean,并添加行号以识别重复。 sql CREATE TABLE layoffs_clean AS SELECT *, ROW_NUMBER() OVER ( PARTITION BY company, location, industry, total_laid_off, percentage_laid_off, date, stage, country, funds_raised_millions ) AS dub_row_num FROM layoffs_copy;

  • 删除重复记录: 删除已识别的重复记录。 sql DELETE FROM layoffs_clean WHERE dub_row_num > 1;

  • 结构清理: 删除临时重复标识符列。 sql ALTER TABLE layoffs_clean DROP COLUMN dub_row_num;

数据标准化

数据一致性和空值处理

  • 公司名称: 去除公司名称中的空白。 sql UPDATE layoffs_clean SET company = TRIM(company);

  • 行业名称: 标准化行业分类。 sql UPDATE layoffs_clean SET industry = Crypto WHERE industry IN (Crypto Currency, CryptoCurrency);

  • 国家名称: 修正国家名称格式。 sql UPDATE layoffs_clean SET country = TRIM(TRAILING . FROM country) WHERE country LIKE United States%;

  • 日期格式: 标准化日期格式和数据类型。 sql UPDATE layoffs_clean SET date = STR_TO_DATE(date, %m/%d/%Y); ALTER TABLE layoffs_clean MODIFY COLUMN date DATE;

空值处理

  • 行业空值: 将空行业值标准化为NULL,并使用公司和位置匹配填充。 sql UPDATE layoffs_clean SET industry = NULL WHERE industry = ; UPDATE layoffs_clean AS t1 INNER JOIN layoffs_clean AS t2 ON t1.company = t2.company AND t1.location = t2.location SET t1.industry = t2.industry WHERE t1.industry IS NULL AND t2.industry IS NOT NULL;

  • 不完整记录: 删除缺乏必要裁员信息的记录。 sql DELETE FROM layoffs_clean WHERE total_laid_off IS NULL AND percentage_laid_off IS NULL;

总结洞察

  • 数据质量: 识别并删除重复记录以确保数据完整性。
  • 标准化: 实施公司名称、行业和国家的一致格式。
  • 缺失数据: 制定处理关键字段中空值的策略。
  • 日期格式: 将字符串日期转换为适当的日期格式以进行更好的分析。
  • 数据完整性: 删除缺乏必要裁员信息的记录。

结论

  • 该项目展示了在MySQL中进行数据清理的系统方法,实施了各种技术以确保数据质量和一致性。
  • 清理后的数据集现在已正确结构化,可用于进一步分析,具有标准化的格式和减少的空值。
  • SQL查询模块化,为类似的数据清理任务提供了可重用的框架。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建过程严谨且系统,首先通过MySQL数据库管理系统创建了一个名为`world_layoffs`的专用数据库,并在此基础上定义了包含公司名称、位置、行业、裁员人数、裁员百分比、裁员日期、公司阶段、国家及筹集资金等字段的`layoffs`表。随后,通过数据建模、探索、清洗和标准化四个关键步骤,确保数据集的完整性和一致性。特别地,数据集在构建过程中进行了原始数据备份,以防止数据丢失,并通过窗口函数识别和移除重复记录,最终实现了数据的标准化处理,包括公司名称、行业分类、国家名称和日期格式的统一。
使用方法
使用该数据集时,用户首先需要熟悉其结构和字段定义,可以通过SQL查询语言进行数据的提取和分析。例如,用户可以查询特定公司或行业的裁员情况,或者分析不同国家的裁员趋势。此外,数据集的标准化处理使得用户可以方便地进行跨公司或跨行业的比较分析。为了进一步利用该数据集,用户还可以结合其他数据源,进行更深入的关联分析和模型构建。总体而言,该数据集为裁员相关的研究和分析提供了高质量的数据基础。
背景与挑战
背景概述
layoffs数据集由Abdullah Akintobi于2024年11月12日创建,旨在通过MySQL进行数据清洗和标准化处理。该数据集的核心研究问题是如何通过系统化的数据清洗流程,确保裁员数据的质量和一致性,从而为后续的分析提供可靠的基础。主要研究人员Abdullah Akintobi通过创建专门的`world_layoffs`数据库,对原始数据进行了详细的建模、探索、清洗和标准化处理。这一研究不仅展示了数据清洗在数据分析中的重要性,也为相关领域的数据处理提供了可复用的框架。
当前挑战
layoffs数据集在构建过程中面临多项挑战。首先,数据质量问题,如重复记录和不一致的数据格式,需要通过复杂的SQL查询进行识别和处理。其次,缺失数据的处理,包括将空值标准化为NULL,并通过公司和位置匹配填补缺失的行业信息。此外,日期格式的标准化和数据类型的转换也是数据清洗过程中的关键挑战。最后,确保数据完整性,删除缺乏必要裁员信息的记录,以保证分析结果的准确性。这些挑战共同构成了该数据集在数据清洗和标准化过程中的主要难点。
常用场景
经典使用场景
在企业管理和经济研究领域,layoffs数据集的经典使用场景主要集中在分析和预测公司裁员行为。通过该数据集,研究者可以深入探讨不同行业、地区和国家在经济波动期间的企业裁员模式。例如,研究者可以利用该数据集分析特定行业在经济衰退期间裁员的比例变化,从而为政策制定者提供有价值的参考信息。此外,该数据集还可用于构建预测模型,帮助企业提前识别潜在的裁员风险,从而制定更为有效的应对策略。
解决学术问题
layoffs数据集在学术研究中解决了多个关键问题。首先,它为研究者提供了关于全球范围内企业裁员行为的详细数据,有助于深入分析经济波动对企业决策的影响。其次,通过标准化和清理数据,该数据集消除了重复和不一致性,确保了研究结果的准确性和可靠性。此外,该数据集还为研究企业生命周期和资金筹集与裁员之间的关系提供了宝贵的数据支持,推动了相关领域的理论和实证研究。
实际应用
在实际应用中,layoffs数据集为企业决策者和政策制定者提供了重要的参考依据。企业可以利用该数据集分析同行业或同地区其他企业的裁员行为,从而评估自身的人力资源策略。政策制定者则可以通过分析不同国家和地区的裁员数据,制定更为精准的经济刺激政策和社会保障措施。此外,该数据集还可用于人力资源管理软件的开发,帮助企业实时监控和预测裁员风险,提升人力资源管理的效率和效果。
数据集最近研究
最新研究方向
在当前全球经济环境下,裁员数据集的研究正逐渐成为企业管理和经济分析领域的前沿课题。该数据集通过MySQL进行数据清洗和标准化处理,旨在提供一个高质量、无冗余的数据集,以支持对裁员现象的深入分析。研究者们正利用这一数据集探索裁员与公司财务状况、行业趋势及宏观经济指标之间的关联,以期为企业决策提供科学依据。此外,该数据集的清洗过程也为数据科学领域提供了宝贵的实践经验,特别是在数据质量控制和标准化处理方面,具有重要的参考价值。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录