five

layoffs|裁员数据集|公司数据数据集

收藏
github2024-11-12 更新2024-11-13 收录
裁员
公司数据
下载链接:
https://github.com/abdullahakintobi/Layoffs-Data-Cleaning-in-MySQL
下载链接
链接失效反馈
资源简介:
该数据集包含公司裁员的相关信息,包括公司名称、位置、行业、裁员人数、裁员百分比、裁员日期、公司阶段、国家以及筹集的资金(以百万计)。数据集经过清理和标准化,以确保数据的准确性和一致性。
创建时间:
2024-11-05
原始信息汇总

Layoffs Data Cleaning in MySQL

数据集概述

作者

  • 作者: Abdullah Akintobi
  • 数据库管理系统: MySQL
  • 发布日期: 2024年11月12日

项目目标

  • 使用MySQL清理和标准化layoffs数据集。
  • 主要过程包括数据建模、数据探索、数据清理和数据标准化。
  • 目标是创建一个干净、标准化的数据集,消除重复、不一致和空值,以便进行准确的裁员数据分析。

数据建模

数据库和表创建

  • 数据库: 创建了一个名为world_layoffs的专用数据库。 sql CREATE DATABASE world_layoffs;

  • 表结构: 创建了一个名为layoffs的表,包含以下列:

    • company: 公司名称
    • location: 公司所在地
    • industry: 行业
    • total_laid_off: 裁员人数
    • percentage_laid_off: 裁员百分比
    • date: 裁员日期
    • stage: 公司阶段
    • country: 公司所在国家
    • funds_raised_millions: 筹集资金(百万) sql CREATE TABLE layoffs ( company TEXT, location TEXT, industry TEXT, total_laid_off INT DEFAULT NULL, percentage_laid_off FLOAT DEFAULT NULL, date TEXT, stage TEXT, country TEXT, funds_raised_millions INT DEFAULT NULL );
  • 数据备份: 在任何转换之前,将原始数据集备份到layoffs_copy表中。 sql CREATE TABLE layoffs_copy LIKE layoffs; INSERT INTO layoffs_copy SELECT * FROM layoffs;

数据探索

基本数据洞察

  • 随机样本预览: 选择10个随机行以了解数据布局。 sql SELECT * FROM layoffs_copy ORDER BY RAND() LIMIT 10;

  • 行数验证: 验证总行数。 sql SELECT COUNT(*) AS row_num FROM layoffs_copy;

  • 重复检查: 使用窗口函数基于关键字段识别重复行。 sql WITH duplicate AS ( SELECT *, ROW_NUMBER() OVER ( PARTITION BY company, location, industry, total_laid_off, percentage_laid_off, date, stage, country, funds_raised_millions ) AS dub_row_num FROM layoffs_copy ) SELECT * FROM duplicate WHERE dub_row_num > 1;

数据清理

重复删除和列调整

  • 创建清理表: 创建新表layoffs_clean,并添加行号以识别重复。 sql CREATE TABLE layoffs_clean AS SELECT *, ROW_NUMBER() OVER ( PARTITION BY company, location, industry, total_laid_off, percentage_laid_off, date, stage, country, funds_raised_millions ) AS dub_row_num FROM layoffs_copy;

  • 删除重复记录: 删除已识别的重复记录。 sql DELETE FROM layoffs_clean WHERE dub_row_num > 1;

  • 结构清理: 删除临时重复标识符列。 sql ALTER TABLE layoffs_clean DROP COLUMN dub_row_num;

数据标准化

数据一致性和空值处理

  • 公司名称: 去除公司名称中的空白。 sql UPDATE layoffs_clean SET company = TRIM(company);

  • 行业名称: 标准化行业分类。 sql UPDATE layoffs_clean SET industry = Crypto WHERE industry IN (Crypto Currency, CryptoCurrency);

  • 国家名称: 修正国家名称格式。 sql UPDATE layoffs_clean SET country = TRIM(TRAILING . FROM country) WHERE country LIKE United States%;

  • 日期格式: 标准化日期格式和数据类型。 sql UPDATE layoffs_clean SET date = STR_TO_DATE(date, %m/%d/%Y); ALTER TABLE layoffs_clean MODIFY COLUMN date DATE;

空值处理

  • 行业空值: 将空行业值标准化为NULL,并使用公司和位置匹配填充。 sql UPDATE layoffs_clean SET industry = NULL WHERE industry = ; UPDATE layoffs_clean AS t1 INNER JOIN layoffs_clean AS t2 ON t1.company = t2.company AND t1.location = t2.location SET t1.industry = t2.industry WHERE t1.industry IS NULL AND t2.industry IS NOT NULL;

  • 不完整记录: 删除缺乏必要裁员信息的记录。 sql DELETE FROM layoffs_clean WHERE total_laid_off IS NULL AND percentage_laid_off IS NULL;

总结洞察

  • 数据质量: 识别并删除重复记录以确保数据完整性。
  • 标准化: 实施公司名称、行业和国家的一致格式。
  • 缺失数据: 制定处理关键字段中空值的策略。
  • 日期格式: 将字符串日期转换为适当的日期格式以进行更好的分析。
  • 数据完整性: 删除缺乏必要裁员信息的记录。

结论

  • 该项目展示了在MySQL中进行数据清理的系统方法,实施了各种技术以确保数据质量和一致性。
  • 清理后的数据集现在已正确结构化,可用于进一步分析,具有标准化的格式和减少的空值。
  • SQL查询模块化,为类似的数据清理任务提供了可重用的框架。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建过程严谨且系统,首先通过MySQL数据库管理系统创建了一个名为`world_layoffs`的专用数据库,并在此基础上定义了包含公司名称、位置、行业、裁员人数、裁员百分比、裁员日期、公司阶段、国家及筹集资金等字段的`layoffs`表。随后,通过数据建模、探索、清洗和标准化四个关键步骤,确保数据集的完整性和一致性。特别地,数据集在构建过程中进行了原始数据备份,以防止数据丢失,并通过窗口函数识别和移除重复记录,最终实现了数据的标准化处理,包括公司名称、行业分类、国家名称和日期格式的统一。
使用方法
使用该数据集时,用户首先需要熟悉其结构和字段定义,可以通过SQL查询语言进行数据的提取和分析。例如,用户可以查询特定公司或行业的裁员情况,或者分析不同国家的裁员趋势。此外,数据集的标准化处理使得用户可以方便地进行跨公司或跨行业的比较分析。为了进一步利用该数据集,用户还可以结合其他数据源,进行更深入的关联分析和模型构建。总体而言,该数据集为裁员相关的研究和分析提供了高质量的数据基础。
背景与挑战
背景概述
layoffs数据集由Abdullah Akintobi于2024年11月12日创建,旨在通过MySQL进行数据清洗和标准化处理。该数据集的核心研究问题是如何通过系统化的数据清洗流程,确保裁员数据的质量和一致性,从而为后续的分析提供可靠的基础。主要研究人员Abdullah Akintobi通过创建专门的`world_layoffs`数据库,对原始数据进行了详细的建模、探索、清洗和标准化处理。这一研究不仅展示了数据清洗在数据分析中的重要性,也为相关领域的数据处理提供了可复用的框架。
当前挑战
layoffs数据集在构建过程中面临多项挑战。首先,数据质量问题,如重复记录和不一致的数据格式,需要通过复杂的SQL查询进行识别和处理。其次,缺失数据的处理,包括将空值标准化为NULL,并通过公司和位置匹配填补缺失的行业信息。此外,日期格式的标准化和数据类型的转换也是数据清洗过程中的关键挑战。最后,确保数据完整性,删除缺乏必要裁员信息的记录,以保证分析结果的准确性。这些挑战共同构成了该数据集在数据清洗和标准化过程中的主要难点。
常用场景
经典使用场景
在企业管理和经济研究领域,layoffs数据集的经典使用场景主要集中在分析和预测公司裁员行为。通过该数据集,研究者可以深入探讨不同行业、地区和国家在经济波动期间的企业裁员模式。例如,研究者可以利用该数据集分析特定行业在经济衰退期间裁员的比例变化,从而为政策制定者提供有价值的参考信息。此外,该数据集还可用于构建预测模型,帮助企业提前识别潜在的裁员风险,从而制定更为有效的应对策略。
解决学术问题
layoffs数据集在学术研究中解决了多个关键问题。首先,它为研究者提供了关于全球范围内企业裁员行为的详细数据,有助于深入分析经济波动对企业决策的影响。其次,通过标准化和清理数据,该数据集消除了重复和不一致性,确保了研究结果的准确性和可靠性。此外,该数据集还为研究企业生命周期和资金筹集与裁员之间的关系提供了宝贵的数据支持,推动了相关领域的理论和实证研究。
实际应用
在实际应用中,layoffs数据集为企业决策者和政策制定者提供了重要的参考依据。企业可以利用该数据集分析同行业或同地区其他企业的裁员行为,从而评估自身的人力资源策略。政策制定者则可以通过分析不同国家和地区的裁员数据,制定更为精准的经济刺激政策和社会保障措施。此外,该数据集还可用于人力资源管理软件的开发,帮助企业实时监控和预测裁员风险,提升人力资源管理的效率和效果。
数据集最近研究
最新研究方向
在当前全球经济环境下,裁员数据集的研究正逐渐成为企业管理和经济分析领域的前沿课题。该数据集通过MySQL进行数据清洗和标准化处理,旨在提供一个高质量、无冗余的数据集,以支持对裁员现象的深入分析。研究者们正利用这一数据集探索裁员与公司财务状况、行业趋势及宏观经济指标之间的关联,以期为企业决策提供科学依据。此外,该数据集的清洗过程也为数据科学领域提供了宝贵的实践经验,特别是在数据质量控制和标准化处理方面,具有重要的参考价值。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

MIT Indoor Scenes

室内场景识别是高水平视觉中一个具有挑战性的开放性问题。大多数适用于室外场景的场景识别模型在室内领域的表现都较差。该数据库包含67个室内类别,共15620张图像。图像的数量因类别而异,但每个类别至少有100张图像。所有图像均为jpg格式。此处提供的图像仅用于研究目的。

阿里云天池 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录