World Layoffs Dataset

github2024-09-12 更新2024-09-19 收录

下载链接：

https://github.com/RAAD07/SQL_Project-World_Layoffs_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了全球裁员的相关数据，包括公司名称、地点、行业、裁员人数、裁员百分比、日期、阶段、国家以及筹集的资金等信息。

This dataset contains relevant data on global corporate layoffs, including company name, location, industry, number of layoffs, layoff percentage, date, stage, country, and funds raised, among other related information.

创建时间：

2024-09-11

原始信息汇总

SQL_Project_World-Layoffs-Dataset

数据集概述

该数据集包含全球裁员信息，分为数据清洗和探索性数据分析（EDA）两部分。

数据清洗

数据清洗部分包括以下步骤：

去除重复数据
标准化数据
处理空值或空白值
删除不必要的行和列

数据清洗步骤

去除重复数据：通过创建row_num列并删除row_num > 1的行来去除重复数据。
标准化数据：对company、location、country和industry列进行标准化处理，去除多余空格并统一格式。
处理空值：检查并填充industry列的空值，删除在total_laid_off、percentage_laid_off和funds_raised_millions列中同时为空的行。
删除不必要的列：删除不再需要的row_num列。

探索性数据分析（EDA）

EDA部分包括以下分析：

检查清洗后的数据集
分析裁员最多的公司和行业
分析裁员最多的国家和时间段
分析裁员最多的公司阶段和年份
分析资金募集最多的公司和行业

EDA分析步骤

裁员最多的公司和行业：通过SUM(total_laid_off)分析裁员最多的公司和行业。
裁员最多的国家和时间段：通过MIN(date)和MAX(date)分析裁员的时间段，并通过SUM(total_laid_off)分析裁员最多的国家。
裁员最多的公司阶段和年份：通过YEAR(date)和SUM(total_laid_off)分析裁员最多的公司阶段和年份。
资金募集最多的公司和行业：通过SUM(funds_raised_millions)分析资金募集最多的公司和行业。

数据集结构

数据集包含以下字段：

company：公司名称
location：公司所在地
industry：行业
total_laid_off：裁员总数
percentage_laid_off：裁员百分比
date：裁员日期
stage：公司阶段
country：国家
funds_raised_millions：募集资金（百万）

数据集用途

该数据集适用于分析全球裁员趋势、公司裁员情况、行业裁员情况以及资金募集情况。

搜集汇总

数据集介绍

构建方式

在构建World Layoffs Dataset时，首先通过SQL技术对原始数据进行了细致的清洗。这一过程包括去除重复记录、标准化数据格式、处理缺失值以及必要时删除无用的行和列。具体步骤包括创建多个工作表以保护原始数据，通过ROW_NUMBER()函数识别并删除重复记录，使用TRIM()函数标准化公司名称、地点、国家和行业名称，以及通过STR_TO_DATE()函数将日期列格式化为标准日期类型。此外，还通过JOIN操作填充了部分缺失的行业数据，并最终删除了不再需要的辅助列。

使用方法

使用World Layoffs Dataset时，用户可以通过SQL查询工具直接访问和分析数据。数据集适合用于探索性数据分析（EDA），以揭示裁员趋势、行业影响、国家差异等。例如，用户可以查询特定时间段内的裁员总数、按行业或国家分组的裁员情况，以及裁员与公司资金筹集之间的关系。此外，数据集还可用于机器学习模型的训练，以预测未来的裁员趋势或评估特定因素对裁员的影响。

背景与挑战

背景概述

全球裁员数据集（World Layoffs Dataset）是一个专注于记录全球范围内公司裁员情况的数据集。该数据集由一组研究人员或机构创建，旨在通过收集和分析公司裁员的数据，揭示全球经济环境中的就业动态。核心研究问题包括裁员的时间、地点、行业分布以及裁员对公司财务状况的影响。该数据集对经济学、社会学和人力资源管理等领域的研究具有重要意义，为政策制定者和企业管理者提供了宝贵的参考信息。

当前挑战

全球裁员数据集在构建过程中面临多项挑战。首先，数据的标准化是一个重要问题，涉及公司名称、地点、行业分类等信息的统一处理。其次，数据中的缺失值和重复记录需要通过复杂的SQL操作进行清理和填补。此外，数据集的时效性和完整性也是一个持续的挑战，确保数据能够反映最新的全球裁员趋势。最后，数据集的分析和解读需要专业的经济和统计知识，以确保从数据中提取的洞察具有实际应用价值。

常用场景

经典使用场景

在全球裁员数据集中，经典的使用场景包括对不同行业、国家和时间段内的裁员趋势进行深入分析。研究者可以通过该数据集识别出裁员高峰期、特定行业的裁员模式以及不同国家在经济波动中的裁员响应。此外，该数据集还可用于构建预测模型，以预测未来可能的裁员趋势，从而为政策制定者和企业管理者提供决策支持。

解决学术问题

该数据集解决了多个学术研究问题，包括但不限于经济周期与裁员的关系、行业特定裁员模式以及跨国裁员比较研究。通过分析裁员数据，学者们可以更准确地理解经济衰退对企业行为的影响，并为宏观经济政策提供实证依据。此外，该数据集还为劳动力市场研究提供了宝贵的数据资源，有助于深入探讨就业稳定性与经济波动之间的复杂关系。

实际应用

在实际应用中，全球裁员数据集被广泛用于企业风险管理、人力资源规划以及政府政策制定。企业可以利用该数据集识别行业内的裁员趋势，从而调整人力资源策略以应对潜在的经济波动。政府机构则可以通过分析裁员数据，制定更有针对性的就业保障政策，以减轻经济衰退对劳动力市场的冲击。此外，投资者和金融机构也可以利用该数据集评估特定行业或企业的风险水平。

数据集最近研究