layoffs|裁员数据集|公司数据数据集
收藏Layoffs Data Cleaning in MySQL
数据集概述
作者
- 作者: Abdullah Akintobi
- 数据库管理系统: MySQL
- 发布日期: 2024年11月12日
项目目标
- 使用MySQL清理和标准化
layoffs
数据集。 - 主要过程包括数据建模、数据探索、数据清理和数据标准化。
- 目标是创建一个干净、标准化的数据集,消除重复、不一致和空值,以便进行准确的裁员数据分析。
数据建模
数据库和表创建
-
数据库: 创建了一个名为
world_layoffs
的专用数据库。 sql CREATE DATABASE world_layoffs; -
表结构: 创建了一个名为
layoffs
的表,包含以下列:company
: 公司名称location
: 公司所在地industry
: 行业total_laid_off
: 裁员人数percentage_laid_off
: 裁员百分比date
: 裁员日期stage
: 公司阶段country
: 公司所在国家funds_raised_millions
: 筹集资金(百万) sql CREATE TABLE layoffs (company
TEXT,location
TEXT,industry
TEXT,total_laid_off
INT DEFAULT NULL,percentage_laid_off
FLOAT DEFAULT NULL,date
TEXT,stage
TEXT,country
TEXT,funds_raised_millions
INT DEFAULT NULL );
-
数据备份: 在任何转换之前,将原始数据集备份到
layoffs_copy
表中。 sql CREATE TABLE layoffs_copy LIKE layoffs; INSERT INTO layoffs_copy SELECT * FROM layoffs;
数据探索
基本数据洞察
-
随机样本预览: 选择10个随机行以了解数据布局。 sql SELECT * FROM layoffs_copy ORDER BY RAND() LIMIT 10;
-
行数验证: 验证总行数。 sql SELECT COUNT(*) AS row_num FROM layoffs_copy;
-
重复检查: 使用窗口函数基于关键字段识别重复行。 sql WITH duplicate AS ( SELECT *, ROW_NUMBER() OVER ( PARTITION BY
company
,location
,industry
,total_laid_off
,percentage_laid_off
,date
,stage
,country
,funds_raised_millions
) AS dub_row_num FROM layoffs_copy ) SELECT * FROM duplicate WHERE dub_row_num > 1;
数据清理
重复删除和列调整
-
创建清理表: 创建新表
layoffs_clean
,并添加行号以识别重复。 sql CREATE TABLE layoffs_clean AS SELECT *, ROW_NUMBER() OVER ( PARTITION BYcompany
,location
,industry
,total_laid_off
,percentage_laid_off
,date
,stage
,country
,funds_raised_millions
) AS dub_row_num FROM layoffs_copy; -
删除重复记录: 删除已识别的重复记录。 sql DELETE FROM layoffs_clean WHERE dub_row_num > 1;
-
结构清理: 删除临时重复标识符列。 sql ALTER TABLE layoffs_clean DROP COLUMN dub_row_num;
数据标准化
数据一致性和空值处理
-
公司名称: 去除公司名称中的空白。 sql UPDATE layoffs_clean SET company = TRIM(company);
-
行业名称: 标准化行业分类。 sql UPDATE layoffs_clean SET industry = Crypto WHERE industry IN (Crypto Currency, CryptoCurrency);
-
国家名称: 修正国家名称格式。 sql UPDATE layoffs_clean SET country = TRIM(TRAILING . FROM country) WHERE country LIKE United States%;
-
日期格式: 标准化日期格式和数据类型。 sql UPDATE layoffs_clean SET
date
= STR_TO_DATE(date
, %m/%d/%Y); ALTER TABLE layoffs_clean MODIFY COLUMNdate
DATE;
空值处理
-
行业空值: 将空行业值标准化为NULL,并使用公司和位置匹配填充。 sql UPDATE layoffs_clean SET industry = NULL WHERE industry = ; UPDATE layoffs_clean AS t1 INNER JOIN layoffs_clean AS t2 ON t1.company = t2.company AND t1.location = t2.location SET t1.industry = t2.industry WHERE t1.industry IS NULL AND t2.industry IS NOT NULL;
-
不完整记录: 删除缺乏必要裁员信息的记录。 sql DELETE FROM layoffs_clean WHERE total_laid_off IS NULL AND percentage_laid_off IS NULL;
总结洞察
- 数据质量: 识别并删除重复记录以确保数据完整性。
- 标准化: 实施公司名称、行业和国家的一致格式。
- 缺失数据: 制定处理关键字段中空值的策略。
- 日期格式: 将字符串日期转换为适当的日期格式以进行更好的分析。
- 数据完整性: 删除缺乏必要裁员信息的记录。
结论
- 该项目展示了在MySQL中进行数据清理的系统方法,实施了各种技术以确保数据质量和一致性。
- 清理后的数据集现在已正确结构化,可用于进一步分析,具有标准化的格式和减少的空值。
- SQL查询模块化,为类似的数据清理任务提供了可重用的框架。

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录