LAYOFFS
收藏SQL 数据清洗项目 - 解雇数据集
项目概述
在当今以数据驱动的世界中,清洗过的数据对于做出准确决策至关重要。本项目展示了如何使用SQL将原始、不一致的解雇数据转化为结构化且可靠的数据集。通过提高数据准确性,该项目增强了对于解雇趋势、行业分析和财务预测的洞察。
项目亮点
-
展示技能:SQL、数据清洗、数据标准化、数据完整性
-
使用SQL技术:窗口函数、CTE(公用表表达式)、聚合、字符串函数、数据类型转换
-
使用工具:MySQL
数据集描述
-
原始数据:LAYOFFS (RAW DATA).csv
-
清洗后的数据:LAYOFFS (CLEANED DATA).csv
-
SQL脚本:SQL PROJECT (DATA CLEANING).sql
数据集包括公司名称、位置、行业、总解雇人数、解雇百分比、资金和日期等信息。
数据清洗步骤
1. 删除重复项
-
创建了一个临时表layoffs_staging来存储原始数据。
-
使用ROW_NUMBER()与PARTITION BY配合检测并删除重复项。
2. 数据标准化
-
从公司名称中删除了额外的空格。
-
将行业名称标准化(例如,将不同变体的"Crypto"转换为标准格式)。
-
从国家名称中删除了不需要的字符。
-
使用STR_TO_DATE()将日期字段从文本转换为正确的日期格式。
3. 处理空值
-
在关键字段中识别了缺失值。
-
使用自连接填充缺失的行业值,基于其他条目。
-
删除了关键解雇指标缺失的不完整记录。
4. 最终清洗数据
-
删除了不必要的列(用于删除重复项的row_num)。
-
验证了清洗后数据集的完整性。
结果与洞察
-
清洗后的数据集无重复和不一致。
-
行业和国家名称标准化,提高了分析准确性。
-
缺失值得到适当处理,确保了可靠的洞察。
项目特色
-
行业相关数据转换:展示了适用于商业智能和数据分析的实际世界SQL数据清洗技术。
-
ETL与数据准备专业知识:展示了在SQL基础上进行ETL过程,为决策和预测分析准备数据集的能力。
-
强大的问题解决与优化:有效地应用SQL概念来精炼和构建原始数据,确保可用性和效率。
联系方式
与我联系获取更多项目信息!




