real_world_sales_data_cleaning

github2025-12-25 更新2025-12-26 收录

下载链接：

https://github.com/sshatl/real_world_sales_data_cleaning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2023年至2025年的笔记本电脑销售数据，以及配件、退款和其他操作记录。数据以UAH（乌克兰格里夫纳）计价，并包含衍生出的USD值。数据集经过清理和标准化，包括处理缺失值、日期标准化、文本和分类标准化，以及货币特征创建。输出数据集包括`sales_clean.csv`（清理后的笔记本电脑销售数据）和`other_operations.csv`（非销售操作记录）。

This dataset encompasses laptop sales data spanning 2023 to 2025, alongside records of accessories, refunds, and other operational transactions. All monetary amounts are denominated in Ukrainian Hryvnia (UAH), with derived USD values incorporated into the dataset. The dataset has been cleaned and standardized, with procedures including handling missing values, date standardization, text and categorical standardization, and monetary feature engineering. The output datasets include `sales_clean.csv` (cleaned laptop sales data) and `other_operations.csv` (records of non-sales operational transactions).

创建时间：

2025-12-15

原始信息汇总

数据集概述

基本信息

数据集名称：Real-World Sales Data Cleaning
时间范围：2023年至2025年
主要产品类别：笔记本电脑
其他记录类型：配件、退款、杂项操作
货币：乌克兰格里夫纳（UAH），并包含衍生的美元（USD）价值

原始数据问题

原始数据集包含小型零售企业使用手动电子表格和批量导出时典型的多重数据质量问题：

由基于批次的数据提取引起的结构性空行
混合记录类型（销售、配件、退款）存储在同一表格中
销售记录中缺少标识符和日期
日期以不一致格式的字符串存储
自由文本产品描述存在不一致的命名
记录不完整且未持续填充

数据清洗流程

初始数据审计
- 识别结构性空行
- 分析部分填充的记录
移除结构伪影
- 移除由基于批次提取引入的行
分离非销售操作记录
- 配件、退款、杂项交易
处理不完整的销售记录
- 保留并明确标记缺失值
日期标准化
- 转换为日期时间格式，不伪造值
分类和文本规范化
- 标准化经理字段
- 产品描述的基本规范化
货币特征创建
- 基于年份的美元转换，同时保留原始格里夫纳值

输出数据集

sales_clean.csv — 清洗后的笔记本电脑销售数据，可用于分析、报告或自动化
other_operations.csv — 分离出的非销售操作记录，用于独立分析

数据处理原则

使用布尔标志明确处理缺失值
未引入任何合成或伪造数据
清洗流程完全可复现

可选数据增强（在数据准备范围内）

对选定的非结构化字段进行规范化，转换为结构化列，以使数据集可用于分析、报告和下游自动化。

硬件特征提取

CPU信息被解析并规范化为高级供应商（Intel、AMD、Apple），包括对缩写和旧处理器名称的支持
使用保守的基于规则的逻辑提取RAM大小，以最小化噪声列表中的误报
基于SSD/HDD指标推断存储配置，并明确识别混合设置
使用轻量级关键词检测派生GPU类型，区分独立显卡和集成解决方案

类别细化

使用硬件信号（CPU和RAM）重新评估最初标记为other的产品，以识别额外的笔记本电脑条目
此步骤减少了类别模糊性，同时避免了激进或推测性的重新分类

游戏笔记本电脑识别

GPU解析和游戏分类仅应用于笔记本电脑条目，以防止跨设备类型的特征泄漏
基于是否存在独立GPU（GTX、RTX、Radeon）引入了二进制is_gaming_laptop标志

时间特征

计算上市时间（days_on_market）作为购买日期和销售日期之间的差值，以捕捉产品流动性
提取销售月份以支持季节性分析

最终结果

干净且结构一致的销售数据集
明确处理缺失值，无伪造
非销售记录已分离供独立使用
数据集已准备好用于报告、分析或自动化

业务背景

该数据集代表了一家专门从事翻新（二手）笔记本电脑的小型零售企业的真实销售数据。产品通过回购渠道获得，经过翻新，并通过本地市场转售，导致产品状况、定价和销售动态存在异质性。这一背景解释了在整个分析中观察到的噪声描述、广泛的价格分散和长尾销售持续时间。

搜集汇总

数据集介绍

构建方式

在零售数据分析领域，真实业务数据往往因手工操作与批量导出而呈现杂乱状态。本数据集构建过程始于对原始CSV文件的系统性审计，识别出结构性空行与混合记录类型。通过逐步移除由批量提取引入的冗余行，并将非销售操作记录独立分离，确保了数据主体的纯净性。针对日期格式不一致与文本描述不规范等问题，实施了标准化转换与基础归一化处理，同时保留原始货币数值并衍生出基于年份的美元换算特征，最终生成可供分析使用的洁净销售数据集。

特点

该数据集凸显了小型零售业务在二手笔记本电脑销售场景下的典型数据特征。其核心价值在于完整保留了原始数据中的缺失值与异构信息，并通过明确的布尔标志进行标注，避免了任何人工合成数据的引入。数据集不仅区分了笔记本电脑销售记录与配件、退款等非销售操作，还通过硬件特征解析从自由文本中提取出CPU厂商、内存大小、存储配置及显卡类型等结构化属性。此外，专为游戏笔记本识别的二进制标志、销售时间跨度计算以及月份提取等衍生特征，为深入分析产品流动性与季节性波动提供了坚实基础。

使用方法

数据集以两个独立的CSV文件形式提供，其中sales_clean.csv包含了经过清洗与结构化的笔记本电脑销售数据，可直接用于业务报告、趋势分析或自动化流程。研究者可依据显式缺失值标志进行稳健的统计建模，或利用提取的硬件属性与时间特征开展细分市场研究。分离的other_operations.csv则适用于运营效率分析等辅助场景。整个数据处理流程通过可复现的笔记本代码实现，用户可通过重启并运行所有单元完整重现数据准备步骤，确保分析结果的可追溯性与一致性。

背景与挑战

背景概述

在零售数据分析领域，高质量的数据是驱动商业洞察与决策优化的基石。real_world_sales_data_cleaning数据集由专注于数据清洗与预处理的研究人员或团队于2023年至2025年间构建，其核心研究问题在于如何从真实世界的小型零售业务中，处理因手动电子表格和批量导出导致的混乱销售数据。该数据集聚焦于笔记本电脑销售，涵盖配件、退款等混合记录，旨在通过系统化的清洗流程，为后续的分析、报告及自动化提供可靠的数据基础，对提升零售数据治理的实践标准具有显著影响力。

当前挑战

该数据集所解决的领域问题在于零售销售数据的清洗与标准化，面临的挑战包括处理结构空行、混合记录类型分离、缺失标识符与日期补全，以及自由文本产品描述的一致性归一化。在构建过程中，挑战主要体现在应对原始数据中未命名列、不一致日期格式、部分填充记录，以及从嘈杂描述中提取硬件特征（如CPU、RAM、GPU）时的规则设计，需在避免数据伪造的前提下，确保清洗流程的可重复性与结果的可信度。

常用场景

经典使用场景

在零售数据分析领域，真实世界销售数据清洗数据集为处理非结构化销售记录提供了经典范例。该数据集通过系统化流程，将原始混乱的销售表格转化为可用于建模的整洁数据，典型应用包括支持销售趋势预测、库存优化及客户行为分析。研究人员常利用此数据集验证数据清洗算法的有效性，特别是在处理混合记录类型、缺失值及文本标准化等常见挑战时，它成为评估数据预处理技术鲁棒性的基准工具。

实际应用

在实际商业环境中，该数据集直接支持小型零售企业的运营决策与自动化报告生成。清洗后的数据可用于构建销售仪表板，监控笔记本电脑等产品的流动性，识别高需求硬件配置，并优化采购与定价策略。此外，提取的硬件特征如CPU类型、RAM大小和GPU信息，赋能企业进行细分市场分析，例如精准定位游戏笔记本电脑客户群，从而提升库存周转率与销售效率。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在数据预处理自动化与特征工程优化领域。例如，基于其提供的混合记录分离方法，研究者开发了更通用的交易数据分类算法；从自由文本中提取硬件特征的规则，启发了基于轻量级关键词检测的产品属性解析框架。这些工作进一步推动了零售数据分析中结构化信息抽取技术的进步，并为类似行业的数据标准化实践提供了参考模板。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集