Global Superstore Dataset
收藏github2021-12-03 更新2024-05-31 收录
下载链接:
https://github.com/hendrywijaya98/Global_Superstore_Sales_Analysis
下载链接
链接失效反馈官方服务:
资源简介:
包含全球超级市场订单详细信息的数据集,涵盖了订单日期、发货日期、客户信息、产品信息、销售和利润等多个维度。
A dataset containing detailed information on global supermarket orders, encompassing multiple dimensions such as order date, shipment date, customer information, product details, sales, and profits.
创建时间:
2021-09-24
原始信息汇总
数据集概述
基本信息
- 数据集名称: Global Superstore Sales Analysis
- 数据集大小: 51290行,24列
- 数据类型: datetime64[ns], float64, int64, object(categorical)
数据结构
- 列信息:
- 包含24个数据列,如Order Date, Ship Date, Sales, Profit等
- 数据类型包括datetime64ns, float64(5), int64(2), object(15)
数据质量
- 数据清洗: 数据集无缺失值和重复值,建议移除不必要的列如Row ID, Order ID, Customer ID, Postal Code, Product ID
- 新列创建: 通过计算Profit除以Sales创建新列Profit Ratio,用于衡量利润率
探索性数据分析
销售分析
- 最盈利的类别: Office Supplies,基于销售利润最高
- 销售额最高的类别: Tech,尽管销售额和利润最高,但利润率不高
- 子类别分析: 最高利润率在Office Supplies类别中的Papers和Labels
利润率分析
- 最高利润率段: Home Office,尽管差异不显著
- 市场区域利润率: 最高利润率在Canada,其次是United States和Europe Union
- 地区利润率: 加拿大利润率最高,但地区间差异不显著
运输模式分析
- 最常用的运输模式: Standard,尽管差异不显著
- 最高利润率的运输模式: Second Class,其次是Same Day和Standard
- 最高运输成本: Same Day
折扣对利润的影响
- 财务特征相关性: 折扣与利润呈负相关
- 折扣对利润率的影响: 折扣增加导致利润减少
搜集汇总
数据集介绍

构建方式
Global Superstore Dataset 的构建基于全球超级市场的订单数据,涵盖了51290条记录和24个字段。数据集包含了多种数据类型,包括日期时间、浮点数、整数和分类数据。数据经过清洗,去除了不必要的列,如'Row ID'、'Order ID'等,并新增了'Profit Ratio'列,通过计算利润与销售额的比率来衡量盈利能力。
特点
该数据集的特点在于其全面性和多样性,涵盖了全球多个市场的销售数据,包括订单日期、发货模式、客户信息、产品类别等。数据集中包含了丰富的财务指标,如销售额、利润、折扣和运输成本,能够支持多维度的分析。此外,数据集的清洁度高,无缺失值和重复值,确保了分析的准确性。
使用方法
Global Superstore Dataset 可用于多种分析场景,包括销售趋势分析、市场细分、产品盈利能力评估等。用户可以通过探索性数据分析(EDA)来挖掘数据中的潜在模式,例如通过可视化工具分析不同产品类别、市场区域和运输模式的利润率和销售额。此外,数据集还可用于构建预测模型,评估折扣对利润的影响,或优化运输策略以提高盈利能力。
背景与挑战
背景概述
Global Superstore Dataset 是一个全球性超市销售数据集,旨在为零售行业的销售分析提供支持。该数据集由AHM数据分析师技术测试项目创建,包含了全球范围内超市订单的详细信息,涵盖了订单日期、发货日期、客户信息、产品类别、销售金额、利润等多个维度。数据集共包含51290行和24列,涵盖了多种数据类型,如日期时间、浮点数、整数和分类变量。该数据集的核心研究问题在于通过分析销售、利润和利润率等关键指标,揭示不同产品类别、市场区域和客户群体的销售表现,从而为零售企业的战略决策提供数据支持。
当前挑战
Global Superstore Dataset 在解决零售行业销售分析问题时面临多重挑战。首先,尽管数据集本身较为干净,但如何从海量数据中提取有价值的洞察仍是一个难题,尤其是在处理多维度的分类变量时。其次,构建过程中需要处理复杂的计算逻辑,例如通过利润与销售额的比值生成新的利润率指标,这对数据预处理和计算效率提出了较高要求。此外,数据集中某些字段(如邮政编码)存在大量缺失值,如何在分析中合理处理这些缺失数据也是一个关键挑战。最后,如何通过可视化手段有效展示不同维度(如产品类别、市场区域、运输模式)的销售表现,并从中提炼出可操作的商业洞察,是数据分析师面临的重要任务。
常用场景
经典使用场景
Global Superstore Dataset 在零售和供应链管理领域中被广泛用于分析全球销售数据。该数据集通过提供详细的订单信息,包括销售、利润、折扣和运输成本等,帮助研究人员和数据分析师深入理解不同市场、产品和客户群体的表现。经典的使用场景包括销售趋势分析、利润优化策略制定以及客户细分研究。
衍生相关工作
基于 Global Superstore Dataset,许多经典的研究工作得以展开。例如,有研究利用该数据集开发了预测模型,用于预测不同市场区域的销售趋势。此外,一些研究还探讨了折扣策略对利润率的影响,并提出了优化建议。这些衍生工作不仅丰富了零售管理领域的理论体系,还为实际业务操作提供了宝贵的参考。
数据集最近研究
最新研究方向
近年来,Global Superstore Dataset在全球零售数据分析领域引起了广泛关注。该数据集涵盖了全球范围内超级市场的订单详情,包含51290行和24列数据,涉及日期、销售额、利润、折扣等多种数据类型。研究者们利用该数据集进行了一系列探索性数据分析,重点关注了不同产品类别、市场区域和运输模式对利润的影响。例如,办公用品类别的利润率最高,而技术类产品虽然销售额高,但利润率较低。此外,研究还揭示了折扣与利润之间的负相关关系,表明过度折扣可能会削弱整体盈利能力。这些发现为零售行业的战略决策提供了重要参考,尤其是在优化产品组合、定价策略和物流管理方面。
以上内容由遇见数据集搜集并总结生成



